Glossario di statistica

Termini e definizioni statistiche chiave

general

Deviazione standard (σ / s)

Una misura della quantità di variazione o dispersione in un insieme di valori. È la radice quadrata della varianza ed è espressa nelle stesse unità dei dati.

Varianza (σ² / s²)

La media dei quadrati delle differenze dalla media. La varianza quantifica il grado di dispersione in un insieme di dati ed è il quadrato della deviazione standard.

Media (μ / x̄)

La media aritmetica di un insieme di valori, calcolata sommando tutti i valori e dividendo per il conteggio. Rappresenta la tendenza centrale dei dati.

Mediana

Il valore centrale in un insieme di dati ordinato. Se c'è un numero pari di valori, la mediana è la media dei due valori centrali. È resistente ai valori anomali.

Moda

Il valore che appare più frequentemente in un insieme di dati. Un insieme di dati può avere una moda (unimodale), più mode (multimodale) o nessuna moda.

Campo di variazione

La differenza tra il valore più grande e il più piccolo in un insieme di dati. Sebbene semplice da calcolare, considera solo i due valori estremi ed è sensibile ai valori anomali.

Popolazione

L'insieme completo di tutti gli individui o le osservazioni di interesse in uno studio. I parametri della popolazione sono tipicamente indicati con lettere greche (μ, σ).

Campione

Un sottoinsieme di una popolazione selezionato per l'analisi. Le statistiche campionarie sono tipicamente indicate con lettere latine (x̄, s) e vengono usate per stimare i parametri della popolazione.

Correzione di Bessel

L'uso di n−1 invece di n al denominatore nel calcolo della varianza campionaria. Questa correzione fornisce una stima non distorta della varianza della popolazione a partire da un campione.

Distribuzione normale

Una distribuzione di probabilità simmetrica a forma di campana dove media, mediana e moda sono tutte uguali. Molti fenomeni naturali seguono una distribuzione approssimativamente normale.

Regola empirica (68-95-99,7)

Per dati distribuiti normalmente, circa il 68% dei valori rientra entro ±1σ, il 95% entro ±2σ e il 99,7% entro ±3σ dalla media.

Punteggio Z

Il numero di deviazioni standard di un punto dati dalla media, calcolato come Z = (X − μ) / σ. I punteggi Z consentono il confronto di valori provenienti da distribuzioni diverse.

Errore standard (SE)

La deviazione standard della distribuzione campionaria di una statistica, più comunemente la media. SE = σ/√n, e diminuisce all'aumentare della dimensione del campione.

Intervallo di confidenza

Un intervallo di valori che probabilmente contiene il vero parametro della popolazione con un livello di confidenza specificato (es., 95%). Intervalli più ampi indicano minore precisione.

Valore anomalo

Un punto dati significativamente diverso dalle altre osservazioni. I metodi comuni di rilevamento includono valori oltre ±2 o ±3 deviazioni standard dalla media.

Coefficiente di variazione (CV)

Il rapporto tra la deviazione standard e la media, espresso in percentuale (CV = σ/μ × 100%). Consente il confronto della variabilità tra insiemi di dati con scale diverse.

Asimmetria

Una misura dell'asimmetria di una distribuzione di probabilità. L'asimmetria positiva indica che la coda si estende verso destra; l'asimmetria negativa indica che si estende verso sinistra.

Curtosi

Una misura dello spessore delle code di una distribuzione di probabilità. Un'alta curtosi indica code pesanti e un picco pronunciato; una bassa curtosi indica code leggere e un picco piatto.

Gradi di libertà (df)

Il numero di valori indipendenti che possono variare in un calcolo statistico. Per la deviazione standard campionaria, df = n − 1, riflettendo la correzione di Bessel.

Teorema del limite centrale

Afferma che la distribuzione campionaria della media campionaria si avvicina a una distribuzione normale all'aumentare della dimensione del campione, indipendentemente dalla distribuzione della popolazione.

Test di ipotesi

Un metodo statistico per prendere decisioni basate sui dati. Implica il confronto di una statistica test con un valore critico o un valore p per determinare se rifiutare l'ipotesi nulla.

Valore p

La probabilità di osservare un risultato estremo come la statistica test, assumendo che l'ipotesi nulla sia vera. Valori p più piccoli forniscono prove più forti contro l'ipotesi nulla.

Coefficiente di correlazione (r)

Un valore tra −1 e 1 che misura la forza e la direzione della relazione lineare tra due variabili. Valori vicini a ±1 indicano una forte relazione lineare.

Scarto interquartile (IQR)

La differenza tra il 75° percentile (Q3) e il 25° percentile (Q1). L'IQR misura la dispersione del 50% centrale dei dati ed è resistente ai valori anomali.

Percentile

Un valore al di sotto del quale cade una determinata percentuale di osservazioni. Ad esempio, il 90° percentile è il valore al di sotto del quale si trova il 90% dei punti dati.