Calcolatore Chi Quadrato (χ²)
Calcola il test del chi quadrato per verificare l’indipendenza tra variabili categoriche
Guida Completa al Test Chi Quadrato (χ²)
Il test del chi quadrato (χ²) è uno dei metodi statistici più utilizzati per determinare se esiste una relazione significativa tra due variabili categoriche. Questo test confronta le frequenze osservate in una tabella di contingenza con le frequenze attese sotto l’ipotesi nulla di indipendenza.
Quando Utilizzare il Test Chi Quadrato
- Per verificare l’indipendenza tra due variabili categoriche
- Per confrontare distribuzioni osservate con distribuzioni attese
- In studi di mercato per analizzare preferenze dei consumatori
- In ricerca medica per valutare l’associazione tra fattori di rischio e malattie
- In scienze sociali per analizzare dati demografici
Tipi di Test Chi Quadrato
-
Test di indipendenza: Verifica se esiste una relazione tra due variabili categoriche.
- Esempio: C’è associazione tra sesso (M/F) e preferenza politica (sinistra/centro/destra)?
-
Test di bontà dell’adattamento: Confronta una distribuzione osservata con una distribuzione teorica.
- Esempio: Un dado è bilanciato? (frequenze osservate vs 1/6 per ogni faccia)
-
Test di omogeneità: Verifica se più popolazioni hanno la stessa distribuzione.
- Esempio: La distribuzione dei voti in tre scuole diverse è la stessa?
Requisiti per l’Applicazione del Test
- Dati categorici (nominali o ordinali)
- Frequenze attese ≥ 5 in almeno l’80% delle celle (regola empirica)
- Nessuna frequenza attesa < 1
- Campione casuale e indipendente
Se questi requisiti non sono soddisfatti, considerare il test esatto di Fisher per tabelle 2×2 o il test di Monte Carlo per tabelle più grandi.
Formula del Chi Quadrato
La statistica test χ² viene calcolata come:
χ² = Σ [(Oᵢⱼ – Eᵢⱼ)² / Eᵢⱼ]
Dove:
- Oᵢⱼ = frequenza osservata nella cella (i,j)
- Eᵢⱼ = frequenza attesa nella cella (i,j) = (totale riga × totale colonna) / totale generale
- Σ = somma su tutte le celle della tabella
Gradi di Libertà
I gradi di libertà (df) per una tabella di contingenza R×C sono:
df = (R – 1) × (C – 1)
Dove R = numero di righe e C = numero di colonne.
Interpretazione dei Risultati
| Statistica χ² | Valore p | Interpretazione (α=0.05) |
|---|---|---|
| Basso | > 0.05 | Non rifiuto H₀. Non c’è evidenza sufficiente di associazione |
| Alto | ≤ 0.05 | Rifiuto H₀. C’è evidenza significativa di associazione |
Esempio Pratico
Supponiamo di voler testare se c’è associazione tra il fumo (sì/no) e lo sviluppo di bronchite (sì/no) in un campione di 200 persone:
| Bronchite Sì | Bronchite No | Totale | |
|---|---|---|---|
| Fumatori | 45 | 55 | 100 |
| Non fumatori | 20 | 80 | 100 |
| Totale | 65 | 135 | 200 |
Calcoli:
- Frequenze attese (esempio per fumatori con bronchite): (100×65)/200 = 32.5
- χ² = (45-32.5)²/32.5 + (55-67.5)²/67.5 + (20-32.5)²/32.5 + (80-67.5)²/67.5 ≈ 13.33
- df = (2-1)×(2-1) = 1
- Valore p ≈ 0.00026 (da tavole χ²)
Conclusione: p < 0.05 → rifiuto H₀. C'è evidenza significativa di associazione tra fumo e bronchite.
Errori Comuni da Evitare
- Usare il test con frequenze attese < 5 senza correzioni
- Interpretare il rifiuto di H₀ come prova di causalità
- Ignorare l’assunzione di indipendenza delle osservazioni
- Confondere il test di indipendenza con quello di omogeneità
- Non correggere per continuità (correzione di Yates) in tabelle 2×2 con campioni piccoli
Alternative al Test Chi Quadrato
| Situazione | Test Alternativo | Vantaggi |
|---|---|---|
| Tabelle 2×2 con frequenze < 5 | Test esatto di Fisher | Non richiede approssimazione alla distribuzione χ² |
| Dati ordinali | Test di Mann-Whitney o Kruskal-Wallis | Considera l’ordinamento delle categorie |
| Campioni piccoli | Test di Monte Carlo | Maggiore accuratezza con campioni limitati |
| Dati continui | ANOVA o regressione logistica | Più potente per variabili continue |
Applicazioni Reali del Test Chi Quadrato
-
Medicina: Studio dell’associazione tra fattori di rischio (fumo, dieta) e malattie.
- Esempio: CDC – Dati sul tabagismo e malattie
-
Marketing: Analisi delle preferenze dei consumatori per segmenti demografici.
- Esempio: Preferenze per marche di smartphone tra diverse fasce d’età
-
Scienze Sociali: Studio delle relazioni tra variabili socio-demografiche.
- Esempio: Associazione tra livello di istruzione e partecipazione politica
-
Biologia: Analisi di distribuzioni genotipiche (test di Mendel).
- Esempio: Verifica dei rapporti 3:1 in incroci genetici
-
Controllo Qualità: Verifica dell’uniformità di processi produttivi.
- Esempio: Distribuzione di difetti in diversi lotti di produzione
Limitazioni del Test Chi Quadrato
- Sensibilità alla dimensione del campione: Con campioni molto grandi, anche differenze minime risultano significative
- Mancanza di informazione sulla forza dell’associazione: Un p-value significativo non indica l’entità dell’associazione (usare misure come V di Cramer o phi)
- Assunzione di frequenze attese ≥5: Può richiedere accorpamento di categorie o uso di test alternativi
- Solo per dati categorici: Non adatto per variabili continue o ordinali con molte categorie
Consigli per una Corretta Applicazione
- Verificare sempre i requisiti di applicabilità
- Considerare la correzione di Yates per tabelle 2×2 con n < 40
- Calcolare sempre le misure di associazione (es. V di Cramer) oltre al p-value
- Visualizzare i dati con grafici (es. mosaico plot) per una migliore interpretazione
- Consultare le linee guida NIST per l’analisi di dati categorici
Software per il Calcolo del Chi Quadrato
- R:
chisq.test()nella libreria base - Python:
chi2_contingency()in SciPy - SPSS: Analisi → Statistiche descrittive → Tabelle di contingenza
- Excel: =CHISQ.TEST() o =CHIDIST() per calcoli manuali
- Calcolatori online: Come quello fornito in questa pagina