Calcolatore di Correlazione (r) tra Dati
Inserisci i tuoi dati per calcolare il coefficiente di correlazione di Pearson (r) e visualizzare la relazione tra le variabili con un grafico interattivo.
Separare le coppie di valori con una nuova riga. Usare la virgola per separare X e Y.
Risultati della Correlazione
Guida Completa al Calcolo della Correlazione tra Dati con il Coefficiente r
La correlazione statistica misura la forza e la direzione della relazione lineare tra due variabili continue. Il coefficiente di correlazione di Pearson (r) è lo strumento più utilizzato per quantificare questa relazione, con valori che variano tra -1 e +1.
Cosa Significa il Coefficiente r
- r = 1: Correlazione positiva perfetta (le variabili aumentano insieme in modo proporzionale)
- r = -1: Correlazione negativa perfetta (una variabile aumenta mentre l’altra diminuisce in modo proporzionale)
- r = 0: Nessuna correlazione lineare (le variabili non mostrano una relazione lineare)
- 0 < |r| < 0.3: Correlazione debole
- 0.3 ≤ |r| < 0.7: Correlazione moderata
- |r| ≥ 0.7: Correlazione forte
Attenzione: La correlazione non implica causalità. Due variabili possono essere correlate senza che una causi l’altra (esempio classico: vendite di gelati e annegamenti sono correlate perché entrambe aumentano in estate, ma non c’è relazione causale diretta).
Formula del Coefficiente di Pearson (r)
Il coefficiente r si calcola con la formula:
r = Σ[(Xi – X̄)(Yi – Ȳ)] / √[Σ(Xi – X̄)2 Σ(Yi – Ȳ)2]
Dove:
- Xi, Yi = valori individuali
- X̄, Ȳ = medie dei valori X e Y
- Σ = sommatoria
Interpretazione Pratica del Coefficiente r
| Valore di |r| | Interpretazione | Esempio Reale |
|---|---|---|
| 0.00 – 0.19 | Correlazione trascurabile | Altezza e numero di scarpe (in adulti) |
| 0.20 – 0.39 | Correlazione debole | Tempo passato sui social e livello di stress |
| 0.40 – 0.59 | Correlazione moderata | Ore di studio e voti agli esami |
| 0.60 – 0.79 | Correlazione forte | Consumo di alcol e cirrosi epatica |
| 0.80 – 1.00 | Correlazione molto forte | Temperatura e volume di un gas (legge di Charles) |
Passaggi per Calcolare r Manualmente
- Raccogliere i dati: Ottenere coppie di valori (X,Y) per le due variabili.
- Calcolare le medie: Trovare la media di X (X̄) e la media di Y (Ȳ).
- Calcolare le devianze: Per ogni coppia, calcolare (Xi – X̄) e (Yi – Ȳ).
- Moltiplicare le devianze: Moltiplicare (Xi – X̄) × (Yi – Ȳ) per ogni coppia.
- Sommare i prodotti: Σ[(Xi – X̄)(Yi – Ȳ)]
- Calcolare le somme dei quadrati: Σ(Xi – X̄)2 e Σ(Yi – Ȳ)2
- Applicare la formula: Dividere il risultato del passo 5 per la radice quadrata del prodotto dei risultati del passo 6.
Esempio Pratico di Calcolo
Supponiamo di avere i seguenti dati che rappresentano le ore di studio (X) e i voti agli esami (Y) per 5 studenti:
| Studente | Ore di Studio (X) | Voto Esame (Y) |
|---|---|---|
| 1 | 2 | 50 |
| 2 | 4 | 65 |
| 3 | 6 | 80 |
| 4 | 8 | 85 |
| 5 | 10 | 95 |
Passo 1: Calcolare le medie
X̄ = (2 + 4 + 6 + 8 + 10)/5 = 6
Ȳ = (50 + 65 + 80 + 85 + 95)/5 = 75
Passo 2-4: Calcolare devianze e prodotti
| X | Y | X – X̄ | Y – Ȳ | (X-X̄)(Y-Ȳ) | (X-X̄)2 | (Y-Ȳ)2 |
|---|---|---|---|---|---|---|
| 2 | 50 | -4 | -25 | 100 | 16 | 625 |
| 4 | 65 | -2 | -10 | 20 | 4 | 100 |
| 6 | 80 | 0 | 5 | 0 | 0 | 25 |
| 8 | 85 | 2 | 10 | 20 | 4 | 100 |
| 10 | 95 | 4 | 20 | 80 | 16 | 400 |
| Somma: | 220 | 40 | 1250 | |||
Passo 5: Applicare la formula
r = 220 / √(40 × 1250) = 220 / √50000 = 220 / 223.6 ≈ 0.984
Questo indica una correlazione positiva molto forte tra ore di studio e voti agli esami.
Limiti del Coefficiente di Pearson
- Relazioni non lineari: r misura solo correlazioni lineari. Due variabili possono avere una relazione perfetta ma non lineare (es. parabolica) con r = 0.
- Outliers: Valori anomali possono distorcere significativamente il valore di r.
- Dati categorici: r è adatto solo per variabili continue. Per dati ordinali o nominali servono altri coefficienti (es. rho di Spearman).
- Causalità: Come menzionato, alta correlazione ≠ causalità.
Alternative al Coefficiente r
| Coefficiente | Quando Usarlo | Valori Possibili |
|---|---|---|
| Pearson (r) | Variabili continue con relazione lineare | -1 a +1 |
| Spearman (ρ) | Variabili ordinali o relazioni non lineari | -1 a +1 |
| Kendall (τ) | Dati con molti valori uguali (tie) | -1 a +1 |
| Phi (φ) | Variabili dicotomiche | -1 a +1 |
| Cramer’s V | Variabili nominali in tabelle di contingenza | 0 a +1 |
Applicazioni Pratiche della Correlazione
- Finanza: Correlazione tra azioni per diversificare i portafogli (asset con r ≈ 0 sono ideali per ridurre il rischio).
- Medicina: Studio della relazione tra fattori di rischio (es. colesterolo) e malattie.
- Marketing: Analisi tra spese pubblicitarie e vendite.
- Psicologia: Valutazione della relazione tra tratti della personalità e comportamenti.
- Meteorologia: Correlazione tra pressione atmosferica e precipitazioni.
Errori Comuni nel Calcolo della Correlazione
- Ignorare la distribuzione: r assume che i dati siano approssimativamente distribuiti normalmente.
- Campioni piccoli: Con n < 30, r può essere instabile. Usare test di significatività.
- Confondere r e R²: R² (coefficiente di determinazione) indica la percentuale di varianza spiegata (es. r = 0.8 → R² = 0.64 → 64% della varianza di Y è spiegata da X).
- Trascurare la significatività: Un r elevato può non essere statisticamente significativo con campioni piccoli.
Come Interpretare la Significatività Statistica
Per determinare se la correlazione osservata è statisticamente significativa (cioè, improbabile che sia dovuta al caso), si usa il test t per r:
t = r√[(n – 2)/(1 – r²)]
Dove n è il numero di coppie. Il valore t viene confrontato con i valori critici della distribuzione t di Student con (n-2) gradi di libertà.
Ad esempio, con n = 30 e r = 0.4:
t = 0.4√[(28)/(1 – 0.16)] ≈ 0.4√33.33 ≈ 0.4 × 5.77 ≈ 2.31
Con 28 gradi di libertà, t = 2.31 è significativo a p < 0.05 (valore critico ≈ 2.05).
Strumenti per Calcolare la Correlazione
- Excel/Google Sheets: Funzione
=CORREL(intervallo_X; intervallo_Y) - R:
cor(x, y, method="pearson") - Python (Pandas):
df.corr() - SPSS: Analisi → Correlazioni → Bivariata
- Calcolatrici online: Come quella in questa pagina (ideale per piccoli dataset).
Risorse Autorevoli per Approfondire
- NIST/Sematech e-Handbook of Statistical Methods – Correlation: Guida dettagliata con esempi e formule.
- Laerd Statistics – Pearson Correlation: Spiegazione passo-passo con interpretazione dei risultati.
- Brown University – Seeing Theory: Visualizzazioni interattive per comprendere correlazione e regressione.
Nota per la Ricerca Accademica: Quando si riporta una correlazione in un lavoro scientifico, è buona pratica includere sempre:
- Il valore di r (arrotondato a 2-3 decimali)
- Il valore p (per la significatività)
- Il numero di osservazioni (n)
- Un’interpretazione della forza e direzione
Esempio: “Le ore di studio e i voti agli esami erano fortemente correlati, r(48) = .82, p < .001.”