Calcolatore Retta di Regressione Lineare

Inserisci i tuoi dati per calcolare l’equazione della retta di regressione e visualizzare il grafico

Inserisci i dati (formato: x1,y1; x2,y2; …)

Decimali

Risultati

Equazione della retta: y = mx + b

Coefficiente angolare (m): 0.00

Intercetta (b): 0.00

Coefficiente di determinazione (R²): 0.00

Guida Completa al Calcolo della Retta di Regressione: Esercizio Svolto

La retta di regressione lineare è uno degli strumenti fondamentali nell’analisi statistica per modellare la relazione tra due variabili quantitative. Questo metodo consente di determinare l’equazione di una retta che meglio approssima un insieme di punti dati, minimizzando la somma dei quadrati delle distanze verticali tra i punti e la retta stessa (metodo dei minimi quadrati).

Cos’è la Regressione Lineare?

La regressione lineare semplice è un modello statistico che descrive la relazione lineare tra:

Variabile indipendente (X): la variabile che si presume influenzi l’altra
Variabile dipendente (Y): la variabile che viene influenzata

L’equazione generale della retta di regressione è:

y = mx + b

Dove:

m (coefficiente angolare): indica quanto cambia Y per ogni unità di cambio in X
b (intercetta): il valore di Y quando X = 0

Formula per il Calcolo dei Coefficienti

I coefficienti m (pendenza) e b (intercetta) si calcolano con le seguenti formule:

Coefficiente Angolare (m)

m = [n(ΣXY) – (ΣX)(ΣY)] / [n(ΣX²) – (ΣX)²]

Dove n è il numero di osservazioni

Intercetta (b)

b = (ΣY – mΣX) / n

Oppure: b = Ȳ – mX̄ (dove X̄ e Ȳ sono le medie)

Coefficiente di Determinazione (R²)

Il coefficiente di determinazione (R²) misura quanto la retta di regressione spiega la variabilità dei dati. Il suo valore varia tra 0 e 1:

R² = 0: la retta non spiega nulla della variabilità di Y
R² = 1: la retta spiega perfettamente la variabilità di Y

La formula per R² è:

R² = 1 – [Σ(y_i – ŷ_i)² / Σ(y_i – ȳ)²]

Esercizio Svolto: Calcolo Passo-Passo

Consideriamo il seguente dataset con 5 osservazioni:

Osservazione	X (Ore di studio)	Y (Voto esame)
1	2	18
2	4	21
3	6	25
4	8	30
5	10	28

Passo 1: Calcolare le somme necessarie

n = 5 (numero di osservazioni)
ΣX = 2 + 4 + 6 + 8 + 10 = 30
ΣY = 18 + 21 + 25 + 30 + 28 = 122
ΣXY = (2×18) + (4×21) + (6×25) + (8×30) + (10×28) = 36 + 84 + 150 + 240 + 280 = 790
ΣX² = 2² + 4² + 6² + 8² + 10² = 4 + 16 + 36 + 64 + 100 = 220

Passo 2: Calcolare il coefficiente angolare (m)

m = [n(ΣXY) – (ΣX)(ΣY)] / [n(ΣX²) – (ΣX)²]

m = [5(790) – (30)(122)] / [5(220) – (30)²]

m = [3950 – 3660] / [1100 – 900]

m = 290 / 200 = 1.45

Passo 3: Calcolare l’intercetta (b)

b = (ΣY – mΣX) / n

b = (122 – 1.45×30) / 5

b = (122 – 43.5) / 5 = 78.5 / 5 = 15.7

Passo 4: Equazione della retta

y = 1.45x + 15.7

Passo 5: Calcolare R²

Prima calcoliamo le medie:

X̄ = ΣX / n = 30 / 5 = 6
Ȳ = ΣY / n = 122 / 5 = 24.4

Poi calcoliamo:

Σ(y_i – ŷ_i)² = 4.2025 (somma degli scarti al quadrato tra Y reale e Y previsto)
Σ(y_i – ȳ)² = 122.8 (somma degli scarti al quadrato tra Y e la media di Y)

R² = 1 – (4.2025 / 122.8) ≈ 0.9656

Interpretazione dei Risultati

L’equazione y = 1.45x + 15.7 ci dice che:

Per ogni ora aggiuntiva di studio (X), il voto (Y) aumenta in media di 1.45 punti
Con 0 ore di studio, il voto previsto sarebbe 15.7 (anche se questo valore potrebbe non avere senso pratico)

Il valore R² = 0.9656 indica che:

Il 96.56% della variabilità dei voti è spiegato dalle ore di studio
C’è una forte relazione lineare tra le due variabili

Applicazioni Pratiche della Regressione Lineare

La regressione lineare trova applicazione in numerosi campi:

Campo	Applicazione	Esempio
Economia	Analisi domanda-offerta	Prevedere le vendite in base al prezzo
Medicina	Relazione dose-risposta	Effetto di un farmaco in base al dosaggio
Marketing	Analisi ROI	Impatto della spesa pubblicitaria sulle vendite
Ingegneria	Calibrazione sensori	Relazione tra segnale elettrico e temperatura
Scienze Sociali	Studio comportamenti	Relazione tra reddito e livello di istruzione

Errori Comuni da Evitare

Estrapolazione eccessiva: Usare l’equazione al di fuori dell’intervallo dei dati originali può portare a previsioni inaccurate
Confondere correlazione con causalità: Una relazione lineare non implica necessariamente che X causi Y
Ignorare i residui: È importante analizzare i residui (differenze tra valori reali e previsti) per verificare l’adeguatezza del modello
Dati non lineari: Se la relazione non è lineare, la regressione lineare non è appropriata
Outliers non gestiti: Valori anomali possono distorcere significativamente i risultati

Metodi Alternativi

Quando la regressione lineare semplice non è adatta, si possono considerare:

Regressione multipla: con più variabili indipendenti
Regressione polinomiale: per relazioni non lineari
Regressione logistica: per variabili dipendenti categoriche
Modelli non lineari: per relazioni più complesse

Strumenti per il Calcolo

Oltre al nostro calcolatore, ecco alcuni strumenti professionali:

Excel/Google Sheets: con le funzioni =PENDENZA(), =INTERCETTA(), =RSQ()
R: con la funzione lm()
Python: con libraries come statsmodels e scikit-learn
SPSS: software statistico professionale
Minitab: per analisi statistiche avanzate

Risorse Accademiche Autorevoli

Per approfondire la teoria della regressione lineare:

NIST/SEMATECH e-Handbook of Statistical Methods – Guida completa con esempi pratici
University of California, Berkeley – Department of Statistics – Risorse accademiche sulla regressione
U.S. Census Bureau – Statistical Software – Strumenti per analisi statistiche ufficiali

Domande Frequenti

1. Quando si usa la regressione lineare?

La regressione lineare si usa quando:

Si vuole modellare la relazione tra due variabili quantitative
Si assume che la relazione sia lineare
Si vuole fare previsioni basate su dati storici
Si vuole quantificare la forza della relazione tra variabili

2. Come si interpreta il coefficiente di determinazione?

Il coefficiente R² rappresenta la proporzione della varianza nella variabile dipendente che è prevedibile dalla variabile indipendente. Ad esempio:

R² = 0.85: l’85% della variabilità di Y è spiegata da X
R² = 0.20: solo il 20% della variabilità è spiegata (relazione debole)

3. Cosa fare se R² è molto basso?

Se R² è basso (tipicamente < 0.3), considerare:

La relazione potrebbe non essere lineare
Potrebbero esserci altre variabili influenti non considerate
I dati potrebbero avere troppa variabilità casuale
Potrebbe essere necessario un modello più complesso

4. Come verificare se il modello è appropriato?

Per validare un modello di regressione:

Esaminare il grafico dei residui (dovrebbero essere casualmente distribuiti)
Verificare la normalità dei residui
Controllare l’omogeneità della varianza (omoschedasticità)
Testare l’indipendenza dei residui
Valutare l’influenza di eventuali outliers

5. Qual è la differenza tra regressione e correlazione?

Anche se correlate, sono concetti diversi:

Aspetto	Regressione	Correlazione
Scopo	Prevedere una variabile in base all’altra	Misurare la forza e direzione della relazione
Direzionalità	Assegna una variabile dipendente e una indipendente	Tratta le variabili in modo simmetrico
Output	Equazione per fare previsioni	Coefficiente tra -1 e 1
Interpretazione	“Y cambia di m unità per ogni unità di X”	“X e Y variano insieme con forza r”

Calcolo Retta Di Regressione Esercizio Svolto