top of page

Regressione Lineare: cos'è e come calcolarla



ree


Buon 2025 gente! 🥳🥳🥳




Oggi andremo a vedere una cosa particolare, che però servirà poi ad introdurre concetti più complicati 




Pronti?





- - - - - - - - -







ree

















Quando abbiamo un set di dati (punti di coordinate), è utile mostrarli in un grafico per avere un'immagine di ciò che sta succedendo


Ma non sempre porta ai risultati sperati...


Prendiamo un grafico esempio, che correla lo stipendio (€) con la qualità di vita (un indice che va da 1 a 10)



(Grafico fittizio, non c'è nessuna discriminazione verso chi è meno fortunato)




ree















Cosa capiamo da qua?


Possiamo capire, interpretando il trend, che un maggiore stipendio porta ad una migliore qualità di vita (GENERALMENTE)




Ok, ma come possiamo esprimere questa osservazione in termini matematici?


Andando ad approssimare questi dati con una funzione a noi nota:


y = mx + q




Ok, e come trovo i due coefficienti m e q?


Buona domanda, per niente banale, essendo che non possiamo trovarli tanto semplicemente




Quindi, come si fa?


Esistono delle formule, ma non sono tanto fan di usarle alla cieca, quindi ve le spiegherò:



ree

ree


Partiamo da quella per il coefficente angolare:



Il numeratore è la sommatoria del prodotto della differenza (X - X media) e (Y - Y media)


(Y - Y media) è la "distanza" tra il valore Y effettivo e la Y media


Stessa cosa per la X


Poi si fa il prodotto tra le due "distanze"


E si fa la somma per tutti i punti sul grafico





In denominatore abbiamo invece una cosa simile:



La stessa "distanza X" di prima, ma questa volta elevata al quadrato e poi sommata


Per i più scaltri, questa sarà la varianza di X moltiplicata per n (quanti dati abbiamo)


Var(X) • n




Bene, ma come come posso capire se il modello è una buona approssimazione?


Qua entra in gioco il fattore R² = 1 - ( MSE / var(y) )




MSE è il mean squared error:


ree

La "distanza" tra Y e la Y predetta dal modello, al quadrato, per tutti i punti, diviso per il numero di punti


var(y) è la varianza di Y (un modo per calcolare quanto "lontani" sono i dati tra di loro)




Questo fattore varia da 0 a 1, indicando quanto il modello rappresenta fedelmente la realtà


ree




















- - - - - - - - -






Ok, nuovo argomento dal nulla, ma servirà per futuri post!




Io vi auguro nuovamente un buon anno a tutti voi e...



Al prossimo post

 
 
 

Commenti


bottom of page