Logo Zephyrnet

Comprensione delle intercettazioni di regressione lineare in linguaggio semplice - DATAVERSITY

Data:

Mi viene spesso chiesto quale sia il ruolo delle intercettazioni nei modelli di regressione lineare, in particolare delle intercettazioni negative. Ecco il mio post sul blog su questo argomento in parole semplici con termini statistici minimi.  

I modelli di regressione vengono utilizzati per fare previsioni. IL coefficienti nell'equazione definire la relazione tra ciascuna variabile indipendente e la variabile dipendente. L'intercetta o costante nel modello di regressione rappresenta il valore medio della variabile di risposta quando tutte le variabili predittive nel modello sono uguali a zero. Nella regressione lineare, l'intercetta è il valore della variabile dipendente, ovvero Y quando tutti i valori sono variabili indipendenti e X sono zero. Se X talvolta è uguale a 0, l'intercetta è semplicemente il valore atteso di Y in corrispondenza di quel valore. Matematicamente e graficamente, di seguito è mostrato un modello di regressione lineare semplice (SLR).

Ma qual è l'interpretazione aziendale dell'intercetta nel modello di regressione? In termini aziendali, un'intercetta rappresenta una linea di base o un punto di partenza per la variabile dipendente, se le variabili indipendenti sono impostate su zero. L'intercetta serve come punto di partenza per valutare gli effetti delle variabili indipendenti sulla variabile dipendente. Riflette la porzione della variabile dipendente che non è influenzata dalle variabili indipendenti incluse nel modello. Aiuta a quantificare l'impatto dei cambiamenti nelle variabili indipendenti da questo valore di base. Ad esempio, in un modello di previsione delle vendite, l'intercetta potrebbe rappresentare le vendite previste quando tutti gli sforzi di marketing, ovvero i predittori, sono a zero. In finanza, l'intercetta può rappresentare costi fissi o generali sostenuti indipendentemente dal livello di attività o da altri fattori. 

Tecnicamente, l'intercetta nel modello di regressione lineare può essere positiva, negativa o addirittura zero.

  1. Intercetta positiva: Se l'intercetta nel modello di regressione è positiva, significa che il valore previsto della variabile dipendente (Y) quando la variabile indipendente (X) è zero è positivo. Ciò implica che la linea di regressione incrocia l'asse y sopra il valore zero.
  2. Intercettazione negativa: Al contrario, se l'intercetta in un modello di regressione lineare è negativa, significa che il valore previsto di Y quando X è zero è negativo. In questo caso, la linea di regressione incrocia l'asse y al di sotto del valore zero.
  3. Intercettazione zero: Se l'intercetta in un modello di regressione è zero, ciò implica che la linea di regressione passa attraverso l'origine (0,0) sul grafico. Ciò significa che il valore previsto della variabile dipendente è zero quando anche tutte le variabili indipendenti sono zero. In altre parole, non esiste alcun termine costante aggiuntivo nell’equazione di regressione. Questa situazione è estremamente rapida e molto teorica.

Fondamentalmente, gestisci le intercettazioni negative o positive e quando ti imbatti nell'intercettazione negativa gestisci l'intercettazione negativa nello stesso modo in cui tratteresti un'intercettazione positiva. Ma in termini pratici, un’intercettazione negativa può avere o meno senso a seconda del contesto dei dati analizzati. Ad esempio, se si stanno analizzando la temperatura del giorno (X) e le vendite di gelato (Y), un'intercetta negativa non avrebbe senso poiché è impossibile avere vendite negative. Tuttavia, in altri ambiti, come l’analisi finanziaria, un’intercettazione negativa potrebbe avere senso.

Di seguito sono riportati alcuni approcci che puoi prendere in considerazione quando hai intercettazioni negative:

  1. Verificare la presenza di errori e ipotesi sui dati: prima di apportare eventuali modifiche, assicurarsi che le ipotesi di regressione siano soddisfatte. Ciò include linearità, indipendenza, omoschedasticità (relativa ai residui), normalità delle variabili dei dati e dei residui, valori anomali e altro. Se questi presupposti vengono violati, è necessario affrontarli prima.
  2. Applicare il senso degli affari e il buon senso e verificare se l'interpretazione dell'intercettazione negativa ha senso pratico. Un'intercettazione negativa potrebbe avere senso a seconda di ciò che rappresenta l'intercettazione. Ad esempio, nei dati finanziari, un’intercetta negativa potrebbe indicare un punto di partenza inferiore allo zero, il che potrebbe essere perfettamente ragionevole. Ma se si analizzassero i dati sulla temperatura e sulle vendite di gelato, un’intercetta negativa non avrebbe senso poiché è impossibile avere vendite negative.
  3. Centrare le variabili. I modelli di regressione sono validi solo per un determinato intervallo di valori di dati. A volte, però, i valori delle variabili indipendenti e dipendenti possono essere al di fuori dell'intervallo specificato. A questo proposito, la centratura comporta la sottrazione di un valore costante o media aritmetica di una variabile (indipendente) da ciascuno dei suoi valori. Ciò può facilitare l'interpretazione, soprattutto se le variabili indipendenti (X) hanno valori pari a zero. Fondamentalmente, centrando le variabili attorno alle loro medie, l'intercetta rappresenta il valore previsto della variabile dipendente quando le variabili indipendenti sono ai loro valori medi. Inoltre, in alcuni casi, valori estremi o valori anomali nei dati possono portare a instabilità numerica nei modelli di regressione. La centratura delle variabili può mitigare questi problemi riducendo la scala delle variabili e rendendo il modello di regressione più stabile.
  4. Assicurarsi che le variabili di confusione siano presenti nel modello di regressione. L'aggiunta di ulteriori variabili esplicative o di confusione al modello di regressione può aiutare a spiegare l'intercetta negativa.

Nel complesso, è importante notare che i modelli di regressione lineare si basano su ipotesi. In primo luogo, presuppongono una relazione lineare tra le variabili, che potrebbe non essere sempre vera negli scenari del mondo reale. Inoltre, la regressione lineare dipende da dati distribuiti normalmente ed è molto sensibile ai valori anomali. Ultimo ma non meno importante, la regressione lineare potrebbe non funzionare bene con le relazioni non lineari e, in tali casi, modelli più complessi come la regressione polinomiale o la regressione non lineare potrebbero essere più appropriati.

Riferimento

spot_img

L'ultima intelligenza

spot_img