Gradi di libertà per l'indipendenza delle variabili nella tabella a due vie

Formula per il numero di gradi di libertà per il test di indipendenza

Numero di gradi di libertà per il test di indipendenza. CK Taylor





Il numero di gradi di libertà per l'indipendenza di due variabili categoriali è data da una semplice formula: ( r - 1)( c - 1). Qui r è il numero di righe e c è il numero di colonne in tavola a due vie dei valori della variabile categoriale. Continua a leggere per saperne di più su questo argomento e per capire perché questa formula fornisce il numero corretto.

Sfondo

Un passo nel processo di molti test di ipotesi è la determinazione del numero dei gradi di libertà. Questo numero è importante perché per distribuzioni di probabilità che coinvolgono una famiglia di distribuzioni, come la distribuzione chi-quadrato, il numero di gradi di libertà individua l'esatta distribuzione dalla famiglia che dovremmo usare nel nostro test di ipotesi.



I gradi di libertà rappresentano il numero di scelte libere che possiamo fare in una determinata situazione. Uno dei test di ipotesi che ci richiede di determinare i gradi di libertà è il chi-square test di indipendenza per due variabili categoriali.

Test di indipendenza e tabelle a due vie

Il test del chi quadrato per l'indipendenza ci richiede di costruire una tabella a due vie, nota anche come tabella di contingenza. Questo tipo di tabella ha r righe e c colonne, che rappresentano il r livelli di una variabile categoriale e il c livelli dell'altra variabile categoriale. Pertanto, se non contiamo la riga e la colonna in cui registriamo i totali, si ottiene un totale di rc celle nella tabella a due vie.



Il test del chi quadrato per l'indipendenza ci permette di verificare l'ipotesi che il r righe e c le colonne della tabella ci danno ( r - 1)( c - 1) gradi di libertà. Ma potrebbe non essere immediatamente chiaro il motivo per cui questo è il numero corretto di gradi di libertà.

Il numero di gradi di libertà

Per vedere perché ( r - 1)( c - 1) è il numero corretto, esamineremo questa situazione in modo più dettagliato. Supponiamo di conoscere i totali marginali per ciascuno dei livelli delle nostre variabili categoriali. In altre parole, conosciamo il totale per ogni riga e il totale per ogni colonna. Per la prima riga, ci sono c colonne nella nostra tabella, quindi ci sono c cellule. Una volta che conosciamo i valori di tutte tranne una di queste celle, poiché conosciamo il totale di tutte le celle, è un semplice problema di algebra determinare il valore della cella rimanente. Se stessimo riempiendo queste celle della nostra tabella, potremmo entrare c - 1 di loro liberamente, ma poi la cella rimanente è determinata dal totale della riga. Così ci sono c - 1 gradi di libertà per la prima fila.

Continuiamo in questo modo per la riga successiva e ci sono di nuovo c - 1 gradi di libertà. Questo processo continua fino ad arrivare alla penultima riga. Ciascuna delle righe, tranne l'ultima, contribuisce c - 1 gradi di libertà al totale. Quando avremo tutte tranne l'ultima riga, poiché conosciamo la somma delle colonne possiamo determinare tutte le voci della riga finale. Questo ci dà r - 1 righe con c - 1 gradi di libertà in ciascuno di questi, per un totale di ( r - 1)( c - 1) gradi di libertà.

Esempio

Lo vediamo con il seguente esempio. Supponiamo di avere una tabella a due vie con due variabili categoriali. Una variabile ha tre livelli e l'altra ne ha due. Supponiamo inoltre di conoscere i totali di riga e colonna per questa tabella:



Livello A Livello B Totale
Livello 1 100
Livello 2 200
Livello 3 300
Totale 200 400 600

La formula prevede che ci siano (3-1)(2-1) = 2 gradi di libertà. Lo vediamo come segue. Supponiamo di riempire la cella in alto a sinistra con il numero 80. Questo determinerà automaticamente l'intera prima riga di voci:

Livello A Livello B Totale
Livello 1 80 venti 100
Livello 2 200
Livello 3 300
Totale 200 400 600

Ora, se sappiamo che la prima voce nella seconda riga è 50, il resto della tabella viene compilato, perché conosciamo il totale di ogni riga e colonna:



Livello A Livello B Totale
Livello 1 80 venti 100
Livello 2 cinquanta 150 200
Livello 3 70 230 300
Totale 200 400 600

Il tavolo è interamente riempito, ma avevamo solo due scelte libere. Una volta noti questi valori, il resto della tabella è stato completamente determinato.

Anche se in genere non abbiamo bisogno di sapere perché ci sono così tanti gradi di libertà, è bene sapere che in realtà stiamo solo applicando il concetto di gradi di libertà a una nuova situazione.