Il principale errore statistico: la dimensione del campione

Nella mia stupidità, mi sono iscritto a un modulo di dieci settimane di statistica mentre studiavo per la mia laurea in matematica. E l'ho odiato con vendetta. Ben presto divenne chiaro che trovavo 99 argomenti su 100 eccezionalmente noiosi.

Tuttavia, con il numero vertiginoso di sondaggi che compaiono sui media ogni anno che passa, avere una certa conoscenza delle statistiche mi è venuto in aiuto in numerose occasioni. Perché si scopre che anche le persone intelligenti non capiscono affatto le statistiche.

Qui, vorrei semplicemente affrontare il principale, bruciante malinteso che le persone hanno riguardo alle statistiche: la dimensione del campione deve essere simile in numero alla popolazione totale in uno studio.

No. Onestamente no. Mi rendo conto che non è del tutto ovvio, ma no.

Prendiamo l’esempio recente del sondaggio condotto tra i dipendenti Microsoft tramite Glassdoor.com, che lo ha dimostrato circa la metà di loro era scontenta della prestazione di Steve Ballmer.

Poiché la dimensione del campione, ovvero il numero di persone intervistate, era di circa 1.000, e il numero complessivo di dipendenti Microsoft è di circa 80.000, uno il principale blogger di Microsoft ha inviato un tweet dicendo: "Gli intervistati per quel rapporto equivalgono a circa lo 0,625% dei dipendenti Microsoft... ancora una volta, difficilmente rappresentativo a Tutto. Sembra molto imperfetto.

Lo 0,625% proviene dai 500 dipendenti Microsoft che non erano contenti di Ballmer.

Ma non è affatto difettoso. Per spiegare il motivo, analizzerò il sondaggio a ritroso.

Supponiamo che Microsoft abbia esattamente 80.000 dipendenti e che esattamente il 50% di loro non creda che Ballmer stia facendo un buon lavoro.

Se intervistassimo ripetutamente 383 persone (scelte ogni volta a caso), le statistiche mostrano che 19 volte su 20 i risultati: cioè, il 95% delle volte, otterremmo un risultato che mostrava che tra il 45% e il 55% di loro non credeva che Ballmer stesse facendo un buon lavoro.

Per passare al discorso statistico, si tratta di un livello di confidenza del 95% con un margine di errore del 5% (ovvero 50% più o meno 5%).

So cosa stai pensando: il livello di confidenza del 95% non è sufficiente. Quindi andiamo al 99%. Supponendo le stesse condizioni – 80.000 dipendenti, il 50% insoddisfatti – avremmo bisogno di un campione di 659 persone.

Per dirla in parole povere, con un campione di 659, esattamente 99 sondaggi su 100 mostrerebbero un risultato compreso tra il 45% e il 55% di insoddisfatti della performance di Ballmer.

9.985 sondaggi su 10.000 mostrerebbero che dal 45% al 55% dei dipendenti Microsoft erano infelici di Ballmer

Cosa succede se aumentiamo la dimensione del campione a 1.000? Il livello di fiducia aumenta al 99,85%, quindi 9.985 sondaggi su 10.000 mostrerebbero che dal 45% al 55% dei dipendenti Microsoft erano anti-Ballmer.

Infatti, le valutazioni di Glassdoor.com si basano su un campione di 1.119 persone, con un livello di confidenza del 99,92%. Abbastanza forte.

Un ultimo punto: il problema più grande con qualsiasi indagine è trovare un campione veramente casuale. Glassdoor.com non sembra controllare i suoi intervistati (se non per insulti, segreti commerciali o diffamazione), quindi tu o io potremmo contribuire con le nostre recensioni se lo desideriamo.

Si potrebbe anche sostenere che, in quanto sito Web orientato al reclutamento, sarà sbilanciato nei confronti degli attuali dipendenti Microsoft che desiderano andarsene o degli ex dipendenti con rancore.

Ma nessuno di questi potenziali difetti spiegherebbe il perché CEO di Oracle ottiene un indice di approvazione così alto quando il punteggio della sua azienda è in realtà inferiore rispetto a quello di Microsoft. Pertanto, possiamo tutti avere fiducia nelle tecniche di raccolta dei campioni di Glassdoor.com, mentre Steve Ballmer dovrebbe pensare a come far cambiare idea ai suoi dipendenti.

Il principale errore statistico: la dimensione del campione

Categorie

Recente

Come rendere trasparente uno sfondo in GIMP

Cosa significa "Altri spettatori" per le storie di Facebook?

La città richiede le password di Facebook ai candidati al lavoro