Главная ошибка статистики: размер выборки

Статистика и образцы размеров_thumb.jpg По своей глупости я записался на десятинедельный модуль по статистике, пока учился на математике. И я ненавидел это с удвоенной силой. Вскоре стало кристально ясно, что 99 из 100 тем кажутся мне исключительно скучными.

Главная ошибка статистики: размер выборки

Однако, поскольку с каждым годом в средствах массовой информации появляется все больше опросов, определенные знания в области статистики неоднократно приходили мне на помощь. Потому что оказывается, что даже умные люди вообще не разбираются в статистике.

Здесь я просто хотел бы остановиться на самом главном недопонимании людей в отношении статистики: размер выборки должен быть аналогичен общей численности населения в исследовании.

Нет. Честно говоря, нет. Я понимаю, что это не совсем очевидно, но нет.

Возьмем недавний пример опроса сотрудников Microsoft через Glassdoor.com, который показал, что около половины из них были недовольны игрой Стива Балмера.

Поскольку размер выборки, то есть количество опрошенных людей, составлял около 1000, а общее количество сотрудников Microsoft составляет около 80 000, один Ведущий блоггер Microsoft отправил твит, в котором говорилось: «Опрошенные для этого отчета составляют около 0,625% сотрудников Microsoft… опять же, вряд ли это репрезентативно для все. Выглядит очень ошибочно».

0,625% принадлежат 500 сотрудникам Microsoft, которые были недовольны Балмером.

Но это вовсе не недостаток. Чтобы объяснить почему, я проанализирую этот опрос в обратном порядке.

Предположим, что в Microsoft работает ровно 80 000 сотрудников, и ровно 50% из них не верят, что Балмер хорошо справляется со своей работой.

Если мы повторно опросили 383 человека (каждый раз выбранных случайно), то статистика показывает, что в 19 случаях из 20 результатов – то есть в 95% случаев — мы получим результат, показывающий, что от 45% до 55% из них не верят, что Баллмер хорошо справляется со своей работой.

Если перевести это на статистический язык, то это уровень достоверности 95 % с погрешностью 5 % (то есть 50 % плюс-минус 5 %).

Я знаю, о чем вы думаете: уровня уверенности 95 % недостаточно. Итак, возьмем 99%. Если предположить те же условия — 80 000 сотрудников, 50% из них недовольны, — тогда нам понадобится размер выборки в 659 человек.

Говоря простым языком, при размере выборки в 659 ровно 99 из 100 опросов покажут результат от 45% до 55% недовольных работой Балмера.

9 985 из 10 000 опросов показывают, что от 45% до 55% сотрудников Microsoft недовольны Балмером.

Что произойдет, если мы увеличим размер выборки до 1000? Уровень доверия возрастает до 99,85%, поэтому 9985 из 10 000 опросов показывают, что от 45% до 55% сотрудников Microsoft настроены против Баллмера.

Фактически, рейтинги Glassdoor.com основаны на размере выборки в 1119 человек, что дает уровень достоверности 99,92%. Довольно сильный.

И последнее: самая большая проблема любого опроса — найти действительно случайную выборку. Glassdoor.com, похоже, не проверяет респондентов своих опросов (за исключением оскорблений, коммерческой тайны или клеветы), поэтому вы или я можем оставить свои собственные отзывы, если захотим.

Вы также можете возразить, что, поскольку веб-сайт ориентирован на подбор персонала, он будет ориентирован на нынешних сотрудников Microsoft, желающих уйти, или на бывших сотрудников, испытывающих недовольство.

Но ни один из этих потенциальных недостатков не объясняет, почему Генеральный директор Oracle получает такой высокий рейтинг одобрения, хотя рейтинг его компании на самом деле ниже чем у Microsoft. Таким образом, мы все можем быть уверены в методах сбора образцов Glassdoor.com, а Стиву Баллмеру следует подумать о том, как он может изменить мнение своих сотрудников.