16 декабря 2017, 22:25 5 мин.

Статистический анализ приложения к докладу комиссии Шмидта

Автор

Поскольку тема достаточно острая, я призываю читателей отключить эмоциональный блок и посмотреть на приведенное исследование независимым критическим взглядом. Я критикую исключительно качество исследования, а вовсе не его приятность.

В докладе комиссии Шмидта среди прочих обоснований наличия допинга в Сочи приводится исследование профессора Бурнье(?), связанное с содержаниями различных элементов в моче спортсменов Ванкувера и Сочи.Прочитав его, я весьма удивился большому количеству бросающихся в глаза недостатков, но счел это неправильным пересказом оригинального исследования. Однако, к моему удивлению, оригинальное исследование оказалось еще более некачественным.Здесь я имею ввиду исключительно статистическую часть, в медицинской я не разбираюсь. 1) Первое бросающееся в глаза нарушение общепринятых процедур - это "зрячее" тестирование. В отчете идентифицированы Сочи и Ванкувер, то есть исследователь знал где какие пробы.Кроме того, удивление вызывает тот факт, что выделяющиеся в Сочи пробы сконцентрированы по параметру n. Параметр n, по всей видимости, означает номер спортсмена, сгруппированность выделяющихся проб это опять-таки нехороший маркер (впрочем, сам по себе не криминальный).

2) Основной анализ производится следующим образом. Рассматривается совокупность проб из одного источника, а затем рассматриваются выбросы, выдающиеся за 2сигма и 3 сигма.Здесь стоит объяснить, что такое 2сигма и 3сигма. Дело в том, что для нормальной величины Z с математическим ожиданием a и стандартным отклонением s верны соотношенияP(|Z-a|>2s) = 0.05 (приближенно), P(|Z-a|>3s) = 0.003 (приближенно). Для ненормальных величин мы сможем лишь получить гораздо более грубые верхние оценки из неравенства Чебышева P(|Z-a|>2s)<0.25, P(|Z-a|>3s)<0.11Соответственно, "правило 2 сигм" работает только в том случае, когда данные хорошо аппроксимируются нормальным распределение и оно использовано для двухстороннего отклонения.Авторы же используют его для плохо аппроксимирующегося нормальным распределения (см. ниже). Но даже для нормального они используют его для односторонних вероятностей P(Z>a+ 2s), для которых выход за 2 сигмы это уже не 5%, а 2.5%. Последний факт, на наш взгляд, хорошо демонстрирует статистическую квалификацию авторов отчета.Стоит отметить, что авторы проводили исследование нормальности данных (почему-то критерием Колморогова-Смирнова, хотя тогда уж нужно было использовать критерий Лиллиефорса, и почему-то не для натрия, являющегося основой для их выводов). В большинстве случаев оно отвергало гипотезу нормальности, что не мешало им использовать сигмы.

3) Почему же нормальная аппроксимация данных вызывает вопросы? Во-первых, авторы и сами приводят низкие p-value критерия на нормальность, а они используют консервативный (то есть осторожный) критерий Колморогова-Смирнова, становящийся еще более консервативным в том случае, если при подстановке оценок параметров не было изменено предельное распределение. Во-вторых, чисто визуально распределение сильно асимметрично.

В-третьих, некачественность нормальной аппроксимации подтверждается простым аргументом. Для женщин на играх в Сочи и кальция используется приближение с a = 126.66 и s = 131.98. Но при этом для настоящего распределения вероятность того, что уровень кальция меньше a-s равна нулю, поскольку отрицательного уровня кальция быть не может. А вот для использованного нормального N(a,s^2) такая вероятность равна 16%. Можно ли положиться на выводы, сделанные по второму распределению, если оно настолько посредственно аппроксимирует данные?

4) Второй метод анализа вызывает большие вопросы. Авторы рассматривают насколько ванкуверских сигма данные из выборки Сочи отклоняются от выборки Ванкувера. Это крайне удивительная методология. Авторы не рассматривают гипотезу однородности выборок Сочи - Ванкувер и вообще, как кажется, не утверждают, что таковая однородность должна быть. Какие тогда могут быть причины для использования одного распределения для фильтрации выбросов в другом?

5) Итоговые выводы отчета не выдерживают никакой критики.Авторы утверждают, что для всех 13 выбросов, вышедших за пределы 95% интервала, есть сильные подозрения в манипуляции с пробами.Это совершенно удивительно. По всей видимости авторы совершенно не знакомы с концепцией множественного сравнения, что недопустимо для людей, использующих статистический аппарат даже на уровне студенческих работ.Подозрения вызвало бы одно наперед взятое наблюдение, попавшее в такой интервал. Но если мы рассматриваем 130 данных, то часть из них, грубо говоря, 2.5% вполне естественно попадут в такое множество. Более того, сравнение производилось по 4 различным материалам, что еще в 4 раза увеличивает вероятность нашего "маловероятного" события (здесь мы для простоты взяли поправку на множественное сравнение Бонферрони. Другие поправки изменили бы уровень по-другому, но во всех случаях такая поправка заметно повысила бы фактический уровень значимости.). Если выводы о том, что общая ситуация подозрительна в рамках модели авторов, правомерны, то фраза о 13 наблюдениях никуда не годится.

6) Следствием пункта 1 является откровенная необъективность отчета.Это отражается в выводах по натрию, где авторы бракуют 13 спортсменов из России. Однако для соответствующей выборки из Ванкувера они не считают количество выходов за тот же диапазон, а просто утверждают, что данные однородны без статистических подтвержений.Визуально, кажется, что и там такие наблюдения есть, как мы писали выше - это вполне естественно, их должно быть порядка 5-6 человек. Таким образом, называя подозрительными все 13 сочинцев, последовательно они должны назвать подозрительными и соответствующих ванкуверцев. Это типичное следствие неслепого тестирования - применяемые методы к одной из совокупностей не применяются к другой, результаты анализа фильтруются и выдаются только "правильные".То же наблюдается и в выводах по других элементам. Рассмотрим для примера график кальция в Ванкувере. Здесь мы также видим огромное количество выбросов за 3 сигма. Однако, здесь авторы говорят, что такое случается, поскольку среди людей распространена hypercalciuria. Это типичный пример последствий отсутствия слепого тестирования - авторы начинают оправдывать статистические аномалии одной из выборок бытовыми причинами.

Я не могу сказать насколько справедливы обвинения комиссии. В частности, не могу судить о медицинских выводах - например, возможно уровни натрия у спортсменов в Сочи сами по себе малореальны без всякой статистики. Графики по Сочи действительно выглядят подозрительно (хотя стоит соблюдать осторожность в связи с нарушением ключевого пункта кодекса статистического исследователя - см. пункт 1 - мы не знаем производилась ли фильтрация данных при выборе изучаемых спортсменов). В любом случае, такого уровня статистический анализ не может служить каким-либо аргументом, и доклад профессора Бурнье доказывает лишь невысокую квалификацию его лаборатории в вопросах статистического анализа. Непосредственные обвинения в адрес конкретных 13 спортсменов также совершенно необоснованны.

Отчет комиссии: https://stillmed.olympic.org/media/Document%20Library/OlympicOrg/IOC/Who-We-Are/Commissions/Disciplinary-Commission/IOC-DC-Schmid/IOC-Disciplinary-Commission-Schmid-Report.pdf

Файл с исследованием проб: https://stillmed.olympic.org/media/Document%20Library/OlympicOrg/IOC/Who-We-Are/Commissions/Disciplinary-Commission/IOC-DC-Schmid/Appendix-VIII-CHUV-Report-Prof-Burnier-06-10-2017.pdf

Ванкувер-2010

Сочи-2014

допинг

15 комментариев

По дате

Лучшие

Актуальные

С диалогами

17 декабря 2017, 10:41

Ответ заблокированному пользователю

У нас по Первому каналу показывают на всю страну враньё с распятыми мальчиками, фото самолётов с километровыми крыльями и скриншоты из компьютерных игр в качестве документов минобороны. И на Западе такие же сидят, которые "нарисуют" что угодно. Что тут удивительного? Кругом одно враньё.

Это не очень похоже на вранье, это похоже на плохое исследование, авторы которого не очень разбираются в теме.

Часть допущенных ошибок скорее во вред их собственной теории. Например, то что они называют 95% на самом деле 97.5%, от этого их выводы только ослабли. Например, они дисперсию оценили по данным с кучей выбросов, она получилась огромная, и в итоге заметные выбросы в Сочи статистически можно охарактеризовать только словами "за 2 сигмы", что не очень-то убедительно. Брали бы дисперсию без выбросов - выбросы за 3 сигмы бы поместились и убедительная картинка была бы с убедительным же анализом.

Опять же было бы желание наврать + квалификация - можно было бы концы в воду спрятать так, что их никто и не нашел, а так их видно за километр.

Частичная ангажированность там наблюдается, но вообще похоже, что исследователи имеют низкую квалификацию в области статистического анализа.

К слову, ангажированность необязательно связана именно с "заказом". Если исследователь сам верит во что-то, то он зачастую начинает выгибать свой анализ в "правильном направлении". Поэтому и нужно использовать слепое тестирование, чтобы работать с данными как с кучей точек, а не как с людьми из Сочи и Ванкувера.

Пользователь заблокирован

17 декабря 2017, 01:49

18 декабря 2017, 01:19

Как следует из слов некого Хэнлона "миром правит не тайная ложа, а явная лажа". :-)

Только на "спортсе", конечно, большинство не потянут такую статью. В большинстве своём здесь любят применять термин "статистика" в куда-более нелепых доказательствах своей правоты.

Интересно, а вы не находили подобных замечаний в иностранных источниках?

EPO

17 декабря 2017, 23:29

Ответ ALXE

"Авторы не рассматривают гипотезу однородности выборок Сочи - Ванкувер и вообще, как кажется, не утверждают, что таковая однородность должна быть" Типичный пример ситуации, когда применяется статистика без понимания к чему она применяется. Вот по поводу однородности: вы думаете, что в Ванкувере соревновались инопланетяне, а в Сочи люди, поэтому у них нормальные, физиологические показатели соли могут различаться? Попробуйте сначала понять тему про которую пишете.

"вы думаете, что в Ванкувере соревновались инопланетяне, а в Сочи люди, поэтому у них нормальные, физиологические показатели соли могут различаться?" - вот здесь много непонятного.

В статье показаны графики по кальцию в Варкувере и Сочи. И по ним видно, что в среднем по кальцию значения в Сочи заметно выше. На странице 17 приведены цифры, медиана кальция (миллимоль на литр):

Ванкувер: женщины: 1.3, мужчины: 1.675

Cочи: женщины: 2.96, мужчины: 3.44

What the fuck? Как такое возможно вообще? Ведь физиология одинаковая, выборка большая, при этом кальций не участвовал в программе. Кальций в пробы не добавляли, в пробы либо добавляли соль, и тогда количество кальция должно сохраняться, либо же их разбавляли водой, и тогда его должно быть меньше. То есть в Сочи в среднем кальция должно быть раза в два меньше. Но его больше. Почему?

Или грубые ошибки замеров, или разная физиология, разный состав пищи, например. Или какие-то другие фальсификации.

18 декабря 2017, 09:40

Я и не претендовал на большинство. Все-таки достаточное количество людей периодически используют статистику в работе, чтобы представлять себе процедуру, а здесь много совсем простых ошибок, которые входят в стандартные сборники "чего нельзя делать".

К слову, часть, связанная с царапинами, организована на порядок лучше, напишу про это пост попозже.

Я, в целом, не очень представляю где мне найти такие замечания. Я не слишком этим всем интересуюсь, просто мимо проходил.

У меня просто есть годами выработанная привычка - видишь цифрывероятностианализ - залезь в первоисточник и посмотри что там сделано. В данном случае мне показалось интересным, что выводы в столь значимом исследовании сделаны настолько некачественно.

JohnnyJohn

17 декабря 2017, 12:39

Хороший анализ, спасибо. А есть ли в оригинале графики распределения натрия в ванкуверских пробах и кальция в сочинских? И можно еще ссылочку на сам оригинал

ALXE

17 декабря 2017, 21:31

17 декабря 2017, 21:36

Это я ещё не спросил у вас почему вы приводите графики показателей кальция в Ванкувере и натрия в Сочи и пытаетесь делать какое то сопоставление. Очевидно, что вы не видите разницу между кальцием и натрием, господин статистик.