Статистический анализ приложения к докладу комиссии Шмидта
Поскольку тема достаточно острая, я призываю читателей отключить эмоциональный блок и посмотреть на приведенное исследование независимым критическим взглядом. Я критикую исключительно качество исследования, а вовсе не его приятность.
В докладе комиссии Шмидта среди прочих обоснований наличия допинга в Сочи приводится исследование профессора Бурнье(?), связанное с содержаниями различных элементов в моче спортсменов Ванкувера и Сочи.Прочитав его, я весьма удивился большому количеству бросающихся в глаза недостатков, но счел это неправильным пересказом оригинального исследования. Однако, к моему удивлению, оригинальное исследование оказалось еще более некачественным.Здесь я имею ввиду исключительно статистическую часть, в медицинской я не разбираюсь. 1) Первое бросающееся в глаза нарушение общепринятых процедур - это "зрячее" тестирование. В отчете идентифицированы Сочи и Ванкувер, то есть исследователь знал где какие пробы.Кроме того, удивление вызывает тот факт, что выделяющиеся в Сочи пробы сконцентрированы по параметру n. Параметр n, по всей видимости, означает номер спортсмена, сгруппированность выделяющихся проб это опять-таки нехороший маркер (впрочем, сам по себе не криминальный).
2) Основной анализ производится следующим образом. Рассматривается совокупность проб из одного источника, а затем рассматриваются выбросы, выдающиеся за 2сигма и 3 сигма.Здесь стоит объяснить, что такое 2сигма и 3сигма. Дело в том, что для нормальной величины Z с математическим ожиданием a и стандартным отклонением s верны соотношенияP(|Z-a|>2s) = 0.05 (приближенно), P(|Z-a|>3s) = 0.003 (приближенно). Для ненормальных величин мы сможем лишь получить гораздо более грубые верхние оценки из неравенства Чебышева P(|Z-a|>2s)<0.25, P(|Z-a|>3s)<0.11Соответственно, "правило 2 сигм" работает только в том случае, когда данные хорошо аппроксимируются нормальным распределение и оно использовано для двухстороннего отклонения.Авторы же используют его для плохо аппроксимирующегося нормальным распределения (см. ниже). Но даже для нормального они используют его для односторонних вероятностей P(Z>a+ 2s), для которых выход за 2 сигмы это уже не 5%, а 2.5%. Последний факт, на наш взгляд, хорошо демонстрирует статистическую квалификацию авторов отчета.Стоит отметить, что авторы проводили исследование нормальности данных (почему-то критерием Колморогова-Смирнова, хотя тогда уж нужно было использовать критерий Лиллиефорса, и почему-то не для натрия, являющегося основой для их выводов). В большинстве случаев оно отвергало гипотезу нормальности, что не мешало им использовать сигмы.
3) Почему же нормальная аппроксимация данных вызывает вопросы? Во-первых, авторы и сами приводят низкие p-value критерия на нормальность, а они используют консервативный (то есть осторожный) критерий Колморогова-Смирнова, становящийся еще более консервативным в том случае, если при подстановке оценок параметров не было изменено предельное распределение. Во-вторых, чисто визуально распределение сильно асимметрично.
В-третьих, некачественность нормальной аппроксимации подтверждается простым аргументом. Для женщин на играх в Сочи и кальция используется приближение с a = 126.66 и s = 131.98. Но при этом для настоящего распределения вероятность того, что уровень кальция меньше a-s равна нулю, поскольку отрицательного уровня кальция быть не может. А вот для использованного нормального N(a,s^2) такая вероятность равна 16%. Можно ли положиться на выводы, сделанные по второму распределению, если оно настолько посредственно аппроксимирует данные?
![](https://photobooth.cdn.sports.ru/preset/post/9/cc/b26a117984bf8853f2821766e6209.jpeg?f=webp&q=90&s=2x&w=730)
4) Второй метод анализа вызывает большие вопросы. Авторы рассматривают насколько ванкуверских сигма данные из выборки Сочи отклоняются от выборки Ванкувера. Это крайне удивительная методология. Авторы не рассматривают гипотезу однородности выборок Сочи - Ванкувер и вообще, как кажется, не утверждают, что таковая однородность должна быть. Какие тогда могут быть причины для использования одного распределения для фильтрации выбросов в другом?
5) Итоговые выводы отчета не выдерживают никакой критики.Авторы утверждают, что для всех 13 выбросов, вышедших за пределы 95% интервала, есть сильные подозрения в манипуляции с пробами.Это совершенно удивительно. По всей видимости авторы совершенно не знакомы с концепцией множественного сравнения, что недопустимо для людей, использующих статистический аппарат даже на уровне студенческих работ.Подозрения вызвало бы одно наперед взятое наблюдение, попавшее в такой интервал. Но если мы рассматриваем 130 данных, то часть из них, грубо говоря, 2.5% вполне естественно попадут в такое множество. Более того, сравнение производилось по 4 различным материалам, что еще в 4 раза увеличивает вероятность нашего "маловероятного" события (здесь мы для простоты взяли поправку на множественное сравнение Бонферрони. Другие поправки изменили бы уровень по-другому, но во всех случаях такая поправка заметно повысила бы фактический уровень значимости.). Если выводы о том, что общая ситуация подозрительна в рамках модели авторов, правомерны, то фраза о 13 наблюдениях никуда не годится.
6) Следствием пункта 1 является откровенная необъективность отчета.Это отражается в выводах по натрию, где авторы бракуют 13 спортсменов из России. Однако для соответствующей выборки из Ванкувера они не считают количество выходов за тот же диапазон, а просто утверждают, что данные однородны без статистических подтвержений.Визуально, кажется, что и там такие наблюдения есть, как мы писали выше - это вполне естественно, их должно быть порядка 5-6 человек. Таким образом, называя подозрительными все 13 сочинцев, последовательно они должны назвать подозрительными и соответствующих ванкуверцев. Это типичное следствие неслепого тестирования - применяемые методы к одной из совокупностей не применяются к другой, результаты анализа фильтруются и выдаются только "правильные".То же наблюдается и в выводах по других элементам. Рассмотрим для примера график кальция в Ванкувере. Здесь мы также видим огромное количество выбросов за 3 сигма. Однако, здесь авторы говорят, что такое случается, поскольку среди людей распространена hypercalciuria. Это типичный пример последствий отсутствия слепого тестирования - авторы начинают оправдывать статистические аномалии одной из выборок бытовыми причинами.
Я не могу сказать насколько справедливы обвинения комиссии. В частности, не могу судить о медицинских выводах - например, возможно уровни натрия у спортсменов в Сочи сами по себе малореальны без всякой статистики. Графики по Сочи действительно выглядят подозрительно (хотя стоит соблюдать осторожность в связи с нарушением ключевого пункта кодекса статистического исследователя - см. пункт 1 - мы не знаем производилась ли фильтрация данных при выборе изучаемых спортсменов). В любом случае, такого уровня статистический анализ не может служить каким-либо аргументом, и доклад профессора Бурнье доказывает лишь невысокую квалификацию его лаборатории в вопросах статистического анализа. Непосредственные обвинения в адрес конкретных 13 спортсменов также совершенно необоснованны.
![](https://photobooth.cdn.sports.ru/preset/post/0/63/5c391dde944dab16e181730d71a1d.jpeg?f=webp&q=90&s=2x&w=730)
Файл с исследованием проб: https://stillmed.olympic.org/media/Document%20Library/OlympicOrg/IOC/Who-We-Are/Commissions/Disciplinary-Commission/IOC-DC-Schmid/Appendix-VIII-CHUV-Report-Prof-Burnier-06-10-2017.pdf
Часть допущенных ошибок скорее во вред их собственной теории. Например, то что они называют 95% на самом деле 97.5%, от этого их выводы только ослабли. Например, они дисперсию оценили по данным с кучей выбросов, она получилась огромная, и в итоге заметные выбросы в Сочи статистически можно охарактеризовать только словами "за 2 сигмы", что не очень-то убедительно. Брали бы дисперсию без выбросов - выбросы за 3 сигмы бы поместились и убедительная картинка была бы с убедительным же анализом.
Опять же было бы желание наврать + квалификация - можно было бы концы в воду спрятать так, что их никто и не нашел, а так их видно за километр.
Частичная ангажированность там наблюдается, но вообще похоже, что исследователи имеют низкую квалификацию в области статистического анализа.
К слову, ангажированность необязательно связана именно с "заказом". Если исследователь сам верит во что-то, то он зачастую начинает выгибать свой анализ в "правильном направлении". Поэтому и нужно использовать слепое тестирование, чтобы работать с данными как с кучей точек, а не как с людьми из Сочи и Ванкувера.
И на Западе такие же сидят, которые "нарисуют" что угодно.
Что тут удивительного? Кругом одно враньё.
Только на "спортсе", конечно, большинство не потянут такую статью. В большинстве своём здесь любят применять термин "статистика" в куда-более нелепых доказательствах своей правоты.
Интересно, а вы не находили подобных замечаний в иностранных источниках?
В статье показаны графики по кальцию в Варкувере и Сочи. И по ним видно, что в среднем по кальцию значения в Сочи заметно выше. На странице 17 приведены цифры, медиана кальция (миллимоль на литр):
Ванкувер: женщины: 1.3, мужчины: 1.675
Cочи: женщины: 2.96, мужчины: 3.44
What the fuck? Как такое возможно вообще? Ведь физиология одинаковая, выборка большая, при этом кальций не участвовал в программе. Кальций в пробы не добавляли, в пробы либо добавляли соль, и тогда количество кальция должно сохраняться, либо же их разбавляли водой, и тогда его должно быть меньше. То есть в Сочи в среднем кальция должно быть раза в два меньше. Но его больше. Почему?
Или грубые ошибки замеров, или разная физиология, разный состав пищи, например. Или какие-то другие фальсификации.
К слову, часть, связанная с царапинами, организована на порядок лучше, напишу про это пост попозже.
Я, в целом, не очень представляю где мне найти такие замечания. Я не слишком этим всем интересуюсь, просто мимо проходил.
У меня просто есть годами выработанная привычка - видишь цифрывероятностианализ - залезь в первоисточник и посмотри что там сделано. В данном случае мне показалось интересным, что выводы в столь значимом исследовании сделаны настолько некачественно.
Типичный пример ситуации, когда применяется статистика без понимания к чему она применяется.
Вот по поводу однородности: вы думаете, что в Ванкувере соревновались инопланетяне, а в Сочи люди, поэтому у них нормальные, физиологические показатели соли могут различаться?
Попробуйте сначала понять тему про которую пишете.
Вот ссылка на доклад, в конце доклада есть ссылка на этот отчет
https://stillmed.olympic.org/media/Document%20Library/OlympicOrg/IOC/Who-We-Are/Commissions/Disciplinary-Commission/IOC-DC-Schmid/IOC-Disciplinary-Commission-Schmid-Report.pdf#_ga=2.99408470.935169643.1512499802-1687203665.1512499802