Статистический анализ приложения к докладу комиссии Шмидта
Поскольку тема достаточно острая, я призываю читателей отключить эмоциональный блок и посмотреть на приведенное исследование независимым критическим взглядом. Я критикую исключительно качество исследования, а вовсе не его приятность.
В докладе комиссии Шмидта среди прочих обоснований наличия допинга в Сочи приводится исследование профессора Бурнье(?), связанное с содержаниями различных элементов в моче спортсменов Ванкувера и Сочи.Прочитав его, я весьма удивился большому количеству бросающихся в глаза недостатков, но счел это неправильным пересказом оригинального исследования. Однако, к моему удивлению, оригинальное исследование оказалось еще более некачественным.Здесь я имею ввиду исключительно статистическую часть, в медицинской я не разбираюсь. 1) Первое бросающееся в глаза нарушение общепринятых процедур - это "зрячее" тестирование. В отчете идентифицированы Сочи и Ванкувер, то есть исследователь знал где какие пробы.Кроме того, удивление вызывает тот факт, что выделяющиеся в Сочи пробы сконцентрированы по параметру n. Параметр n, по всей видимости, означает номер спортсмена, сгруппированность выделяющихся проб это опять-таки нехороший маркер (впрочем, сам по себе не криминальный).
2) Основной анализ производится следующим образом. Рассматривается совокупность проб из одного источника, а затем рассматриваются выбросы, выдающиеся за 2сигма и 3 сигма.Здесь стоит объяснить, что такое 2сигма и 3сигма. Дело в том, что для нормальной величины Z с математическим ожиданием a и стандартным отклонением s верны соотношенияP(|Z-a|>2s) = 0.05 (приближенно), P(|Z-a|>3s) = 0.003 (приближенно). Для ненормальных величин мы сможем лишь получить гораздо более грубые верхние оценки из неравенства Чебышева P(|Z-a|>2s)<0.25, P(|Z-a|>3s)<0.11Соответственно, "правило 2 сигм" работает только в том случае, когда данные хорошо аппроксимируются нормальным распределение и оно использовано для двухстороннего отклонения.Авторы же используют его для плохо аппроксимирующегося нормальным распределения (см. ниже). Но даже для нормального они используют его для односторонних вероятностей P(Z>a+ 2s), для которых выход за 2 сигмы это уже не 5%, а 2.5%. Последний факт, на наш взгляд, хорошо демонстрирует статистическую квалификацию авторов отчета.Стоит отметить, что авторы проводили исследование нормальности данных (почему-то критерием Колморогова-Смирнова, хотя тогда уж нужно было использовать критерий Лиллиефорса, и почему-то не для натрия, являющегося основой для их выводов). В большинстве случаев оно отвергало гипотезу нормальности, что не мешало им использовать сигмы.
3) Почему же нормальная аппроксимация данных вызывает вопросы? Во-первых, авторы и сами приводят низкие p-value критерия на нормальность, а они используют консервативный (то есть осторожный) критерий Колморогова-Смирнова, становящийся еще более консервативным в том случае, если при подстановке оценок параметров не было изменено предельное распределение. Во-вторых, чисто визуально распределение сильно асимметрично.
В-третьих, некачественность нормальной аппроксимации подтверждается простым аргументом. Для женщин на играх в Сочи и кальция используется приближение с a = 126.66 и s = 131.98. Но при этом для настоящего распределения вероятность того, что уровень кальция меньше a-s равна нулю, поскольку отрицательного уровня кальция быть не может. А вот для использованного нормального N(a,s^2) такая вероятность равна 16%. Можно ли положиться на выводы, сделанные по второму распределению, если оно настолько посредственно аппроксимирует данные?
4) Второй метод анализа вызывает большие вопросы. Авторы рассматривают насколько ванкуверских сигма данные из выборки Сочи отклоняются от выборки Ванкувера. Это крайне удивительная методология. Авторы не рассматривают гипотезу однородности выборок Сочи - Ванкувер и вообще, как кажется, не утверждают, что таковая однородность должна быть. Какие тогда могут быть причины для использования одного распределения для фильтрации выбросов в другом?
5) Итоговые выводы отчета не выдерживают никакой критики.Авторы утверждают, что для всех 13 выбросов, вышедших за пределы 95% интервала, есть сильные подозрения в манипуляции с пробами.Это совершенно удивительно. По всей видимости авторы совершенно не знакомы с концепцией множественного сравнения, что недопустимо для людей, использующих статистический аппарат даже на уровне студенческих работ.Подозрения вызвало бы одно наперед взятое наблюдение, попавшее в такой интервал. Но если мы рассматриваем 130 данных, то часть из них, грубо говоря, 2.5% вполне естественно попадут в такое множество. Более того, сравнение производилось по 4 различным материалам, что еще в 4 раза увеличивает вероятность нашего "маловероятного" события (здесь мы для простоты взяли поправку на множественное сравнение Бонферрони. Другие поправки изменили бы уровень по-другому, но во всех случаях такая поправка заметно повысила бы фактический уровень значимости.). Если выводы о том, что общая ситуация подозрительна в рамках модели авторов, правомерны, то фраза о 13 наблюдениях никуда не годится.
6) Следствием пункта 1 является откровенная необъективность отчета.Это отражается в выводах по натрию, где авторы бракуют 13 спортсменов из России. Однако для соответствующей выборки из Ванкувера они не считают количество выходов за тот же диапазон, а просто утверждают, что данные однородны без статистических подтвержений.Визуально, кажется, что и там такие наблюдения есть, как мы писали выше - это вполне естественно, их должно быть порядка 5-6 человек. Таким образом, называя подозрительными все 13 сочинцев, последовательно они должны назвать подозрительными и соответствующих ванкуверцев. Это типичное следствие неслепого тестирования - применяемые методы к одной из совокупностей не применяются к другой, результаты анализа фильтруются и выдаются только "правильные".То же наблюдается и в выводах по других элементам. Рассмотрим для примера график кальция в Ванкувере. Здесь мы также видим огромное количество выбросов за 3 сигма. Однако, здесь авторы говорят, что такое случается, поскольку среди людей распространена hypercalciuria. Это типичный пример последствий отсутствия слепого тестирования - авторы начинают оправдывать статистические аномалии одной из выборок бытовыми причинами.
Я не могу сказать насколько справедливы обвинения комиссии. В частности, не могу судить о медицинских выводах - например, возможно уровни натрия у спортсменов в Сочи сами по себе малореальны без всякой статистики. Графики по Сочи действительно выглядят подозрительно (хотя стоит соблюдать осторожность в связи с нарушением ключевого пункта кодекса статистического исследователя - см. пункт 1 - мы не знаем производилась ли фильтрация данных при выборе изучаемых спортсменов). В любом случае, такого уровня статистический анализ не может служить каким-либо аргументом, и доклад профессора Бурнье доказывает лишь невысокую квалификацию его лаборатории в вопросах статистического анализа. Непосредственные обвинения в адрес конкретных 13 спортсменов также совершенно необоснованны.
Файл с исследованием проб: https://stillmed.olympic.org/media/Document%20Library/OlympicOrg/IOC/Who-We-Are/Commissions/Disciplinary-Commission/IOC-DC-Schmid/Appendix-VIII-CHUV-Report-Prof-Burnier-06-10-2017.pdf
Часть допущенных ошибок скорее во вред их собственной теории. Например, то что они называют 95% на самом деле 97.5%, от этого их выводы только ослабли. Например, они дисперсию оценили по данным с кучей выбросов, она получилась огромная, и в итоге заметные выбросы в Сочи статистически можно охарактеризовать только словами "за 2 сигмы", что не очень-то убедительно. Брали бы дисперсию без выбросов - выбросы за 3 сигмы бы поместились и убедительная картинка была бы с убедительным же анализом.
Опять же было бы желание наврать + квалификация - можно было бы концы в воду спрятать так, что их никто и не нашел, а так их видно за километр.
Частичная ангажированность там наблюдается, но вообще похоже, что исследователи имеют низкую квалификацию в области статистического анализа.
К слову, ангажированность необязательно связана именно с "заказом". Если исследователь сам верит во что-то, то он зачастую начинает выгибать свой анализ в "правильном направлении". Поэтому и нужно использовать слепое тестирование, чтобы работать с данными как с кучей точек, а не как с людьми из Сочи и Ванкувера.
И на Западе такие же сидят, которые "нарисуют" что угодно.
Что тут удивительного? Кругом одно враньё.
Только на "спортсе", конечно, большинство не потянут такую статью. В большинстве своём здесь любят применять термин "статистика" в куда-более нелепых доказательствах своей правоты.
Интересно, а вы не находили подобных замечаний в иностранных источниках?
В статье показаны графики по кальцию в Варкувере и Сочи. И по ним видно, что в среднем по кальцию значения в Сочи заметно выше. На странице 17 приведены цифры, медиана кальция (миллимоль на литр):
Ванкувер: женщины: 1.3, мужчины: 1.675
Cочи: женщины: 2.96, мужчины: 3.44
What the fuck? Как такое возможно вообще? Ведь физиология одинаковая, выборка большая, при этом кальций не участвовал в программе. Кальций в пробы не добавляли, в пробы либо добавляли соль, и тогда количество кальция должно сохраняться, либо же их разбавляли водой, и тогда его должно быть меньше. То есть в Сочи в среднем кальция должно быть раза в два меньше. Но его больше. Почему?
Или грубые ошибки замеров, или разная физиология, разный состав пищи, например. Или какие-то другие фальсификации.
К слову, часть, связанная с царапинами, организована на порядок лучше, напишу про это пост попозже.
Я, в целом, не очень представляю где мне найти такие замечания. Я не слишком этим всем интересуюсь, просто мимо проходил.
У меня просто есть годами выработанная привычка - видишь цифрывероятностианализ - залезь в первоисточник и посмотри что там сделано. В данном случае мне показалось интересным, что выводы в столь значимом исследовании сделаны настолько некачественно.
Типичный пример ситуации, когда применяется статистика без понимания к чему она применяется.
Вот по поводу однородности: вы думаете, что в Ванкувере соревновались инопланетяне, а в Сочи люди, поэтому у них нормальные, физиологические показатели соли могут различаться?
Попробуйте сначала понять тему про которую пишете.
Вот ссылка на доклад, в конце доклада есть ссылка на этот отчет
https://stillmed.olympic.org/media/Document%20Library/OlympicOrg/IOC/Who-We-Are/Commissions/Disciplinary-Commission/IOC-DC-Schmid/IOC-Disciplinary-Commission-Schmid-Report.pdf#_ga=2.99408470.935169643.1512499802-1687203665.1512499802
Вот по поводу однородности: вы думаете, что в Ванкувере соревновались инопланетяне, а в Сочи люди, поэтому у них нормальные, физиологические показатели соли могут различаться?"
А на мой взгляд ваш пост - это типичный пример ситуации, когда житейская логика применяется к сложным задачам без анализа соответствующих данных. Если вы на данные поглядите, то вы увидите на ванкуверских данных отличия в 10 раз, причем это неединичный случай. Один из каждой пары инопланетянин?
Если внутри совокупности есть такие большие колебания, то это получается вследствие каких-то условий. Возможно условий окружающей средыпитанияetc - оно в Сочи и Ванкувере разное. Возможно как следствие физиологических свойств организма - тогда откуда информация, что эти свойства однородны по разным странам?
Либо авторы должны приводить ссылки на исследования, в которых показано, что доза натрия зависит именно от таких-то факторов, которые одинаковы в Сочи и Ванкувере. Либо же они должны правильно организовывать статистический эксперимент. Важным параметром при этом является формирование исходных гипотез и их проверка.
Если авторы выдвигают гипотезу однородности данных, то они должны ее поставить, обосновать и проверить данные на соответствия этой гипотезе. Но они ее не выдвигают, а если бы и выдвинули, то их же методология ее тут же отвергает: критерий Стьюдента отвергает однородность кальция с вероятностью 99.9%. Это некорректный прием в силу вышеописанных проблем с нормальностью и выбросами, но у меня нет исходных данных, есть только статистика авторов, по которой нельзя проверить однородность корректным методом.
Если вы посмотрите на данные визуально, то их однородность опять же вызывает сомнения вне зависимости от обсуждаемых выбросов. Вон там выше уже приводили пример с кальцием - не очень похоже на одно распределение.
Да, совокупности скорее всего неоднородны, я про это писал.
И для этого может быть масса причин - например, "одинаковая физиология" с точки зрения совокупности людей вызывает вопросы. Разные условия жизни, разные условия среды - не уверен, что на уровне содержания элементов физиология русских и иностранцев одна с точки зрения однородности статистических совокупностей. Да и не очень понятно насколько условия среды влияют на эти самые анализы - если я живу в другой местности, питаюсь и занимаюсь активным спортом, то может быть у меня меняется уровень кальция.
Меньше всего мне хочется какие-то свои догадки в этой области делать - это довольно бесплодно, потому что у меня для этого не хватит знанияпонимания и потому что все равно нечем их подтверждать или опровергать.
Поэтому я и смотрю на статистический анализ, не строя теорий в тех областях, в которых я ничего не смыслю.
Вероятно вы не очень внимательно прочитали пост, потому что я объясняю почему я привожу график кальция в Ванкувере.
Я не делаю разницы между кальцием и натрием, между Сочи и Ванкувером, потому что этого требует правильно организованный эксперимент. Если мне прислали четыре элемента и две выборки на анализ, то первое что я должен сделать перед статистическим анализом - это повесить ярлычки А и Б на выборки и ярлычки 1,2,3,4 на элементы. Провести статистический анализ, получить результаты, интерпретировать их - а уже потом выяснять где был Сочи, где Ванкувер, где кальций, а где натрий.
И если у меня распространен выбросы в кальции и не распространены в натрии, то я должен был еще до начала анализа записать это в возможные эффекты, которые повлияют на результат анализа. В противном случае мои личные мненияожиданияпредпочтения будет слишком сильно влиять на эксперимент.
Это общепринятая процедура анализа данных, к чему приводят неслепые тестирования ученые давным давно выяснили.
Нет, это не так. Автор прочитал доклад и увидел, что он сделан очень плохо. Ему захотелось про это написать.
То, что вы называете умными словами - это лишь принятый в этой области язык, который я постарался переложить попонятнее для неспециализированной аудитории.
Если у вас есть конкретные претензии, то мои рассуждения перед вами. Я готов к математической дискуссии.
Если же вы просто чего-то не поняли, то лучше оформлять свой вопрос как вопрос, а не как претензию.
"нигде в статье не говорится про то, что там нормальное распределение. Это придумал автор блога. "Сигма" может применяться для любых распределений, это среднеквадратичное отклонение (квадратный корень от суммы квадратов разностей всех величин и среднего)."
Мне кажется, что вам нужно немного разобраться с матчастью. Я вообще писал про это в пункте 2) и довольно подробно.
Сигма - это среднеквадратическое отклонение (принято называть это именно так). Оно есть у разных распределений, а вот хорошие оценки вероятности выхода за два сигма есть не у каждого. Для общего вида распределений вероятность события "выйти за 2 сигма" оцениваются разве что числом 0.25 по неравенству Чебышева (смотри пункт 2)). За 3 сигма - 0.11. С такими оценками вероятностей в данной задаче далеко не уедешь - там даже самый большой выброс за 10 сигма не заходит, а оценка при этом будет 0.01 - ничего криминального для выборки из 100 наблюдений.
Поэтому когда люди пишут 2сигма или 3сигма, а потом говорят про 2.5%5% или 1%, то они привязываются к нормальному распределению. Эти самые волшебные числа 2 и 3 - это квантили стандартного нормального распределения соответствующего уровня. Про это я тоже писал в пункте 2.
Тезис о том, что авторы нигде не говорят о нормальности несколько ошибочен. Если вы откроете таблицы, например, для кальция, то вы увидите там пункт "KS normality test". А чуть ниже увидите, что этот самый KS normality test 4 раза из 4 отверг гипотезу нормальности с уверенностью 99%. При том, что авторы и тут умудрились нарушить процедуру и используют критерий Колмогорова-Смирнова для сложной альтернативы, а нужно делать поправку на изменение предельного распределения при подстановке оценок (это называется критерием Лиллефорса). Про это я тоже писал выше (пункт 3).
"Авторы статьи и не пытались ударяться с математическую статистику. Это вообще слишком теоретическая вещь."
Если вы пытаетесь оценивать вероятности событий на основе наблюдений, то вы автоматически пытаетесь удариться в математическую статистику. И эта теоретическая вещь лежит в основе большой части медицинских и биологических исследований последних 50 лет. Нужно просто правильно применять аппарат, для медиков и биологов есть специальные опримивитизированные процедуры на уровне алгоритмов. Здесь нарушается вся методология, какую можно нарушить, начиная с этапа организации эксперимента (зрячее тестирование), продолжая анализом, использующим нормальные квантили там, где нормальности нет.
"Хотя если кто смотрел исследования по физиологии или медицине, там они все обычно на таком уровне, очевидные вопросы не освещаются, главное красивую картинку сделать и какой-то вывод опубликовать."
Я смотрю время от времени. И вижу довольно много качественных исследований в области медицины. Нужно просто действовать по правильной процедуре, а не гоняться за подгоном совы под глобус.
И это не исследование в журнале "Вестник заборостроительного института имени Петрова-Васечкина", это исследование международной лаборатории, которое влияет на довольно существенные вопросы, в частности, связанные с большими деньгами. Могли уж найти лабораторию с приличной квалификацией.