Мечтают ли андроиды об электроовцах?
«Мечтают ли фигуристки о честном судействе»?
Этого мы не можем знать наверняка, но в фигурном катании вопрос объективного судейства всегда стоял остро. За примерами далеко ходить не надо: чуть больше недели тому назад в ходе последнего разбирательства по делу о предвзятом судействе на Олимпиаде-2018 в Пхенчхане ISU дисквалифицировал двух судей из Китая. В протоколе: стройные ряды троек GOE напротив элементов программы китайского фигуриста, проставленные твёрдой рукой дисквалифицированного судьи.
Новость получила широкий резонанс на спортсе, внимательные пользователи сразу же отметили в комментариях сомнительное поведение других судей на Олимпиаде, указали на слишком высокие балы некоторых фигуристок и предположили, что в скором времени в судействе начнётся настоящее раздолье в связи с переходом на GOE -5/+5.
Но самое интересное, по крайней мере для меня, событие произошло на одной из веток форума goldenskates.com. Пользователь под ником Shanshani опубликовал статью, в которой, применив к оценкам за выступления мужчин-одиночников на международных соревнованиях статистические методы, получил список судейских имён, по всей вероятности не совсем объективно оценивающих выступления фигуристов в пользу своих фаворитов. На первом месте в этом списке оказалось имя дисквалифицированного судьи из Китая Вэйгуана Чэня. Работа была опубликована только относительно мужских соревнований, но, поскольку женские соревнования я люблю больше, мне сразу же захотелось проделать такое же исследование относительно женщин. Поэтому предлагаю читателям этой статьи на миг окунуться в мир чисел и отправиться вместе со мной в путешествие по океану статистики и несправедливого судейства в женском фигурном катании. Сразу же хочу предупредить, что я не являюсь профессиональным математиком или учёным, поэтому всё написанное дальше принимайте на веру на свой страх и риск!
Гипотеза
Любое статистическое исследование начинается с гипотезы. Гипотезой в народе называется некоторое предположение или догадка, которое неприменно требует наличия доказательства. Причём при проверке статистических гипотез исследователь всегда имеет дело не с одной, а, как правило, с двумя гипотезами, которые обозначаются как Н0 и Н1. Одна из этих гипотез называется нулевой, другая – альтернативной, т.е. опровергающей нулевую.
Возвращаясь к фигурному катанию. Любой судья в фигурном катании является таким же человеком со своими определёнными пристрастиями и наклонностями, как и мы с вами, и, следовательно, на решение каждого отдельного судьи может влиять огромное количество факторов. Для того, чтобы выделить один из таких факторов, обратимся к новости из далёкого 2014 года, в которой судья из России праздновала победу вместе с Аделиной Сотниковой. Разумеется, мы не можем ставить под сомнение тот факт, что наша фигуристка Аделина Сотникова своим блестящим выступлением на Олимпиаде честно заслужила золотую медаль, как и не имеем права лишать нашу соотечественницу и по совместительству олимпийскую судью возможности порадоваться победе своей спортсменки после проведения соревнований. Вопрос заключается в том, насколько беспристрастным может оставаться судья, которому приходится оценивать спортсменов из своей страны наравне со спортсменами из других стран, в какой степени фактор единой национальной принадлежности судьи и спортсмена способен встать на пути беспристрастного судейства?
Для того, чтобы постараться ответить на данный вопрос, выделим две следующие гипотезы:
Судьи перед проведением соревнований проходят специальную подготовку, достаточную для того, чтобы гарантировать честное и беспристрастное судейство, выставляют оценки вне зависимости от личных целей, предпочтений и интересов.
Существующей подготовки судей недостаточно для того, чтобы гарантировать честное и беспристрастное судейство, и личные предпочтения некоторых судей в значительной мере влияют на итог соревнований.
Первая гипотеза является нулевой, поскольку изначально мы не сомневаемся в беспристрастности судейства и полагаем, что оценки даются абсолютно беспристрастно и независимо, вторая же - альтернативной, то есть свидетельствующей в пользу предвзятости некоторых судей. Для подтверждения одной из этих гипотез и, соответственно, опровержения другой, нам необходимо собрать опытные данные и применить к ним статистический анализ.
Сбор и подготовка данных
В качестве опытных данных выступают данные с сайта skatingscores.com, на котором собраны оценки со всех крупных соревнований по фигурному катанию за последние несколько лет. Все данные находятся в публичном доступе, и достоверность этих данных каждый может проверить самостоятельно. Стоит отметить, что для справедливости измерений взяты только международные соревнования в женском одиночном катании. Измерения проводятся только по результатам произвольной программы. Всего в исследовании принимают участие 209 судейских имён и 228 имён фигуристок.
Для каждого отдельного соревнования составим таблицу, в каждой строке которой находится имя судьи, принимавшего участие в крупных международных соревнованиях последних лет, в каждой колонке - имя фигуристки-участницы соревнования. На пересечении строки и столбца находится число - оценка, выставленная конкретным судьей конкретной фигуристке за произвольную программу на данном соревновании. В результате получается похожая таблица:
На первый взгляд ничего необычного - оценки как оценки, все приблизительно похожи. Для чёткого понимания разницы между оценками посчитаем среднее значение для каждой фигуристки (суммируем все оценки в столбце и разделим на количество судей) и вычтем это среднее значение из каждой поставленной судьями оценки. В результате получим следующую таблицу:
В каждой ячейке теперь находится разница между оценкой, поставленной каждым отдельным судьёй, и средней оценкой для всех судей. Сразу же бросается в глаза тот факт, что конкретный судья может быть не согласен с коллегами и может оценить выступление определённой спортсменки в сумме на несколько балов выше относительно её соперниц. Но справедливость критериев, по которым судьи оценивают выступления на международных соревнованиях, лежит далеко за пределами данного исследования, нет ничего плохого в том, что судья из Кореи Sung-Hee KOH посчитал выступление японской фигуристки более слабым, также, как и китайский судья Hailan JIANG выделил канадскую спортсменку среди остальных. Гораздо больший интерес для нашего исследования представляют первая и четвертая строчки таблицы:
Выделенные строчки говорят о том, что канадский судья Nicole LEBLANC-RICHARD поставил за произвольную программу значительно более высокую оценку канадской фигуристке Kaetlyn OSMOND, чем её соседкам по топ4, судья из России Elena FOMINA, наоборот, выделила выступления российских фигуристок и поставила сокрушительно низкую оценку их канадской сопернице. Говорит ли это о том, что судьи из стран с одними из крупнейших федерациями фигурного катания оценивают выступления предвзято или это же просто случайное совпадение? Для того, чтобы найти ответ на этот вопрос, перейдём непосредственно к статистическому анализу.
Первая реакция на такие оценки от судей очевидна, но не стоит сразу же брать в руки факел и вилы, единичного случая далеко не достаточно для того, чтобы делать какие-либо серьезные выводы!
Виртуозное применение статистических методов
Пришло время тяжёлой артилерии. И тёмной магии, работу которой я и сам не до конца понимаю.
Прежде чем оценивать достоверность какой-либо гипотезы, необходимо выяснить практическую значимость влияния этой гипотезы на результат. Применительно к нашему случаю, необходимо выяснить, влияет ли вообще предвзятость судей на результат, и если это влияние незначительно, то и незачем тогда напрасно беспокоиться. Для этого введём дополнительный критерий, который обозначим PD (от point differential, терминология взята из оригинальной статьи). Данный критерий отражает разницу между тем, как судья ставит более высокие оценки спортсменам из своей страны, и тем, как занижает оценки другим спортсменам. PD вычисляется по формуле PD = AVGhome - AVGnonhome, где AVGhome - это среднее значение всех оценок, поставленных судьёй своим спортсменам на всех доступных соревнованиях, относительно средней оценки спортсмена в каждом отдельном соревновании, AVGnonhome - среднее значение всех оценок, поставленных этим судьей другим спортсменам, также относительно средней оценки спортсмена в каждом отдельном соревновании. То есть, если на конкретном мероприятии канадский судья за произвольную программу поставил канадской фигуристке +6 относительно других судей, а на другом соревновании поставил +4, то его AVGhome будет равняться +5. Результаты вычислений представлены в следующей таблице:
Из данной таблицы мы видим, что разброс оценок между домашними и зарубежными спортсменами довольно велик. К примеру, средний разброс оценок у Steve WINKLER, американского судьи, принимавшего участие в судействе ГП16 и ЧМ18, составляет более 7-ми балов в пользу американских фигуристок. Из этого следует, что предполагаемая предвзятость судей на основании национальности спортсмена может оказывать значителное влияние на результат соревнований. Стоит отметить, что все судьи, представленные в таблице, были отобраны следующему по принципу: каждый из них на различных международных соревнованиях оценивал не менее 5-ти домашних фигуристок за всю свою судейскую историю.
Внимательный читатель вероятно сразу заметил последний столбец, и задаётся вопросом: что означает надпись pvalue? P-value - это вероятность при справедливости нулевой гипотезы получить значение статистики как в эксперименте или еще более экстримальное. Если выражаться простым языком, p-value показывает, к примеру, насколько вероятно событие, при котором американский судья поставит +7 американскому фигуристу при следующем судействе, учитывая, что национальный фактор никак не влияет на результат. Существуют различные способы вычисления данной вероятности при проверке статистических гипотез, в данной статье используется t-критерий Стьюдента (one-tailed t-test), который применяется для сравнения двух значительно различающихся друг от друга наборов данных. Подробнее про эти сложные термины можно почитать тут и тут. Если отсортировать наши данные по значению полученной вероятности, получим следующую таблицу:
Порог для p-value может варьироваться в зависимости от важности исследования и от количества доступных статистических данных, стандартные пороги, определяющие принятие статистического решения, следующие:
p < 0.01 - альтернативная гипотеза принимается, статистический вывод считается высоконадёжным;
0.01 <= p < 0.05 - альтернативная гипотеза, как правило, принимается, статистический вывод при этом признаётся надежным;
p > 0.1 - принимается нулевая гипотеза.
То есть, исходя из полученной статистики, 11 судей с большой вероятностью оценивают женское одиночное катание предвзято, 4 находятся в зоне риска, включая Елену Фомину, с именем которой мы уже сталкивались при сборе и подготовке опытных данных. Это судья, высоко оценившая выступления российских фигуристок Алины Загитовой и Евгении Медведевой на Олимпиаде 2018. Вы наверное спросите, а как же Кейтлин Осмонд? Почему не видно того самого канадского судью, который поставил Кейтлин +5.67? Всё дело в том, что, как уже говорилось ранее, каждый из вышеперечисленных судей оценивал выступления своих домашних фигуристок не менее 5-ти раз за всю историю своего судейства на международных соревнованиях. Канадский судья Nicole LEBLANC-RICHARD, по-видимому, специализируется на танцах и мужском катании, поэтому в выборку не попал. Если ограничивать количество домашних оценок до 3, то данный судья занимает в таблице почётное 2 место сразу после судьи из Японии со значениями PD=6.62 и p=0.000005. То есть 6.62 балов в пользу Кейтлин данный судья всё же успел накинуть, и с большой вероятностью, что он это сделал преднамеренно.
Выводы
Какие же выводы можно сделать, исходя из этой статистики? Хорошо ли, что каждый судья пытается вставить свои 5 копеек в пользу домашнего спортсмена на международных соревнованиях? Возможно ли абсолютно беспристрастное судейство в принципе? Существуют ли другие эффективные методы оптимизации судейства помимо регулярных дисквалификаций? К сожалению, даже при условии, что данная статистика достоверна, вышеперечисленные вопросы продолжают оставаться без ответа, по крайней мере для меня.
Данная статья написана любителем фигурного катания для таких же любителей. Любые замечания/критика по поводу достоверности полученных результатов приветствуются. Процесс сбора/обработки данных полностью автоматизирован, поэтому, если это кому-то интересно, аналогичные данные легко можно получить для мужского одиночного, парного катания, танцев на льду.
https://www.instagram.com/p/BkgD36Pj-dT/?utm_source=ig_share_sheet&igshid=y998329cqlp5
P.S. Спасибо за работу, было интересно почитать.
Изначально я отвечал на коммент SG63, чтобы немного защитить пост автора и сформулировать идею чуть короче. Про хардкор упомянул, потому что кажется, что 99 % читателей Спортса не настолько хорошо знакомы с t-критерием Стьюдента
Если не ошибаюсь, вся сложность поста именно в двух последних табличках,
24 подозреваемых судьи выбрались видимо из соображений, чтобы хотя бы 5 раз
пересечься со "своими" спортсменами за последние 3 сезона.
А 209 и 228 - это видимо все прочие судьи и фигуристы, которые пересекались с этими 24-мя
на рассмотренных турнирах хотя бы по разу. Если я все верно понял.
И последние две таблицы - это среднее арифметическое по пяти-шести "своим"
спортсменам (AVGHome), среднее арифметическое по 50-100
"несвоим" спортсменам (AVGnohome) и дальше просто разность между ними (PD)
Столбец pvalue - это для любителей хардкорного матстата. Я бы ограничился PD
Может быть автор меня поправит позже
Меня вообще ничего не волнует, не беспокоит.
- Андрей?
- Я не Андрей,
- Короче... бесишь меня!
- я - андроид, меня вообще сейчас накроет.
- Я не Андрей, я - андроид, я - андроид, я - андроид.
Я не Андрей.
В разумных пределах (а тут все разумное) эти вещи, как мне кажется, вполне естественные. Напоминаю, что и в GOE и в компонентах действует принцип усеченного среднего - когда отбрасывается максимальное и минимальное значение. Я уверен, что на деле этот принцип вполне купировал национальные предпочтения (но это надо считать)