Итоги JGP2018 Часть 2: национальная предвзятость
Этот блог родился летом на почве процесса ISU против Чена, в ходе которого китайский судья был обвинён и в последствии призван виновным в национальной предвзятости в пользу китайского фигуриста Дзиня Бояна на Олимпийских играх в Пхенчхане. Первый пост в блоге представляет собой грубую и довольно наивную кальку работы пользователя англоязычного форума Goldenskate, которая была посвящена выявлению национальной предвзятости при помощи современных статистических методов. Особого рвения в уличении кого-либо в чём-либо не было, главным мотивирующим фактором была любовь к подсчётам и программированию. Со временем на почве изменения правил в судействе возник интерес, а в процессе наблюдения за юниорским Гран-при появились кое-какие собственные мысли на этот счёт. Если тогда применение статистики к протоколам мне показалась довольно оригинальной и прогрессивной практикой выявления и предотвращения судейской ангажированности, то сейчас я отношусь к подобной практике довольно скептически.
Почему? Постараюсь ответить на этот вопрос, пользуясь данными с этапов Гран-при среди юниоров 2018 и инструментами, которые были созданы за время существования данного блога. Точнее одним инструментом, который уже появлялся в посте Любимчики и любимицы этапа Гран-при в Канаде. Суть данного инструмента показана в следующей таблице:
В данной таблице показано распределение баллов каждого судьи между спортсменами: столбец нелюбимчиков показывает, кому данный судья поставил меньше всего баллов GOE за программу, столбец любимчиков - кому больше. Не стоит обманываться относительно низкими числами в столбце "Счёт". Число 1.02 означает, что данный судья в среднем оценил каждый элемент в программе на 1 балл выше своих коллег, то есть для произвольной программы разница будет 11 баллов GOE в пользу спортсмена (11 раз судья простил/поставил недочёт, за который его коллеги снизили/повысили оценку).
Каждая строчка данной таблицы содержит только минимальное и максимальное значение, полное распределение предпочтений касательно спортсменов можно увидеть на графике:
Из графика видно, что судья из Канады (CAN) предпочёл корейского фигуриста (KOR) другим спортсменам (в среднем оценив каждый элемент на 0.29 балла выше, чем коллеги), оценка спортсменов из России (RUS), Канады (CAN) и Франции (FRA) совпала со средней оценкой коллег, и оценка спортсмена из Гонконга в среднем на -0.87 балла ниже.
Судейская предвзятость
Фигурное катание, на мой взгляд, является одним из самых красивых видов спорта, в котором идеально сочетаются спорт и искусство. Более того, благодаря стараниям некоторых хореографов, искусство начинает сильно доминировать над строгой и однообразной спортивной составляющей, а дни, на которые выпадают прокаты наших любимых спортсменов, и вовсе становятся праздничными. С появлением современного HD-телевидения всё стало совсем хорошо: когда на лёд выходит любимый спортсмен, дыхание замирает, когда его лицо попадает в крупный план, начинаешь тонуть в этих бездонных глазах, мозг медленно отключается, мгновенно пропадает всякое желание считать обороты, смотреть на рёбра, ловишь себя на мысли, что все эти 4 минуты следил за движениями рук, за тем, как переливаются камни на костюмчике, а в конце выступления и вовсе проваливаешься в бездну его приоткрытых уст, навсегда влюбившись в этот великолепный вид спорта.
Помимо харизмы фигуриста, одним из факторов, заставляющих зрителя почувствовать тепло внутри, является флаг, под которым данный спортсмен выходит. В зависимости от отношения зрителя к Родине возникает эффект участия и сопереживания, волей-неволей большей части зрителей приходится болеть за "своего" спортсмена. Я подозреваю, что национальные федерации спорта зачастую не берут в свои ряды непатриотов, поэтому данное чувство гипотетически должно возникать и у судей. Вероятно по этой причине многие графики сравнения оценок выглядят примерно так же, как выглядит график оценок венгерского судьи на женских произвольных в Чехии:
Или венгерского судьи в Словении:
Или латвийского судьи на мужских произвольных в Армении:
Полюбуйтесь на отрыв французского судьи в пользу своего спортсмена в Канаде:
Судье из США за оценку выступления своего спортсмена в Чехии я бы поставил +5 GOE:
Подобных картинок можно наделать много, а еще проще статистически подсчитать разницу и устроить показательную порку для самого наглого, как это было летом. Но не всё так просто, как кажется на первый взгляд.
Сложности в оценке
На Спортсе существует ряд блогов, посвященных цифрам и статистике, и это неудивительно - обилие цифр в протоколах даёт где развернуться любителям математики. Предвзятость судей наряду с личными рекордами - одни из самых благодатных тем для размышлений. К сожалению, некоторые авторы оценивают предвзятость только в плане положительного баланса, тогда как кроме оказания помощи своим спортсменам предвзятость также может выражаться в причинении вреда конкурентам.
В качестве примера можно взять судью из Латвии на женских коротких в Литве. Как мы видим из следующего графика, несмотря на то, что спортсмен из Латвии находится в крайнем правом ряду (в плюсе), разница со средней оценкой (0.0) несущественная - приблизительно в районе +0.1 GOE. Пример интересен тем, что судья из Латвии большинство выступлений остальных спортсменов оценил резко негативно, разница со средней оценкой конкурентов достигает -1 GOE за каждый элемент.
Интересную картину можно наблюдать в оценках судьи из Кореи на женских произвольных в Канаде. Спортсмен из Кореи получил максимально большое количество плюсов, но интересно не это. В крайнем левом ряду, в ряду минусов, стоят главные конкуренты корейских спортсменов: две россиянки, по результатам короткой программы занимавшие 1 и 2 места, и фигуристка из США, занимавшая 5 место. Как догадливые любители фигурного катания могли понять, фигуристки из Кореи по результатам КП занимали на тот момент 3 и 4 место.
В похожей активности можно заподозрить судью из США на мужских произвольных в Канаде (американец находится в плюсе, а японец, канадец, русский и француз, главные конкуренты американского спортсмена, - в минусе):
И российского судью на мужских произвольных в Словении (американец, японец и израильтянин - главные конкуренты):
Как мы видим, важна не только разница в плюсах и минусах, но также важно учитывать, в отношении кого эта разница применяется.
Расследование уровня Шерлок Холмс
Воспрепятствовать выявлению нарушителей при помощи статистики могут и совсем хитрые уловки. Одну из таких уловок я для себя называл "теорией фаворитов". На эту теорию меня подтолкнул этап Гран-При юниоров в Ричмонде, Канада. Как мы можем наблюдать, в Ричмонде судья из России поставил двум российским спортсменкам сразу минимальную и максимальную оценку.
Распределение оценок видно на графике:
Думаю, многие со мной согласятся, что Аня Щербакова является в этой паре фаворитом. Не могу судить, преднамеренно это было сделано или нет, но на этом случае статистика национальной предвзятости ломается: и фавориту, представляющему страну, помогли, и количество очков в пользу спортсменов из родной страны стремится к нулю, то есть крупные федерации могут себе позволить возить на соревнования нескольких спортсменов, скрывая национальную предвзятость путём грибования фаворитов, списывая разницу на аутсайдеров. Зачем это было делать, если спортсменки из России и так самые сильные? Как раз на этом этапе Аня Щербакова ошиблась в короткой программе, упав с каскада, тем самым сократив безоговорочный отрыв от конкуренток, что соответственно уменьшило её шансы на золото.
Пришло время объяснить некоторые дополнительные обозначения на графиках. Особенно внимательные любители фигурного катания скорее всего заметили, что на графиках некоторые аббревиатуры, обозначающие спортсменов, сопровождаются знаком "минус". Минусами обозначены все спортсмены, представляющие страну на данном этапе, при этом не являющиеся фаворитами в программе. Фаворитом является спортсмен, который занял по итогам прокатов самое высокое место за своё выступление в короткой или произвольной программе из всех спортсменов, представляющих данную страну.
Данная стратегия может работать и в другую сторону: судьи могут благосклонно оценивать спортсменов из других стран, которые по предварительной оценке не представляют угрозы, и одновременно с этим топить лидеров, тем самым повышая шансы своим участникам.
Влияние "теории фаворитов" на результат чётко видно, если из таблицы участников удалить всех лишних спортсменов и оставить от каждой страны по одному лидеру.
Статистика со всеми участниками:
Статистика с учётом одних лидеров:
Как мы видим из следующей таблицы, разница между своими и чужими после удаления спортсменов-аутсайдеров у большинства судей увеличивается, у некоторых значительно:
Расследование уровня Детектив Коломбо
Если предумышленно негативные оценки - это небольшая проблема, "теория фаворитов" - крупнее, то вмешательство в судейский процесс третьих стран, заинтересованных в продвижении тех или иных спортсменов только косвенно, практически полностью сводят всю статистику на нет, потому что оценить аффилированность таких судей очень сложно, если вообще возможно.
Взять, к примеру, судью из Италии на мужских произвольных в Литве: кажется, что данный судья неровно дышит к российскому флагу, но, если приглядеться, то окажется, что российским спортсменом справа является Кирилл Яковлев, который потерял в произвольной вращение. Главную конкуренцию американцу Эндрю Торгашеву, получившего в произвольной два падения и два неясных ребра, за первое место в произвольной программе составлял Егор Мурашев, которого судья из Италии оценил строже всех, что видно на графике ниже (всё та же "теория фаворитов", только в обратную сторону).
Что повлияло на такое разное отношение к спортсменам именно из одной страны? Как интерпретировать такое поведение? Совпадение? Или закономерность?
Выводы
Даже несмотря на то, что возможно половина вышепреведённой интерпретации чисел является авторскими домыслами, сложность и субъективность судейской системы в фигурном катании остаётся фактом.
Понятно, что количество кресел на судейской панели призвано нивелировать национальную предвзятость каждого отдельного судьи, а особо наглым можно устроить и показательную порку с дисквалификацией на несколько лет, как это было с китайским судьёй этим летом, но постоянная борьба в судейских креслах по перетягиванию одеяла на себя ведётся уж точно не в пользу слабых стран (у крупных федераций больше шансов иметь возможность чаще присутствовать в жюри, выше уровень квалификации судей). Возможно эта проблема отчасти решается тем, что помимо своего влияния крупные федерации могут себе позволить экспортировать сильных спортсменов, которые будут соревноваться в топе, и до остальных никому просто не будет дела, все в спорте об этом знают, всех всё устраивает.
В любом случае, человеческий фактор является большой проблемой в этом виде спорта. В какой-то момент ISU должны определиться: или фигурное катание - это спорт, или фигурное катание - это шоу. В первом случае давайте нам объективное судейство, во втором - убирайте панель судей, и каждое выступление будут оценивать зрители громкостью своих аплодисментов. Или в ходе эволюции фигурного катания судейскую панель должны будут неизбежно заменить роботы?
TL;DR: из всех этих картинок автор делает вывод, что создание эффективной статистической системы выявления ангажированности судей, по крайней мере простой и прозрачной, не представляется возможным - с разработкой новых алгоритмов судьи вполне возможно будут находить новые способы обхода системы.
В следующей статье: топ-5 музыкальных переходов между звуковыми дорожками в программах постановщика Даниила Глейхенгауза или "Использование приёмов НЛП в современном фигурном катании". (нет)