31 июля 2018, 12:48 6 мин.

Судейские страсти

Автор

Зимой портал buzzfeed опубликовал исследование с анализом национальных пристрастий судей. В этой статье выполнен аналогичный анализ с учетом данных по соревнованиям, которые прошли с Финала Гран-При 2017 и отсутствовали в оригинальной статье. Таким образом этот расчет охватывает все основные соревнования взрослых спортсменов, которые проводились с сезона 2016/2017, когда ISU открыл данные о судьях. Это этапы Гран-при, Финалы Гран-при, Чемпионаты Европы, Четырех континентов, Мира и Олимпиада в Пхенчане.

Было обработано данных с судейскими оценками по 2447 выступлениям в женском, мужском одиночном фигурном катании, парах и танцах на льду, в их число включены прокаты с командных соревнований во время Олимпиады. Причем судьи 1,687 раз оценивали выступлений атлетов из своей страны и 20,328 из другой.

Пояснения по методике

Для определения разницы в оценивании своих и иностранных спортсменов считались отклонения оценки судьи от средней оценки остальных судей(без учета баллов, выставленных самим судьей). Далее отклонения нормируются относительно средних оценок судьи, чтобы выровнять количество баллов с учетом разного количества очков в произвольной и короткой программах и учесть случаи "щедрых" или "скупых" судей. Таким образом считались отклонения конкретной судейской оценки выступления от средних отклонений этого же судьи.

Поясню на примере. Пусть судья J1 по итогам выступления выставил 110.3 балла. Считаем среднюю оценки остальных 8 судей и находим разницу в -0.61. При этом судья J1 обычно выставляет оценки завышенные на 0.50 по сравнению с остальной панелью. Получается этот конкретный прокат он оценивал не только жестче других судей, но и самого себя. Таким образом нормированное отклонение - она же пристрастность - составит -1.11.

Средние показатели по всему судейскому корпусу

Разница оценок судьи для соотечественников с собственной средней оценкой: 3.121

Разница оценок судьи для иностранцев со своей средней оценкой: -0.259

Итоговая средняя разница между оценками по своим и чужим атлетам (Пристрастность): 3.4.

Таким образом средний судья обеспечивает своих соотечественников грибными оценками в 3.4 балла. Разница между множествами оценок своим и чужим статистически значима и ее случайность минимальна. Картинка для иллюстрации цифр показывает, что оценки для соотечественников смещены вправо относительно ноля, иностранцев оценивают беспристрастно.

Таблица национальной пристрастности судей по программам

Таблица пристрастности судей по странам

Китайцы берега потеряли, так что недавняя дисквалификация двоих их бойцов вполне по делу.

Хит-парад по судьям

Для определения оценочной вероятности предвзятости судьи была проведена симуляция, где разница оценок судьи соотечественникам сравнивается с предпочтениями, которые генерируются случайным образом путем смешивания всех его разниц от средней оценки по всем фигуристам, которых он судил. По каждому арбитру такая симуляция проводилась 1 миллион раз. Из полученных результатов были отобраны те судьи, по которым вероятность случайности выставления пристрастных оценок составляет меньше 1 из 100,000.

Хотя по каждому судье и проводился миллион случайных симуляций, тем не менее большего доверия заслуживают результаты с большим количеством судейства выступлений атлетов из своей страны.

Как ISU защищается от коррупции в своих рядах

У ISU есть протокол (ISU Communication 2098) выявления девиантного поведения судей. Рефери и члены Комиссии по оценке после каждого проката выполняют анализ на предмет выявления нарушителей и направляют отчеты в Технический комитет ISU. Технический комитет рассматривает отчеты, анализирует количество допущенных нарушений за сезон и принимает решение активировать ли процедуру оценки судьи.

Для GOE и компонентов рассчитываются очки отклонения:

a) Для каждого элемента(компонента) рассчитывается средняя оценка.

b) Затем находится разница между средней оценкой и выставленной судьей.

c) Абсолютные значения отклонений по всем элементам судьи в рамках одного выступления суммируются. По компонентам значения отклонений суммируются с учетом знака.

d) Сумма отклонений элементов не должна превышать общее количество выполненных элементов. Отклонение отдельного элемента должно находиться в диапазоне [-1.5, +1.5].

e) Сумма отклонений компонентов не должна превышать 7.5 балла. Отклонение отдельного компонента должно находиться в диапазоне [-1.5, +1.5].

Ниже приведены расчеты по их алгоритму. Очевидно, что алгоритм неэффективный, ограничивающий коридор слишком широк, и умные нарушители легко в него проскакивают. Смотрите сами.

Технические элементы

Из всех 22,015 комбинаций судья\выступление только в 50 (0.23%) были зафиксированы отклонения с превышением общего количества выполненных элементов. Из 1,687 выступлений, которые оценивались судьями-земляками, только 5 (0.30%) отмечены как девиантные.

Из 192,769 оцененных элементов, всего 1,801 (0.93%) выходили за рамки коридора [-1.5, +1.5]. Из них 14,902 элементов пришлись на атлетов и судей из одной страны и только 136 (0.91%) отклонились от нормы.

Если объединить оба критерия (общая сумма и коридор отклонений), то из 192,769 элементов, всего 2,102 (1.09%) будут отмечены или по первому, или второму признаку. Из тех 14,902 элементов, что пришлись на атлетов и судей из одной страны, 169 (1.13%), всего 2,102 (1.09%) нарушают первое или второе ограничение.

Компоненты

Из 22,015 комбинаций судья/программа, 6 штук (0.03%) превысили порог по сумме компонентов в 7.5 балла. В 1,687 выступлениях, которые выпали на долю земляков было 0 (0.00%) нарушений.

Всего оценивалось 110,075 компонентов, при этом только 175 (0.16%)признаны выходящими за рамки коридора [-1.5, +1.5]. Из 8,435 компонентов, которые оценивались судьей из одной страны со спортсменом, 2 (0.02%) компоненты выбились за пределы ограничения.

Пример выявления нарушений в судействе по методике ISU на Олимпиаде в Пхенчане

Количество нарушений по техническим элементам

Количество нарушений по компонентам

Судья из Финляндии Pekka LESKINEN 4 раза не впечатлился выступлениями мужчин-одиночников во время командных соревнований.

Выводы и решения Технического комитета и Комитета по оценке не публикуются, ISU также прекратило публикации о количестве дисциплинарных взысканий.

Послесловие

В статье buzzfeed утверждается, что по меньшей мере, трое нынешних и бывших должностных лица ISU заявили, что судьи иногда вступают в сговор, чтобы поднять оценки определенным странам и опустить другие. Тренеры и судьи частенько лоббируют - иногда тонко, а иногда и откровенно - фигуристов из своих стран. И в некоторых случаях, по их словам, оценки для конкретного фигуриста практически предопределены еще до выступления.

Тем не менее, на конгрессе ISU 2016 года решение о деанонимизации судейских протоколов было принято единогласно, а на конгрессе в Севилье в этом году вносились предложения по борьбе с национальными пристрастиями. Также по итогам Олимпиады были забанены китайские судьи Feng Huang и Weiguang Cheng. Судя по мотивировочной части решений об отстранении члены комиссии по оценке и Технического комитета не используют методику из ISU Communication 2098, предпочитая проводить дополнительный анализ протоколов.

По материалам статьи buzzfeed by John Templon, Rosalind Adams

ISU

судьи

29 комментариев

По дате

Лучшие

Актуальные

С диалогами

Eld

31 июля 2018, 18:24

Спасибо за работу, очень обьемно и познавательно. Кстати все знают чем закончился бан Китайских судей? - отказ от проведения мероприятий в Китае,щелчек по носу ИСУ и последовавшее за этим повышение по службе до тех контроллеров вышеупомянутых китайцев. Так что думаю теперь страсти разыграются еще бурнее и безнаказанно.

chuanhua

1 августа 2018, 09:40

Ответ Eld

Откуда вам известно, что причинно-следственная связь именно такая: бан ---> отказ Китая от соревнований ----> щелчок по носу ИСУ ---> повышение по службе забаненных до техконтролеров? Всё, что вы перечислили, это всего лишь разные события, произошедшие по времени близко друг к другу. Вы располагаете инсайдом или какой-то другой достоверной информацией? Если - да, то прошу дать ссылку.

1 августа 2018, 11:01

Ответ chuanhua

Весь инсайд это логика и умение сложить 2+2 . хронология событий, тайминг. Тех контроллерами стали через 3 недели после отказа Китая принимать соревнования. Отказ Китая- через неделю после отстранения.

akondrashev

31 июля 2018, 17:23

Интересная и объёмная работа. Так же относительно недавно пытался писать в блог, где тоже считал национальную предвзятость, но только по произвольным женским одиночным выступлениям и в качестве критерия оценки предвзятости вместо перестановочного теста использовал t-test. Спасибо ISU за то, что в 2016 году убрали анонимность в судействе, и теперь каждый желающий может самостоятельно посчитать и оценить добропорядочность каждого судьи в отдельности.

Предвзятость очевидно есть, и это только самая очевидная - национальная в пользу домашних спортсменов. Может быть, когда каждый из судей тянет одеяло на себя, то в результате оно остаётся примерно на середине кровати. Но что делать странам, у которых представительство в ISU слабее? И Это не отменяет сговоры, объединения судей в коалиции, топление какой-нибудь одной страны по политическим/финансовым причинам.

Текущая система, которой пользуется сама ISU проверки судей неидеальна, но, как мне кажется, с усовершенствованием системы проверок неизбежно будут усовершенствоваться и методы обхода этой системы. Есть один выход: полная отмена судейской панели, и предоставление всего процесса выставления оценок, по крайней мере по технической части исполнения прыжков, в «руки» роботов, которые будут оценивать выступления спортсменов на основе заданных алгоритмов. Но остаётся ещё компонентная часть, к тому же роботов программируют те же люди. Да и если начать расчеловечивать систему оценок, то останется ли интерес к такому спорту?

31 июля 2018, 18:09

Ответ akondrashev

Судьи - обычные люди, вряд ли они по своему желанию хотят играть в темные игры. Нужно просто минимизировать зависимость судейского корпуса от федераций или даже создать институт профессиональных судей на зарплате, если ISU потянет по деньгам. А сейчас они просто солдаты Федераций - их кандидатуры выдвигаются от национальных федераций, многие совмещают посты в них.

На главные старты имеют шанс попасть только самые лояльные. На той же Олимпиаде концентрация демонстрирующих пристрастность судей была выше средней. Видимо, поехали "заряженные" люди добывать результат любой ценой, как это сделала китайская судья.

Gast

31 июля 2018, 18:33

Очень любопытная информация. Спасибо! Тут уже писали о возможном судейском сговоре. При этом судья, чьи оценки сильно отклоняются от средней оценки, может просто голосовать не так, как все (договорившиеся). Такой вариант тоже исключать нельзя. Кстати, Пекка Лескинен -это мужчина. Был очень неплохим фигуристом, входил в десятку на ЧМ.

31 июля 2018, 18:45

Ответ Gast

Спасибо, поправил. Да, сговоры никак не учесть отдельно, но они все-же должны иметь место очень редко, итоговое влияние должно быть минимальным. Понятно, что на конкретном старте может быть разное - вплоть до сговора или судья может просто иметь оригинальное видение, хорошо знать фигуриста и его сильные стороны и т.д. Но если взять все оценки судьи из хит-парада по всем его прокатам, то вероятность случайности его пристрастности стремится к 1 из 100,000.

31 июля 2018, 18:57

Ответ Nilf

Думаю, о компонентах судьи договариваются заранее. Иначе зачем они ходят на тренировки? И почему у первого номера сборной обычно компоненты выше независимо от реального проката? Про танцы я вообще молчу. Там традиция тихой очереди не вполне изжита и авторитет тренера и постановщика еще более значим, чем в других видах. Выбивающиеся из общей картины любопытны, но вряд ли они обеспечивают нужных людей грибами. Тут необходимы иные усилия.