6 мин.

Судейские страсти

 Зимой портал buzzfeed опубликовал исследование с анализом национальных пристрастий судей. В этой статье выполнен аналогичный анализ с учетом данных по соревнованиям, которые прошли с Финала Гран-При 2017 и отсутствовали в оригинальной статье. Таким образом этот расчет охватывает все основные соревнования взрослых спортсменов, которые проводились с сезона 2016/2017, когда ISU открыл данные о судьях. Это этапы Гран-при, Финалы Гран-при, Чемпионаты Европы, Четырех континентов, Мира и Олимпиада в Пхенчане.

Было обработано данных с судейскими оценками по 2447 выступлениям в женском, мужском одиночном фигурном катании, парах и танцах на льду, в их число включены прокаты с командных соревнований во время Олимпиады. Причем судьи 1,687 раз оценивали выступлений атлетов из своей страны и 20,328 из другой.  

Пояснения по методике  

Для определения разницы в оценивании своих и иностранных спортсменов считались отклонения оценки судьи от  средней оценки остальных судей(без учета баллов, выставленных самим судьей). Далее отклонения нормируются относительно средних оценок судьи, чтобы выровнять количество баллов с учетом разного количества очков в произвольной и короткой  программах и учесть случаи "щедрых" или  "скупых" судей. Таким образом считались отклонения конкретной судейской оценки выступления от средних отклонений этого же судьи.  

Поясню на примере. Пусть судья J1  по итогам выступления выставил 110.3 балла. Считаем среднюю оценки остальных 8 судей и находим разницу в -0.61. При этом судья J1  обычно выставляет оценки завышенные на 0.50 по сравнению с остальной панелью. Получается этот конкретный прокат он оценивал не только жестче других судей, но и самого себя. Таким образом нормированное отклонение - она же пристрастность - составит -1.11.

howto

 

 Средние показатели по всему судейскому корпусу 

Разница оценок судьи для соотечественников с собственной средней оценкой: 3.121

Разница оценок судьи для иностранцев со своей средней оценкой: -0.259

Итоговая средняя разница между оценками по своим и чужим атлетам (Пристрастность): 3.4.  

Таким образом средний судья обеспечивает своих соотечественников грибными оценками в 3.4 балла. Разница между множествами оценок своим и чужим статистически значима и ее случайность минимальна. Картинка для иллюстрации цифр показывает, что оценки для соотечественников смещены вправо относительно ноля, иностранцев оценивают беспристрастно.

biasfreq

 Таблица национальной пристрастности судей по программам

progbias

Таблица пристрастности судей по странам

nationbias

 Китайцы берега потеряли, так что недавняя дисквалификация двоих их бойцов вполне по делу.

 Хит-парад по судьям  

Для определения оценочной вероятности предвзятости судьи была проведена симуляция, где разница оценок судьи соотечественникам сравнивается с предпочтениями, которые генерируются случайным образом путем смешивания всех его разниц от средней оценки по всем фигуристам, которых он судил. По каждому арбитру такая симуляция проводилась 1 миллион раз. Из полученных результатов были отобраны те судьи,  по которым вероятность случайности выставления пристрастных оценок составляет меньше 1 из 100,000. 

Хотя по каждому судье и проводился миллион случайных симуляций, тем не менее большего доверия заслуживают результаты с большим количеством судейства выступлений атлетов из своей страны. 

bestjudges

 Как ISU защищается от коррупции в своих рядах 

У ISU есть протокол (ISU Communication 2098) выявления девиантного поведения судей. Рефери и члены Комиссии по оценке после каждого проката выполняют анализ на предмет выявления нарушителей и направляют отчеты в Технический комитет ISU. Технический комитет рассматривает отчеты, анализирует количество допущенных нарушений за сезон и принимает решение активировать ли процедуру оценки судьи. 

Для GOE и компонентов рассчитываются очки отклонения: 

a)  Для каждого элемента(компонента) рассчитывается средняя оценка.

b)  Затем находится разница между средней оценкой и выставленной судьей. 

c) Абсолютные значения отклонений по всем элементам судьи в рамках одного выступления суммируются. По компонентам значения отклонений суммируются с учетом знака. 

d) Сумма отклонений элементов не должна превышать общее количество выполненных элементов. Отклонение отдельного элемента должно находиться в диапазоне [-1.5, +1.5]. 

e) Сумма отклонений компонентов не должна превышать 7.5 балла. Отклонение отдельного компонента должно находиться в диапазоне [-1.5, +1.5]. 

Ниже приведены расчеты по их алгоритму. Очевидно, что алгоритм неэффективный, ограничивающий коридор слишком широк, и умные нарушители легко в него проскакивают. Смотрите сами. 

Технические элементы 

Из всех  22,015 комбинаций судья\выступление только в 50 (0.23%) были зафиксированы отклонения с превышением общего количества выполненных элементов. Из 1,687 выступлений, которые оценивались судьями-земляками, только 5 (0.30%) отмечены как девиантные.   

Из 192,769 оцененных элементов, всего 1,801 (0.93%) выходили за рамки коридора [-1.5, +1.5]. Из них 14,902 элементов пришлись на атлетов и судей из одной страны и только 136 (0.91%) отклонились от нормы. 

Если объединить оба критерия (общая сумма и коридор отклонений), то из 192,769 элементов, всего 2,102 (1.09%) будут отмечены или по первому, или второму признаку. Из тех 14,902 элементов, что пришлись на атлетов и судей из одной страны, 169 (1.13%), всего 2,102 (1.09%) нарушают первое или второе ограничение. 

Компоненты 

Из 22,015 комбинаций судья/программа, 6 штук (0.03%) превысили порог по сумме компонентов в 7.5 балла.  В 1,687 выступлениях, которые выпали на долю земляков было 0 (0.00%) нарушений. 

Всего оценивалось 110,075 компонентов, при этом только 175 (0.16%)признаны выходящими за рамки коридора  [-1.5, +1.5]. Из 8,435 компонентов, которые оценивались судьей из одной страны со спортсменом, 2 (0.02%) компоненты выбились за пределы ограничения. 

Пример выявления нарушений в судействе по методике ISU на Олимпиаде в Пхенчане

 Количество нарушений по техническим элементам

owgparty

 Количество нарушений по компонентам

Судья из Финляндии Pekka LESKINEN  4 раза не впечатлился выступлениями мужчин-одиночников во время командных соревнований.

Выводы и решения Технического комитета и Комитета по оценке не публикуются, ISU также прекратило публикации о количестве дисциплинарных взысканий.

Послесловие

В статье buzzfeed утверждается, что по меньшей мере, трое нынешних и бывших должностных лица ISU заявили, что судьи иногда вступают в сговор, чтобы поднять оценки определенным странам и опустить другие. Тренеры и судьи частенько лоббируют - иногда тонко, а иногда и откровенно - фигуристов из своих стран. И в некоторых случаях, по их словам, оценки для конкретного фигуриста практически предопределены еще до выступления. 

 Тем не менее, на конгрессе ISU 2016 года решение о деанонимизации судейских протоколов было принято единогласно, а на конгрессе в Севилье в этом году вносились предложения по борьбе с национальными пристрастиями. Также по итогам Олимпиады были забанены китайские судьи Feng Huang и Weiguang Cheng. Судя по мотивировочной части решений об отстранении члены комиссии по оценке и Технического комитета не используют методику из ISU Communication 2098, предпочитая проводить дополнительный анализ протоколов.

По материалам статьи  buzzfeed by John Templon,  Rosalind Adams