Команда из России придумала метрику оценки вратарей. И презентовала ее топовым аналитикам в Лондоне
От редакции: вы в блоге Кирилла Серых, который работает аналитиком Немецкой футбольной лиги, а здесь делится впечатлениями и открытиями. Подписывайтесь, пишите комментарии и ставьте плюсы, чтобы фактурных и интересных постов было еще больше.
Лондонская конференция компании Statsbomb – одно из главных событий года в мире футбольной аналитики. Люди из клубов, медиа и аналитических компаний обмениваются опытом и делятся прорывными технологиями. Несмотря на то, что там выступают ведущие специалисты топ-клубов, послушать презентации может любой желающий – достаточно купить билет и приехать в начале октября на «Стэмфорд Бридж». В 2019-м я посетил конференцию простым слушателем – заранее сделал визу в Англию, купил билеты, снял жилье на пару дней около стадиона «Челси» и полетел узнавать последние разработки индустрии, а также заводить знакомства. Почитать о докладах прошлогодней конференции и моем общении с главой дата-отдела «Ливерпуля» Ианом Грэмом можно в этом посте, а сейчас расскажу, как я попал на эту конференцию уже докладчиком.
Короткое отступление на два абзаца.
Чуть меньше года я работаю аналитиком данных (data-scientist) в Sportec Solutions (одна из дочерних компаний DFL – Немецкой футбольной лиги, включающей 1 и 2 Бундеслиги). Моя задача: аналитические отчеты для самой лиги, ее 36 команд и немецких сборных, а также разработка и внедрение продвинутых статистик для более широкого зрителя. Если смотрели матчи Бундеслиг, то точно видели плашку Bundesliga Match Facts – 6 статистик (xG, прессинг, профиль передач игрока, скорость игроков, зоны атаки и средние тактические позиции), которые я вместе с коллегами разрабатываю, внедряю и обслуживаю. Их изменения можно смотреть в режиме реального времени на сайте Бундеслиги и в официальном приложении прямо во время матча.
Инфографика для одного из новых показателей – профиля передач.
Вид в приложении Бундеслиги.
На эту работу я попал, победив в соревновании аналитиков, которое организовали DFB (Немецкая федерация футбола), DFL и «Айнтрахт». Наш прототип новой вратарской метрики признали лучшим среди остальных. Из-за большой загрузки я не успевал доработать идею до финального продукта, и конференция Статсбомба дала возможность продолжить исследование, а также привлечь к нему двух очень талантливых ребят из России.
Сама конференция состоит из двух площадок. Первая – более прикладная, ориентирована на людей со спортивным прошлым и сотрудников медиа, там делятся опытом главы аналитических отделов и топ-менеджеры больших клубов. В этом году выступали главы аналитических отделов «Ливерпуля», «Аякса», «Лестера» и «Торонто», а также спортивные директора «Лиона», «Лидса», «Лос-Анджелеса» и «Барнсли».
Расписание конференции. Наш доклад – справа посередине.
Вторая площадка ориентирована на исследователей футбольных данных. Попасть спикером в нее может любой желающий, достаточно лишь придумать крутую идею для исследования и убедительно ее описать. Если идея понравится аналитикам Статсбомба, то они бесплатно дадут свои данные для исследования и презентации. Особенность этого года – новый уникальный тип данных StatsBomb 360. Подробнее можно почитать в этом обзоре, но если вкратце – это нечто среднее между event-данными (данные каждого события, происходящего на поле, например, удара, паса, отбора) и трекинг-данными (координаты игроков и мяча, передаваемые с частотой от 10 до 50 кадров в секунду). То есть StatsBomb 360 – это расширенные event-данные, показывающие не только место, где игрок совершил действие (например, обводку), но и где в этот момент находились его партнеры и соперники, попавшие в кадр камеры. Таким образом, аналитик получает больше контекста.
Почему эти данные так важны? Получить трекинговые данные по любому матчу очень сложно – нужно либо иметь специальное оборудование (камеры, микроволновые или GPS-датчики). И если в топ-5 лигах эти данные собираются более-менее централизованно и даже обязательно (у нас в Бундеслиге их собирает компания ChyronHego, устанавливая по 20 камер на каждом стадионе), то получить их в лигах уровня ниже уже гораздо сложнее. Event-данные собираются разными провайдерами уже давно (Opta, Wyscout, StatsBomb, Instat), но дают недостаточный уровень детализации – события на поле не так уж часты, а большие промежутки между ними упускают огромную часть контекста. Поэтому учет позиций всех игроков для каждого из событий и более широкий набор этих событий дает некое промежуточное решение, добавляющее больше информации для анализа большего количества лиг.
Собрать команду через телеграм-канал и поехать в Лондон
За 4 месяца до конференции через свой телеграм-канал я начал собирать команду для доработки и презентации идеи. К моему удивлению, откликнулось очень много людей, среди них были Самер Фатайри и Егор Гумин. По иронии судьбы они тоже связаны с Берлином, где я сейчас живу. Самер возглавлял отдел Data Science в берлинском стартапе Adjust, а сейчас работает с некоторыми европейскими клубами консультантом по data science. Егор – ведущий разработчик в немецком необанке Vivid, основанном выходцами из «Тинькофф банка», а также создатель xglab.pro – платформы продвинутой статистики для футбольных клубов. Кстати, Егор сейчас проводит тестирование своей платформы, записаться и посмотреть ее можно здесь.
Мы сформулировали идею и отправили ее на рассмотрение в конце июля, а в начале августа получили от Статсбомба положительный ответ и данные для исследования – по 250 матчей Бундеслиги и Ла Лиги сезона-2020/21.
Видео с презентацией идеи можно посмотреть здесь, а текстовое описание на русском языке - следом по тексту.
В чем суть нашей метрики для вратарей
Там мы развили мою давнюю идею – объективная метрика для оценки вратарей. Можно выделить три основных компонента игры голкиперов.
• Игра полевым игроком – участие в билдапе, сопротивление прессингу и тому подобное.
• Игра на высоких мячах (навесы, угловые).
• Шот-стоппинг – навык отражения ударов, зависящий от позиции вратаря, его реакции, техники сэйвов.
Первый компонент уже достаточно глубоко исследован с помощью большого количества метрик. Игру на высоких мячах оценить сложнее, так как она требует очень точного измерения антропометрии игрока, так называемой третьей координаты, позволяющей оценивать игрока не как точку на прямоугольном поле, а как объемный объект. Здесь уже важно знать, например, высоту прыжка вратаря и полевых игроков, положение мяча в воздухе, технику сэйва. Компании пока не могут качественно собирать эти данные. Поэтому мы остановились на третьей компоненте – шот-стоппинге. А точнее, на позиционировании вратаря.
Чтобы оценить, насколько хорошо вратарь выбрал позицию, мы пытались ответить на четыре ключевых (по нашему мнению) вопроса.
Вопрос 1: Куда вообще мог пойти вратарь?
Используя данные StatsBomb 360, мы смотрели время между двумя последовательными событиями (напомню, что это event-данные и они не показывают непрерывное изменение координат всех игроков) и смоделировали 8 направлений вратаря, куда он мог бы переместиться. Поскольку вратарь не знает, в какой именно момент нападающий будет бить, мы рассматривали все события в финальной трети, где есть координаты вратаря. Даже если удара не было, мы проверяли, был ли вратарь готов, если бы следующим действием последовал удар вместо, например, передачи или отбора.
Красные точки вокруг вратаря (синяя точка) – возможные направления его движения, крупная серая точка – бьющий.
Вопрос 2: Когда атакующий игрок решает бить?
Так как вратарь не знает точного момента удара, мы предположили, что удар может быть нанесен в любой момент владения мячом противоположной команды внутри финальной трети (мы не брали совсем уж дальние удары, хотя, конечно, они тоже вероятны).
Вопрос 3: Куда бьет нападающий?
Вратарь изначально не знает ответа на этот вопрос. Поэтому мы упрощенно предположили (только из-за нехватки времени и вычислительных мощностей), что удар может быть нанесен в одну из 6 зон на рисунке ниже.
Вопрос 4: Как учесть вероятность блокировки удара?
Для этого мы построили отдельную блок-модель, учитывающую траекторию полета мяча в одну из 6 вышеупомянутых точек, а также положения защитников.
В итоге мы считали вероятность гола как: (1 – вероятность блока) * (1 – вероятность сэйва)
Вероятность сэйва мы высчитывали с помощью моей доработанной модели. В ней мы учитывали различные факторы – расстояние от вратаря до мяча, позицию бьющего, прессинг на вратаря и на бьющего и так далее. А также отдельно симулировали, как прыгает вратарь и какие зоны поля и ворот он может покрыть прыжком.
Теперь, имея вероятности гола для каждого из возможных ударов в каждую из 6 зон, мы берем самую большую вероятность гола как самый опасный из сценариев для вратаря и моделируем возможные перемещения вратаря именно для этого сценария.
Еще раз суммируем, если вы потерялись.
• Мы берем все события атак. Оставляем только те, которые произошли в финальной трети. Из них берем только те, где известно предыдущее положение вратаря. Для таких событий мы проверяем, что было бы, если бы игрок атаки решил пробить из точки, где он находится (в реальности он мог как пробить, так и отдать пас или пойти в обводку).
• Удар может быть нанесен в одну из 6 точек ворот.
• Для каждой из точек ворот мы считаем вероятность блокировки удара, если атакующий игрок решает бить.
• Затем считаем вероятность гола по формуле PGoal = (1 -PBlock) * (1 – PSave), учитывая реальную позицию вратаря в тот момент и берем максимальную вероятность гола в этом случае как самый худший вариант для вратаря.
• Затем симулируем 8 возможных направлений движения вратаря и выбираем то, которое дает наименьшую вероятность гола.
• Потом сравниваем вероятность гола для реальной позиции вратаря с симулированной – если она больше, значит, вратарь принял плохое решение, если меньше – то хорошее.
• Чтобы оценить навык позиционирования вратаря, мы складываем все эти разницы вероятностей и делим на количество ударов в течение сезона.
Результаты: ни один из вратарей на протяжении сезона в среднем не принимал решения лучше, чем наша модель. Получились следующие топы по Бундеслиге и Ла Лиге (цифры означают, что вратарь в среднем принимал решения, увеличивающие вероятность гола на х%).
Бундеслига:
Мануэль Нойер («Бавария»): 0.82%
Петр Гулачи (РБ «Лейпциг»): 0.86%
Тимо Хорн («Кельн»): 1.22%
Ла Лига:
Давид Сория («Хетафе»): 0.81%
Ян Облак («Атлетико»): 1.2%
Херемиас Ледесма («Кадис»): 1.5%
Конечно же, мы многого не учли – например, вероятность того, что удар пойдет не в створ или что вратарь смещается назад все же медленнее, чем вперед, и много других важных факторов. Но как мы, так и менторы Статсбомба решили, что для полуторамесячного исследования, совмещенного с полноценной работой, этого будет более, чем достаточно.
Зато мы продумали, как этим исследованием могут пользоваться клубы – сделали прототип программы, позволяющей выбирать любой момент матча с одного из двух ракурсов (либо панорамный вид, где видны все игроки, либо тактический вид – вид сверху, оба этих видео даются всем клубам Бундеслиг в течение 12 часов после каждого матча) и показывающей вероятность гола. Также программа позволяет передвигать вратаря и смотреть, как изменилась бы вероятность гола, если бы он занял другую позицию.
Впечатления от поездки и несколько советов тем, кто хочет заниматься аналитикой футбольных данных
С этим исследованием мы и поехали в Лондон. Но, конечно же, не все пошло гладко. Нам нужно было быть в Англии 7 октября, а положительный ответ об отборе получили в начале августа. На сбор документов для визы и ожидания свободного времени для приема в визовом центре ушли еще пара недель, и 30 августа я первым из нас троих подался на визу в Берлине. В итоге я был единственным, кто не получил визу, причем даже не из-за отказа, а из-за того, что заявление просто где-то застряло. Из-за ковида и начала учебного года в университетах объем работы визовых центров увеличился, поэтому мне просто не повезло. Но повезло ребятам – Самер успел приехать ровно в последний возможный день, когда обязательный карантин еще не выпадал на день конференции (получил визу утром и днем уже летел в Лондон), а Егор получил визу самым первым, прилетев за 10 дней до даты конференции. Так что ребята в итоге выступали вдвоем, а я остался в Берлине. Они и расскажут об основных эмоциях от нашего доклада и посещенной конференции.
Самер Фатайри
Эта конференция была, кажется, лучшей иллюстрацией фразы «будущее наступило, но наступило неравномерно». На одной сцене исследователи показывают свои байесовские методы для определения моделей билдапа клубов Ла Лиги, а на другой среди прочих выступают спортивные директора, большинство из которых не спешат применять продвинутые данные. Простой пример для наглядности: среди клубов Серии А какие-либо работы с данными ведутся всего в 3 клубах из 20 (и если вы думаете, что среди них есть «Интер» и «Ювентус», то ошибаетесь).
Завершалась конференция телемостом с Дэрилом Мори, человеком, который совершил аналитическую революцию в баскетболе, а сейчас является президентом «Филадельфии». В этот момент, конечно, стало очевидно, что никакой прорыв в футбольном анализе данных пока не наступил, и до американских видов спорта еще расти и расти. Но ощущение, что ты находишься в эпицентре большой зарождающейся идеи, которая в скором поменяет мир, – очень драйвовое.
Следите за ютубом Статсбомба, там в какой-то момент должны выложить видео выступлений. Многие из них можно уже посмотреть здесь, но надо сперва зарегистрироваться. Моим фаворитом был Ари Мояль из «Лиона», но если вы никогда не видели выступлений, например, де Боде из «Аякса» – срочно смотрите, это космос.
Егор Гумин
Если вы новичок в футбольной аналитике на основе данных, скорее всего, будете работать с этой областью как с черным ящиком. Вы нашли ящик, он закрыт на ключ. Вы видите, какого он цвета, можете предположить, из какого он материала, но что там внутри – кто знает. Можно годами трясти ящик и искать закономерности в том, как он гремит при повороте под определенным углом, но так и не понять, что в нем и как оно работает. Такие конференции дают вам ключ от ящика. Вы понимаете масштаб явления, с которым столкнулись, можете определиться, интересно ли вам в это погружаться и составить план. Начинающие аналитики тратят месяцы и годы на осознание, какие вообще существуют футбольные данные, где их можно получить, какие можно построить метрики, в каких клубах и в каком виде они используются. Здесь же вы увидите самую глубокую часть айсберга – последние достижения в сфере сбора данных, объединенные с самыми актуальными моделями, которые на них базируются. Конечно же вы не сможете все это мгновенно применить, но вы будете понимать, куда стремиться, не потратите время на задачи, которые уже были решены до вас.
Рекомендую всем, кто в СНГ занимается футбольной аналитикой, посмотреть записи докладов StatsBomb 2021 и 2019. Действует как холодный душ.
Если работать только с той информацией, что доступна на русском языке, может сложиться впечатление, что индустрия движется маленькими шажками и в ней почти ничего не происходит, мало кто занимается исследованиями, а те исследования, которые публикуют, на практике не применить. Но на таких конференциях легко заметить, что то, о чем мечтают аналитики в СНГ (нанять одного человека заниматься разработкой математических моделей – Data Scientist, и купить подписку на event-данныеI), в не самых крупных клубах Европы считается даже не вчерашним, а позавчерашним днем.
После того, как вы изучите материалы конференций и статьи, получите подробное представление о работе с данными в футболе, можно ставить конкретные цели, найти интересную вам актуальную проблему и поработать над ней, а затем отправиться на следующую конференцию лично.
Я слышал много историй о начинающих тренерах или аналитиках, которые отправляли свое портфолио по электронной почте в десятки клубов и не получали не просто ни одного приглашения, а ни одного ответа. Здесь все работает иначе. Сложные темы исследований и офлайн-формат в Лондоне фильтруют случайных людей, поэтому большинство спикеров и участников настроены на общение. Если у вас есть, что показать, аналитики топ-клубов или сотрудники статистических компаний прокомментируют ваши прототипы, а могут даже сказать: «Ого, а мы ведь делаем то же самое, отправь мне свое резюме!».
Если вы занимаетесь машинным обучением или аналитикой данных и хотите применить эти знания в спорте – смело пишите нам, мы подскажем, с чего начать.
А писать можно сюда:
Фото: globallookpress.com/an Woitas
Интересно было бы дополнить модель игровым стилем и навыками вратарей. Тот же Хорн, например, визуально слишком часто полагается на свою прыгучесть. И из-за этого (опять же визуально) часто странно позиционируется, что чаще, чем у других вратарей, приводит к глупым ляпам. Но по вашей модели, он вроде как входит в тройку лучших вратарей во выбору позиции. Зоммер, с другой стороны, отлично позиционируется во вратарской зоне и верит в свои рефлексы, но не очень хорошо действует на опережении (в том числе из-за роста). Нойер же ни по прыгучести, ни по рефлексам не очень выделяется, но по выбору позиции действительно лучший в лиге.
П.с даже здесь вивид. Они все же немного задолбали своей агрессивной рекламой.
А про применения моделей в клубах есть два момента -инерция мышления и простота моделей.