7 мин.

Что нам может дать позиционная статистика

Анализ, опирающийся на продвинутую статистику, только начинает развиваться в последние годы. Отчасти ускорению этого процесса мешает консервативность футбольной среды. Но надо сказать, что и количество работающих, а главное, действительно полезных теоретических моделей совсем не большое. Одна из причин этого - недостаточное развитие технологий сбора данных. В первую очередь, это касается получения позиционной статистики, то есть данных о положении каждого игрока и мяча в каждый момент матча. Не будем касаться технической стороны, а поговорим о том, на какие модели могло бы повлиять повсеместное внедрение технологий анализа данных и компьютерного зрения (или контракты лиг на ношение игроками GPS-маячков).

Модель ожидаемых голов

Самой популярной в продвинутой статистике моделью являются ожидаемые голы. Существует много реализаций приличного качества, опирающихся на разные данные. Но только единицы используют информацию (кстати, закрытую, и, вероятно, расчитываемую вручную) о давлении на бьющего и числе защитников между мячом и воротами. Если такая информация будет записываться, это помогло бы улучшить модель. В качестве новых параметров, могли бы быть, скажем, число соперников в метре от бьющего и число соперников, находящихся в треугольнике между мячом в момент удара и двумя штангами. Интересно было бы посмотреть, одинаково ли игроки реализуют моменты, находясь под давлением. После этого модель не станет идеальной, так как не будет учитывать хотя бы то, насколько удобно игрок подстроился под мяч, но это не критично, потому что даже сейчас качество модели достаточно для адекватного анализа.

Packing 

Позиционные данные также помогут сделать автоматическим подсчет пэкинга. Такую статистику считают и сейчас, но лишь в ручном режиме. Это трудозатратно и отчасти субъективно. Также внедрение автоматического подсчета приведет к тому, что число обсчитанных матчей станет намного больше, и это позволит надеяться на нахождение любопытных закономерностей и, возможно, на дальнейшее улучшение модели. К примеру, можно определять продвижение вперед не к лицевой линии, а именно к воротам; назначать отрезаниям игроков разный вес в зависимости от расстояния до ворот. Понятно, что если делать эти преобразования вручную, трудоемкость обсчета вырастет в разы.

Фитнес

Фитнесом называются данные о беговой работе. Пусть не так массово, но эти данные собираются уже сейчас. После того, как все координаты игроков получены, считается пробег в пяти диапазонах скоростей - от пешеходной до спринтерской. Также находится количество ускорений и спринтов для каждого игрока. В будущем можно было бы выводить интегральную метрику физической готовности игрока на основании в первую очередь пробега на высокой скорости. Интересно взглянуть и на график готовности конкретного игрока от матча к матчу. Да, пробег в конкретной игре зависит от позиции, роли, стиля игры своей команды и соперника, но во-первых, можно делать поправки, а во-вторых, общий тренд роста или снижения физической формы все равно должен быть заметен.

Численное превосходство

Рикардо Таварес предложил чем-то напоминающую пэкинг метрику оценки командной игры - сначала определяется активная зона - то есть пространство, которое ближе к лицевой обороняющейся команды, чем мяч. Затем подсчитывается численное преимущество в этой активной зоне атакующих или защищающихся. Форму активной зоны можно сделать более хитрой, а для оценки некоторых стилей игры даже такие преобразования могут оказаться недостаточными, но и в простом виде метрика должна неплохо отражать умение создавать преимущество (и противостоять этому) на нужных участках поля.

Опека

Таварес в том же материале предложил и моделирование опеки. Если игрок атакующей команды находится в определенном радиусе от защитника, то он находится под персональной опекой. Если же вблизи обороняющегося игрока нет атакующих, то считается, что он закрывает некоторую зону. В оценку игры защитника можно будет ввести дополнительный параметр, например, показывающий, как часто соперники избавляются от его опеки. Также реально оценивать степень плотности опеки команды в обороне как среднее по всем защитникам расстояние до ближайшего соперника.

Оценка качества передач

Оценивать полезность паса для команды можно по двум параметрам - вероятности дойти до адресата (зависит от техники игрока) и пользы передачи для развития атаки при условии успешного перевода (мышление). Средний процент точности передач сам по себе бесполезен, так как не учитывает роль игрока, его позицию на поле и прочие факторы. Но если у нас есть данные о положении игроков, находящихся в области между дающим и получающим в момент совершения паса, с помощью методов машинного обучения можно построить модель, которая бы оценивала вероятность конкретной передачи дойти до адресата для гипотетических средних дающего и принимающего. Измерив на большой выборке превышение реальной точности передач над ожидаемой, можно определить, насколько хорошо игрок может отдавать передачи вне контекста того, насколько его пасы полезны.

Данная модель учитывает только начальную и конечную координаты паса.

Но с помощью того же машинного обучения на основании исторических данных можно  оценить изменение вероятности гола в текущей атаке при известном расположении игроков в момент передачи и известной координате, в которой мяч будет принят игроком. К примеру, очевидно, если игроку ничто не мешает бить из района 11-метровой отметки, а он отдает пас далеко назад, в среднем случае это не повысит шансы на гол.

Скомбинировав эти две модели, можно было бы получить интегральный показатель качества передач. Конечно, для большей точности нужно учитывать уровень соперников и своей команды, но и в таком виде показатель будет гораздо лучше, чем использующиеся сейчас для подобных целей процент точных передач и число пасов под удар.

Оценка полезности действий

Также, как и для передач, можно оценивать вероятность успеха и изменение вероятности гола в случае успеха любого действия - обводки, заработанного фола, продвижения с мячом и так далее. Стоит добавить, что первое посчитать не так сложно, даже если у нас нет расширенной позиционной статистики, а только данные о координатах игрока, владеющим мячом. Но для адекватного подсчета второго позиционные данные необходимы, так как расположение игроков является важнейшим фактором, на который опираются футболисты при принятии решений. Вне этого контекста оценка изменения вероятности гола в текущей атаке после успешного действия потеряет всякий смысл.

И без этого модель будет иметь недостаток в виде того, что команда может умышленно создавать в среднем случае проигрышные ситуации, которые она способна нейтрализовывать без больших потерь. Еще одна проблема - вычислительная сложность получения этой оценки будет довольно высокой, поэтому нужно оптимизировать подобные модели. Впрочем, это уже совсем другая тема.

Заключение

Обладая позиционными данными, теоретически, можно научиться определять явные ошибки в выборе позиции. Оценивать это умение в целом будет тяжелее, так как движение без мяча важно в контексте движения остальных игроков, а в зависимости от стиля игры одни и те же передвижения могут преследовать разные цели. 

Также можно было бы оценивать умение защитников держать линию оффсайда. Например, по проценту времени в течение атак соперника, проведенного ближе к воротам, чем заданный вручную ведущий защитник (при его наличии).

На основании интенсивности и качества движения во время владения соперника на удалении от ворот защищающейся команды, можно вывести более совершенные, чем PPDA, метрики оценки прессинга.

Создание новых моделей ограничивается только фантазией. В этом тексте были приведены некоторые примеры, которые имеют шансы стать наиболее популярными на горизонте нескольких лет, когда компьютерное зрение станет “умнее”, чем сейчас, а data science продолжит проникать в футбол так же активно, как и в остальные области жизни. В таком случае улучшение нынешних моделей окажется неизбежным.

Автор: Чернов Алексей, Wyscout, Блокнот