28 мин.

Радар футболиста - идея, пришедшая из NBA и ставшая стандартом для визуализации метрик в футбольной аналитике

Телеграм-канал автора

Заключительным этапом любого анализа данных является визуализация полученных результатов. Вы можете использовать самые эффективные метрики, получить интересные и прорывные инсайты при анализе данных, но если итоги проделанной работы будут представлены в неудобном для восприятия виде относительно конечных потребителей анализа данных, то основная ценность проделанной работы может остаться незамеченной и не произвести того эффекта, который на самом деле в ней присутствует. Другими словами, то, как вы демонстрируете результаты анализа, зачастую не менее важно, чем сами результаты.

Одним из лидеров в формировании трендов по визуализации метрик в индустрии футбола является компания StatsBomb, которая на основе данных о событиях рассчитывает различные футбольные метрики и затем упаковывает их в форматы, которые на данный момент стали отраслевым стандартом в индустрии и оказались очень удобными для восприятия общей статистики по отдельным игрокам или командам.

Объединение футбольных метрик на радиальной диаграмме (паук-диаграмма)

Вы наверняка не раз видели диаграмму типа радар, на которой отображаются различные футбольные метрики для конкретного игрока, и глядя на которую можно получить комплексную оценку игровых способностей футболиста и сравнивать игроков друг с другом. Но несмотря на то, что интерпретация данного способа визуализации довольно интуитивна и понятна широкому кругу людей, в ней есть некоторые нюансы, которые могут сбить с толку и привести к не совсем корректной оценке результатов. Для того чтобы правильно “читать” данный тип визуализации далее в статье будут разобраны основных особенности радаров и некоторая история появления данного инструмента.

Тэд Кнатсон - основатель StatsBomb, в 2014 г предложил в качестве одного из способов эффективной визуализации футбольной статистики использовать так называемые радары игроков, составленные на основе различных футбольных метрик. Данную идею и дизайн диаграммы он позаимствовал у Рами Могхадама, работающего арт-директором в журнале ESPN The Magazine и использовавшего данные диаграммы для постера всех звезд NBA 2013.

После первого релиза проводились некоторые модификации и изменения способов представления информации на радарах. Ниже показан радар для Нани (Манчестер Юнайтед), который был построен по окончанию европейского сезона 2013-2014, на основе которого предлагается разобрать специфику данного способа оценки футболистов. Я выбрал именно этот радар, так как на нем можно наблюдать краевые эффекты радара, отражающие специфику его построения.

  • На радаре по внешней границе расположены названия метрик, которые анализируются для футболистов, играющих на конкретной позиции. В данном случае рассмотрен шаблон радара для позиций - Forwards / Attacking Midfielder (форвард / атакующий полузащитник), который был актуален до 2016 г. Сегодняшняя классификация типов радаров несколько изменилась и представляется набором следующих шаблонов: Striker (нападающий), Attacking Midfielder / Winger (атакующий полузащитник / вингер), Midfielder (полузащитник), Fullbacks (крайние защитники), Centre Backs (центральные защитники), Goalkeeper (вратарь), т.е. имеется 6 типов шаблонов для представления игроков на радаре и возможности сравнивать футболистов одного амплуа используя данный инструмент.

  • Для построения радара используются значения метрик, полученных на основе анализа последних 5 сезонов для ведущих европейских лиг (АПЛ, Бундеслига, Ла Лига, Серия А, Лига 1) и рассчитанных для 90 минут игрового времени.

  • На радаре выделяют внешнюю границу и внутреннюю границу, которые отделяют 95-ый и 5-ый процентиль распределения для каждой метрики, отображаемой на радаре. Понятие процентиля следует понимать, чтобы корректно трактовать информацию на радаре, в нем нет ничего сложного. Процентиль - это граница, отделяющая определенный процент значений всего распределения, т.е. 95-ый процентиль отделяет 5% лучших футболистов для рассматриваемой метрики, или по-другому можно сказать, что 95% игроков имеют более низкое значение данной метрики. Если абсолютное значение метрики превышает верхнюю границу радара, то это значит, что футболист вошел в TOP 5% игроков по данной метрике и на радаре значение метрики для него отмечается на внешней границе, несмотря на то что фактически превышает ее. 5-ый процентиль отделяет 5% игроков с самыми низкими показателями по данной метрике. На радарах 5-му процентилю соответствует внутренняя граница, для которой абсолютное значение обычно не указывается, но может быть оценено исходя из величины шага между уровнями радара. Величину шага можно рассчитать примерно, т.к. на радаре приводятся уже округленные значения для метрик. Если абсолютное значение метрики находится ниже внутренней границы радара, то это значит, что футболист вошел в 5% игроков с наихудшими результатами по данной метрике. Ниже приведено условное распределение метрики Successful dribbles для рассмотренного ранее радара, чтобы продемонстрировать понятие процентилей более наглядно.

При анализе любого радара необходимо обращать внимание на процентили метрик

Вроде бы все понятно, но с этими процентилями можно попасть в ловушку неверного восприятия, чего мы хотим избежать при использовании радаров для сравнения игроков между собой. В январе 2020 года StatsBomb анонсировал последнее крупное обновление для радаров, в котором помимо шаблона со стандартным представлением метрик был добавлен альтернативный шаблон с процентильным представлением.

Ниже приводятся два радара для Н'голо Канте сезона 2019-2020 АПЛ - стандартный и процентильный. Характеристики игроков принято оценивать по площади, которую покрывает на радаре зона, получаемая соединением всех точек с соответствующими значениями метрик (хотя далее мы увидим, что площадь может очень сильно меняться в зависимости от порядка расположения метрик и приведенное правило для оценки по площади справедливо только для строго заданного порядка рассматриваемых характеристик). В данном случае мы видим, что разные типы радаров формируют несколько отличающиеся друг от друга зоны для одного и того же игрока, которые воспринимаются нами по-разному.

В то время как процентильный радар отображает все значения метрик для соответствующих распределений, используемых для построения (есть все процентили от 0-го до 100-го), стандартный радар, как мы отмечали выше, ограничен 95-ым процентилем (т.е. для 5% лучших футболистов на радаре отсутствует линия уровня, их отображают на границе).

Самое важное отличие - на стандартном радаре одни и те же линии уровня могут соответствовать различным процентилям распределений, из которых они были получены, и наоборот, один и тот же процентиль может находиться на разных линиях уровня. Данное отличие наглядно продемонстрированно на рассматриваемом примере.

На левом радаре для метрик Deep Progression, xGbuildup и Successful dribbles (далее в статье будут даны полные описания рассматриваемых на радарах метрик) мы наблюдаем как 90-му процентилю распределений соответствуют различные линии уровня. Если рассмотреть более подробно одну их метрик, например deep progression, то можно наблюдать, что на левом радаре значение метрики примерно равно 6.7 и соответствует 6-ой границе радара из 11, если считать от внешней границы. Глядя на стандартный радар, мы можем ошибочно предположить, что Н'Голо Канте средний игрок по данному показателю - и как раз в этом месте попадаем в ловушку, о которой я говорил ранее.

По правому радару мы видим, что значение данной метрики соответствует 90-му процентилю распределения, т.е. результат Канте лучше, чем у 90% всех футболистов, показатели которых были учтены при построении радара. Получается, что для данной метрики следующие 5 линий уровня после линии со значением 6.7 соответствуют 5% футболистов, находящихся между 95-ым и 90-ым процентилями.

Т.е. имея перед глазами только один лишь стандартный радар игрока и не зная вид исходного распределения значений метрики или процентиля, мы не можем качественно оценить его уровень относительно всей выборки футболистов, если значение метрики для него лежит между внешней и внутренней границами.

Распределения метрик помогают более качественно интерпретировать радары

Все вышесказанное привело к тому, что StatsBomb стали сопровождать свои радары футболистов соответствующим набором распределений для всех используемых метрик. Это было сделано для того, чтобы снизить возможность неверной интерпретации радаров, широко используемых как простыми любителями футбола для сравнения различных игроков друг с другом, так и профессиональными представителями индустрии футбола - скаутами, аналитиками, сотрудниками футбольных клубов и непосредственно игроками.

Ниже приведен пример распределений для метрик, используемых при построении радара для Килиана Мбаппе, подготовленного для сезона 2019-2020. (в данном случае рассматривается набор метрик для шаблона Attacking Midfielder / Winger)

  • Каждое распределение имеет градиентную тепловую раскраску от минимального значения метрики на всей выборке до значения метрики, которое соответствует рассматриваемого футболисту.

  • На каждом распределении нанесены серые пунктирные линии, которые соответствуют 5-му и 95-му процентилям.

  • Синяя метка в форме треугольника указывает на место в общем распределении, которое соответствует значению метрики для рассматриваемого футболиста.

  • Справа от распределения указывается значение метрики (синим цветом), соответствующий процентиль (цвет зависит от положения на распределении) и максимальное значение данной метрика для всей выборки, на которой строился шаблон радара.

На первых трех распределениям мы видим, что показатели Мбаппе значительно превышают показатели других футболистов, при чем по xG он получил 0.83 гола за матч в среднем, что выше максимального значения для радара, равного 0.7, следовательно, его значение соответствует 100-му процентилю. Для Shots (ударов) и touch in box (касаний в штрафной) Килиан получил экстремально высокие показатели, которые все же не являются максимальными, но несмотря на это в качестве процентиля даются максимальные значения (100-ый процентиль). Вероятнее всего это обусловлено округлением значения, очень близкого к 100.

В одном из следующих примеров, где будет проводиться сравнение Мбаппе с Месси на несколько ином радаре, вы сможете увидеть, как при чуть более высоком максимальном значении радара процентиль для Мбаппе будет понижен на одну единицу до 99.

Влияние порядка расположения метрик на радаре на восприятия информации

Несмотря на то, что сегодня радары являются чрезвычайно популярным способом визуализации аналитических метрик в футболе, у данного инструмента есть одна особенность, которая долгое время являлась предметом споров и дебатов среди ряда аналитиков, относительно корректности использования именно такого метода визуализации футбольной статистики. В радарах очень важен порядок метрик, которые используются для отображения.

Ниже приведен пример с двумя радиальными диаграммами, построенными над одними и теми же данными, только расположенными по-разному. Наверное, каждый из нас при первом взгляде однозначно сделает вывод, что радар слева дает более высокую комплексную характеристику игроку, чем радар справа. При нашей оценке мы вероятнее всего обратим внимание на площадь, заключенную между значениями переменных, чем на суммарную длину линий (периметр многоугольника), которая для правого радара больше, чем для левого. Данную особенность нужно иметь в виду - порядок метрик в радаре влияет на суммарную площадь получаемой зоны и соответственно на наше восприятие информации.

Тэд Кнатсон сам принимал участие в дискуссии относительно интерпретируемости радаров и в одной из своих публикаций в 2017 г давал ряд комментариев, в которых подчеркивал, что он и его команда безусловно осознают особенность данного типа диаграмм и для того, чтобы максимально нивелировать потенциальные возможности некорректной оценки информации на радарах, StatsBomb группирует метрики по смысловому значению, т.е. оборонительные метрики идут друг за другом, метрики оценивающие удары - отдельно, метрики для пасов - отдельно и т д.

Такой подход в большинстве случаев позволяет избежать получения радаров типа Starfish (Морская звезда), на подобие того, который был рассмотрен выше на правой диаграмме, но не смотря на это, иногда такие формы все же появляются на радарах. Самый яркий пример был рассмотрен для Нани в начале статьи.

Площадь на радаре изменяется нелинейно при изменении значения метрик

Специфика восприятия информации на радаре путем оценки площади, которую покрывает сформированная зона для игрока, заключает в себе еще один нюанс, который нужно принимать во внимании при анализе радаров. При линейном увеличении значения метрики или при переходе между соседними линиями уровня, площадь, покрываемая радаром, увеличивается нелинейно. Т.е. если вы увеличите значения всех метрик, представленных на радаре, вдвое, то покрываемая площадь увеличится в 4 раза (т.е. присутствует квадратичная зависимость площади радара от значений метрик).

Это обусловлено тем, что площадь круга, образованного линиями уровня радара, пропорциональна квадрату радиуса, которым в нашем случае является значение метрики. На обычной же столбиковой диаграмме увеличение значения вдове ведет к такому же увеличению покрываемой площади.

В результате, при использовании радара незначительная фактическая разница в значениях метрики между двумя футболистами может создавать более значимый визуальный эффект на нашу оценку наблюдаемой разницы, чем существует в действительности, тем самым влияя на объективность проводимой оценки.

Существующие типы радаров и описание соответствующих метрик

Далее будут рассмотрены актуальные на момент написания статьи типы радаров для игроков с описанием соответствующих метрик. В качестве примеров были подобраны радары текущего сезона 2020-2021 и предыдущего 2019-2020 для футболистов из ведущих европейских чемпионатов.

1. Template Striker (нападающий)

Более полную информацию по данному радару, включающую распределения и точные значения используемых метрик, можно найти по ссылке.

  • xG - ожидаемые голы, оценка получается путем суммирования xG для каждого удара, далее полученное значение делится на общее кол-во проведенных минут на поле и умножается на 90, в результате получаем средний показатель за матч (за 90 минут). Для других метрик калькуляции проводятся аналогично.

  • Shots - удары

  • Touches in box - касания в штрафной

  • Shot Touch% - доля общего количества ударов от общего количества касаний, в нашем случае - 4%. Имеет двойственную трактовку. В первую очередь данная метрика отражает то, насколько хорошо нападающий трансформирует принимаемые мячи в удары по воротам или по-другому - конверсию принятых мячей в удары. С этой точки зрения - чем больше, тем лучше. С другой стороны, данную метрику можно рассматривать как индикатор того, насколько нападающий вовлечен в атакующие действие, предшествующие передачам под удар и непосредственно ударам по воротам (вовлеченность в buildup), т.е. что преобладает в его стиле игры - при любой возможности нанесение ударов по воротам или же нацеленность на игру в подыгрыше с партнерами по атаке. В данном случае уже нельзя однозначно оценивать высокий показатель как наиболее оптимальный для данной метрики, но можно делать вывод о игровом стиле. (конечно можно представить как данный показатель может быть очень низким у футболиста и это будет обусловлено не более частой игрой на партнеров и преобладанием созидательных способностей, а просто-напросто низкой эффективностью, следовательно, нужно иметь в виду некоторую неоднозначность трактовки данной метрики). Также мы можем самостоятельно оценить аналогичную метрику только не для всех касаний футболиста на поле, а для касаний в штрафной, для этого мы должны использовать две предыдущие метрики, а именно: Shots / Touches in box * 100. В нашем примере Shots = 2.81, Touches in box = 15.3 (Данное значение приводится в более полной информации о радаре в статье, ссылку на которую я указывал ранее. Надеюсь, теперь вы понимаете, почему значение отмечается на границе, несмотря на то, что превышает ее), итоговое значение будет равно 18.4%, т.е. в среднем из всех касаний нападающего в штрафной 18.4% касаний заканчиваются ударами по воротам.

  • xGAssisted - тоже самое, что метрика xA (Expected assists / ожидаемые ассисты). Данная метрика вычисляет для каждого паса вероятность того, что он станет голевым, суммирует все значения и вычисляет средний показатель за 90 минут. Разные компании могут использовать несколько отличающиеся модели для расчета данного показателя. Обычно учитываются такие факторы как тип передачи, конечная точка, в которой получил мяч принимающий игрок и длина паса. Данная метрика дает оценку передачам в независимости от того, будет совершен в результате передачи удар по воротам или нет. xGAssisted служит индикатором качества шансов, которые создает игрок для своих партнеров и отражает среднее ожидаемое количество голевых передач за игру на основе исторической статистики.

  • Pressure Regains - восстановление владения в результате прессинга, данная метрика считает сколько раз команда нападающего забирала мяч под контроль в течение 5 секунд после того, как нападающий создавал активный прессинг соперника.

  • Pressures - давление/прессинг, данная метрика считает сколько раз игрок включался в прессинг в течение матча.

  • Aerial Wins - выигрыш верхового единоборства (кол-во выигранных верховых единоборств)

  • Turnovers - потери мяча, данная метрика считает сколько раз за игру нападающий теряет мяч во владении (потери из-за ошибок при приеме мяча и при неудачном ведении мяча или дриблинге)

  • Successful dribbles - успешные обыгрыши соперника за матч. Здесь стоит обратить внимание на некоторую неоднозначность трактовки термина dribbles среди компаний, принимающих активное участие в развитии футбольной аналитики. Statsbomb определяет данный термин как - действия игрока во время владения мячом, в результате которых игрок проходит мимо противника. Здесь приводится дословное определение. Аналогичной терминологии придерживаются Opta, Squawka и Whoscored. Но есть альтернативный вариант, когда обыгрыш описывается термином take-on, при этом термин dribble используется для описания действий, которые отражают непосредственно процесс ведения мяча, при котором мяч продвигается на несколько метров относительно изначальной точки, в которой игрок получил мяч. В частности, новый стандарт для описания данных о событиях - SPADL, на основе которого строится метрика VAEP, описанная в одной из моих статей, использует второй вариант из рассмотренных ранее.

  • xG/Shot - ожидаемые голы для одного удара в среднем за игру, данная метрика рассчитывается путем деления xG за матч на кол-во ударов за матч (Shot) и отражает среднюю опасность каждого удара по воротам.

2. Template Attacking Midfielder / Winger (атакующий полузащитник / вингер)

Более полную информацию по данному радару можно найти по ссылке. Ниже будут рассмотрены метрики, которые не были рассмотрены для предыдущих шаблонов ранее.

  • Passing% - процент точных передач за матч

  • Successful Box Cross% - процент успешных кроссов в штрафную, данная метрика учитывает все передачи, доставленные в штрафную, относительно которых рассчитывается доля навесов. Т.е. она учитывает, какими передачами чаще всего игрок снабжает своих партнеров в штрафной соперника и оценивается тем выше, чем меньше среди данных передач навесов (на радаре видно, что максимальное значение соответствует нулю) и больше передач низом.

  • Open Play xGAssisted - тоже самое что xGAssisted, которая используется для радара - striker, только в данном случае рассматриваются моменты создаваемые "с игры" (Open Play). Здесь нужно добавить пару комментариев - игровой процесс может быть разделен на два состояния - Set play (штрафные, выбросы из аута, угловые - т.е. любые действия, которым предшествует остановка игры) и Open Play (все то, что не входит в Set play, т.е. поток непрерывных действий на футбольном поле, в течение которых отсутствуют остановки). Зачастую футбольные метрики оценивают разделяя исходные игровые состояния, чтобы различать эффективность действий, совершаемых с игры и со стандартов.

  • Fouls Won - кол-во заработанных фолов за матч (как часто соперники фолят на игроке)

3. Midfielder (полузащитник)

Более полную информацию по данному радару можно найти по ссылке. Ниже будут рассмотрены метрики, которые не были рассмотрены для предыдущих шаблонов ранее.

  • Deep Progressions - продвижение мяча в финальную треть поля, данная метрика считает каждое действие, которое перемещает мяч в финальную треть поля. В самом определении перечислены следующие действия - пасы, обводки и непосредственно движение игрока с мячом (в определении StatsBomb используется термин carries, в SPADL формате ближайшим аналогом, вероятнее всего, стоит считать термин dribbles, который обсуждался ранее)

  • xGBuildup - данная метрика оценивает вклад игрока в создаваемую командой опасность в виде ожидаемых голов (xG), учитывая все действия игрока за исключением передачи под удар и самого удара. Более правильно пытаться разобраться с данной метрикой опираясь на метрику xGChain, которая была разработана для того, чтобы научиться оценивать не только эффективность бьющих игроков (xG) и игроков, отдающих голевые (xA), но и других игроков, участвующих в комбинации. Чтобы рассчитать xGChain - для каждого игрока рассматриваются все цепочки владения мячом, в которых он принимал активное участие (т.е. совершал действие с мячом) и после которых были нанесены удары по воротам, для всех рассматриваемых ударов суммируются xG, и полученная сумма является значением искомой метрики xGChain в независимости от типа действия и стадии владения, в которой оно было совершено. Внутри одной цепочки владения всем игрокам, которые принимали участие в продвижении мяча, присваивается одно и тоже значение метрики. Т.е. по-другому можно сказать, что результат каждой атаки в виде финальной оценки xG транслируется на всех игроков, участвовавших в комбинации, и далее для каждого игрока суммируются все атаки, в которых они были задействованы, в результате чего получается xGChain. Чтобы получить оценку исключительно созидательных способностей игрока, которые включают действия, предшествующие пасам под удар и непосредственно ударам, из xGChain (в которой учитываются xG различных игроков) вычитают xG ударов и xGChain предголевых пасов, совершенных рассматриваемым игроком.

  • PAdj Tackles (PAdj - Possession-adjusted) - кол-во отборов с поправкой на владение. Отборы - оборонительное действие, оценка которого очень сильно зависит от того, как много времени команда владеет мячом. Защитники, играющие в командах, которые владеют мячом значительно больше, чем их соперники, обычно набирают гораздо меньше оборонительных действий (отборы, перехваты). Поэтому суммарное кол-во оборонительных действий не всегда отражает эффективность игрока. Аналитики придумали способ учитывать степень владения при оценке оборонительных действий. PAdj Tackles рассчитывается как общее количество отборов за игру, деленное на время, в течение которого команда была без мяча, умноженное на половину от всего сыгранного времени, т.е. вычисляется частота отборов на единицу оборонительного времени (времени без мяча) и вычисляется общее кол-во отборов, если предположить, что команды имели владение 50 на 50.

  • PAdj interceptions - кол-во перехватов с поправкой на владение. Расчет по аналогии с PAdj Tackles.

4. Fullbacks (крайние защитники)

Более полную информацию по данному радару можно найти по ссылке. В данном радаре используется только одна метрика, которая не рассматривалась ранее:

  • Fouls - количество фолов за матч

5. Centre Backs (центральные защитники)

Более полную информацию по данному радару можно найти по ссылке. Метрики, которые не были рассмотрены ранее:

  • Tack/dribbled past% - процент выигранных единоборств, данная метрика рассчитывается как отношение числа выигранных единоборств к общему количеству единоборств, в которых участвовал защитник, т.е. к сумме выигранных и проигранных эпизодов, когда защитник был обыгран (dribbled past), и далее умножается на 100. Чем меньше защитник проигрывает борьбы, тем выше итоговое значение метрики.

  • Aerial Wins% - процент выигранных верховых единоборств

  • Pressured long balls - количество длинных передач при наличии давления со стороны игроков противоположной команды

  • Unpressured long balls - количество длинных передач в отсутствие давления со стороны игроков противоположной команды

6. Goalkeeper (вратарь)

Более полную информацию по данному радару можно найти по ссылке. Для вратарей рассматривается отдельный набор метрик. Некоторые из изложенных метрик могут показаться не такими интуитивными, как те, которые были рассмотрены ранее. Нужно понимать, что задача оценивания действий вратарей оказалась более трудной, чем оценивание эффективности других игровых амплуа, и на данный момент в индустрии нет какого-то универсального инструмента, имеющего хорошую предсказательную силу и удобного для проведения качественного анализа.

Кирилл Серых рассказывал в одной из своих статей о новой метрике для оценки ожидаемых сейвов xS, в разработке которой он принимал участие, и которая, возможно, будет апробирована для использования в Бундеслиге. Также в его статье описываются различные влияющие факторы, которые стоит учитывать в модели, для получения качественных оценок. Знакомство с рассмотренными деталями может быть полезно для более глубокого погружения в данную тему.

Ниже приводятся метрики, используемые на радаре:

  • Shot stopping% (GSAA% - Goals Saved Above Average) - процент сделанных сейвов относительно ожидаемого показателя сейвов, рассчитанного для среднего голкипера. Данная метрика рассчитывается по формуле: (PSxG - Goals)/Shots Faced, где: PSxG (Post-Shot xG) - ожидаемые голы (xG), которые рассчитываются после нанесения удара, данный показатель введен для того, чтобы косвенно оценить ожидаемый показатель сейвов. Для расчета данной метрики используется модель машинного обучения, которая оценивает вероятность гола на основе информации, которая описывает удар от момента нанесения до момента взаимодействия с вратарем (здесь учитываются как случаи сейвов так и случаи, когда голкиперу не удалось поймать летящий в створ мяч). Модель учитывает траекторию полета мяча после удара, скорость и ряд других характеристик. Важно иметь в виду, что в модели, которая оценивает PSxG, не используют информацию о положение вратаря, т.к. то, как вратарь располагается в воротах, будет сильно менять вероятность гола после нанесения удара, а следовательно, будет влиять на средний ожидаемый показатель сейвов, относительно которого мы хотим измерять эффективность других вратарей. Goals - фактически пропущенное количество голов. Shots Faced - удары в створ, дошедшие до голкипера. Далее я приведу пример, который разбирается на сайте StatsBomb, и который может сделать чуть более понятным изложенный ранее материал. Если рассматривать статистику Борнмута сезона 2017-2018 АПЛ, то получается, что xG всех ударов противников = 58, фактическое количество пропущенных голов 59, как мы знаем, xG рассчитывается для всех ударов по воротам, а вратарь работает только с ударами в створ, следовательно если пересчитать xG для ударов в створ, то получается значение xG = 29, пропущенные голы = 58 (из рассмотрения исключился автогол). Полученная картина характерна для любых вратарей, опираясь на собранную аналитиками статистику, а именно - количество фактически пропущенных голов всегда больше, чем xG для ударов в створ. Это приводит к тому, что опираясь на обычные xG модели для всех ударов или же только для ударов в створ нельзя оценить эффективность вратаря, поэтому была предложена PSxG, которая работает только с незаблокированными ударами, попавшими в створ, и в разобранном примере дает оценку ожидаемых голов = 60. Получается, что Бегович (вратарь Борнмута) пропустил на 2 гола меньше, чем предсказала модель (это разница PSxG - Goal), т.е. он пропустил на 2 гола меньше, чем пропустил бы средний вратарь, работая с теми же ударами. Полученное значение делится на общее количество рассматриваемыхударов и умножается на 100, в результате мы получаем искомое значение Shot stopping% или GSAA%.

  • Positioning Error - ошибки в выборе позиции, данная метрика оценивает как далеко от оптимальной позиции в воротах находится вратарь в момент нанесения удара и рассчитывает среднее значение.

  • Claims (CCAA% - Crosses Claimed Above Average) - процент пойманных кроссов относительно среднего показателя. Технические детали расчета данной метрики отсутствуют в свободном доступе и предоставляются только пользователям StatsBomb IQ. Из той информации, которая доступна на официальном сайте, удалось понять, что данная метрика рассчитывается не просто как отношение пойманных кроссов к некоторому среднему значению, а с использованием специальной предиктивной модели, которая вычисляет вероятность того, что голкипер поймает мяч направленный в штрафную, исходя из его текущего положения в штрафной и детальной информации о летящем мяче (например, высота полета мяча). В конечном итоге данная метрика характеризует не только качество игры на выходе, но и то, как часто голкипер выходит из ворот и совершает попытки поймать навесы, направленные в штрафную, оценивая такую активность выше, нежели стиль игры, при котором вратарь предпочитает оставаться на линии ворот. Игра на выходе рассматривается как действие, которое может значительно понизить шансы, создаваемые противником, поэтому, используемая модель может давать как положительную так и отрицательную оценку действиям голкипера (на радаре мы видим отрицательные значения, что свидетельствует о том, что данная метрика рассчитывается не просто как некоторая доля от среднего показателя)

  • Goalkeeper aggressive distance - расстояние, на которое голкипер выходит из ворот для участия в игровом процессе. Данная метрика предназначена для того, чтобы фиксировать положение вратаря на поле и соответствующее расстояние до ворот в моменты, когда вратарь является активным участником игрового процесса, в основном выполняя оборонительные функции и страхуя высоко располагающуюся линию защиты. Данная метрика фиксирует расстояние до ворот в моменты совершения таких действий как выносы, перехваты, отборы и подборы, в результате которых удается восстановить владение. Данная метрика не фиксирует расстояние в моменты игры на выходах при подачах в штрафную, в моменты сейвов и в моменты, когда голкипер отдает обычный пас из фазы владения мячом.

  • Pass into danger% - пас в борьбу, данная метрика считает процент передач голкипера сделанных в направление партнеров, находящихся под плотной опекой противника.

  • Positive Outcome - положительный результат от действия, данная метрика считает количество действий голкипера (ввод мяча в игру), после которых в течение некоторого промежутка времени (20 сек) происходит одно из следующих событий - команда зарабатывает штрафной или угловой на половине соперника, происходит удар по воротам или зарабатывается пенальти.

Использование радаров для сравнения игроков одного амплуа

Помимо индивидуальной оценки характеристик игроков, одним из основных назначений радаров является сравнение футболистов друг с другом путем анализа пересечения зон, получаемых соединением всех используемых метрик для заданного шаблона.

Ниже представлен актуальный пример того, как StatsBomb публикует такие сравнения. Обычно такие сравнения проводятся для игроков относительно одного и того же промежутка времени, в данном же случае пример больше демонстрационный. На радаре ниже сравниваются Месси сезона 2011-2012 и Мбаппе прошлого сезона 2019-2020.

Использование радаров для сравнения команд

Также радары начали использовать для сравнения целых команд. При данном сравнении используются несколько модифицированные виды шаблонов. На данный момент выделяют два основных - атакующий радар, который учитывает преимущественно атакующие метрики, и оборонительный радар, который фокусируется на защитных метриках.

По данным радарам можно оценивать динамику совокупного изменения показателей команды год к году или в течение сезона, а также сравнивать команды друг с другом, по аналогии с футболистами. Ниже приведены два свежих примера таких радаров.

1. Атакующий радар для Ливерпуля (текущее состояние команды - после 21 тура vs команды прошлого сезона 2019-2020)

В задачу данной статьи не входит подробный разбор представленного радара, основная цель - показать, что радары применяется в том числе для сравнения команд, но все же нужно сделать несколько замечаний по использованному радару.

  • важно обращать внимание на процентили (для метрики Box Cross% - доля навесов среди всех передач в штрафную соперника - абсолютное значение сохраняется, хотя процентиль увеличивается, это значит, что другие команды ухудшили свои показатели, т.е. стали играть чуть чаще верхом, нежели использовать передачи низом в штрафную и, следовательно, при тех же показателях, как и в прошлом году, положение на радаре для данной метрики чуть увеличилось)

  • Относительно прошлого сезона ухудшились только 2 атакующих показателя из рассматриваемых на радаре: первый - xG/Shot - опасность, приходящаяся на один удар, или шансы, создаваемые каждым ударом. Данный показатель упал на одну сотую. Если сравнивать общее количество забитых голов за то же количество туров в прошлом сезоне, то получается 43 гола после 21 тура в текущем сезоне против 50 в прошлом, т.е. на 14% меньше забитых голов, при этом среднее количество ударов за игру почти не изменилось (прирост на 0.9%), а вот статистика ударов в створ несколько ухудшилась с 5.86 в текущем сезоне до 6.24 в прошлом - снижение на 6%. Второй показатель - Set Piece xG - шансы, созданные со стандартов. Данный показатель упал на 2 сотых единицы, но более показательно изменение процентиля на 10 пунктов, т.е. показатели Ливерпуля приблизились к среднему значению по лигам, на основе которых был подготовлен шаблон радара.

  • Одна из атакующий метрик, рассмотренных на радаре, считает среднюю длину паса вратарей (Goalkeeper pass length), и оценивается тем выше, чем короче становятся передачи у вратаря, т.е. чем меньше он делает длинных передач. Как мы видим, Ливерпуль повысил данный показатель до 96 процентиля, т.е. игра Ливерпуля предполагает хорошую игру ногами вратаря и нацеленность на более короткие пасы ближайшим игрокам при розыгрыше мяча на своей половине, но здесь мы не можем не вспомнить две голевые ошибки Алиссона в принципиальном матче с Манчестер Сити в прошлом туре. Понятно, что допущенные ошибки такого рода в одном матче не могут быть качественным показателем повышения риска гола с уменьшением длины паса, но на более полной статистике за целый сезон или нескольких сезонов было бы интересно рассмотреть корреляции между указанными зависимостями.

  • В целом, опираясь только на предложенный атакующий радар, не удается наблюдать каких-то значительных изменений в значениях метрик, которые могут объяснять падение результативности команды Клоппа. Безусловно для более полной оценки изменения состояния команды нужно смотреть на оборонительные метрики, которые наверняка будут отражать серьезные кадровые проблемы в обороне Ливерпуля, обусловленные большим количеством травм. На официальном сайте StatsBomb есть полноценный обзор АПЛ по прошествии 1ой половины сезона, в которым более детально разбираются причины, объясняющие наличие спада у команды Клоппа.

2. Оборонительный радар для Манчестер Сити (текущее состояние команды - после 20 тура vs команды прошлого сезона 2019-2020)

Для данного радара можно выделить следующее ключевое наблюдение:

  • Команда Пепа демонстрирует самый низкий показатель xG per shot conceded за последние 4.5 года. Данная метрика считает опасность ударов, которые допускает Манчестер Сити по своим воротам. Т.е. горожане чрезвычайно сильно снизили качество шансов, которые создают их соперники.

Заключение

Несмотря на наличие перечисленных недостатков и ограничений, которые могут приводить к некоторому искажению процесса оценивания футболистов и команд при использовании радаров, данный способ визуализации метрик оказался очень удобным для широкой аудитории специалистов и стал фактически стандартом в индустрии футбольной аналитики.

Чтобы правильно пользоваться данным инструментом, нужно знать некоторые его особенности и технические детали, которые позволяют избежать неверной интерпретации информации, оцениваемой на радарах.

P.s. В качестве основного рисунка для статьи был выбран радар, который Тэд сделал для яркой демонстрации отличий игровых способностей некоторого среднего игрока из одного из ведущих европейских дивизионов от Месси, находящегося на пике своей формы и забившего за календарный 2012 год 91 гол.

P.P.s. Интересно ваше мнение о полезности радаров для анализа, пишите в комментариях анализируете ли вы информацию с помощью радаров, и какие способы визуализации вы считаете наиболее эффективными.

Если интересно следить за обновлениями, но вы не зарегистрированы на sports.ru, то подписывайтесь на инстаграм блога.

5.

Пространственные метрики в футболе, теория зон, модель автономного игрока и симуляция игровых моментов

Метрика VAEP - эффективный способ оценки действий футболистов на основе машинного обучения и основной конкурент xT