В Италии завелись собственные футбольные теоретики. Чем пользуются и зачем?
ДЛЯ ЧАЙНИКОВ
Для тех, кто знаком с футбольной статистикой, в "ожидаемых голах" (хG) давно нет ничего нового. Вкратце, это - индекс, взвешенный в рамках алгоритма, способный представить наступательный потенциал команды и отдельно взятых игроков. Это набор ключевых статданных, вычленяющий конечный результат возможности получения командой очков. Сравнение "ожидаемых" цифр с реальными позволяет прогнозировать не только возможный спад или подъем команды, но и работать над улучшением реальных результатов.
Коли игроки могут вести себя лучше или хуже, чем ожидалось, в зависимости от контекста, систематизация цифр сверхэффективности и неэффективности позволяет понять и факторы, влияющие на разность. Поскольку в футболе гол - редкое явление, а разница между голом и незабитым мячом иногда составляет несколько сантиметров, важно понять, что есть удача, а что - закономерность и следствие реальных проблем команды или игрока. Короче, это - полезный инструмент для анализа эффективности.
ВВОДНАЯ ЧАСТЬ
Уже давненько Флавио Фузи писал о необходимости расширенной статистики. Сначала xG использовали, чтобы преодолеть хотя бы одно из ограничений, влияющее на разность показателей, но даже на старте работы по практическому использованию метрик выяснилось, что возможности подсчета очков не одинаковы. Практики стали присматриваться к теоретикам, пытаясь понять, является ли эталоном модель Майкла Кейли (правда, тот работает с Washington Post и фокусируется на АПЛ). Можно упомянуть и Пола Райли, модели StatsBomb, Opta, 11tegen, wyscout и т.д. Если говорить об Италии, то восхождение звезды Альфредо Джакоббе предоставило техникам еще больший выбор. Джакоббе начал в 2013-ом с блога, в котором анализировал ключевые действия матча, пытался выделить стратегические преимущества одной команды над другой. Потом оказался в Ultimo Uomo, где разработал свой собственный индекс оценки (xG UU).
Первые переменные при оценке вероятностей - расстояние до ворот и угол удара выстрела. Всё началось с базы данных снимков, когда-то обнародованной Кристофером Лонгом, известным персонажем в мире американской аналитики, который в настоящее время участвует во франшизах Detroit Tigers, Major League, как Data Scientist. У Лонга база имеет координаты, Х и Y, картографична, с системой начала координат осей в одном из углов. Это стало входными данными для математической модели Джакоббе, а потом - вычлененным уравнением, с помощью которого можно рассчитать вероятность получения результата, с любой позиции нанесенного удара. Это не стало дискретной моделью, но уже не разделяло игровое поле на зоны, что предписывало всем ударам, выполненным из определенного сектора, одинаковую вероятность достижения цели, как это происходило в модели SPAM Пола Райли. Функция координат влияла на разность процента достижения. Конечно, модель, как и все, адаптивная, но прогнозы по мере добавления данных от года к году только улучшались.
С другой стороны, была проблема с разностями передач под удар и ударами головой и стопой, и их разделили. Для того, чтобы забить гол, очень важно ударить ногой с выгодной позиции. Получение качественного ассиста также имеет значение. Графики вероятностей помогли Альфредо, который стал разбираться и в тонкостях вертикализации игры командой, и во влиянии фактора поля, а также - текущего счета на результат.
Проигрыш одной команды по счету меняет ее настрой. Однако статистика показала, что желание - не есть результат. Команда, забившая 2+ имеет больше шансов забить следующий год (зелёная линия на графике выше). В спешке проигрывающий как правило увеличивает лишь количество выстрелов, но на дистанции понятно, что даже хG проигрывающих 2+ от этого не растет. Дискус качественный бишь, а не количественный.
Фактор поля ослабевает и эта тенденция была усилена введением трехочковой системой подсчётов. Дома из тактических соображений команда может проявить лишь большую агрессию, но контратакующие модели ничуть не проигрывают противоположным. С точки зрения ожидаемых голов, домашние команды (черная линия), при прочих равных условиях, имеют крайне минимальное статистическое преимущество перед своими гостевыми противниками, как показывает другой график.
ТОЧНОСТЬ МОДЕЛИ
Среди публичных моделей детище Кейли до сих было самы надежным из всех, даже с точки зрения прогнозирования будущих результатов команды. По этой причине, чтобы проверить надежность модели xG UU, Альфредо сравнил сами модели. Упрощая, автор хG UU вычислил среднюю разницу реальных голов и ожидаемых в обеих метриках, на основании результатов отдельно взятых 380 игр.
Из результатов на графике выше понятно, что среднеквадратичная ошибка в некоторых случаях ниже, чем полученная Кейли, но некритично. В целом можно сказать, что уровень надежности между двумя моделями очень похож. Так что остаётся определиться со сценариями использования модели Альфредо. Expected goals в целом и, следовательно xG UU, являются мерой качеств команды в фазе нападения, но они также являются показателем команд в оборонительном департаменте. Очевидно, продвинутые метрики не используешь после двух-трех туров, но на дистанции - это уже серьезный инструмент для командых аналитиков и всесторонних, в том числе изучающих букмекерские маркеты. Прошлогодний обвал рейтингов Кальяри и Лацио был четко предсказан продвинутыми методиками, как и спад Сассуоло сейчас. Команда Де Дзерби не заслуживает и 8-ой текущей строчки (как минимум 11-ой). В плотной группе претендентов на Скудетто не разобраться, но за Ювентусом идёт Рома, потом Аталанта и Наполи, причем адзурри сыграли на 2 игры меньше, чем общая группа, а команда Пирло - на одну. Только после них - Интер и Милан, но Лацио, например, уступает Удинезе. Примечательно, что команда Готти в лидирующей семёрке с самого начала чемпионата, а второй, кто должен прибавить, согласно, статистическим моделям - Фиорентина.
Мишель Тоссани (на фото с микрофоном, на мой вкус, лучший тактический аналитик Италии, пишущий для La Gabbia di Orrico, сотрудничающего с SICS, инновационной компанией в области спорта) в последнем интервью с Джакоббе интересовался: стабильны ли такие предсказания? Альфредо пояснил, что "команде необходимо иметь значение выше среднестатистического, которое оценено моделью, чтобы устранить лучшую разницу. Проблема заключается в сроках проведения оценки, которые должны быть как можно более широкими. Иногда 38 игр недостаточно, чтобы результаты команды нормализовались по производительности. Но, это редкие случаи". Добавлю, что сложнее, например, оценить шансы подъёма Фиорентины, сменившей Мотеллу на Якини и Пранделли, причем у фиалок мощно видоизменяется состав. Проще с Готти, который рулит зебретте не с начала сезона, и его состав более-менее стабилен. Однако хG-стата Наполи очаровательна. Любой здравомыслящий аналитик должен одернуть патрона Наполи, который зафлиртовал с Бенитесом ради возможной отставки Гаттузо.
РАЗВИТИЕ
Тоссани не мог не спросить итальянского пионера хG про новую модель - IPO (Offensive Danger Rating ), предложенную SICS и Маурицио Вискиди, которая вкупе с метриками хG могла бы давать ещё более точную количественную оценку производительности команд. Речь шла о новой метрике, в которой апеллируют два индекса. IPO - показатель наступательной опасности . IRD - это индекс защитного риска. Оба оценивают степень опасности, превышающую фактически забитые, и, наоборот, пропущенные. При оценке принимаются во внимание только последние 25 метров поля. Каждая игровая ситуация имеет свой счет, где гол (10 очков) является эталонной единицей измерения.
Выше - прошлосезонный рейтинг Серии А, основанный на разнице IPO/IRD. Не оценка заслуг, а идея сравнить, сколько команда создаёт и сколько рискует. Здесь лидирует Аталанта, как и другие "зеленые" команды, производя гораздо больше чем рискуя. Сравнивая этот рейтинг с реальным, можно увидеть, что есть команды (Наполи и Болонья), которые создавали гораздо меньше, чем то, что производится.
Джакоббе пояснил, что все модели - альтернативные. Каждая из которых позволяет оценить вероятности. "С матчевым аналитиком национальной сборной Антонио Гальярди (соавтором Вискиди) я часто встречался и мы сравнивали модели. Почти во всех случаях моя оценка ожидаемых голов совпадала с оценкой IPO. В среднем в Серии А гол забивается за каждые 30 очков IPO или каждые 0,8 xG. Это два разных способа сказать одно и то же".
Тоссани возразил, что с защитой - сложнее. Попытка эффективно измерить защитные характеристики была предпринята с помощью PPDA, который рассчитывает соотношение между передачами, сделанными командой, владеющей мячом (на первых 60 метрах поля), и выполненными защитными действиями (отборы, перехваты) в той же зоне защищающейся командой. Однако индекс прессинга не даёт сверхкачественной информации. Джакоббе считает этот аспект фундоментальным: в величинах измерения прессинга учитывают вклады давления и противодействия, и разделить их невозможно. "Напротив, наличие двух разных показателей очень поможет проанализировать стратегический аспект возврата мяча, который становится все более важным в футболе и влияет как атаку одного соперника, так на оборону другого. К счастью, компании, занимающиеся сбором данных, наводят порядок и с этим".
ВЫВОД
Данные могут влиять на три основных области принятия решений: оценка работы игроков и команды, анализ оппонентов, новые подписания. В этих трех областях данные не помешают менеджерам и техническим специалистам принимать неверные решения, но значительно снизят риск. Благо на Апеннинах завелись собственные футбольные математики, а клубы теперь проявляют активность по части использования продвинутых статистических методов. Се ля ви, точнее - questa è la vita.