Как оценить закономерность победы?
Из тура в тур не утихают споры о том, закономерен ли был тот или иной результат. Что такое «Отскок»? Остановимся на упрощенном определении, это не закономерный итог матча, победа команды, которая была менее эффективна, или ничья при большом преимуществе одной из команд. Стало быть, необходимо оценить эффективность команды в обороне и атаке относительно соперника.
Лучшие футбольные и просто математические умы мира давно пытаются ответить на этот вопрос. Методика оценки должна объяснять итог матча более "математически" чем просто "ну им сегодня повезло" или "они выиграли матч на эмоциях и сплоченности".
Важно сформировать комплекс параметров статистики, которые помогут оценить эффективность команд в завершающей стадии атак(своих и соперника, то есть допущенных), ведь все ради этого, забить гол, победить. Причём команда может быть ужасной по xG, метрикам продвижения мяча и проникающим передачам, но при этом обладать лучшей обороной, а в атаке брать своё за счёт стандартов(пример именно такой потому что таких команд много) и в итоге быть конкурентноспособной, а то и на вершине.
Важное лирическое отступление, в этом материале много терминов и абревиатур, многим они будут непонятны, к сожалению вставить ссылки на матчасть затруднительно, Sports не поощряет (запрещает) множество ссылок на сторонние ресурсы, но все эти термины легко и быстро "гуглятся" в интернете.
Прежде чем перейдем к статистике остановимся на ложных суждениях, обычно в спорах о «отскоках» человека, который оперирует xG тут же обвиняют в: а) в том, что сам матч не просмотрен, а выводы сделаны исключительно по xG ; б) Более понятный домысел, в том, что из всей статистики для оценки принималось во внимание только xG. Естественно, оба домысла, безосновательны, но почему-то раз за разом все повторяется как по шаблону.
И так, что стоит учитывать при оценке команды, пойдём по уменьшению значимости.
1. Да, xG. От этого никуда не деться, вероятность забить с определённой точки в определённой тактической ситуации это самый значимый фактор, о его значимости сказано много, а таблицы ожидаемых голов и ожидаемых очков довольно сильно коррелируют с реальными таблицами чемпионатов. xG в том числе включает в определённой степени аспекты ниже, но все равно не учитывает большое количество признаков эффективности команды в атаке(или обороне), на примерах ниже. Как и в любой модели, есть свои минусы, в том числе ошибки обсчетов, незначительные пере или недооценки не критичны, а серьезные ошибки, как правило замечают аналитики.
2. Не каждая опасная передача заканчивается ударом, игрока могут накрыть, он может поскользнуться, некачественно обработать мяч(не потерять, а именно упустить момент из-за огрехов обработки) или просто неожиданно травмироваться в конце концов, при этом такой финал даже самой невероятно опасной атаки не будет отражён в xG. Что же делать? Надо учесть такие выводы на ударные позиции, лучше всего для этого подойдёт Impect (отрезанные передачей защитники), тем более есть серьёзная корреляция - команда обыгрывавшая соперника по Impect побеждает в 60-70%, тут стоит заметить что в мире футбольной макро статистики это серьёзная корреляция. По хорошему в Impect для наших целей стоило бы считать за защитника и спустившегося в линию страхующего игрока (чаще всего опорник), но такой технической возможности нет, поэтому будем пользоваться тем что есть.
3. Мы уже заикнулись в начале, что есть множество команд, которые в атаке делают ставку на стандарты, некоторые команды вообще берут за сезон не один десяток очков на ставках на ауты. Поэтому ожидаемые(и допущенные) голы со стандартов(xG SP)обязательно идут отдельной графой несмотря на то что они уже включены в общий xG, потому что команда истинно полностью контролирует мяч в статике, то есть при стандартных положениях.
4. Этот аспект не заслуженно обходят стороной почти все аналитики, но зато прекрасно понимают его ценность аналитики Opta, на своих знаменитых картах xG они его публикуют отдельной строкой - deep completions - точные передачи в зону в радиусе 25 ярдов (22,5 м, то есть грубо-штрафная площадь) от ворот, и very deep completions - точные передачи в зону в радиусе 15 ярдов (13м) от ворот. Почему это важно? Потому что возможна масса вариантов когда опасный эпизод не будет никак отражён ни в xG ни в Impect, все передачи поперёк или назад(а у штрафной соперника это может быть не менее опасный вектор продолжения атаки) или просто передачи не отрезающие именно защитников, но выводящие игрока в перспективную позицию. Очевидный пример, игрок открылся в штрафной (корректнее будет в зоне DC) под передачу с Imp=0, и на неудачной попытке дриблинга или тонкой передаче проваливает эпизод(или что угодно другое не закончившееся ударом или передачей), в итоге эпизод никак не отражён в традиционных метриках, но ведь команда создала остроту, разве нет? Проникающая успешная передача в штрафную это именно острота и обязательный критерий для итоговой оценки эффективности команды в атаке, да, гораздо менее значимый чем xG, но не настолько чтобы его не учитывать вообще.
DC и Impect не будут иметь вообще никакого влияния на результат матча, если команда не бьет, а например излишне мельчит или как говорят "хочет занести мяч в ворота", именно поэтому эти параметры в конце списка по значимости.
5. Еще один косвенный показатель. Владение мячом не является показателем эффективности команды, а вот отдельно – владение и активность в финальной трети поля, это то на что как минимум следует обратить внимание.
Перейдем к конкретным примерам, в матче Локо – Рубин. xG 0.63 – 0.87, момент Азмуна на 12ой минуте был засчитан операторами ошибочно, вычитаем из xG Рубина вес момента Азмуна, получается равенство команд по xG.
По стандартным моментам, аналогично. А вот все остальное уже интереснее, по deep complitions 7-18, по передачам в атакующей трети преимущество Рубина в полтора раза. Итог: Матч ничейный, Рубин был слегка ближе к победе, фактическая победа Локомотива не закономерна.
О чем не стоит говорить при оценке команды на дистанции?
1) Некоторые всерьез обсуждают преимущество Локо по разнице созданных и допущенных явных голевых моментов (34 и 13) в этом сезоне, как о одной из причин лидерства. Во-первых, такая статистика говорит о стиле команды, Локо как ярко выраженная контратакующая команда по определению имеет больше вводных для создания явных голевых моментов и меньше для допущенных. Во-вторых, все это уже учтено в xG модели, вырывать одну из ее составляющих из контекста – в корне не верно и выглядит как подгонка аргументов под требуемый вывод.
2) «Психология чемпиона», «сплоченность» и так далее. Это важные инструменты для достижения результата (добежать или отбороться до конца, не терять концентрацию), но именно инструменты, а не сам результат. Оценивать необходимо, конкретные параметры, описанные выше (список наверняка можно дополнить), потому что итог эпизодов найдет отражение в рассматриваемой статистике.
Ожидаемые очки и как их оценивать.
Плавно переходим от оценки конкретных матчей к более глобальным вещам, начнем с модели ожидаемых очков. В модели ожидаемых очков (xPoints) есть серьезный минус, она сильно ошибается на небольшой выборке даже в полный сезон, допускает такие огрехи как перебор очков в прошлом сезоне у Спартака, а в этом у Локомотива, поэтому многие при оценке команды с помощью этой модели берут временной отрезок более длинный чем часть текущего сезона, чтобы регрессия к среднему (ожидаемому) проявилась. Так в прошлым сезоне Спартак перебрал почти 25 очков, в этом сезоне мы наблюдаем наоборот недобор очков (регрессии к среднему). На длинной дистанции этот аспект обречён на стабилизацию, за оверперформингом обязательно будет андерперформинг и наоборот.
С выбором временного отрезка для рассматривания результатов модели ожидаемых очков связано много ошибок. Например, в одном из материалов недавно был рассмотрен отрезок Локомотива в 2 неполных сезона, в прошлом сезоне Локо недобрал очки, в этом перебирает (возвращает свое), казалось бы все красиво, регрессия к среднему, вот только Семин пришел в Локо в конце августа 2016, а Фарфан (ключевой игрок сегодняшнего лидерства Локо) вообще в конце января 2017, корректно ли брать такой отрезок по модели ожидаемых очков? Как минимум спорно.
Пара слов о инструментах для анализа.
В этом сезоне появился новый сайт understat с xG статистикой и удобными таблицами. Сайт привел многих в восторг, довольно динамично развивается, недавно они слегка обновили дизайн (графики и таблицы наконец стали менее "мутными", раньше приходилось самому в фоторедакторах подстраивать резкость и контрастность) и добавили множество новых фишек - радары игроков и новую статистику. Особенно интересно, что по каждому матчу появилась новая вкладка (скриншот) с эффективностью прессинга (PPDA), ожидаемым очкам (xPTS) и проникающим точным передачам в радиус 20 ярдов от ворот (deep).Я как и многие был в восторге, множество дней копался в статистике. Все знают, что любой оператор совершает ошибки при обсчете матча, understat не исключения, и на этих ошибках их в том числе ловил Васюхин Никита из Блокнота. Страшно представить какие ошибки допускаются при обсчете PPDA, явно неточностей больше. Но ведь с проникающими передачами все проще, подумал я, примерно как с ударами по воротам, данные understat по ударам все таки довольно точно коррелируют с данными компании Opta (главный зубр статистики в мире футбола).
Небольшая теоретическая вводная, у Opta проникающие считаются по 2 типам: deep complitions и very deep complitions, передачи в радиус 25 и 15 ярдов соответственно (22м и 13м). У understat такие проникающие передачи называются просто deep и в радиусе 20 ярдов. Отгадайте с трех раз зачем выбрана другая зона охвата, правильно, скрыть хоть как-то расхождения с данными других компаний. Ничего удивительного или сверхплохого в этом нет, просто это надо знать, понимать и принимать как данность, всегда закладывая в оценке цифр погрешность.
К сожалению даже в поверхностном анализе сразу вылезли расхождения, пример ниже, матч 18го тура Рубин-ЦСКА. Opta насчитала у Рубина 2 передачи в радиусе 15 ярдов (13 м), understat насчитал всего 1, и причем в более широком радиусе 20 ярдов. Для сравнения Opta в радиус 25 ярдов насчитала уже 6 проникающих передач. В общем ошибка обсчета на лицо.Еще раз подчеркну, "Ничего удивительного или сверхплохого в этом нет, просто это надо знать, понимать и принимать как данность, всегда закладывая в оценке цифр погрешность." Сайт все равно шикарный, огромное спасибо авторам.
Продолжаем о глобальном. Аномальные итоги матчей.
Нельзя пропустить не только тему ошибок обсчетов статистики, но и тему, что далеко не всегда на практике матчи заканчиваются закономерно. Уже долгое время я отслеживаю "аномальные" итоги матчей, когда доминирующая команда не дожимает соперника или даже проигрывает. Задача простая, искать закономерности в таких матчах, что у них общего. Задача прямо скажем не тривиальная, как и ожидалось, на выборке около 400 матчей (из которых около 20 имеют ярко выраженный аномальный итог) никаких системных закономерностей не выявлено, кроме довольно очевидных:
1. Не закономерно выигрывающая команда, значительно меньше бьет издали (меньше "мусорных" точек xG), более бережливо относится к реализации своих подходов к воротам соперника.
2. Частично следствие 1, но более интересный аспект. Не закономерно выигрывающая команда, как правило не доставляет мяч на ударные позиции с помощью кроссов, а делает это в основном с помощью разрезающих передач и забросов. Причем это происходит независимо от стиля команд. Наиболее понятный нам пример, игра Реал - Зенит, чисто фланго-кроссовая команда Манчини, отдала за матч кроссом только 1 deep complitions (точная передача в радиус 22м от ворот). Тоже самое наблюдается и в большинстве других "аномальных матчей" , смотри графу deep complitions и very deep complitions.
3. Эта часть менее очевидная, свои самые опасные моменты (в большинстве случаев) такие команды "счастливчики" создают не во вратарской площади. Трудно объяснимо с чем это связано, можно списать это на высоту линии обороны доминирующей команды.
3 аспекта выше не претендуют на громкие признаки-тенденции, пока это всего лишь база для будущих исследований. Планирую создать большую таблицу с аномальными матчами, которая будет охватывать несколько сезонов и несколько лиг (чтобы выборка аномалий была максимально разнообразна и не менее 500 матчей), но для того чтобы начать формировать таблицу, необходимо выделить признаки столбцы для разметки таких матчей, как например уже выделено 3 признака выше, так что будем наблюдать дальше. При создании базы, уже можно будет играть с фильтрами и подбить какую-то статистику. Больше СБГ аналитики в VK.
Ну а пока предлагаю оценить примеры аномалий последних недель из разных лиг. Думаю у многих будут свои предположения, озвучивать их - ОБЯЗАТЕЛЬНО!
Использованы материалы 11tegen11, understat и Паблика Блокнот. Спасибо, тем кто не поленился поставить + или подписался на блог, это единственный отклик для авторов трибуны за их труд. Больше СБГ аналитики в VK.
А лидирует Локомотив с отрывом в 8 очков.
Рубин с Амкаром тоже находятся несправедливо низко в таблице. По показателям должны быть в первой восьмерке.
Вобщем хорошо, что места распределяются не по статистическим параметрам. Так веселей:)