Ожидаемые очки: когда ожидать от них результата?
Я тут на досуге размышлял об ожидаемых очках и их интерпретации. В частности, меня волнует, что люди воспринимают перебор xP, как однозначный аргумент для ставок против команды. Больше всего мне понравилось читать комментарии в духе: "Надо грузить на Томь, потому что Спартак перебирает xP" при том, что сама Томь мертвее мёртвых.
Первый момент, который стоит отметить это дистанция: безусловно закон больших чисел, регрессия к среднему, называйте как хотите, работает и на достаточно большой выборке ударов сумма очков примерно совпадёт с суммой xP. Ключевые слова в этой фразе - достаточно большая выборка. Если для xG число ударов, которые наносит команда за сезон, составляет несколько сотен, что уже в принципе немало, то матчей за сезон команда проводит очень мало. И соответственно вероятность не попасть в среднее достаточно велика на такой маленькой выборке, поэтому говорить о регрессии к среднему по xP не приходится. Отсюда следует вопрос как же интерпретировать ожидаемые очки?
Во-первых, их можно расценивать, как некий "справедливый" результат матча и насколько та или иная команда наиграла на победу. Кроме того можно пытаться говорить о "регрессии к среднему" в том плане, что если команда регулярно перебирает, то ей в чём-то везёт с реализацией моментов и при сохранении такого же качества игры, команда рискует получить чуть худшие результаты (не обязательно при этом, что сумма очков совпадёт с xP, просто возможно немного приблизится). Однако делать такие выводы надо осторожно и с более подробным изучением ситуаций, в которых команда "перебирала"/"недобирала очки".
Основное замечание заключается в том, что хорошие команды всегда должны немного перебирать, а плохие - недобирать. Конечно, эти переборы и недоборы должны быть относительно маленькими и никак не равняться 14 очкам, как у Спартака, но они скорей всего будут. Всё потому, что даже если команда абсолютно доминирует в матче и побеждает в нём, то в таблицу ожидаемых очков идёт не 3 очка, а скажем 2,5, ведь вероятность победить всегда будет меньше 1. На большой дистанции команда, действительно, будет получать за такие матчи в среднем 2,5 очка (на 10 выигранных матчей будет приходится 2-3, в которых команда, имевшая большое преимущество, выиграть-таки не сможет), но опять на дистанции сезона вероятность не попасть в среднее велика.
Предположим, что команда в сезоне провела 10 матчей, вероятность выиграть в каждом из которых равна 70% (это довольно много). В среднем из этих 10 матчей команда выиграет 7, однако вероятности выиграть 8 и 9 матчей - 23% и 12% соответственно. В итоге на дистанции сезона вполне накопится небольшая разница с xP, однако она не будет означать, что команда не наиграла на результат, скорее даже наоборот, она часто доминировала и закономерно побеждала.
Совсем другая история с равными играми. Конечно, говорят, что победы в таких матчах вопреки всему и отличают чемпионские команды, однако, как мне кажется, в игре с равными шансами очень много завязано не только на классе исполнителей, но и на удаче, особенно, когда речь идёт о матче примерно равных соперников. К тому же почти у всех команд таких матчей большинство и вероятность перебрать в таких матчах к концу сезона существенно ниже. Поэтому говоря о переборе очков важно понимать в каких матчах этот перебор был достигнут.
Для лучшей иллюстрации этих феноменов разобьём матчи каждой команды на 5 типов: команда должна была победить с вероятностью больше 70%, команда была фаворитом (вероятность её победы между 50% и 70%), команда была скорее аутсайдером (вероятность победы соперника между 50% и 70%) и команда должна была проиграть с вероятностью больше 70%. Оставшиеся матчи отнесём в категорию равных матчей. Далее будем рассматривать разницу очков и xP в каждой из категорий, но при этом если команда должна была победить или была фаворитом и действительно победила, то такие матчи учитывать не будем. Аналогично, для поражений. В итоге, мы получим все расхождения очков и xP для "равных" матчей, а для остальных матчей будем смотреть только разницу, которую привносят "неожиданные" результаты. Получим такую вот табличку:
Колонки с именами, начинающимися на Win, соответствуют ситуациям, когда команда должна была выиграть, Fav - когда была ближе к победе, чем соперник, Unfav - когда была дальше от победы, Lose - когда должна была проиграть и Draw соответствует равной игре. Вынесенные вправо колонки с _T соответствуют суммарному количеству матчей в каждой категории. Колонки без дополнительных индексов - это количество матчей с "неожиданным результатом", _P - это набранные в "неожиданных матчах" очки, _xP - набранные в них ожидаемые очки. natural_diff - это естественная разница между очками и ожидаемыми очками, которая скапливается, когда команда "справедливо" выигрывает или проигрывает.
Какие выводы можно сделать из этой таблицы:
Спартак перебирает половину разницы очков и ожидаемых в равных матчах, что обычно считается либо показателем чемпионской игры, либо большой удачи. В любом случае получать из равных матчей в два раза больше очков, чем ожидается, на протяжении всего сезона тяжело, и здесь Спартак вполне может "накрыть регрессия". В то же время они хороши в реализации преимущества в матче: они выиграли все 6 матчей, в которых были фаворитами (пусть и не всегда явными, о чём свидетельствует "естественный перебор").
Зенит очень хорош и тут - 5 вчистую выигранных матча, ни разу не был переигран и все проигранные матчи проиграл в равной борьбе. Единственная их проблема это упущенные победы в 3х матчах, где они были сильнее соперника, однако это компенсировалось 3 очками перебора в равных матчах.
Природа перебора Локомотива исключительно в упущенных победах в матчах, где иного результата, кроме победы, быть не должно было. Поскольку это чистейшее невезение, то логично ожидать, что во втором круге Локомотив будет больше очков набирать в матчах, где он лидирует (что уже вы могли видеть в 16м туре).
ЦСКА - команда-любитель равных матчей: сразу 10 игр шли в равной борьбе, и ещё в 6 ЦСКА был чуть сильнее, но незначительно и к тому же умудрился в 3 из этих 6 матчей сыграть вничью. В целом ЦСКА очень ровно следует своим ожидаемым очкам, перемежая удачные матчи с неудачными в нужной пропорции. Единственное, что настораживает: не слишком ли много сил (в первую очередь психологических) тратится в столь равной борьбе? ЦСКА ни разу за сезон уверенно не переиграл соперника в одну калитку.
Неожиданно неплох Терек: 17 очков он набирал в матчах, где был сильнее соперника (ну или соперником был Урал) и весь перебор "естесственный". Им даже немного не повезло в 3 матчах.
В конце хотелось бы ещё раз подчеркнуть основную идею: делать прогнозы лишь на основе разницы очков и ожидаемых очков в корне неправильно, важно понимать возможный контекст предстоящего матча. Так, например, в потенциально ничейном матче можно попробовать сыграть против Спартака, однако в матче, где они должны быть сильнее, преимущество они обычно не упускают.
Кроме того, хотелось бы услышать критику/идеи, связанные с данным разделением матчей: насколько по вашему это осмысленно и хотели бы вы видеть часть этих статистик в публикуемых после каждого тура таблицах?
В то же время, мне кажется, что в подобной критике модели, значение "прагматичной игры" сильно переоценено. Например, очень много команд начинает сильнее садиться в оборону после забитого гола, но подобные разрывы в xG только у Спартака и Ниццы - неужели Атлетико образца прошлого сезона или Челси обороняются хуже Спартака? Ещё подобный разрыв можно увидеть у прошлогоднего Вест Хэма: https://vk.com/wall-122182507_28911 где он сейчас с такой же игрой, как в прошлом году, находится, я думаю, вы знаете.
Касательно распределения xG голов в зависимости от счёта - это хорошая идея, надеюсь как-нибудь дойдут до этого руки.
Соответственно, чтобы понять реальный перебор Спартака по хГ мне кажется правильным посчитать отдельно до того, как Спартак повёл в счёте и отдельно после. Может интересная картина получиться.
Если у команды очень сильный вратарь, то логично, что для соперников этой команды каждый балл хГ имеет меньшую ценность с т.з. потенциального гола.
Тогда суммарный перебор хГ на долгой дистанции для такой команды будет логичным явлением, а не аномальным, и дальнейшей регрессии к среднему нельзя будет ожидать.
При этом абстрактную "силу" вратаря оценить довольно сложно и я не уверен, что стоит включать этот показатель в модель, к тому же вратарь действует только на ударах в створ, а вероятность забить состоит из двух вероятностей: вероятность попасть в створ * вероятность пробить вратаря и их вклады в общие вероятности пока не очевидны.