5 мин.

Как трактовать xG?

Часто размышляю над статистикой, и вот вчера совпали мысли по поводу важности дистанции. Тот же xG, чтоб вы знали, пришел из бейсбола. В регулярном чемпионате MLB команда играет 162 игры, это без учета плей-офф и Мировой серии. И это больше, чем одна команда АПЛ проводит за 4 сезона(!). В любом американском спорте, откуда и дует ветер продвинутого анализа, команды в плей-офф проводят между собой минимум 4 игры (это не считая регулярки) – редкий случай для одного сезона в европейском футболе. Часто встречаются ситуации, когда регрессия к среднему демонстрируется не в текущем, а уже в следующем сезоне (пример «Суонси» сезонов-2014/15 и 2015/16 очень показателен). 

Вдобавок понятно, что система неполноценна, к примеру, в ней не учитываются:

1 Позиция вратаря и полевых игроков соперника. У вас же нет сомнений, что удар после короткой передачи в позиции 1 на 1 перед кипером и удар после паса со свободного удара, когда 7 полевых игроков стоит на ленточке обладают разной опасностью и весом xG?

2) Расположение своих игроков. Например, регулярно возникают ситуации, когда лучшим решением был бы пас на партнера, находящегося в более удобной позиции.

3) Мелкие тонкости типа двух и более ударов в одной атаке, которые решаются с помощью простого тервера.

Скажем, если вероятность того, что первый удар будет забит равна 0,8, но он не забивается, а затем наносится второй с xG 0,6, то сумма атаки, конечно, не может быть 1,4. Но этот вопрос решается достаточно просто и красиво с помощью формулы полной вероятности: вероятность того, что первый удар не будет забит – 0,2, а если мяч оказался после него в поле и последовал второй удар, то его вес уже равен 0,6*0,2 = 0,12. Таким образом, у вас никогда не возникнет ситуации, что xG будет больше или равен единице, даже если за одну атаку вы нанесете сотню ударов.

В общем виде будет выглядеть так: 

alt

Еще очень активно обсуждаются следующие моменты:

1)      Качества вратаря (к примеру, тот же Оспина хорош в ближнем бою, но испытывает регулярные проблемы с дальними ударами). То есть возможна ситуация, когда удар с 30 метров с отскоком от газона по воротам Оспины будет весить, скажем 0,15 xG, а против Де Хеа – 0,1 xG. А, к примеру, удар с 10-11 метров против Оспины – 0,5 xG, когда против Манноне, скажем, 0,55 xG. Но мне непонятно, как такая модель вообще будет реализована – выглядит утопично, поскольку в таком случае она будет основана только на данных, взятых из предыдущих игр и совсем не будет учитывать возможный прогресс/регресс, вытекающий из тренировочного процесса.  

2)      Качества бьющего, поскольку понятно, что все реализуют моменты по-разному.

Но ключевым, на мой взгляд, при разговоре об уровне вратаря и уровне бьющего является следующее – от этого не зависит качество созданного момента, а зависит только его реализация. Еще раз: качество момента не зависит от уровня бьющего и уровня вратаря. То есть модель любая модель xG в нынешнем виде отлично подходит для того, чтобы оценить, как команда создает моменты и как предотвращает. И в большинстве случаев это даст нам ответ на вопрос, кто играл лучше. Но это подталкивает и к другим выводам: если на дистанции (а в случае с тем же «Арсеналом» 4 года – это дистанция) у тебя отличный показатель xG, но сильно меньше голов, значит, грубо говоря, надо менять форварда. Если же отличные показатели xGa, но много пропускаешь, значит что-то не в порядке с вратарем. То есть модель вполне может быть хороша для оценки везения/невезения в одном отдельном матче, но на дистанции из нее следует делать более детальные выводы (иначе это просто неуважение к модели).

Модель xG надо уважать. Во-первых, она дает отличный базис, от которого можно отталкиваться и использовать для более продвинутого анализа. И это лучшее, что есть в этом виде на данный момент.

Во-вторых, она развивается. Еще несколько лет назад в модели самого известного аналитика xG ударов с лицевой достигал 60%, а некоторые удары в упор весили больше единицы, но эти баги были пофиксены. Сейчас мы можем заглянуть гораздо глубже, чем, скажем лет 5 назад. И прогресс этот будет продолжаться, поскольку за дело наконец взялись американцы. А если ученые из США начинают обсчитывать какой-то спорт, то рано или поздно добиваются своего. Это единственные ребята, которые коллективно двигают спортивную статистику вперед.

Важно, что модели постоянно модифицируются, потому что футбол, в отличие от бейсбола, который, по сути, является игрой-набором «стандартных положений» и баскета – самого результативного вида спорта, где регрессия зачастую наблюдается внутри одного матча. Скажем, если команды наливают трехи с процентом 70 в первой четверти, то во второй – третьей вы смело можете ставить низ, потому что будет регрессия к 40-45%. Их доместиковые виды спорта уже обсчитываются не хуже, чем проекты небоскребов и мостов. Обсчет и рассекречивание кода футбола – дело максимум 5-6 лет. И горькое разочарование ждет тех, кто рассказывает про «горящие глаза» и «познание гармонии алгеброй» (мы это уже прошли на примере Билла Джеймса и бейсбола и цифровой революции в баскетболе).

Если вы считаете, что нет зависимости между выступлением команд и игроков в предыдущих сезонах и в нынешнем, то не стоит безапелляционно об этом говорить и смотреть на игру слишком упрощенным взглядом. Нужно разобраться, а почему этой зависимости действительно нет, либо доказать обратное.

Футбольным статистикам еще только предстоит пережить непростые времена и придумать, как разрешить проблемы, которые я изложил выше (некоторые, на мой взгляд, вообще неразрешимы). А нам необходимо находить новые подходы к анализу существующих моделей и результатов гораздо скрупулезнее и разнообразнее. Иначе рискуем превратиться в Бубнова, который выставляет клоуном не только себя, но и Бескова с Лобановским. Хотя они опередили свое время, и в отличии от Бубнова несомненно подстроились бы под текущие реалии, просто в 70-90-е было невозможно придумать что-то кардинально лучше, чем подсчет всех ТТД вместе и анализ в терминах «150 ТТД и 20% брака», что, как мы сейчас понимаем, является совершенно неграмотным подходом.

Подумайте над этим, а я пойду считать xG. С этого тура мы обсчитываем чемпионат России: берегись, «Спартак».