Как трактовать xG?
Часто размышляю над статистикой, и вот вчера совпали мысли по поводу важности дистанции. Тот же xG, чтоб вы знали, пришел из бейсбола. В регулярном чемпионате MLB команда играет 162 игры, это без учета плей-офф и Мировой серии. И это больше, чем одна команда АПЛ проводит за 4 сезона(!). В любом американском спорте, откуда и дует ветер продвинутого анализа, команды в плей-офф проводят между собой минимум 4 игры (это не считая регулярки) – редкий случай для одного сезона в европейском футболе. Часто встречаются ситуации, когда регрессия к среднему демонстрируется не в текущем, а уже в следующем сезоне (пример «Суонси» сезонов-2014/15 и 2015/16 очень показателен).
Вдобавок понятно, что система неполноценна, к примеру, в ней не учитываются:
1 Позиция вратаря и полевых игроков соперника. У вас же нет сомнений, что удар после короткой передачи в позиции 1 на 1 перед кипером и удар после паса со свободного удара, когда 7 полевых игроков стоит на ленточке обладают разной опасностью и весом xG?
2) Расположение своих игроков. Например, регулярно возникают ситуации, когда лучшим решением был бы пас на партнера, находящегося в более удобной позиции.
3) Мелкие тонкости типа двух и более ударов в одной атаке, которые решаются с помощью простого тервера.
Скажем, если вероятность того, что первый удар будет забит равна 0,8, но он не забивается, а затем наносится второй с xG 0,6, то сумма атаки, конечно, не может быть 1,4. Но этот вопрос решается достаточно просто и красиво с помощью формулы полной вероятности: вероятность того, что первый удар не будет забит – 0,2, а если мяч оказался после него в поле и последовал второй удар, то его вес уже равен 0,6*0,2 = 0,12. Таким образом, у вас никогда не возникнет ситуации, что xG будет больше или равен единице, даже если за одну атаку вы нанесете сотню ударов.
В общем виде будет выглядеть так:
Еще очень активно обсуждаются следующие моменты:
1) Качества вратаря (к примеру, тот же Оспина хорош в ближнем бою, но испытывает регулярные проблемы с дальними ударами). То есть возможна ситуация, когда удар с 30 метров с отскоком от газона по воротам Оспины будет весить, скажем 0,15 xG, а против Де Хеа – 0,1 xG. А, к примеру, удар с 10-11 метров против Оспины – 0,5 xG, когда против Манноне, скажем, 0,55 xG. Но мне непонятно, как такая модель вообще будет реализована – выглядит утопично, поскольку в таком случае она будет основана только на данных, взятых из предыдущих игр и совсем не будет учитывать возможный прогресс/регресс, вытекающий из тренировочного процесса.
2) Качества бьющего, поскольку понятно, что все реализуют моменты по-разному.
Но ключевым, на мой взгляд, при разговоре об уровне вратаря и уровне бьющего является следующее – от этого не зависит качество созданного момента, а зависит только его реализация. Еще раз: качество момента не зависит от уровня бьющего и уровня вратаря. То есть модель любая модель xG в нынешнем виде отлично подходит для того, чтобы оценить, как команда создает моменты и как предотвращает. И в большинстве случаев это даст нам ответ на вопрос, кто играл лучше. Но это подталкивает и к другим выводам: если на дистанции (а в случае с тем же «Арсеналом» 4 года – это дистанция) у тебя отличный показатель xG, но сильно меньше голов, значит, грубо говоря, надо менять форварда. Если же отличные показатели xGa, но много пропускаешь, значит что-то не в порядке с вратарем. То есть модель вполне может быть хороша для оценки везения/невезения в одном отдельном матче, но на дистанции из нее следует делать более детальные выводы (иначе это просто неуважение к модели).
Модель xG надо уважать. Во-первых, она дает отличный базис, от которого можно отталкиваться и использовать для более продвинутого анализа. И это лучшее, что есть в этом виде на данный момент.
Во-вторых, она развивается. Еще несколько лет назад в модели самого известного аналитика xG ударов с лицевой достигал 60%, а некоторые удары в упор весили больше единицы, но эти баги были пофиксены. Сейчас мы можем заглянуть гораздо глубже, чем, скажем лет 5 назад. И прогресс этот будет продолжаться, поскольку за дело наконец взялись американцы. А если ученые из США начинают обсчитывать какой-то спорт, то рано или поздно добиваются своего. Это единственные ребята, которые коллективно двигают спортивную статистику вперед.
Важно, что модели постоянно модифицируются, потому что футбол, в отличие от бейсбола, который, по сути, является игрой-набором «стандартных положений» и баскета – самого результативного вида спорта, где регрессия зачастую наблюдается внутри одного матча. Скажем, если команды наливают трехи с процентом 70 в первой четверти, то во второй – третьей вы смело можете ставить низ, потому что будет регрессия к 40-45%. Их доместиковые виды спорта уже обсчитываются не хуже, чем проекты небоскребов и мостов. Обсчет и рассекречивание кода футбола – дело максимум 5-6 лет. И горькое разочарование ждет тех, кто рассказывает про «горящие глаза» и «познание гармонии алгеброй» (мы это уже прошли на примере Билла Джеймса и бейсбола и цифровой революции в баскетболе).
Если вы считаете, что нет зависимости между выступлением команд и игроков в предыдущих сезонах и в нынешнем, то не стоит безапелляционно об этом говорить и смотреть на игру слишком упрощенным взглядом. Нужно разобраться, а почему этой зависимости действительно нет, либо доказать обратное.
Футбольным статистикам еще только предстоит пережить непростые времена и придумать, как разрешить проблемы, которые я изложил выше (некоторые, на мой взгляд, вообще неразрешимы). А нам необходимо находить новые подходы к анализу существующих моделей и результатов гораздо скрупулезнее и разнообразнее. Иначе рискуем превратиться в Бубнова, который выставляет клоуном не только себя, но и Бескова с Лобановским. Хотя они опередили свое время, и в отличии от Бубнова несомненно подстроились бы под текущие реалии, просто в 70-90-е было невозможно придумать что-то кардинально лучше, чем подсчет всех ТТД вместе и анализ в терминах «150 ТТД и 20% брака», что, как мы сейчас понимаем, является совершенно неграмотным подходом.
Подумайте над этим, а я пойду считать xG. С этого тура мы обсчитываем чемпионат России: берегись, «Спартак».
Я понимаю, что хочется увидеть в ней нечто большее, очень хочется расшифровать футбол просто и элегантно, но я из практики скажу, что наиболее удачные модели в нв учитывают более ста таких характеристик, как xG, и все продолжают усложняться - и все равно случай определяет в разы больше, чем все формулы вместе взятые.
это не значит, что не стоит заморачиваться и считать, это значит, что нужно держаться в рамках логики и извлекать то полезное, что можно извлечь, не претендуя на универсализм
Кстати, раз Арсенал практически чемпион мира по xG, то низкую позицию в чемпионате можно объяснить целым рядом причин, от количества травм, использованного Вадимом в своем анализе, до качества игры вратаря или игрой обороны (слишком много пропускают из того, что не должны были), плохой игрой нападающих, их несоответсвие уровню Арсенала; плохой последний пас, из-за которого игроки наносят правильные удары не той ногой или с недостатком времени на раздумья, да чем угодно. Однако используются именно выводы, напрашивающиеся и без этого самого xG (травмы, тренерская философия), к которой за уши притягивается статистика и возводится в абсолют. ИМХО
Сама по себе логика - оставлять человека открытым и давать бить, на мой взгляд, ошибочна, потому что суть защиты сводится к тому, чтобы ограничить число ударов по своим воротам. Если же вы допустили удар, то вы по определению защищались не наилучшим образом (только если вы потом его не заблокировали). Если наилучшим выхлопом вашей защиты является ситуация, когда на удар выходит не самый опасный игрок соперника, но при этом он свободен, то ваша защита априори нехороша. Классический пример - тот же баскет. Матч Олимпиакос - Барселона из прошлогоднего четвертьфинала Евролиги, когда Барса посчитала, что наилучший вариант - это дать Прентезису (худший по проценту трехочковых на площадке) дать совершить открытый бросок в концовке. Он забил, и Барса вылетела.
Всерьез же заложить качество бьющего в xG нельзя, поскольку про некоторых игроков просто может быть недостаточно данных. Вы знаете, что Халк с вероятностью p забивает дальний удар, поскольку у вас есть выборка по нему. Но при этом у вас нет выборки по более молодым игрокам или тем, кто бьет из-за пределов штрафной мало. Поэтому заложить это в качество не получится. xG достаточно успешно оценивает качество, для оценки реализации нужно подключать другие модели.
на самом деле зависит. например, я не стану давать Халку бить из-за штрафной, а Васе Пупкину - сколько угодно, и этот факт не должен отражаться на моем xGa, а он отражается
На самом деле, вектор рассуждений на мой взгляд противоположен тому, что должен быть. Психология решает все как в спорте, так и в принципе во всем, что имеет отношение к людям. А в командном спорте - это помимо психологии отдельно взятого человека, еще и психология групп. Причем она не просто решает в целом, она пронизывает все. Цифры и статистика - это просто околоспорт, абсолютная вещь в себе.
Но, если все же теоретизировать на данную тему, то просто в эпоху постмодернизма наблюдается очередной виток упрощений - далеко идущие выводы по незначительным исходным данным и стремление делать такие далеко идущие выводы. Даже "цифровыми революциями" люди склонны называть далеко не революции) И вы путаете причину и следствие - именно распространение информации и увеличение вычислительных мощностей привели к повсеместной тенденции использования различных цифр и подсчетов. Вот вы, например, можете за пару секунд найти уже готовую модель и за умеренное время обсчитать с ее помощью то, что хотите. даже 10 лет назад - для вас одного это было бы непомерной задачей. Грубо говоря, идет период проб и ошибок, складывания простейших элементов в чуть более сложные. И говорить о чем-то сложном и серьезном, о "революциях" слишком преждевременно. Даже если теоретически можно просчитать любое явление в мире, то в данном случае нам надо дождаться сначала возможности обсчитывать человеческую психологию, а уж потом перекладывать это на частный случай со спортом. А пока, как вы понимаете, есть определенные сложности в этом направлении)