25 мин.

Иан Грэм. «Как выиграть Премьер-лигу». Больше, чем игра: 15. Статистика и эликсир молодости

ЧАСТЬ ПЕРВАЯ: ДОРОГА НА «ЭНФИЛД»

ЧАСТЬ ВТОРАЯ: КАК РАБОТАЕТ ФУТБОЛ

ЧАСТЬ ТРЕТЬЯ: БОЛЬШЕ ЧЕМ ИГРА

Заключение

Благодарности

15. Статистика и эликсир молодости

Количество энергии, необходимое для опровержения чуши, на порядок больше, чем для ее производства

Павел Кедроски

Мы должны были продать Суареса?

После увольнения Брендана Роджерса в октябре 2015 года футбольный мир выстроился в очередь, чтобы хорошенько отпинать Трансферный комитет, и мой отдел исследований получил свою долю критики. Я не обращал внимания на критику в прессе и даже со стороны бывших менеджеров и игроков. Мы пытались сделать что-то новое и не ожидали, что нас примут с распростертыми объятиями, особенно когда результаты выглядели так плохо. Однако пощечины и стрелы, которые мы получали от аналитического сообщества, были очень болезненными. Политика в отношении СМИ, принятая в «Ливерпуле», означала (вполне справедливо), что мы не могли объяснить, как и почему все пошло не так, но внешние консультанты быстро отметили, насколько ужасным должен был быть наш анализ данных.

Сразу после ухода Брендана одна из консалтинговых компаний опубликовала статью, в которой говорилось о том, что аналитическая команда «Ливерпуля» просто не очень хороша и что наш анализ может сводиться не более чем к подсчету ударов. Я умею воспринимать критику, и если бы я смотрел на «Ливерпуль» со стороны, то вполне мог бы написать подобный пост в своем блоге. Но у меня уже был опыт общения с этой компанией, и поэтому именно этот кусок застрял у меня в горле.

В июле 2013 года они отправили «Ливерпулю» анализ, в котором спрашивали, сколько Луис Суарес стоит для клуба. За несколько дней до этого «Арсенал» предложил нам за Суареса чуть больше £40 млн. По нашему внутреннему анализу, Суарес — лучший игрок «Ливерпуля», замена которого обойдется более чем в £40 млн. Это не вызывало никаких разногласий. И полностью совпадало с общепринятой точкой зрения и с мнением остальных членов Трансферного комитета. Но в их анализе была иная точка зрения.

Они отметили, что разница мячей «Ливерпуля» была лучше, когда Суарес не играл, чем когда он играл, и что клубу стоит серьезно задуматься о его продаже. Я не мог поверить в то, что читал. Я был поражен, когда увидел, что в 2013 году профессиональная аналитическая компания использовала анализ «плюс-минус», чтобы рекомендовать продажу игрока. Это был тот же самый отрывочный анализ, который английская футбольная пресса использовала несколько лет назад, чтобы сказать, что Гарет Бэйл — плохой игрок. К 2013 году уже давно были доступны подробные данные о результатах, но аналитик консалтинговой компании проигнорировал их, предпочтя заметить, что разница мячей «Ливерпуля» составляла +0,5 за игру, когда Суарес играл, и +1, когда он не играл.

Суарес пропустил всего 10 матчей Премьер-лиги из-за травм и дисквалификаций, а блестящая разница мячей «Ливерпуля» +1 за игру, когда он не играл, была полностью обусловлена разгромом «Ньюкасла» со счетом 6:0 в апреле 2012 года, как раз после того, как он получил бан за укус Бранислава Ивановича. Анализ не выдержал проверки. Правда, они отметили, что результаты не были статистически значимыми. Но если результаты не являются статистически значимыми, то вывод должен быть «результаты не являются значимыми», а не «вам стоит подумать о продаже Суареса». Суарес перешел в «Барселону» в 2014 году за £65 млн. Если бы мы последовали их плохому статистическому совету, это обошлось бы нам почти в £25 млн.

Во время взрыва интереса к анализу футбольных данных в 2010-х годах мы столкнулись с еще большим количеством неверных аргументов о футболе со стороны новой породы футбольных консультантов, стремящихся вскочить на подножку данных. Большинство неверных аргументов были ошибочными в более тонких аспектах, чем анализ «продайте Суареса». Если вы не разбираетесь в анализе данных, вам будет сложно понять, где кроются ошибки в плохом анализе. Использование данных для анализа футбола сродни использованию динамита. Он обладает огромным потенциалом, но при неосторожном обращении может взорваться вам в лицо.

Неужели угловые бесполезны?

Книга «Игра чисел», написанная в 2013 году Крисом Андерсоном и Дэвидом Салли, стала первой книгой, посвященной растущему интересу к анализу футбольных данных. Я с нетерпением ждал, когда смогу прочитать ее. Она была полна провокационных заявлений, которые стали лакомой добычей для начинающего интернет-сообщества футбольных данных. Но, читая книгу, я чаще соглашался с общепринятым мнением, чем с представленным анализом. Меня это пугало: если я приходил к выводам, отличным от выводов других аналитиков данных, значит, кто-то из нас ошибался. И что еще хуже, для традиционного футбольного мира может показаться, что анализ данных — это просто еще одно мнение. Если аналитики не могут договориться даже между собой, то почему владельцы или менеджеры должны доверять их словам?

Одним из самых сильных выводов в книге «Игра чисел» было то, что количество голов, забитых командой, не увеличивается с ростом числа поданных угловых. Моя работа по изучению ценности владения мячом показала, что стандартные положения имеют большую ценность и что для средней команды угловой удар часто является более ценной ситуацией, чем владение мячом с игры. Но «Игра чисел» была непреклонна: «Общее количество голов, забитых командой, не зависит от количества поданных угловых. Корреляция практически равна нулю. У вас может быть один угловой или семнадцать угловых — это не окажет существенного влияния на количество забитых мячей».

Мои коллеги в «Ливерпуле» читали эту книгу и удивлялись, почему в ней говорится совсем не то, что я им рассказывал. Мне пришлось бы пересмотреть свой анализ ситуации со стандартами и извиниться, если бы я допустил ошибку. Вывод о том, что угловые не коррелируют с голами, был сделан на основе анализа среднего количества забитых мячей при заданном количестве поданных угловых. В Премьер-лиге в период с 2001/02 по 2011/02 команды, которые подали ноль угловых, забивали 1,24 гола за игру. А вот команды, подавшие ровно один угловой, забили всего 1,03 гола. После этого количество голов растет вместе с количеством угловых, но не намного. Команды, подавшие ровно восемь угловых, в среднем забивали 1,41 гола. А после восьми поданных угловых голы больше не увеличиваются. Эти результаты выглядят довольно невпечатляюще, а корреляция между количеством угловых и средним количеством набранных очков, похоже, равна нулю.

Однако существует большая проблема с анализом средних данных. Команды подают ровно один угловой в игре гораздо чаще, чем ноль. Команда подает от одного до восьми угловых в 78% случаев, и именно между одним и восемью угловыми увеличивается среднее количество голов. Мы должны уделять гораздо больше внимания тем местам, где имеется больше данных, взвешивая каждое количество угловых по частоте их возникновения. Выполнение этого измерения кардинально меняет результаты. Вместо нулевой корреляции один лишний поданный угловой был связан с 0,024 дополнительными забитыми мячами, что не вызывает никаких статистических сомнений. Дополнительные 0,024 гола в целом соответствуют 2%-ной вероятности гола, которую я нашел для угловых в своей модели Ценности владения.

Тем не менее, 0,024 гола — это не так уж и много. Но всегда возникает вопрос: «По сравнению с чем?». Например, вероятность гола в 2,4 % выше, чем у большинства команд, которые владеют мячом в середине поля против надежной защиты. Я убедил своих коллег, что угловые стоят того, и спустя годы всему миру стало известно, что «Брентфорд», другие пионеры аналитики, считали так же.

Являются ли сухие матчи более важными, чем голы?

Один из выводов «Игры чисел» — «0>1». То есть «сухой матч стоит больше, чем забитый гол». Этот вывод стал для меня большой неожиданностью, поскольку все мои работы показали, что защита и нападение примерно одинаково важны для победы. Я, конечно, считал, что защитников и вратарей недооценивают по сравнению с нападающими, но я не верил, что они принципиально важнее нападающих. Авторы книги «Оценка результатов» проанализировали различные виды спорта и обнаружили, что в каждом из них влияние атаки было примерно таким же, как и влияние защиты. И «0>1», должно быть, также стало сюрпризом для Мэтью Бенхэма и других представителей авангарда аналитики, которые верили в «атаку, атаку, атаку». Обещание футбольной аналитики заключалось в том, чтобы обнаружить и использовать знания, которые традиционная мудрость игнорировала. И это открытие большой ценности защиты по сравнению с атакой было главным кандидатом на ранний «ага»-момент в аналитике. В конце концов, один из руководителей «Челси» сказал Financial Times в 2009 году: «Если посмотреть на 10 лет в Премьер-лиге, то корреляция между количеством сухих матчей и местом, на котором вы финишируете, сильнее, чем между количеством забитых мячей и местом, на котором вы финишируете».

«Игра чисел» продолжила тему сухих матчей. Аргумент был следующим. Взаимосвязь между забитыми голами и набранными очками в сезоне Премьер-лиги очень сильна. А влияние одного дополнительного забитого гола стоит примерно одного дополнительного очка. Взаимосвязь между сухими матчами и очками не такая сильная, как между голами и очками, вопреки утверждениям руководителя «Челси». Но один лишний сухой матч имеет большее значение, чем один лишний гол. Сухие матчи стоят 2,5 очка, забитые голы — 1, оборона важнее атаки, и точка. В этом анализе есть определенный смысл. Если у вас есть сухой матч, худшее, что вы можете сделать — это сыграть вничью 0:0. Любой другой счет гарантирует три очка.

К сожалению, анализ оказался неверным. Первая проблема была связана с измерением количества очков, начисляемых за забитый гол. Если вы построите график соотношения забитых голов и завоеванных очков за несколько сезонов Премьер-лиги, то обнаружите, что команды, которые забивают больше, как правило, завоевывают больше очков (это очевидно). А команды, забившие один дополнительный гол, в среднем выигрывают одно дополнительное очко. То же самое касается и обороны — лишний пропущенный гол стоит примерно одно очко. Но когда вы смотрите на связь между разницей мячей и очками, происходит нечто странное. Корреляция между разницей мячей и очками очень сильная, гораздо сильнее, чем корреляция между забитыми мячами и очками. Но эффект от увеличения разницы мячей на 1 стоит всего 0,7 очка. Как такое может быть, если забитый гол стоит одно очко, и пропущенный — одно? Это потому, что команды, которые хорошо забивают, обычно также хорошо и не пропускают. И, что немаловажно, некоторые голы значат больше, чем другие.

Мы можем перепроверить этот результат, согласно которому дополнительный гол стоит около 0,7 очка, с помощью модели прогнозирования Диксона-Коулза. В матче Премьер-лиги между средними командами прогнозируется, что хозяева завоюют 1,6 очка, а гости — 1,1. Какой будет отдача очков, если одна из команд забьет сразу после начала игры? По прогнозам Диксона-Коулза, хозяевам следует ожидать 2,3 очка, если они начнут игру с преимуществом в один мяч, а гостям — 1,8 очка, если они забьют на первых минутах. Ожидаемая прибыль каждой команды от гола, забитого в начале матча, увеличилась на 0,7 очка, что соответствует долгосрочной зависимости между разницей мячей и очками.

Но не все голы забиваются в начале игры. Некоторые из них совершенно бессмысленны, например, когда Дэниел Джеймс забил в компенсированное время за «Манчестер Юнайтед» в матче против «Саутгемптона», выигранном со счетом 9:0 в 2021 году или когда Эшли Коул сделал счет 8:0 за «Челси» в матче с «Уиган Атлетик» в 2010 году. Эти голы фактически стоили ноль очков, так как игра уже была выиграна. Другие голы имеют решающее значение, как, например, победный удар Алекса Ивоби в матче «Эвертона» с «Ньюкасл Юнайтед» в 2022 году. Единственный гол в игре, он фактически стоил двух очков. Пенальти могут быть забиты даже после финального свистка, как это сделал «Брайтон» в 2020 году. Судья дал финальный свисток, но проверка ВАР назначила пенальти в пользу «Манчестер Юнайтед». Бруно Фернандеш сделал счет 3:2 — гол, стоивший ровно два очка.

Гол может стоить 0,7 очка, если он забит в самом начале игры, но мы должны узнавать время и линии счета, когда голы действительно были забиты, на случай, если в игре будет много бессмысленных или много очень важных голов. Я проанализировал каждый гол, забитый в Премьер-лиге в период с 2008/09 по 2022/23 год, и рассчитал ожидаемую отдачу очков до и после каждого гола, исходя из текущего счета и оставшегося времени в игре. В среднем, гол хозяев приносил 0,67 ожидаемых очков, а гол гостей — 0,72. Средняя результативность гола в Премьер-лиге примерно такая же, как и результативность гола, забитого сразу после начала матча: дополнительная результативность этих решающих голов нивелируется бессмысленными поздними голами при победах 3:0 и 4:0.

Вторая проблема с анализом сухих матчей в «Игре чисел» заключается в том, что они являются плохим способом оценки защиты. Мы знаем, что игра, закончившаяся без пропущенного гола, лучше для нашей команды, чем та, которая закончилась с голами в наши ворота. Но измерение защиты по показателю «сухой матч или нет» оставляет много информации за кадром. В конце концов, должно быть важно знать, сколько голов пропускает команда в тех случаях, когда она не сохраняет свои ворота в неприкосновенности. Чтобы выяснить, говорят ли нам сухие матчи о чем-то, чего не говорят пропущенные голы, я провел простой статистический анализ. Количество забитых и пропущенных мячей в сезоне Премьер-лиги объясняет 92% вариаций набранных очков. Эквивалентная модель, использующая забитые голы и сухие матчи для оценки набранных очков, объяснила 90% вариаций набранных очков за сезон. Обе модели очень хорошо объясняют количество набранных очков, но модель пропущенных мячей справляется с задачей немного лучше, чем модель сухих матчей.

И наконец, как насчет того, что сухой матч стоит больше, чем забитый гол? Опять же, используя забитые голы и сухие матчи для прогнозирования набранных очков, я обнаружил, что один дополнительный гол стоит 0,72 очка, а один сухой матч — 1,67. На первый взгляд, один сухой матч стоит больше, чем один гол. Но мы не сравниваем яблоки с яблоками. Обычно в игре бывает больше голов, чем не пропущенных одной из команд голов. Правильнее было бы задать вопрос: «Каков эффект, когда команда улучшает свои показатели от среднего до хорошего в определенном аспекте игры? А переход от среднего к хорошему — это совсем разные вещи для голов и сухих матчей. В среднем за сезон команды Премьер-лиги забивают 51 гол и 11 раз сохраняют свои ворота в неприкосновенности. Команда 80-го процентиля, т.е. четвертая по результативности в лиге, забивает 64 гола и не пропускает в 14 матчах.

Увеличение количества сухих матчей между средней командой и претендентом на Лигу чемпионов невелико, потому что сухой матч — это ограниченный ресурс, который трудно улучшить. Один дополнительный забитый гол может стоить меньше, чем один дополнительный сухой матч, но голы не так редки, как сухие матчи, и их не так сложно генерировать. С точки зрения забитых мячей переход от среднего к хорошему означает 13 дополнительных голов, а 13 x 0,72 = 9,4 дополнительных очка. Что касается сухих матчей, то переход от среднего к хорошему означает три дополнительных сухих матча, а 3 x 1,67 = 5 дополнительных набранных очков.

Исключительная важность сухих матчей оказалась статистической иллюзией. Если считать сухие матчи самым важным показателем успешности команды, то сезон 2016/17 для «Мидлсбро» был успешным — с 11 сухими матчами они занимали место в середине таблицы по этому показателю. Но им удалось набрать лишь 28 очков и вылететь из АПЛ. Сухие матчи не привели к набору очков, потому что они плохо забивали голы. На другом конце спектра — команда «Манчестер Юнайтед» в сезоне 1999/2000, набравшая 91 очко и победившая в лиге — всего 12 сухих матчей.

Даррен Бент против Уэйна Руни

Команды, которые хотят выигрывать больше, должны искать игроков, чьи голы имеют наибольшее значение. Именно этот аргумент приводился в «Игре чисел» к утверждению, что Даррен Бент — лучший игрок Премьер-лиги. Идея заключалась в том, чтобы взвесить количество забитых голов по их влиянию на исход игры — ведь первый или второй гол, забитый командой, обычно намного ценнее, чем третий или четвертый. Это можно определить, посмотрев на среднее количество очков, которое команда набирает, когда забивает ноль, один, два и т. д. голов. Команды, забившие один гол за игру, в среднем выигрывают на 0,85 очка больше, чем команды, ничего не забившие. Команды, забивающие три гола в игре, получают на 0,55 очка больше, чем команды, забивающие два. Поэтому третий гол обычно стоит меньше, чем первый, и именно этот вес использовался в «Игре чисел» для оценки вклада нападающих.

В то время я считал Бента одним из лучших форвардов Премьер-лиги, но не считал его лучшим нападающим лиги. Использование метода, при котором первый и второй голы вознаграждаются больше, чем остальные, показало, что голы Бента были чрезвычайно ценными для «Сандерленда». Несколько других игроков забили больше голов, чем он, но если сложить их очковый вклад, то он занял второе место в 2009/10 и 2010/11 годах, а если рассматривать оба сезона вместе, то и первое. Идея поиска игроков, способных проявить себя в критические моменты — так называемых «клатчеров» — очень соблазнительна. Каждая команда хотела бы иметь игрока, на которого можно положиться, когда это важно. Поэтому я решил подробнее изучить разницу между количеством забитых голов нападающими и их дальнейшим вкладом.

Первое, что я обнаружил — это то, что голы с поправкой на вклад очень точно соответствуют реальному количеству голов. Корреляция между ними превысила 98%. Это неудивительно — если вы мало забиваете, то не можете сильно повлиять на шансы своей команды на победу, и наоборот. Способ найти «клатч»-игроков заключается в том, чтобы вычислить, набирают ли игроки больше очков для своих команд, чем ожидалось, учитывая количество забитых ими голов. Даррен Бент стал лучшим игроком лиги по этому показателю, забив голов примерно на 15% больше, чем средний нападающий. Но в рейтингах, составленных по этому методу, наблюдалась своеобразная картина. В верхней части списка преобладали игроки из небольших команд — Даррен Бент из «Сандерленда», Клинт Демпси из «Фулхэма», Ди Джей Кэмпбелл из «Блэкпула» и Уго Родальега из «Уигана». А в конце списка, забив менее значимые голы, оказались Андрей Аршавин, Николя Анелька и Флоран Малуда, выступающие за команды, играющие в Лиге чемпионов.

Было бы замечательно, если бы нападающие в небольших командах действительно были лучше, чем в грандах Лиги чемпионов — команда могла бы просто собрать таланты «Сандерленда» и «Блэкпула» и выиграть лигу в Манибол-стиле. Но я не поверил результатам, потому что метод взвешивания голов по их влиянию не учитывал возможности. Если вы играете за ужасную команду, то каждый ваш гол, скорее всего, будет первым или вторым и, скорее всего, очень важным. Другими словами, качество вашей команды в значительной степени определяет, насколько важны забитые вами голы.

Возьмем для примера Даррена Бента и Уэйна Руни в сезоне 2009/10. Оба игрока забили голы, которые были важнее среднего, но вклад Бента был на 14% важнее среднего, в то время как вклад Руни — всего на 8%. В том сезоне «Сандерленд» забил 48 голов, и 79% голов «Сандерленда» были первыми или вторыми. Манчестер Юнайтед» забил 86 голов, и только 65% из них были первыми или вторыми. У Бента было гораздо больше возможностей забить первый или второй голы, чем у Руни. Благодаря более мощной игре «Манчестер Юнайтед», как ожидается, будет иметь меньший эффект от гола, чем «Сандерленд», и Руни был наказан за это.

После поправки на разницу в возможностях вклад Бента и Руни остался выше среднего. Но Руни теперь выглядел более влиятельным игроком. И остальная часть турнирной таблицы изменилась. Анелька, который выглядел игроком не столь впечатляющим, как обычно, оказался гораздо более впечатляющим, чем ожидалось, учитывая 103 гола «Челси» в том сезоне.

Ответ на вопрос о том, кто является самым результативным нападающим, сильно варьировался в зависимости от того, как это измерять, и, что еще хуже, нападающие не могли повторить свой уровень результативности в одном сезоне в следующем. Это неудивительно — обстоятельства, при которых нападающие забивают свои голы, часто от них не зависят. Они не могут просто выбрать, чтобы забить больше голов при счете 0:0 и меньше, когда команда ведет 3:0. Показатель забитых голов, Ожидаемые голы и Ценность владения мячом за 90 минут -— все эти показатели гораздо более повторяемы из сезона в сезон, чем любой показатель «влияния».

Тирания метрик

Одна из проблем статистики, по мнению писательницы Мэрилин вос Савант, заключается в том, что ее можно использовать как для поддержки, так и для опровержения любого аргумента. Особенно это касается футбольной статистики. В старые добрые времена, когда данные были ограничены, задача аналитика заключалась в том, чтобы выжать каждую каплю сигнала из скудных источников данных и попытаться сказать что-то значимое о производительности. Сегодня поток данных поступает на каждую игру, и задача аналитика — разобраться в них. В эпоху «больших данных» проникает вера в то, что «объем» данных каким-то волшебным образом даст ответ на любой вопрос, который вы можете задать. Я не разделяю этого убеждения. Мне больше нравится подход Нейта Сильвера к анализу: «Статистические выводы гораздо сильнее, если они подкреплены теорией или хотя бы глубокими размышлениями об их первопричинах».

Зайдите сегодня на платформу любого поставщика данных и найдите своего любимого игрока. На вас обрушится множество базовых и дополнительных статистических данных: голы, передачи, Ожидаемые голы, удары головой, касания в штрафной, ключевые передачи, прогрессивные выходы с мячом, блоки, прессинг, выносы, перехваты и так далее. Все данные, которые только могут понадобиться, у вас под рукой. Большинство клубов хотели бы найти игрока, который набирает как можно больше баллов по многим показателям, но оказывается, что они гарантированно столкнутся с проблемами, благодаря математической концепции, называемой границей Парето.

В качестве примера представьте, что команда ищет полузащитника, и ей нужен игрок с высоким показателем Ожидаемых голевых передач и высоким показателем Возврата мяча. Игроки, находящиеся на границе Парето — те, у кого самый высокий показатель Возврата мяча при заданном показателе Ожидаемых передач. В сезоне 2020/21 в большой пятерке европейских лиг Кевин де Брюйне имеет самый высокий показатель Ожидаемых передач, но невыразительный показатель Возврата мяча. На другом конце спектра ни один полузащитник не сравнится с жестко идущим в единоборства Алланом из «Эвертона» по Возвратам мяча, но у него низкий показатель Ожидаемых передач. А между ними были такие игроки, как Тиаго Алькантара и Джовани Ло Чельсо. У них были более низкие показатели Ожидаемых передач, чем у Де Брюйне, и более низкие показатели Возврата мяча, чем у Аллана, но если вы хотели получить больше возвратов, чем предлагал Ло Чельсо, вам пришлось бы пойти на компромисс с Ожидаемыми передачами. Если бы вы хотели получить больше передач, чем у Тиаго, вам пришлось бы пойти на компромисс в отношении возврата мяча.

В общей сложности 13 из 492 полузащитников оказались на границе Парето. Они являются крайними точками данных на краю облака полузащитников. Каждый из 13 представлял собой комбинацию Ожидаемых передач и Возврата мяча, которую невозможно было побить. Как только вы найдете набор игроков на границе Парето, вы обнаружите, что между метриками существует отрицательная корреляция, независимо от того, какие метрики вы решили рассматривать. Игроки, которые лучше по одному показателю, будут выглядеть хуже по другому. Среди полузащитников не наблюдается особой корреляции между Ожидаемыми передачами и Возвратом мяча. Но если нас интересуют только игроки, которые выглядят лучше среднего по одному из этих двух аспектов, корреляция волшебным образом становится отрицательной. Это связано с тем, что мы убрали 25% игроков, которые плохо выглядят по обоим параметрам. Остаются 25% игроков, которые выглядят хорошо по обоим аспектам, и 50%, которые выглядят хорошо по одному аспекту и плохо по другому. Это большинство игроков, которые выглядят хорошо по одному аспекту, но плохо по другому, и есть то, что определяет отрицательную корреляцию. А выбирая только самых экстремальных игроков на границе Парето, мы делаем корреляцию еще более отрицательной: у вас может быть игрок, который выглядит блестяще по одному аспекту игры или по другому, но не по обоим.

Теперь предположим, что мы также хотим, чтобы у нашего полузащитника был высокий процент точности пасов (мы уже знаем, что это не очень важная метрика, но некоторые команды все же обращают на нее внимание). Количество игроков на границе Парето увеличивается до 28. Наши первоначальные 13 остались, поскольку, каким бы плохим ни был их показатель точности паса, их нельзя обойти по первым двум показателям. Но на границе появляются 15 новых полузащитников. У Марко Верратти и Серхио Бускетса меньший показатель Возврата мяча и меньше Ожидаемых передач, чем у Тиаго, но у них был более высокий процент точности передач, чем у него, поэтому они попали в список. Максим Лопес и Артур Мело выглядели совершенно непримечательно по первым двум показателям, но у них был более высокий показатель точности паса, чем у любого из 13 участников границы Парето: чем выше показатель точности паса, который мы хотим получить, тем больше нам приходится идти на компромисс по первым двум показателям.

Запросив для оптимизации не два, а три показателя, мы более чем удвоили размер нашего шорт-листа. И это увеличение размера шорт-листа становится все хуже и хуже по мере добавления новых метрик. 13 из 492 игроков не победишь по комбинации двух показателей. 28 из трех. Это число увеличивается до 70 при рассмотрении пяти показателей, 133 при рассмотрении семи и 240 при рассмотрении 10, и на этом этапе шорт-лист становится бесполезным. Анализ данных нельзя рекламировать как инструмент для фильтрации игроков, если 240 игроков находятся в «коротком» списке.

Это тирания метрик. Если посмотреть на них достаточно, то большинство игроков будут выглядеть чрезвычайно хорошо в том или ином случае, вплоть до того, что половина всех полузащитников окажется «оптимальной», если сравнивать их по 10 показателям. Под «оптимальным» я подразумеваю, что если вы хотите найти игрока, который выглядит лучше, чем, скажем, Аллан, по одной из 10 метрик, то по некоторым другим метрикам он будет выглядеть хуже, чем Аллан. И это одна из причин, по которой статистика может быть использована для поддержки или опровержения любого аргумента об игроках. Будет некая комбинация показателей, по которым обсуждаемый игрок будет выглядеть особенно хорошо или особенно плохо. Думаю, именно так «данные» используются во многих клубах. Менеджер или спортивный директор изучает данные игрока, которого он хочет подписать, и выбирает те показатели, по которым он выглядит хорошо, чтобы поддержать свое решение. Или им представляют игрока, которого они не хотят подписывать, и они просматривают данные, чтобы найти удобную метрику, по которой он выглядит плохо.

Если команда, стремящаяся к успеху, хочет найти подходящих игроков, она должна сузить круг поиска до нескольких важных показателей. Вероятность гола, добавленная и сохраненная в модели Ценности владения, разделенной на несколько категорий, таких как пас, дриблинг, удар, выигрыш мяча и защита пространства, вполне достаточно. Именно так мы поступили в «Ливерпуле»: избежав ошибки, связанной со взвешиванием множества различных показателей, мы смогли сосредоточиться на главном, и это был успешный подход. Когда мы составили короткий список, мы могли изучить рейтинги игроков в мельчайших деталях, но только после того, как мы составили короткий список.

Написано в звездах

Аналитика, о которой шла речь выше, была проведена добросовестно, и ошибки в ней были очевидны только для опытного статистика. То же самое можно сказать и о некоторых других злоупотреблениях статистикой, например о том, что комментаторы матчей Бундеслиги подчеркивают «эффективность» команды, хваля ее за то, что она забила больше Ожидаемых голов, вместо того чтобы похвалить команду, которая сгенерировала больше Ожидаемых голов. Но существует целый ряд продуктов и услуг, доступных футбольным клубам, которые не так добросовестно проводят свой анализ.

Игор Штимац выступал на позиции центрального защитника за команду «Вест Хэм Юнайтед» и сборную Хорватии. В 2022 году он руководил индийской сборной, и, по слухам, его убедили прислушаться к совету астролога, чтобы тот помог ему с выбором состава команды. Астролог якобы «погрузился в астрологическую сферу и вынес вердикт по каждому игроку, от «хорошо» до «не рекомендуется для этого дня»», хотя позже Штимац опроверг эти сообщения. Какой бы ни была правда, мы пережили подобный опыт в «Ливерпуле». К одному из тренеров обратился некто, называющий себя «футбольным астрологом», и мой отдел попросили высказать свое мнение. Я был на другой встрече, и в мое отсутствие тренер спросил моего коллегу Тима, что он думает о сайте астролога. На сайте было представлено астрологическое объяснение неизбежности победы Германии на чемпионате мира 2014 года с учетом сочетания звездных знаков в ее составе. Тим, доктор астрофизики, естественно, решил, что вопрос был шуточным, и ответил: «Да, это выглядит абсолютно законно». Тренер сразу же пригласил астролога приехать и представить свои методы на тренировочной базе. Астрология — это, конечно, нонсенс, и мы, к счастью, смогли предотвратить влияние гороскопов на нашу команду.

Как ни странно, существует значительная корреляция между звездным знаком и успехом в футболе, но она носит скорее мирской, чем небесный характер. Эффект «относительного возраста» наблюдается в большинстве видов спорта: самые старшие дети в когорте, как правило, наиболее физически развиты и поэтому имеют преимущество перед своими товарищами по команде. В результате в Премьер-лиге наблюдается избыток Весов, поскольку возрастное ограничение для юношеского футбола — 1 сентября, а на континенте — избыток Водолеев, поскольку возрастное ограничение — 1 января. В высших дивизионах Франции, Германии, Италии и Испании более трети основных игроков приходится на игроков, родившихся в первые три месяца года, и менее одной пятой — на игроков, родившихся в последние три месяца года. Эффект относительного возраста — это предрассудок, который мешает процветанию игроков, родившихся в конце школьного года, но большинство клубов ничего с этим не делают. Баскская команда «Атлетик Клуб де Бильбао» была исключением, когда мой друг Натксо Паласиос-Уэрта возглавлял там отдел по выявлению талантов. Натксо настоял на том, чтобы молодежные скауты были разделены на четыре группы. Первая группа могла просматривать только игроков, родившихся в первые три месяца года, а последняя — только игроков, родившихся в последние три месяца года. Относительный эффект возраста снижался, когда равные ресурсы были направлены на самых молодых игроков в каждой возрастной группе.

Если не принимать во внимание эффект относительного возраста, астрология не обладает предсказательной силой, когда речь идет об улучшении подбора команды или результатов, однако футбольные клубы, как ни странно, склонны искать легкие ответы, которые обещает дать астрология. Футбол — дело шумное и капризное, и контролировать его результаты очень сложно. Услуги, которые обещают усилить этот контроль, даже если это всего лишь иллюзия контроля, очень соблазнительны.

Анализ данных, напротив, не дает простых ответов, или, по крайней мере, честный анализ данных не дает подобных ответов. Команды должны инвестировать время и деньги в исходные данные и в специалистов, чтобы превратить эти данные в прогнозируемые выводы. Эти сведения носят вероятностный характер, а не являются абсолютными обещаниями. Клуб может использовать хороший анализ данных, чтобы набрать игроков, которые увеличат его шансы на повышение с 25% до 50%. Но даже в этом случае есть 50-процентная вероятность, что повышение не состоится. В «Ливерпуле» мы верили, что внедренные нами процессы повышают наши шансы на успех, но в 2016/17 и 2017/18 годах квалификация в Лиге чемпионов оказалась на волоске и решалась в последний день. Но самое главное, мы бы продолжили этот процесс, даже если бы не прошли квалификацию, и понимали, что наша работа не гарантировала успеха, а просто изменила шансы в нашу пользу.

Приглашаю вас в свой телеграм-канал, где переводы книг о футболе, спорте и не только...