12 мин.

Как не нужно использовать статистику. Гид по футбольному миру

Летом Дэвид Спилегхольтер, профессор статистики кембриджского университета, написал для The Guardian один из лучших текстов года. Он показал, как политики лгут, даже когда оперируют цифрами, разделив их вранье на 9 типов. Получился гид по неправильному использованию статистики с элементами разоблачения. Я совместил основу Дэвида с примерами из мира английского футбола. Надеюсь, получилось полезно и интересно.

1. Используй настоящую цифру, но поменяй ее значение

Единственный в тексте пример из мира медиа, а не прямой от менеджеров или функционеров. Он оказался слишком хорошим олицетворением этого типа преступлений против статистики, чтобы пройти мимо.

Осенью 2014-го даже в самых авторитетных СМИ, например, The Telegraph или Sports.ru, вы могли прочитать: «Арсенал» впервые за 10 лет обошел «Челси» по размеру зарплат. Базисом для утверждения стала реальная цифра из опубликованного «Арсеналом» годового отчета-2013/14, вот только сведения по «Челси» были взяты за сезон-2012/13. Любой, кто хоть немного в теме футбольных финансов, знает, что клубы публикуют финансовые отчеты в разное время года, а полноценная картина появляется примерно с годовым отставанием от текущего сезона.

Учитывая тренд постоянного роста зарплат, особенно в топ-клубах, использование данных за разные сезоны может вводить в заблуждение. На самом деле оригинал от The Telegraph даже обращал внимание на использование отчетов по разным сезонам и представлял факт из заголовка («Арсенал» обошел «Челси» по зарплатам) как результат проекции. Она оказалась очень неверной: информация по сезону 2014/15 уже доступна – «Челси» платил самые большие в Англии зарплаты, «Арсенал» оказался лишь четвертым.

2. Заставь цифру казаться больше (но не слишком большой)

Описывая свою философию на одной из первых пресс-конференций в «Ливерпуле», Брендан Роджерс выдал культовую цитату: «Если команда владеет мячом, у нее 79-процентный шанс на победу в матче». Цифра была принята за результат исследования: логично, ведь не 80% (в таком случае мы могли бы допустить, что это лишь субъективная прикидка Роджерса) и не, скажем, 96% (тогда мы просто не поверили бы).

Экс-тренер «Ливерпуля» никогда не уточнял, результатами какого исследования оперировал, следовательно, мы не можем быть уверены в методологии, но настолько сильную корреляцию между владением и результатами практически невозможно получить без умышленных манипуляций с цифрами. Самый простой метод – вычисление процента побед команд с владением больше 50% – дает цифры примерно 55-60% в зависимости от сезона (данные по АПЛ от Opta, но несильно будут отличаться в других турнирах). Если сузить до команд с владением больше 60%, то на момент слов Роджерса процент колебался между 67-71% в зависимости от сезона – в последнее время резко опустился до 48% (2015/16). Если использовать более трудные методы, например, считать корреляцию между владением и разницей мячей в матче, связь окажется совсем невпечатляющей – 0,08-0,15.

Вряд ли именно завышенная цифра стала причиной, по которой Роджерсу не удалось научить «Ливерпуль» эффективному владению, но незадолго до отставки он поменял ориентиры, подчеркивая, что теперь предпочитает «контролировать пространство, а не мяч».

3. Сделай поспешный вывод о причинно-следственной связи

Чарльз Рип считается первым футбольным статистиком. Одно только стремление просчитывать и объективно анализировать футбол в 1950-х делает его легендой. К сожалению, из двух задач он справился только с одной, собрав действительно интересные для того времени данные. Использование Рипом собранной информации привело к футбольной катастрофе национального масштаба. Ключевой довод Рипа (почти 80% голов забивается после атак из трех передач или менее, следовательно, дальние передачи – самый эффективный стиль) несколько десятилетий лежал в основе английских тренерских методичек.

Реклама 18+

Главный парадокс работ Рипа в том, что его цифры разбивают его вывод. В изученных им матчах 91,5% атак состояли из трех и менее передач, а голов после таких атак забивалось около 80%, то есть, в относительных значениях более эффективны как раз комбинации из четырех и более передач. Не говоря уже об отсутствии разделения атак из трех и менее передач на (1) атаки после высокого отбора и (2) со своей половины поля с использованием дальней передачи; том, что не учитывались затяжные атаки, которые приводили к стандартам из выгодных позиций, или выматываний соперников долгими перепасовками.

4. Выбери выгодное определение

После ничьей 1:1 между «Вест Хэмом» и «Манчестер Юнайтед» Сэм Эллардайс назвал стиль «МЮ» прямолинейным и посоветовал журналистам критиковать Луи ван Гала за использование лонгболлов. В английском long ball и long pass имеют схожее, но неодинаковое значение. Long ball – дальний пас вперед. Long pass – любая дальняя передача, включая переводы поперек поля. Использовав первый вариант, Эллардайс попытался выставить «Юнайтед» безыдейной примитивной командой. В матче 19% от всех передач «МЮ» были дальними против 18% у «Вест Хэма» – нечастая картина в матчах команд Эллардайса с грандами, поэтому попытка уколоть оппонента понятна.

Ван Гал назвал интерпретацию БигСэма неверной и подготовил один из самых взвешенных ответов в истории английского футбола. На пресс-конференцию перед следующей игрой он пришел со статистическим досье, которое показало, что 71,1% дальних передач «Вест Хэма» были направлены вперед, у «МЮ» – лишь 49,9%. Учитывая разные цели лонгболлов (пасы в борьбу на таргетмена) и дальних передач на фланги (растягивание обороны соперника), замечания Ван Гала были уместными и точными.

5. Используй абсолютные, а не относительные значения

Саркастическое извинение Тони Пулиса перед Юргеном Клоппом – один из самых ярких моментов прошлого сезона «ВБА» (включая эпизоды как на футбольном поле, так и за его пределами): «От лица футбольного клуба «Вест Бромвич» приношу извинения за то, что мы выполнили на три дальних паса больше, чем «Ливерпуль».

Менеджер «Вест Бромвича» ссылается на журналистов Sky Sports: именно они – первоисточник ужасной интерпретации. Вероятно, причина в желании выловить максимально противоречивый статистический факт на фоне слов Клоппа о стиле «ВБА». С этим они справились, а с донесением до зрителя взвешенной достоверной информации – нет.

Команда, которая значительно больше владеет мячом, неизбежно будет выполнять больше дальних передач, чем соперник (не забываем, сюда заносятся не только лонгболлы, но и дальние переводы), но 50 дальних передач от общего количества в 600 передач и 50 дальних от 250 передач – очень разные вещи. Чтобы дать мало-мальски точную оценку стилю игры в пас, нужно использовать пропорции. В упомянутом матче «Ливерпуль» владел мячом 70%, сделал, как и сказал Пулис, почти равное количество дальних передач с «ВБА», но это и близко не делает их примитивной командой – лишь 9% их пасов были дальними против 27% у «Вест Брома».

6. Проигнорируй контекст

В декабре прошлого года Жозе Моуринью использовал статистику для объяснения кризиса «Челси»: «Я вижу противоречие между качеством нашей работы и результатами. Проанализировав статистику, можно получить интересную информацию. Матч за матчем мы бьем клубные рекорды по интенсивности проделанной на поле работы. В последних трех матчах мы три раза перекрыли рекорд. Мы бегаем и пашем больше, чем когда-либо раньше. Владение мячом тоже возросло. Мы создаем больше шансов, чем раньше, но забиваем меньше голов. Вы, журналисты, умные люди. У вас есть цифры, взгляните на них – и сделайте выводы».

Экс-менеджер «Челси» не называет конкретных цифр, но определенно хорошо их изучил и призывает журналистов пройти тем же путем. Тезисы про интенсивность и пробег полностью подтверждаются, поэтому не останавливаемся на них. А вот фраза «Мы создаем больше шансов, чем раньше, но забиваем меньше голов» может вводить в заблуждение людей, плохо знакомых со спецификой футбольной статистики.

Под «шансами» (chances) почти все англоязычные конторы считают сумму всех ударов. Постоянные читатели блога отлично помнят, что удары/шансы бывают очень разными по качеству, а под термином «шансы» и удар с 40 метров, и удар по пустым с 2 метров фиксируются одинаково. Поэтому абсурдно утверждать, что между «созданием шансов» и «количеством голов» должна быть автоматическая связь. Если же эту важную деталь не упускать, то большая часть проблем команды Моуринью объяснялась именно нехваткой качественных ударов. На момент высказывания «Челси» создал всего 14 явных моментов (меньше 1 за игру) – предпоследний результат в лиге.

7. Увеличивай значимость иллюзорных изменений

Реклама 18+

«Моя статистика не уступает ни одному тренеру в истории этого клуба. Мой процент побед в «Тоттенхэме» лучший за всю историю. Я лучший тренер, который когда-либо работал в клубе!» – заявил в апреле 2014-го Тим Шервуд.

Проигнорируем небесспорное предположение, что лучший процент побед равняется статусу лучшего тренера в истории клуба, но все равно для громкого вывода Шервуду понадобились манипуляции фактами. Во-первых, он взял выгодный ему процент только по АПЛ, хотя даже учет всех турниров лишал его статуса статистически лучшего тренера. О второй манипуляции легко догадаться из первой – если прибавление пары-тройки матчей так сильно влияет на процент побед, значит он основан на неприлично малой выборке.

Так и было – на момент цитаты он провел всего 17 матчей, 10 побед в которых давали 59% побед (именно на этой цифре Шервуд заострил внимание в другом интервью в тот же день). 17 матчей – меньше одного круга и явно недостаточно в спорте, который так сильно зависит от случая. Конечно, это чуть лучше провозглашения тренера-новичка лучшим на основании 100% побед после одного матча, но принцип и ошибочность – те же.

Даже если бы прогресс «Тоттенхэма» под руководством Шервуда подкреплялся прогрессом в статистике отдельных матчей (команды, которые побеждают с хорошей статистикой, имеют большие шансы продолжить побеждать в долгосрочной перспективе), изменение результатов на столь короткой дистанции не делало бы его лучшим тренером в истории клуба. Если кому интересно, то вот отличное исследование, доказывающее, что удачи в результатах Шервуда было больше, чем игрового прогресса.

8. Избирательно используй неофициальную статистику

После недавнего матча с «Ливерпулем» Жозе Моуринью попытался оспорить мигом разлетевшийся по сети факт: «МЮ» владел мячом лишь 35% – их худший показатель в матче премьер-лиги за все время ведения статистики (с 2003-го). «Мне только что доложили, что мы на самом деле владели мячом не 35%, а 42%. Это информация от нашего парня. Нашему парню виднее», – заявил Моуринью.

Трепетное отношение Моуринью к тому, что журналисты напишут о стиле его «Юнайтед», понятно, но он манипулирует фактами. Сама разница в цифрах легко объясняется – статистические компании по-разному считают владение. Детально описано здесь. Коротко: два основных метода – подсчет секунд владения (включая 5-7 секунд пребывания мяча у вратаря при затяжках времени) и подсчет на основании количества передач команды от количества передач в матче. Opta, официальный статистический партнер премьер-лиги, использует второй метод. Методология «парня Моуринью» не уточняется, но вероятнее всего основывается на секундах владения.

Реклама 18+

Поиски оптимального метода подсчета владения – отдельная тема, в данной же ситуации важно, что: 1) Моуринью использовал неофициальные данные выгодным ему способом; 2) пока ему это было выгодно, Жозе с радостью использовал данные Opta и даже отсылал к ним журналистов (см. цитату из 6-го пункта: Opta – официальный статистический партнер «Челси» и был им во времена Моуринью); 3) Моуринью безосновательно заявил, что «его парню виднее», даже не уточнив его методологию.

9. Если ничто не помогает, просто выдумай цифру

В январе 2012-го Арсену Венгеру совсем не хотелось объяснять журналистам замену Алекса Осклейда-Чемберлена на Андрея Аршавина в проигранном матче против «МЮ»: «Я работаю футбольным тренером уже 30 лет и сделал 50 000 замен. Я не обязан оправдываться за каждую из них».

Минимальное количество матчей для проведения 50 000 замен – 16 667 при условии, что тренер будет проводить по три замены в каждом матче. Часть карьеры Венгера пришлась на эпоху до введения 3 замен в матче и все равно включает в себя лишь 1,590 официальных матчей (сейчас – почти через пять лет после цитаты).

Итог

«Существует три вида лжи: ложь, наглая ложь и статистика». Признайтесь, вы уже настроились вспоминать эту цитату в комментариях? Не так быстро! В тексте с таким количеством разоблачений найдется место еще одному – разоблачению этой цитаты. Слишком часто ее используют как красивый и авторитетный синоним фразы «Статистика – бред!».

В качестве автора чаще всего называют Марка Твена, который впервые употребил ее письменно. Твен приписал цитату британскому премьеру Бенджамину Дизраэли, хотя других подтверждений, что высказывание его, нет. В любом случае популярной ее сделало именно попадание в труды Марка.

К сожалению, со временем многие забыли контекст цитаты у Твена. Цитата из автобиографии, ею Марк подытожил рассуждения о своей производительности. Сначала он волновался о спаде, измеряя ее в количестве слов, написанных за день, а затем посчитал количество слов относительно часов, которые тратил на работу – и понял, что реально производительность практически не изменилась. Простейший пример статистики без контекста и статистики с контекстом. Фраза, следовательно, означает: «Любая статистика требует верного контекста».

Реклама 18+

Даже 110 лет спустя, даже в футболе – это правило работает. Практически каждый пример учит нас проверять правильность контекста, в котором представлены цифры. Аналогичным образом нужно поступать с горой статистики, которая теперь доступна каждому после каждого матча.

Блог «Англия, Англия» в соцсетях: Twitter / VK / Telegram

Фото: Gettyimages.ru/Laurence Griffiths, Michael Webb/Keystone/Hulton Archive, Ian Walton; globallookpress.com/Matt McNulty/Sportimage