Пэйджранк и футбол
Прочел жутко интересную статью Хавьера Лопеса Пеньи и Юго Тушета, обучающихся в Лондоне, о приложении теории сетей к футболу. A network theory analysis of football strategies. Совсем свежая, последняя версия выложена на ArXiv три дня назад. Ниже — ее краткий конспект, не пугайтесь, будет немного математики. Зато очень интересно, многие интуитивные мысли про футбол находят математическое подтверждение.
Итак.
Игра команды в конкретной игре рассматривается как ориентированный граф, где стрелки — это, очевидным образом, пасы. Графически вес ребер можно обозначать толщиной, как, например, на рисунке.
Для этого графа можно ввести взвешенную матрицу смежности A с элементами aij — количество пасов от игрока i к игроку j. Длина ребра lij определяется как величина, обратная к aij (при i≠j), расстояние между игроками dij — длина кратчайшего пути между ними.
Связность графа по вершинам (или ребрам) — это количество вершин (ребер), которые нужно удалить, чтобы граф стал неодносвязным (распался на несколько кусков). Как правило, граф любой игры сильно-связный или почти сильно-связный, т.е. выключением из игры любого игрока или даже нескольких разрушить командную игру сложно. Проще сильно замедлить скорость передачи мяча или вообще изолировать группу игроков, перерезав несколько ребер, т.е. постоянно перехватывая некоторые критические пасы.
Для отдельных игроков в каждой игре вводятся следующие параметры:
Вовлеченность (closeness) игрока i (обозначение Ci) — величина, обратная его дальности (farness). Дальность, в свою очередь — это сумма расстояний от игрока до каждого из остальных игроков (определение расстояния было введено выше). При этом следует помнить, что между игроками i и j существуют два расстояния — dij и dji, они учитываются оба. Физический смысл вовлеченности можно понимать так: чем больше Ci, тем проще мяч в данной игре доставлялся игроку i, т.е. тем вовлеченнее он в командную игру.
Степень промежуточности (betweenness) игрока i (или CB(i)) — величина, показывающая, в какой степени игрок вовлечен в передачи мяча между другими игроками. Математически это, если говорить грубо, процент кратчайших путей между различными парами (других) игроков, в которые участвует игрок i. Потеря (красная карточка, травма) игрока с высокой промежуточностью уменьшает скорость доставки мяча от одних игроков к другим; игрока со степенью промежуточностью, равной нулю, нужно срочно менять, если это не вратарь, конечно. С тактической точки зрения, идеальный случай для команды — когда степень промежуточности всех игроков одинаковая.
Пэйджранк (pagerank) игрока игрока i (или xi) — величина, активно используемая в поисковых системах. От этой величины зависит, вылезет ваш сайт на первое место выдачи по определенному вопросу или на сто пятидесятое. Это рекурсивное обобщение понятия популярности (или в данном случае важности), следующее принципу: «страница популярна, если на нее ссылаются другие популярные страницы» («игрок важен, если ему пасуют другие важные игроки»). Важность (пэйджранк) всех игроков определяется одновременно с помощью решения системы определенных уравнений, в которые входят также такие внешние к системе параметры, как вероятность того, что игрок даст пас, а не потеряет его или не ударит по воротам, и базовая важность игроков. Физический смысл понятия пэйджранка игрока — вероятность того, что мяч будет у него после достаточно большого количества передач.
Кроме того, вводится понятие кластерности (clustering) — как общекомандной, так и индивидуальной. Смысл индивидуальной кластерности игрока вот каков: предположим, что игрок j хочет дать пас игроку k, но видит, что тот перекрыт. Тогда j дает пас игроку k через игрока i. Если это сделать легко, т.е. если в игре таких треугольников было много, то кластерность игрока i высока, его часто используют в качестве передаточного звена. Кластерность игрока i обозначается cwi. Иными словами, чем выше кластерность игрока, тем чаще с ним обыгрываются.
Коэффициент кластерности для команды, cw — среднее арифметическое кластерностей всех игроков.
Далее, значимым командным параметром может являться размер максимальной клики, то есть максимального подмножества игроков, каждый из которых давал пас каждому. Чем меньше размер максимальной клики, тем фрагментированнее игра команды. Обозначение максимального кликового числа — Cq. Впрочем, подробно размерами клики авторы пока не занимались.
Далее авторы рассчитывают групповые параметры для всех команд, вышедших в 1/8 финала ЧМ-2010 в ЮАР: среднее количество пасов, связность по ребрам, связность для неориентированного графа (если считать пас от i к j равнозначным пасу от j к i), средний коэффициент кластерности, среднюю промежуточность, максимальную клику.
К сожалению, дебиловатый интерфейс спортсайтега позволяет пользоваться только WYSIWYG'ом; во всяком случае, как найти html-версию ввода, я не нашел. Поэтому я выкладываю сюда скрин из статьи, а не сам делаю табличку.
Смотреть на нее очень интересно самостоятельно; уважая читателя, оставлю все свои (довольно очевидные) комментарии при себе.
Еще интереснее смотреть на индивидульные параметры игроков. Они рассчитаны для трех команд (Испания, Нидерланды, Германия) на основе двух матчей: финала (Испания–Нидерланды) и матча за третье место (Германия–Уругвай). Для каждого игрока стартового состава были вычислены его вовлеченность, промежуточность, пэйджранк и кластерность.
Комментировать тут тоже ничего не буду, кроме роли вратарей: в то время, как Стекеленбург по вовлеченности в игровые действия занимает второе место в команде, Касильяс обладает нулевой (!) степенью промежуточности. Вообще и по рисунку, и по графикам видно, почему в том матче выиграла Испания.
Ну и заканчивается статья разными предложениями по улучшению модели. Типа, ввести двенадцатого игрока — ворота (стрелки — это удары по воротам), учитывать процент успешности пасов и т.д. От себя скажу, что докручивать модель можно бесконечно, у меня самого в процессе чтения появлялись разные идеи, и, наверно, моделью давно уже пользуются тренеры — только, понятно, они далеки от академических кругов и не выкладывают ее на архив.
Все формулы есть в статье, статистика по всем матчам, кажется, имеется (кстати, не подскажете, где?) — так что можно делать такой анализ и самостоятельно, там никакой особой математики даже нет, так, арифметика, формулки в эксельчике.
ни один из оцениваемых показателей не влияет на результат матча, по сути. но метод интересный
Можно просто тупо вырубить Капдевилу.
Можно перерезать ребра, чтобы уменьшать связность.
Ну и так далее.
Но у меня другой вопрос. где можно посмотреть статистику по всем пасам с матчей, примерно, последнего евро? я бы рассчитал все коэффициенты для матчей россии, можно было бы поверить математикой известные нам впечатления, пока они свежи