Финал Джокович – Алькарас неизбежен? Вот, что «думает» о US Open суперкомпьютер
Перед стартом любого крупного турнира спортивные издания пестрят заголовками вроде такого: «Кто выиграет предстоящий US Open / Roland-Garros и т.д.?». Уже по ходу турнира многочисленные эксперты упражняются в предсказании результатов наиболее интригующих и ожидаемых матчей. Их прогнозы основаны исключительно на опыте и понимании игры, что называется, «экспертной оценке». С недавних пор к пулу экспертов-предсказателей присоединился искусственный интеллект. Например, за аналитику и прогнозирование на US Open отвечает суперкомпьютер Watson, детище одного из главных спонсоров турнира – IBM.
В этом году после анализа мужской сетки US Open, суперкомпьютер выбрал топ-5 фаворитов: наиболее предпочтительные шансы на успех машина отдала Джоковичу, следом за ним расположились Алькарас, Синнер, Медведев и Тиафо. К слову говоря, если бы Фрэнсис не проиграл своему талантливому соотечественнику Шелтону, то прогноз оказался бы более чем точным, так как вся четверка полуфиналистов была бы определена верно.
Как вы уже догадались, сегодня мы поговорим о том, как же компьютеры, а точнее люди их программирующие, рассчитывают вероятности исхода теннисных матчей. Сразу скажу, что это отнюдь не тривиальный процесс и в этом посте мы рассмотрим его в упрощенном виде.
Алгоритм.
В основе расчета лежит так называемая цепь Маркова, использование которой возможно ввиду того, что счет в теннисе ведется последовательно. Что это значит? Рассмотрим на примере. Не сомневаюсь, что читатели блога хорошо знают как устроен теннисный гейм, он начинается со счета 0-0, после чего обязательно последует 0-15 или 15-0, третьего не дано, при счете 15-0 счет может измениться на 15-15 или 30-0 и т.д. Все варианты развития событий представлены на картинке ниже. Буквы p и 1-p – это вероятности победы в розыгрыше подающего и принимающего соответственно.
Двигаемся дальше. Представим, что вероятность выигрыша очка на своей подаче у нашего игрока (p) – 70%, или 0.7. Таким образом, вероятность выиграть у принимающего – 30%, или 0.3 (1-p). Как же теперь посчитать вероятность выигрыша гейма?
Интуитивно понятно, что выигрыш гейма – это совокупность вероятностей выиграть после счета:
40-0
40-15
40-30
40-40
А как теперь рассчитать эти вероятности? Здесь нам снова поможет марковская цепь, а точнее ее визуализация, обратите внимание, что у нас есть всего 1 вариант выиграть гейм со счета 40-0, вот он:
Т.к. вероятность того, что четыре независимые друг от друга события произойдут, в нашем случае это выигрыш 4 подряд очков подающим, равна их произведению, получаем:
Вариантов выиграть гейм с 40-15 у подающего четыре, а именно:
Что мы получаем в этом случае? 4 варианта выиграть 4 очка на своей подаче при проигрыше одного подающим, т.е.:
Думаю, теперь принцип вам понятен. Выигрыш с 40-30 и со счета ровно – это более мудреные комбинации, разбор которых мы оставим за скобками, ограничимся фактами:
В итоге мы получаем - общая вероятность выиграть гейм на своей подаче при вероятности выигрыша очка на своей подаче в 70% - более 90%:
Определив вероятность выигрыша гейма каждым из игроков на своей подаче мы можем использовать полученные результаты для определения победителя сета, а вероятность выигрыша сета для определения победителя матча.
Ремарка. Ввиду того, что подачи игроков в сете чередуются, алгоритм расчета вероятности выигрыша сета (как и тай-брейка) представляет собой двухфакторную модель, когда мы следим не только за изменением счета, но и за сменой вероятности выигрыша подающим своего гейма, т.к. она разная у каждого из игроков. В данном посте мы не будем подробно разбирать эти алгоритмы, это слишком долго и довольно сложно, а мы с вами только в начале пути изучения статистики и теории вероятностей. Если хотите, чтобы в будущем мы еще вернулись к этой теме и создали модель расчета вероятности гейма, сета, тай-брейка и матча в excel, пишите в комментах.
С алгоритмом разобрались. А как определить вероятность выигрыша очка на своей подаче?
Нет сомнений, что Watson для расчета этого параметра использует «тонну» статистических показателей, таких как погодные условия, направление и средние скорости полетов мяча на 1-ой и 2-ой подачах и тому подобное.
Мы же с вами ограничимся простой, интуитивно понятной и, на мой взгляд, весьма эффективной методикой австралийских ученых Барнета и Кларка. Итак, нам понадобятся:
% 1-ой подачи
% выигрыша 1-ой подачи
% выигрыша 2-ой подачи
% выигрыша на приеме 1-ой подачи
% выигрыша на приеме 2-ой подачи
Все эти параметры нужны нам:
для игроков ТОП-100 рейтинга, это позволит сравнить наших игроков со средним уровнем ведущих игроков;
для участников нашего матча а) за всю их карьеру на данном покрытии б) за текущий турнир, что позволяет учесть форму игроков в моменте.
Как выглядят формулы:
Оценка вероятности победы игроков в полуфиналах US-Open
Ну что же, вот и пришло время применить знания на практике. Посмотрим каковы шансы на победу участников полуфиналов Открытого Чемпионата США по теннису:
Алькарас - Медведев
А что думает Watson? Вау, кажется, мы совпадаем в прогнозе с суперкомпьютером! Увы, Шансы Даниила, действительно, не слишком велики, об этом говорят и очные встречи текущего года, и фантастическая форма Карлоса на текущем US Open. Впрочем, никакие цифры и предматчевые расклады не помешают нам верить и болеть за Даниила сегодня ночью!
Джокович - Шелтон
Что же, здесь Watson считает нашу оценку шансов молодого американца заниженной. Если быть откровенным, это кажется мне немного удивительным. Шелтон слишком молод и неопытен, а его главное оружие, как ни крути, – подача, но будет ли она так же эффективна против лучшего, принимающего в ATP-туре? Посмотрим!
Плюсуйте и подписывайтесь на блог, если было интересно.
И помните, что в спорте играть надо головой. До новых встреч!
Доступно через VPN:
https://mobile.twitter.com/IBMSports/status/1437079421454782464