10 мин.

Саберметрика. Часть 3. Базовые принципы. Run expectancy. Win expectancy. Linear weights

После короткого вступления и исторической справки наш краткий курс саберметрики переходит к настоящему разбору продвинутого анализа бейсбольной статистики. Для начала мы рассмотрим различные базовые принципы саберметрики, без которых углубляться в саберметрику, да и вообще понимать её просто нереально. Сегодняшняя статья посвящена разбору того, как вычислить изолированную ценность каждого действия на поле.

Часть 1. Введение

Часть 2. Краткая история

* * * * *

Для того, чтобы объективно оценивать уровень игры самых разных игроков, необходимо сначала достигнуть общего знаменателя, а значит, разработать какой-то общий для всех показатель, в который можно конвертировать всё, что игрок сделал на поле. К счастью, сама игра даёт нам единый для всех игроков показатель, который напрямую относится к победам команды - раны. Бэттеры своими действиями на бите и на базах раны приносят, питчеры и защита своими действиями эти раны предотвращают. Поэтому в саберметрике основной единицей всякого исчисления являются раны. Раны эти, конечно же, не те, которые указаны в колонке "Runs" на различных статсайтах. Разница между ними в том, что раны на статсайтах показывают, сколько раз раннер добрался до дома, не отмечая при этом ни за чей счёт он это сделал, ни сколько он сам для этого рана сделал, а раны в саберметрике - это ответ на вопрос, сколько ранов для команды заработал/сохранил лично рассматриваемый игрок, без учёта действий партнёров по команде.

Для того, чтобы узнать, сколько ранов заработал условный хиттер, нужно сначала узнать, чему в ранах равно каждое его действие на бите. Стандартные статистики это нам сказать не могут. AVG считает все хиты равными 1, все ауты равными 0, а все уоки, хит-бай-питчи и сакрифайс хиты вообще выкидывает из статистики. OBP уже немного лучше, так как учитывает и уоки с хит-бай-питчами, но всё равно считает попадание на базу за 1, а аут за 0. Сами понимаете, что приравнивать уок даже к синглу неправильно, не говоря уже о хоум-ранах. SLG вроде бы отвечает некоторым условиям нашей задачи, так как считает аут за 0 пунктов, сингл за 1 пункт, дабл за 2 пункта, трипл за 3 пункта, а хоум-ран за 4 пункта, но SLG не учитывает уоки и хит-бай-питчи.

В своё время, понимая недостатки OBP и SLG, Пит Палмер решил объединить их в одну общую статистику OPS, которая получается простым сложением показателей OBP и SLG. Казалось бы, это идеальный выход из ситуации, ведь OBP хорош для того, чтобы оценить попадание на базу, а SLG хорош для того, чтобы понять, на какую базу бэттер попал. Сложи эти две статистики и получишь идеальную статистику, которая учитывает одновременно и частоту попадания на базу, и пауэрхиттинг. Так? Нет, не так. Без сомнения, OPS намного более точная в данном плане статистика, чем AVG, OBP и SLG, но у неё всё равно есть два конкретных недостатка. Первый - OPS уравнивает в силе OBP и SLG, что неправильно. Тот, кто читал "Манибол", помнит пример - если у всех игроков команды OBP будет равен 1.000, игра теоретически никогда не закончится, ибо аутов не предвидится (не считая потенциальных аутов на базах, конечно), а вот если у всех игроков команды SLG будет равен 1.000, то каждый экстрабазовый хит отдельного игрока будет сопровождаться определённым числом аутов (к примеру, дабл = 2.000 SLG, значит, чтобы SLG был равен 1.000, во втором выходе на биту должен быть аут). Да, это пример очень и очень грубый, но даёт возможность понять неравенство 1.000 OBP и 1.000 SLG (саберметрики высчитали, что OBP в 1,8 раз важнее SLG для набора ранов, если кому интересно). Второй недостаток - это ценности хитов. Да, шкала по количеству баз, которые игрок пробежал после выбитого хита, интуитивно понятна и вроде бы логична, но это обманчиво - хоум-ран не важнее дабла в 2 раза, а сингла в 4 раза. И даже прибавление к SLG OBP, что немного модернизирует шкалу (при этом добавляются уоки, которые равны 1 пункту, а каждому из хитов добавляется 1 пункт ценности, т.е., сингл теперь = 2, дабл = 3, трипл = 4, а хоум-ран = 5) и немного приближает к реальности, проблемы не решает.

Немного суммируем. Мы хочем оценить ценность действий игрока одним числом, чтобы можно было сравнить его с игроком совсем другой позиции и скиллсета. Для этого нужно привести все его действия к одному знаменателю, общему для всех игроков MLB (раны). Но стандартные статистики для этого не подходят. Что же делать?

* * * * *

Палмер и Торн в своей книге "The Hidden Game of Baseball" не только ввели в обиход статистику OPS, а и разработали одни из главных принципов саберметрики. Первый принцип называется  "Run Expectancy" (RE), "вероятность ранов" и заключается вот в чём. В бейсболе существует 24 различных ситуации с раннерами на базах и количеством аутов. 0 аутов, пустые базы; 0 аутов, раннер на первой базе; 0 аутов, раннер на второй базе; и так далее до последней ситуации - 2 аута, загруженные базы. Палмер и Торн взяли базу данных за несколько сезонов, и рассчитали, сколько ранов в среднем набирает команда после каждой из этих ситуаций до конца иннинга, после чего сделали из полученных данных таблицу, которая и является таблицей вероятности набора ранов, т.е., "Run Expectancy".

Как это считалось, можно объяснить на примере аналогичной таблицы Тома Танго, которую он сделал для своей книги "The Book", и которая захватила более актуальные для сегодняшнего времени сезоны 1999-2002 года (всё же Палмер и Торн исследовали конец 70-х/начало 80-х, а с тех пор результативность возросла). Итак, Танго посчитал, что за эти четыре года команды в среднем набирали 0,555 ранов за полный иннинг (он намеренно исключил из рассмотрения все неполные иннинги). Поскольку иннинг всегда начинается с ситуации "0 аутов, пустые базы", вероятность набора ранов в такой ситуации составляет 0,555 ранов за иннинг. Потом он взял все ситуации, когда первый бэттер в иннинге достиг первой базы любым способом, посчитал, сколько ранов в среднем набиралось после такой ситуации, и получил число 0,953 рана. Ну и так далее для всех ситуаций.

Что это нам даёт? В принципе, много чего. Например, из этой таблицы мы можем узнать, что, например, если хиттер выбьет лидофф сингл, то это увеличивает вероятность набора ранов на 0,398 рана, а если выбьет аут, то это уменьшит вероятность набора ранов на 0,258 рана. Это важно, но достаточно ли этого для решения нашей задачи? Нет, недостаточно, ведь в данном примере бэттер может попасть на базу за счёт ошибки защиты, а польза будет идентична синглу. Но это уже база для многих ответов на вопросы, которые можно задать самому себе и тут же найти ответ (например, логично ли делать сак бант после лидофф сингла? Ответ - нелогично, так как при ситуации "0 аутов, раннер на 1-й" RE 0,953, а при ситуации "1 аут, раннер на 2-й" RE 0,725).

* * * * *

Теперь мы знаем вероятность набора ранов в одном отдельно взятом иннинге, и, само собой, на этой базе можно выстроить вероятность победы. Для высшей математики это не особо сложно, но для тех, кто, как и я, не знаком с такой жестью, в двух словах распишу теорию вычисления. Танго для этого использовал некий математический приём, который называется "Цепью Маркова" (лучше не открывайте ссылку, ну его нафиг :)). Взяв за основу таблицу RE, с помощью этих "Цепей Маркова" он вычислил процентную вероятность набора определённого количества ранов после каждой отдельно взятой ситуации. Например, при ситуации "0 аутов, базы пустые" RE 0,555, и это значит, что в 70,2% случаев команда не наберёт ни одного рана, в 15,7% случаев наберёт 1 ран, в 7,5% случаев наберёт 2 рана, в 3,6% случаев наберёт 3 рана, в 1,7% случаев наберёт 4 рана, а в 1,3% случаев наберёт 5+ ранов. А вот при ситуации "1 аут, раннеры на 1 и 2 базах" RE 0,982, и это значит, что в 56,6% случаев команда не наберёт ни одного рана, в 16,3% случаев наберёт 1 ран, в 11,1% случаев наберёт 2 рана, в 9,1% случаев наберёт 3 рана, в 4,1% случаев наберёт 4 рана, а в 2,8% случаев наберёт 5+ ранов. Ну и так далее для всех ситуаций.

Теперь, зная процентные вероятности набора ранов для одного иннинга, можно точно также экстраполировать эти данные для каждого из девяти иннингов и перевести "Run Expectancy" в "Win Expectancy" (WE). Для чего это нужно? Ну любому интересно, насколько условный сингл при 1 ауте в 5 иннинге при счёте 2-2 увеличил вероятность победы команды, правда? Да и есть в этом своя важность в саберметрике. Имея на руках матрицу с процентными соотношениями "Win Expectancy", можно создавать вот такие занятные графики, которые можно найти на сайте Fangraphs для любой игры (в примере, как и на заглавном фото, указан график WE 2 игры ALCS 2013 года). С помощью показателей WE были созданы многие контекстные статистики (WPA, LI и т.д.), о которых мы поговорим позже. А ещё с помощью "Цепей Маркова" можно узнать процентные вероятности набора ранов для конкретного питчера, просто заменив в матрице RE показатели среднего питчера из ~5 ранов за игру (стандартная таблица, которую я приводил) на показатели любого другого питчера. Например, условного Кёршоу, который выдавал в прошлом сезоне 2,1 рана за игру.

* * * * *

Но с WE мы немного отклонились от основной цели нашей задачи - вычислить настоящую ценность в ранах каждого действия бэттера на бите, поскольку WE, хоть и имеет прямую связь с RE (поэтому и была включена в эту статью, для этого ну никак не подходит. Система, которая позволит нам это сделать, базируется на RE, и тоже была введена в обиход ещё Палмером и Торном. Называется она "Linear Weights", "линейные ценности", и именно на ней базируются большинство саберметрических статистик.

Итак, сначала мы (ну не мы, а Палмер, конечно) берём каждый потенциальный исход выхода на биту и подсчитываем, сколько ранов в среднем команда заработала от начала выхода на биту до конца иннинга. Например, за взятую выборку Танго (сезоны 1999-2002 года) было выбито 21026 хоум-ранов, и от свинга каждого из бэттеров, выбивших в итоге хоум-ран, до конца каждого из иннингов, в которых были выбиты хоум-раны, их команды в сумме набрали 40838 ранов. Разделив количество набранных ранов на количество хоум-ранов, мы узнаем, сколько ранов в среднем зарабатывала команда в иннинге с времени выбитого хоум-рана до его окончания. В нашем примере - 40838/21026 = 1,942. Конечно же, для всех других событий это тоже высчитали.

Но 1,942 - это всё ещё не настоящая ценность хоум-рана (а 1,311 - не ценность дабла, и т.д.). Ведь, как нам уже известно, перед каждым из розыгрышей есть определённая вероятность набора ранов, и настоящая ценность любого действия хиттера должна учитывать и это. Поэтому Палмер (а после него и Танго) вычислили среднюю RE перед каждым из исходов, и вычли её из итоговой цифры, получив наконец-то искомую чистую ценность каждого действия. Вернёмся к примеру с хоум-ранами. Средняя RE перед каждым из 21026 хоум-ранов была 0,533, после этих хоум-ранов команды в среднем набирали 1,942 рана. Значит, сам хоум-ран "стоит": 1,942 - 0,533 = 1,409 рана. Для наглядности вот вам полная таблица вычислений Танго, отдельно для каждой из возможных ситуаций и средним числом в конце. Не нужно удивляться некоторым погрешностям (например, 1,04 для лидофф хоум-рана - вроде бы ничего не изменилось и должно быть ровно 1), Танго в "The Book" привёл альтернативный (и более правильный) способ вычисления, который заключается в том, чтобы отнять изначальный RE от итогового RE после каждого исхода плюс число набранных ранов, и результаты оказались практически такими же, плюс/минус пара сотых (например, RE для ситуации 0 аутов, пустые базы RE 0,555, если бэттер выбьет хоум-ран, то ситуация останется той же, но команда уже набрала 1 ран. Итоговый расчёт ценности такого хоум-рана: 1+0,555-0,555 = 1. Или более сложная ситуация - 1 аут, раннеры на 2 и 3 базах, стартовый RE для неё 1,467, если бэттер выбьет хоум-ран, то создастся ситуация "1 аут, пустые базы", RE для которой - 0,297, но команда наберёт 3 рана. Итоговый расчёт ценности такого хоум-рана: 3+0,297-1,467 = 1,83). К сожалению, онлайн такой таблицы не нашёл, поэтому привёл ту, что есть.

Так мы с вами и дошли до того, как высчитывается изолированная ценность каждого исхода выхода на биту в ранах. Это знание нам ещё не раз пригодится в дальнейшем, в том числе для понимания различных вроде бы сильно сложных формул.