Бостон Ред Сокс-2013. Прогнозы систем PECOTA и ZiPS. Часть 1. Введение в предмет
До начала бейсбольного сезона остаётся больше месяца, и учитывая то, что 95% приобретений и трейдов межсезонья уже совершены, фанатам только и остаётся, что следить за информацией из тёплых Аризоны и Флориды, где уже полным ходом кипит подготовка к сезону. Но ни игры третьего по счёту WBC, ни игры Весенних Тренировок, ни, тем более, обычные тренировочные занятия, которые проходят сейчас, не удовлетворят настоящего фаната, который с нетерпением ожидает бейсбольного сезона. Слухи о потенциальных приобретениях уже практически затухли (если бы не никому не нужный Кайл Лоуш, и вовсе бы затухли), финализированные сделки давно обсосаны до косточек. Что же делать?
И тут на помощь приходят прогностические системы, финальные версии которых появляются в Интернет-пространстве как раз в такой "мёртвый сезон" (и это объяснимо - пока составы максимально не устаканятся, смысл что-то прогнозировать?) - PECOTA от сайта Baseball Prospectus и ZiPS от сайта Fangraphs. Изначально я хотел ограничиться обзором PECOTA, так как контент сайта Fangraphs бесплатный, а для Baseball Prospectus нужна подписка, которая у меня имеется, а у большинства моих читателей - нет (то есть, я бы дал ту информацию, которой у них нет). Но поскольку так получилось, что релиз PECOTA и статья ZiPS о Ред Сокс вышли в один день (11 февраля), я решил всё же объединить обзор обеих систем в один пост - для сравнения. Правда, больший акцент буду делать всё же на PECOTA, по причинам, которые объясню ниже. Надеюсь, этот анализ будет интересным для широкого круга фанов Ред Сокс.
В первой части я кратко ознакомлю вас с тем, что это за зверь такой PECOTA и брат его ZiPS, поясню, что скрывается за аббревиатурами в таблицах, а также в качестве бонуса дам прогноз PECOTA на выход в плей-офф команд AL East.
Что собой представляют прогностические системы и как они работают?
PECOTA расшифровывается как Player Empirical Comparison and Optimization Test Algorithm - тестовый алгоритм для эмпирического сравнения и оптимизации игроков (но изначально название было выбрано по фамилии "идеально среднего" игрока Билла Пекоты). Система разработана в 2003 году статистиком и саберметриком Нэйтом Силвером, который тогда работал аналитиком сайта Baseball Prospectus, а впоследствии переключился на политику (и совсем недавно на основании своих статистических систем абсолютно точно предсказал результаты президентских выборов в США во всех штатах, хотя до самих выборов над некоторыми его прогнозами откровенно смеялись), и прогнозирует будущую продуктивность игроков. Она базируется на трёх компонентах:
коэффициент MLB, который позволяет спрогнозировать продуктивность игрока в MLB на основании статистики майнор лиг;
базовые прогнозы, которые используют усреднённые показатели для выделения настоящего качества игры игрока;
карьерная корректировка, которая включает информацию о том, как изменялась с возрастом статистика похожих игроков.
ZiPS расшифровывается как SZymborski Projection System, и разработана статистиком и саберметриком Дэном Симборски (отсюда и первое слово аббревиатуры) в 2003 году. Принципы ZiPS и PECOTA в целом, конечно же, схожи, но одно серьёзное отличие имеется. ZiPS больше ориентируется на процентные показатели продуктивности, а не на количественные, и игровое время берёт, исходя из прошлогодних. Поэтому ZiPS не так показательна для игроков, у которых кардинально поменялась роль в команде и для проспектов, оценка которых идёт по статистике майнор лиг, где они, само собой, игроки основы, тогда как PECOTA пытается вместе с прогнозом продуктивности прогнозировать и игровое время в зависимости от того, какая роль у игрока сейчас, а для проспектов используется минимум проведённого времени, который для хиттеров составляет 250 выходов на биту. Это вкупе с недоступностью PECOTA и является главной причиной тому, что прогнозам PECOTA я уделю больше внимания, а ZiPS оставлю "в довесок".
Словарь терминов
Для любой таблицы с кучей статистических данных нужны пояснения, тем более, что многие саберметрические показатели нашему читателю мало, а то и совсем не знакомы. Само построение основной статистической таблицы состоит из трёх строк - в первой указана статистика игрока в сезоне 2012 года, во второй - прогноз PECOTA на сезон 2013 года, в третьей - прогноз ZiPS на сезон 2013 года. Учитывая то, что в некоторых столбцах объединяются две похожие, но всё-таки по-разному вычислящиюеся статистики (допустим, WARP в PECOTA и fWAR в ZiPS), уточняю, что в строке показателей сезона 2012 года я использовал статистику Baseball Prospectus, то есть, ту, которая указана в PECOTA.
После основной таблицы следуют две дополнительные мини-таблицы. В первой показаны дополнительные прогностические коэффициенты улучшения или ухудшения показателей игрока от PECOTA, во второй - указанные похожие игроки по версиям обеих систем (PECOTA даёт троих самых похожих, ZiPS - самого-самого похожего). Подробно - ниже.
Более подробный словарь по каждому пункту таблиц:
Показатели только для хиттеров:
PA - количество выходов на биту.
R - количество принесённых ранов.
H - количество выбитых хитов.
2В - количество выбитых даблов.
3В - количество выбитых триплов.
HR - количество выбитых хоум-ранов.
SB - количество украденных баз.
ВВ - количество выработанных уоков.
SO - количество страйкаутов.
AVG - batting average, показывает, как часто бэттер выбивает хиты.
OBP - on-base percentage, показывает, как часто игрок попадает на базу любым способом.
SLG - slugging percentage, показывает качество хитов - каждая лишняя база, занятая последствием хита, ценится выше.
TAv/wOBA. TAv - это true average, основной комплексный статистический показатель хиттинга, применяемый Baseball Prospectus. Он оптимизирован под шкалу AVG, так что оценивать TAv игрока легче легкого - например, если AVG .300 это очень хорошо, то и TAv .300 это точно так же хорошо. wOBA - это weighted on-base average, основной комплексный статистический показатель хиттинга, применяемый Fangraphs. Он оптимизирован под шкалу OBP, так что оценивать wOBA игрока легче легкого - например, если OBP .380 это очень хорошо, то и wOBA .380 это точно так же хорошо. Подробнее о wOBA можно прочитать тут, точно так же работает и TAv, только формула другая и адаптация чуть другая. Поэтому эти два очень похожих по своей сути показателя и объединены в одну колонку.
Показатели только для питчеров:
G/GS - количество проведённых игр и количество стартов.
IP - количество отработанных иннингов.
H - количество выданных хитов.
ER - количество выданных заслуженных ранов.
HR - количество выданных хоум-ранов.
BB - количество выданных уоков.
SO - количество сделанных страйкаутов.
BB/9 - количество выданных уоков за 9 иннингов.
SO/9 - количество сделанных страйкаутов за 9 иннингов.
WHIP - walks plus hits per inning pitched, показывает, сколько в среднеем раннеров питчер пропускает на базы путём уоков и хитов за иннинг работы (ZiPS почему-то не прогнозирует этот показатель).
ERA - earned run average, показывает, сколько заслуженных ранов выдаёт питчер за 9 иннингов работы.
FRA/FIP. FRA - это fair run average, статистический показатель, который показывает то, как бы должна выглядеть ERA питчера, если бы в неё не вмешивались побочные факторы (удача, качество защиты и т.д.). Он оптимизирован под шкалу ERA, так что оценивать FRA игрока легче легкого - например, если ERA 3.00 это очень хорошо, то и FRA 3.00 это точно так же хорошо. FIP - это fielding independent pitching, статистический показатель, который показывает то, как бы должна выглядеть ERA питчера, если бы в неё не вмешивались побочные факторы (удача, качество защиты и т.д.). Он оптимизирован под шкалу ERA, так что оценивать FIP игрока легче легкого - например, если ERA 3.00 это очень хорошо, то и FIP 3.00 это точно так же хорошо. Подробнее о FIP можно прочитать тут, точно так же работает и FRA, только кроме статистик, которые питчер может контролировать (страйкауты, уоки и хоум-раны), она учитывает не только то, что у питчера получилось, а и в какой ситуации (то есть, например, страйкаут при загруженных базах ценится выше страйкаута при пустых базах). Поэтому эти два очень похожих по своей сути показателя и объединены в одну колонку (Baseball Prospectus использует и обычный FIP, но PECOTA почему-то его не прогнозирует.).
Показатели, общие для хиттеров и питчеров:
WARP/fWAR - это WAR разных сайтов (WARP - Baseball Prospectus, fWAR - Fangraphs), показатель, который, грубо говоря, показывает, сколько побед прибавляет команде этот игрок лично по сравнению с игроком запаса. Подробнее о WAR можно прочитать тут.
Breakout - процентный шанс того, что продуктивность игрока улучшится минимум на 20% по сравнению с его средней статистикой последних сезонов (например, как Эллсбери в 2011).
Improve - процентный шанс того, что продуктивность игрока вообще улучшится по сравнению с его статистикой последних сезонов. Для игрока, которому прогнозируют выступление на точно том же уровне, что и раньше, этот показатель будет составлять 50%.
Collapse - процентный шанс того, что продуктивность игрока упадёт минимум на 25% по сравнению с его средней статистикой последних сезонов (например, как Лэки в 2011).
Attrition - процентный шанс того, что игровое время игрока уменьшится минимум на 50% по сравнению с его средним игровым временем последних сезонов. Это, в первую очередь, указывает на риск травм, во вторую - на риск резкого ухудшения игры и смены роли в команде.
Похожие игроки - тут вроде всё и так ясно, но необходимо заметить, что если, к примеру, PECOTA сравнивает Педройю с Майсером Изтурисом, то это значит только то, что это сравнение исключительно 29-летнего Педройи и 29-летнего Изтуриса, не их карьеры в целом. Так что не крутите пальцем у виска, видя такие, на первый взгляд, неадекватные сравнения (то же самое и если наоборот - вроде бы слабого игрока Ред Сокс сравнивают с звездой). Контекст важнее всего.
Почему в основных таблицах выбраны именно эти показатели, а не другие? Потому что они наиболее важны в плане прогноза выступления игрока, а на то, чтобы добавить ещё парочку показателей (BABIP в первую очередь), просто не хватило ширины полосы блога. Плюс, несмотря на схожесть двух систем, у них нет стандартного набора статистик, которые они прогнозируют - например, важный показатель ISO PECOTA, в отличие от ZiPS, почему-то не прогнозирует, иначе, думаю, я впихнул бы его в таблицу вместо украденных баз, а у питчеров ZiPS не прогнозирует ни WHIP (который я всё же вставил в таблицу), ни процент граундболов (которому места не нашлось). Ну а неподходящие для общей оценки уровня игрока показатели вроде RBI для хиттеров или W-L для питчеров я оставил за рамками по причине их бесполезности в данном аспекте.
Прогнозы PECOTA на выход в плей-офф команд AL East
Пояснение к таблице:
Win % - процент побед.
W - количество побед.
L - количество поражений.
Div % - шанс на победу в дивизионе.
WC % - шанс на попадание в Уайлд Кард.
PO % - шанс на попадание в плей-офф.
DS % - шанс на попадание в Divisional Series.
WS % - шанс на победу в Мировых Сериях.
Как видим, PECOTA к шансам Ред Сокс относится весьма оптимистично. Чего и вам советую.
Но определение "терпеливо стоять с палкой и ждать, пока питчер кинет 4 бола" - неверное. Бэттеру нужно понимать, на какой питч свинговать, а на какой - нет. Понятно, что на очень уж далёкий от зоны страйка питч разве что Влад Герреро свинговать будет, но есть много пограничных питчей и много обманчивый питчей. Умение распознавать тип и локацию питчей и составлять конкретный план на каждый выход на биту (например, жду фастбола, который питчер чаще всего бросает в определённых случаях, и пытаться сделать так, чтобы такой случай пришёл именно тогда, когда бэттер его ожидает) - это и есть умение вырабатывать уоки.
У меня к тебе дебильный, как водится, вопрос. Вырабатывать уоки - это терпеливо стоять с палкой, и ждать пока питчер кинет 4ре болла? Вернее, не пытаться отбивать все подряд, не зависимо от того, куда летит мяч? И верно ли тогда предположение, что дисциплина на бите пропорционально ведет к увеличению вырабатываемых уоков?