Саберметрика. Часть 10. Хиттинг. Статистики, которых следует избегать
Для того, чтобы начать рассматривать статистики, которые хорошо позволяют оценивать игроков, нужно сначала рассмотреть те, о которых следует либо забыть навсегда, либо серьёзно ограничить их применение. Различные статистики в бейсболе начали появляться ещё в начале 20-го столетия, после чего глобальных изменений в их применении было немного аж до начала развития саберметрики, так что вполне неудивительно, что некоторые из тех статистик, которыми оценивали игроков целое столетие, и которые вошли в привычку, на самом деле являются абсолютно несостоятельными.
О таких статистиках, которые применимы к хиттерам, мы сейчас и поговорим. Нужно сказать, что я не буду сейчас рассматривать никому не интересные ни раньше, ни сейчас статистики вроде количества синглов, хит-бай-питчей, сак флаев и т.д. Нет, наша цель - те статистики, которые кто-то ещё считает важными, но в этом глубоко (или не очень глубоко) заблуждается. Большинство читателей блога из этого материала не почерпнёт практически ничего нового, но я всё же считаю, что цикл без такого очерка будет неполным. Да и имеется надежда, что хотя бы раз в месяц в мой блог случайно забредают люди, которые пока что ничего в саберметрике не понимают, но готовы к обучению.
Часть 3. Базовые принципы. Run expectancy. Win expectancy. Linear weights
Часть 4. Базовые принципы. Побочные факторы, учитывающиеся при оценке игроков
Часть 5. Базовые принципы. Выборка. Сплиты и платуны
Часть 6. Базовые принципы. Регрессия. Прогностические системы
Часть 9. Теории и мифы. Штрафы
* * * * *
At Bats (AB)
Для затравки начну с не совсем статистики, а скорее знаменателя в формулах некоторых статистик, которая всё же требует небольшого пояснения. Когда я начинал интересоваться бейсболом, меня очень сильно удивило то, что в бейсболе существуют два различных определения выходов на биту - "At Bats" (AB) и "Plate Appearances" (PA). Чуть позже, когда я немного втянулся в статистику, мне это показалось логичным из-за формул, по которым рассчитываются показатели "слэш-линии" (AVG/OBP/SLG). А потом я снова перестал понимать, зачем существуют АВ, если есть РА.
Дело в том, что РА - это общий показатель, сколько раз бэттер на самом деле выходил отбивать, и знать это полезно. Когда знаешь количество РА, можно увидеть, был ли игрок основным или нет (после чего узнать, связано ли это с травмой или нет), на глаз оценить, насколько показательны другие статистики (достаточна ли выборка для стабилизации показателей) и т.д.
Формула же АВ такова: АВ = РА - ВВ - НВР - SH - CI. То есть, из всех РА выкидываются те, в которых бэттер выработал уок, получил хит-бай-питч, сделал сак флай или сак бант, или попал на базу путём кэтчерской или любой другой помехи. Другими словами, учитываются только РА, в которых бэттер сделал хит, заработал аут (то ли исключительно себе самому, то ли по выбору филдера, то ли путём дабл-плея или трипл-плея) или достиг базы за счёт ошибки защитников. Если вы видите хоть какую-то логику в подобном разделении событий на поле, дайте мне знать, потому что я ничего общего между показателями в этих двух группах не вижу. Более того - куда больше общего между показателями из разных групп. Например, при уоке, хит-бай-питче и хите бэттер попадает на базу, а при ауте и сак флае/банте получает аут. Или вот ещё - при помехе кэтчера кэтчеру пишется ошибка, но, в отличие от "стандартной" ошибки такие РА в зачёт АВ не идут. И так далее, и тому подобное. Поэтому никакого смысла в столбце "АВ" в различных статтаблицах попросту нет, это статистика-паразит.
* * * * *
Batting Average (AVG)
Не так давно в одной из статей, которая тоже была посвящена бесполезности некоторых статистик, встретил очень хороший посыл - для понимания того, насколько важна статистика, в первую очередь необходимо разобраться, на какой вопрос она отвечает. Потом статья пошла несколько в другую степь, но мне эта фраза очень понравилась, и она как нельзя лучше подходит именно для "разоблачения" AVG.
Задайте себе вопрос - на какой же вопрос отвечает AVG? Первый приходящий в голову ответ - "как часто бэттер выбивает хиты?" Но это не так, вернее, не совсем так. Ведь в формуле AVG знаменателем является тот самый АВ, который исключает уоки, хит-бай-питчи, сак флаи/банты и помехи. Так что по-настоящему AVG отвечает на вопрос "как часто бэттер выбивает хиты в выходах на биту, которые не заканчиваются уоками, хит-бай-питчами, сак флаями/бантами и помехами?" Согласны? А теперь спросите себя - неужели вас на самом деле интересует ответ на такой вопрос?
Впрочем, даже если бы сейчас решили переделать формулу AVG, и вместо знаменателя АВ включили бы знаменатель РА, сильно много полезности статистике это бы не добавило. Дело в том, что изначальный посыл статистики половинчатый, с какой стороны на него не посмотри. Если смотреть с глобальной стороны - избежания аута и попадания на базу (что является главным смыслом игры - в игре аутов ограниченное количество, а без попадания на базу не будет и ранов) - то картина неполная, потому что в AVG не считаются уоки и хит-бай-питчи. Если смотреть с частичной стороны - владения битой - то картина опять же неполная, потому что в AVG сингл и хоум-ран считаются с одинаковым коэффициентом бинарной системы, разделяющей хиты ("1") и ауты ("0").
Давайте для наглядности закрепим усвоенное мини-примером. Представим, что у нас есть два игрока - игрок А с AVG .275 и игрок В с AVG .300. На первый взгляд кажется, что игрок с AVG .300 сильнее, но на самом деле мы этого утверждать не можем. Если игрок А вырабатывает при этом 50 уоков, а игрок В вырабатывает 10, то (из расчёта на 600 РА), то на базу больше будет попадать игрок А (.318 ОВР против .312). И если игрок А выбивает 30 хоум-ранов и 30 даблов, тогда как игрок В выбивает только 10 хоум-ранов и 20 даблов, то битой владеть будет лучше игрок В (SLG считать не буду, влом). В конце концов выходит, что AVG даже теоретически можно использовать исключительно в составе слэш-линии, вместе с ОВР и SLG. Но опять же - если ОВР и SLG вполне добротно справляются с картиной хиттинга с двух разных сторон, то зачем захламлять анализ ещё и бесполезным AVG? И это я даже не упоминаю о более точных и комплексных статистиках типа wOBA или TAv.
Поэтому AVG не имеет смысла рассматривать вообще. Это давно устаревший показатель, который является чем-то вроде промежуточной статистики между ОВР и SLG, при этом не отвечая ни на какой полезный вопрос. Да, к AVG за более чем 100 лет привыкли настолько, что его полезность считается чуть ли не аксиомой, но, как я уже неоднократно повторял - для понимания и принимания саберметрики нужно в первую очередь иметь мозг, который не желает мыслить шаблонно. Когда-то при царе Горохе кто-то решил, что уоки учитывать не стоит, а все хиты есть смысл гребсти под одну гребёнку. Упрекать его не стоит, но это не мешает сейчас, когда мы отлично понимаем, что такие допущения неверны, отвергать эти допущения. Всем известно, что Пеле - "Король футбола", а Элвис - "Король рока", но так ли это на самом деле? Так и с AVG, только с одной небольшой разницей - проэкзаменировать исторические лэйблы Пеле и Элвиса мы не можем, а вот проверить адекватность AVG можем. И оказывается, что король-то голый.
* * * * *
Runs Batted In (RBI)
В отличие от AVG, RBI даёт ответ на очень чёткий и логичный вопрос - "сколько ранов завёл в дом игрок своими действиями?" Раны - это важнейшая часть игры, и вроде как статистика, отвечающая на такой вопрос, должна быть одной из самых важных. Более того - ключевые сборные статистики саберметрики как раз и отвечают на такой вопрос. Сколько ранов заработал команде игрок атакой, сколько защитой, сколько питчингом - и всё в итоге суммируется в ранах, после чего переводится в победы и получается WAR. Так почему же RBI вошли в этот список бесполезных статистик?
Потому что, хоть посыл в основе RBI и верный, но исполнение - нет. Вернее, не так само исполнение, как выводы из итогового результата. Сама по себе статистика RBI вполне себе невинная, и если бы она была где-то на задворках, никто бы не обращал на её слабую логичность внимания. Более чем удобно в отчёте по игре сказать "у Джона Смита выдалась отличная игра - на его счету целых 5 RBI" или, например, "Кевин Джонсон три выхода на биту подряд приносит команде по одному RBI". Но серьёзная проблема состоит в том, что долгое время по количеству RBI журналисты и болельщики определяют качество игрока, и RBI вместе с AVG и хоум-ранами вошли в тройку статистик "Triple Crown" (на фото).
И именно это является кардинально неверным шагом - по количеству RBI качество хиттера нельзя определять ни в коем случае. В первую очередь, потому что RBI является сильно зависимой от контекста статистикой. Игроку, который отбивает с пустыми базами, для заработка одного RBI нужно выбить хоум-ран, а игроку с раннером на 3 базе и менее 2 аутов даже хита выбивать не нужно - достаточно выбить граундаут или флайаут. Другими словами - если два игрока выбили по хоум-рану, но один выбил его с пустыми базами, а другой с раннером (-ами) на базе, то это не значит, что качество этих выходов на биту разное.
Многие противники саберметрики и любители статистик вроде RBI упрекают саберметриков в том, что они расценивают все статистики вне контекста, а контекст как бы важен - польза команде, клатч хиттинг и т.д. Опустим на время напрашивающийся ответ - мол, контекстный хиттинг никак не может влиять на качество хиттера - а всё же посмотрим на полезность RBI и под этим самым контекстным углом. Для примера возьмём простенькую ситуацию - один игрок выбил лидофф трипл, а следующий сак флаем завёл его в дом. Второй игрок получит на свой счёт RBI, как будто он заработал команде ран. Но спросите себя, чья заслуга в этом ране больше - того, кто выбил трипл, или того, кто заработал аут? Даже интуитивно понятно, что больше заслуга первого хиттера, но я на всякий случай подкреплю это таблицей Run Expectancy, о которой я говорил в 3 части цикла. Итак, по нехитрым вычислениям, первый бэттер своим лидофф триплом принёс команде 0,927 рана (1,482 - 0,555), а второй своим сак флаем/RBI граундаутом - минус 0,185 рана (1 + 0,297 - 1,482). Вот так-то.
И ладно бы ещё у всех игроков были приблизительно одинаковые возможности для заработка RBI, но это далеко не так. Например, лидофф бэттеры в первом выходе на биту априори отбивают при пустых базах, а в последующих выходах на биту отбивают после худших хиттеров команды с 8 и 9 слота (в НЛ - после питчера), тогда как хиттеры №3-5 отбивают после того, как отбивают лучшие игроки команды по попаданию на базы, и вследствие этого имеют куда больше шансов и вариантов для зарабатывание RBI. Кроме этого, влияет и относительное качество этих самых игроков - №3 в лайнапе слабых команд и №3 в лайнапе лидеров имеют существенно разное количество возможностей для отбивания при раннерах на базах и в скоринг позишн, а значит, и куда больше вариантов на пополнение количества RBI.
Что-то я многовато слов написал о проблемах статистики, с помощью которой пытаются оценить качество хиттера, но которая при этом может приравнять хоум-ран к ауту. Короче говоря, оставьте её для фэнтези и перестаньте применять в любом, даже самом поверхностном анализе игрока.
* * * * *
Runs Scored (R)
Всё, сказанное мной о RBI, можно точно так же сказать и о ранах. Разве что ситуация меняется на 180 градусов - теперь в выигрыше становятся лидофф хиттеры, после которых отбивают большие парни с тяжёлыми битами, а не игроки, после которых отбивают лайт-хиттинг шортстопы, посредственные кэтчеры и питчеры. Ну и раны всё-таки даже в стандартном анализе используются очень редко, потому и "гонений" со стороны саберметриков на эту статистику практически не слышно. Как раз тот вариант, о котором я говорил парой абзацев выше в отношении RBI - если бы их воспринимали так же, как и раны, никаких препятствий для правильного анализа качества игрока они бы не создавали. Но в любом случае стоит запомнить, что раны тоже бесполезная статистика, и по тем же причинам, что и RBI - слишком много в ней контекста, но зато слишком мало реального качества игрока.
* * * * *
On-Base Plus Slugging Percentage (OPS)
Если вы думали, что весь этот пост будет одним сплошным развенчанием стандартных статистик, то вы... были недалеко от истины. Но всё же в нём нашлось и место одной из первых саберметрических статистик, которая в последнее время набрала такую мэйнстримовую популярность, что далеко не каждый знает, что она изначально саберметрическая. OPS, которая (на случай, если вы не в курсе) является обычной суммой двоих весьма важных показателей OBP и SLG, была введена в обиход Джоном Торном и Питом Палмером в их книге "The Hidden Game Of Baseball", и являла собой логичную попытку обобщить два важных умения хиттера - умение попадать на базу (или избегать аутов, кому как больше нравится) и умение отбивать на пауэр. Авторы решили сделать статистику простой и интуитивно понятной для обычного болельщика (в саберметрике до сих пор приходится руководствоваться этими соображениями - отсюда и коэффициенты для FIP, wOBA, TAv и т.д., чтобы привести статистики к уровню общепринятых стандартных ERA, OBP, AVG соответственно), поэтому, не мудрствуя лукаво, попросту сложили их вместе, получив одну цифру. Исследования показали достаточно высокую корреляцию OPS хиттеров с набранными командой ранами (.946, тогда как 1 - идеальная корреляция, а 0 - её полное отсутствие), и Торн с Палмером на этом закруглились.
Почему же такая интуитивно понятная и на первый взгляд очень полезная статистика оказалась в одной статье с такими бесполезными статистиками, как четыре приведённых выше? Дело в том, что несмотря на всю её кажущуюся логичность, в ней есть два момента, которые её достаточно серьёзно компроментируют. Первый момент видно невооружённым взглядом - достаточно взглянуть на формулы двух её составляющих. ОВР использует в качестве знаменателя РА, тогда как SLG использует АВ. Вроде бы не слишком серьёзная разница, но когда суммируешь два дробных показателя, нужно либо чтобы у них был один знаменатель, либо знаменатели должны быть приведены к одному общему. Этого никто не сделал. Второй момент, куда более важный - то, что OPS довольно значительно переоценивает слаггеров по сравнению с игроками, которые часто попадают на базы. Простая формула "ОВР + SLG" означает, что две статистики как бы равны между собой в важности для зарабатывания ранов, но в реальности ОВР в 1,73 раза важнее для зарабатывания ранов, чем SLG.
Впрочем, следует признаться, что, в отличие от первых четырёх статистик, использование ОРS не обязательно стоит "избегать" (особенно если брать во внимание OPS+, статистику, которая убирает влияние парк факторов и фактора лиги. Она приведена в стандартную форму "плюсовых" статистик, где 100 - это средний показатель, 99 - на 1% хуже среднего, 101 - на 1% лучше среднего и так далее). Её стоит ограничивать в применении, потому что есть намного более точные комплексные статистики вроде wOBA и TAv. Но из-за её понятности и простой формулы (намного проще прибавить ОВР к SLG, чем вычислять wOBA или TAv по их коэффициентам), а также относительной полезности (по сравнению с теми же AVG или RBI) она вполне может быть достойным инструментом для анализа качества игрока. Просто не идеальным.
Изначально эта стата от ВР называлась EqA и формула была более-менее понятной: http://en.wikipedia.org/wiki/Equivalent_average
Но потом её переименовали в TAv и немного переделали по подобию wOBA, только в отличие от wOBA, в неё включён и ситуационный хиттинг (типа сак флаев), и она ещё нормализирована по парк-фактору. Общий процесс расписан тут: http://www.baseballprospectus.com/article.php?articleid=11717
Грубо говоря, это статистика, завязанная на linear weights, и откалиброванная под шкалу AVG, причём (тоже в отличие от wOBA) там всегда средний показатель (.260) является средним, вне зависимости от изменения качества хиттинга в лиге (т.е., что на фоне эры стероидов, что сейчас, на фоне доминирования питчеров, среднее число всегда .260).
Просто создавать моменты результата не даст. Их надо еще и реализовывать.
OBP .400 при пустых базах и OBP .400 при ранерах должны ценится по-разному.
Я бы мог в этом посте описать ещё добрый десяток саберметрических статистик, которые не следует использовать, потому что они, как и OPS, были первыми и оттого неидеальными шагами для анализа. Но я этого не сделал, потому что эти статистики всё равно сейчас никто не использует - саберметрики потому, что они устаревшие и неидеальные, а простой народ потому, что он о них и не знал вообще.
Поэтому обычно статьи такого плана, как эта, крутятся вокруг мэйнстримовых показателей типа AVG, RBI и W, оттого и кажется, что у саберметриков нет другой заботы, только бы разрушить чужое. Это не так, они разрушат и чужое, и своё, если оно устаревает или изначально бесполезное. Просто, повторюсь, не было смысла указывать тут саберстатистики, которые канули в Лету, потому что их и так никто не использует. А те, которые используют, но они бесполезные - те и указаны.
-я перечитал и там действительно моя логика оказалась созвучной логике создателя показателя RBI.это просто суждение, возможно метафора.вобщем лестно наверное, только осадочек мутный.
-я и тогда понял что OPS просто революционно новый показатель, но с крайне сомнительной математической ценностью.и когда о коэффициенте кореляции в moneyball еще написали, то возникла надежда на появление простого и главное понятного критерия. ведь wOBA формула не менее логична но основана на эмпирических коэффициентах(только для МЛБ). а можно формулу TAv?может тут чтото полезное будет, ведь тот обновленный и более грамотный OPS* практически не используется
-мне показалось что логику создателя AVG я угадал и продемонстрировал.пользы сейчас наверное немного-факт.осталась только историческая привычка (ведь до появления саберметрики это был единственный инструмент) его использовать, а это немало
- Да, если считать OPS так, то получится практически аналог wOBA, т.е., более чем информативный показатель. Но суть ОРS как раз в том и есть, что он очень простой для использования, а с таким коэффициентом он уже мало будет отличаться от wOBA и по сложности вычисления. Потому я и заметил, что от него полностью отказываться смысла нет, но когда есть возможность, лучше всё-таки оценить игрока по ОВР и SLG отдельно, или взять wOBA/TAv.
- Я и не говорил что высказывались, просто для примера несколько стандартных стат взял.