Рейтинг ELO: колебания во времени

Согласно рейтингу ФИДЕ, Магнус Карлсен – сильнейший игрок в мире. Его наивысший рейтинг был 2882, что является самым высоким показателем за всю историю. Гарри Каспаров набрал 2851, в списке ФИДЕ в июле 1999 года. А наивысший рейтинг Бобби Фишера на апрель 1972 года составлял всего 2785 очков.

Но вот вопрос: можем ли мы сравнить их способности по их рейтингу? Средний рейтинг Эло лучших игроков со временем повысился. Таким образом, все еще остается вопрос, можем ли мы утверждать, что Карлсен более сильный шахматист, чем Фишер, судя по их рейтингам? И насколько объективным было бы это суждение?

Здесь вы можете увидеть 4 самых высоких рейтинга в мире.

Система рейтинга ELO используется ФИДЕ, USCF и шахматными онлайн-серверами. Шахматная рейтинговая система – это метод оценки силы шахматиста. Несмотря на то, что теория нынешней системы была разработана еще в конце 1950-х годов, Международная шахматная федерация приняла рейтинговую систему только в 1970 году. 

Метод ELO основан на точном математическом уравнении. Алгоритм рейтинга Эло широко используется для ранжирования игроков во многих соревновательных играх. В некоторых случаях рейтинговая система может препятствовать игровой активности игроков, которые хотят защитить свой рейтинг. Если рейтинг одного игрока на несколько очков выше, чем у его соперника, ожидается, что он выиграет.

Даже если согласно системе ELO игрок с более высоким рейтингом, скорее всего, выиграет, это не означает автоматически, что он выиграет игру. Связать повышение или понижение рейтинга с течением времени с изменением способностей – очень сложное дело, его общее доверие следует рассматривать в контексте хотя бы основной проблемы, описанной выше.


Факторы времени (инфляция / дефляция)

Когда игрок говорит о «1900 силе рейтинга», он или она делает это с неявным пониманием того, что рейтинг 1900 означает определенный уровень способностей. Более того, существует общее мнение, что «1900 человек силы» в этом году должно стать «1900 силой» в следующем году, через 6 лет и через 20 лет, и если каким-то образом этого не произойдет, то с рейтинговой системой что-то не так.

Дело в том, что рейтинговая система, основанная исключительно на результатах игры игроков, чьи способности могут меняться с течением времени, не может гарантировать, что конкретный рейтинг будет обозначать ту же способность с течением времени. Это наблюдение, на которое указал письменный и компьютерный консультант Джон Бенсли, который утверждает, что рейтинги можно использовать для относительных способностей, а не абсолютных способностей. 

Как утверждал Эло, средний показатель ELO среди рейтинговых игроков имеет большую тенденцию к снижению с течением времени. Если новые игроки не входят в пул рейтинговых игроков и не покидают его, то каждое повышение рейтинга одним игроком приведет к снижению рейтинга другим игроком на такую ​​же величину. Таким образом, рейтинговые очки будут сохранены, а средний рейтинг всех игроков останется постоянным с течением времени.

Но обычно игрокам, попадающим в рейтинговый пул, присваиваются низкие предварительные рейтинги, а игроки, покидающие рейтинговый пул, являются опытными игроками с рейтингом выше среднего. Чистый эффект этого потока игроков снижает общий средний рейтинг.

Оставшиеся игроки, по всей вероятности, будут соревноваться с недооцененными оппонентами, которые улучшаются, и в среднем получат более низкие рейтинги за счет недооцененных игроков. Однако практика показывает, что средний рейтинг Эло лучших игроков со временем повышается.

Мы можем выделить несколько возможных целей для поддержания характеристик общего рейтингового пула. Одна из возможных целей – привести средний рейтинг или некоторый процентиль всех активных игроков к заранее заданному рейтингу путем периодического добавления фиксированной суммы ко всем рейтингам.

Несмотря на то, что в рейтинговую систему были внесены корректировки, чтобы противодействовать дрейфу рейтингов, беспокойство об изменениях в среднем рейтинге игроков, играющих в шахматы на турнирах, по своей сути зависит от целей рейтинговой системы.

Сама по себе рейтинговая система делает только предположения о различиях в рейтингах игроков, а не в фактических значениях. Таким образом, если бы 500 были вычтены или добавлены к каждому рейтингу, чтобы остановить дефляцию рейтинга, рейтинговая система все равно была бы такой же действительной, потому что различия в рейтингах игроков все равно остались бы прежними. 

Одним из возможных направлений усилий является разработка методов, позволяющих сделать оценки одной и той же способности с течением времени внешними средствами, хотя достоинства любого из этих подходов, безусловно, спорны. Компьютерная шахматная программа может рассматриваться как имеющая фиксированные способности.

Рейтинги нескольких шахматных программ можно точно оценить, затем эти рейтинги можно использовать как фиксированные «якоря» в рейтинговой системе. Убедительным аргументом против этого подхода является то, что люди играют против шахматных программ иначе, чем против других людей. Кроме того, регулярное выполнение такой процедуры может оказаться непрактичным и дорогостоящим.

Несколько более научный подход к оценке, обозначающей одну и ту же способность с течением времени, включает разработку шахматного теста для измерения шахматных способностей, а затем подгонку статистической модели для прогнозирования шахматных рейтингов с разумной точностью на основе шахматного теста. Можно составить серию шахматных вопросов по вкусу на всех этапах игры.

Этот подход, использующий внешний источник для измерения шахматных способностей помимо результатов игры, имеет преимущества в выявлении аспектов, которые отделяют слабых шахматистов от сильных. С другой стороны, оценка точности теста теперь является новым источником вариативности и может усложнить измерение силы игры. 

Признание того факта, что рейтинговая система не может обеспечить абсолютную оценку шахматных способностей, а скорее является единственной мерой по отношению к другим рейтинговым игрокам, означает, что даже если рейтинг может меняться, неясно, меняется ли он относительно всего пула или рейтинговые игроки.

Аргумент «дефляции рейтинга» включает изучение притока шахматистов в популяцию игроков и из нее. Таким образом, рейтинги Эло по-прежнему являются полезным механизмом для определения рейтинга на основе рейтинга оппонента. Если вы поиграете в достаточно игр, в конечном итоге вы получите свой «Истинный рейтинг». Это правда.