Статья Власова о ерейтинге++

atoku · 26 фев 2006

Кто не читает "старую добрую" тему, даю ссылку

http://rsport.netorn.ru/theory/ACP/vlas2.htm

Проблема, между прочим, интересная и Власов прав, стоит все же сесть и подумать, а есть ли что-то более справедливое чем очковая система и почему. Я вот думал, но никак не успеваю закончить. И статья эта меня подстегивает думать дальше. Вообще-то интересно и я с ней в принципе согласен.

У кого какие мнения на счет статьи Николая мм Власова?

Crest · 26 фев 2006

Я не смог понять плодотворную идею. Отдохну, перечту, и все же вряд ли сумею. Видно лишь, что это вброшенная шайба в зону. Без выводов и конкретных идей.
Не серчай, Коля, но из твоей статьи замопнилось прежде всего обилие фраз "стоит пытаться решить", "надо найти" и "Пусть математики проверяют".
Заменяем очки деньгами? Расплачиваемся после каждой партии, а не в конце турнира? Все определяем букмекерскими ставками? Это лишь способ материализовать очки и половинки, сделать их нагляднее. С математической точки зрения все это лишь суета.
Нет. Пока не въехал. Не вижу плодотворной идеи. Пусть люди поумнее разъяснят.

chich · 26 фев 2006

всё не так
надо считать не очки, не деньги, и не рейтинг
надо висты считать

boriz · 28 фев 2006

Если я правильно понял, то в результате применения идей из этой статьи получается так, что все игроки в идеальном случае не получают никаких призов и, соответственно, не делают никаких взносов

Гриня · 28 фев 2006

На мой дилетантский взгляд все попытки понять е-рейтинг обречены на провал. Мне намного проще, потому что сredo quia absurdum est ©.

Гриня, слепой адепт е-рейтинга.

chich · 28 фев 2006

Гриня пишет:

Гриня, слепой адепт е-рейтинга.
Нажмите, чтобы раскрыть...

есть такой анекдот:
- Слепой, да ты ж меня Е-..шь!
- О! А я и ня вижу...

boriz · 28 фев 2006

e271 пишет:

Что такое идеальный случай? Если Вы имеете ввиду, что все партии завершились вничью то это в любой системе нулевой вариант
Нажмите, чтобы раскрыть...

Идеальный случай - это вариант, при котором все участники турнира набирают то количество очков, которое они должны набрать согласно их рейтингу (вероятности победы).

boriz · 28 фев 2006

Ещё раз сейчас перечитал эту статью - ахинея, ясно даже без понимания е-рейтинга.
По этой системе побеждает не сильнейший, а тот, кто сыграл лучше, чем предполагала вероятность его победы. Это то же самое, что я писал выше, только другими словами.

Georg · 4 мар 2006

я не очень понял изначального посыла про то, что раз игроки неравны по силе, то следует искуственно их уровнять, применив коффиценты, а попросту -гандикап.

но суть любого соревнования как раз и состоит в том, что бы опредилить _неравенство_ игроков, то есть понять кто из них играет хорошо, кто средне, а кому пора заниматься орлянкой (покером, нардами, биллиардом - по вкусу).

Именно этому система с гандикапами хороша для противостояния 1 на 1, когда участники хотят поиграть на деньги по возможности справедливо, но крайне плоха для определения _лучшего_.

так что плождотворной идеи я тоже не вижу. разве только вычислять при помощи этой громоздкой конструкции коэффы для букмейкерских контор. тогда, конечно, дело полезное)

Kirr · 5 мар 2006

e271, у вас есть программа для рассчёта Е-рейтинга по базе партий в формате PGN? Если есть программа то я посчитаю на своих базах и попробую подумать имеет ли е-рейтинг смысл. Пока что мы считаем рейтинги программой Bayeselo, основанной на уточнённой формуле ELO.

atoku · 5 мар 2006

Предложение серьезное Боюсь, что программы у Е нету для расчета прямо из базы pgn.

chich · 5 мар 2006

Е - как студент-двоечник на защите дипломной работы
на первый же конкретный вопрос комиссии отвечает - выяснение этого не входило в задачи нашего исследования

Kirr · 5 мар 2006

e271 пишет:

Алгоритм примитивный, и я его уже миллион раз объяснял
Нажмите, чтобы раскрыть...

Сорри, у меня нет времени на реализацию чьих-то идей когда там много своих нереализованных идей.

e271 пишет:

А все что основано на эло решает совсем другие задачи... Эло дает оценку СИЛЫ на моент последней партии. А е-рейтинг - уровень на звданный период.
Нажмите, чтобы раскрыть...

Это, в общем случае, неверно. Статистика Эло - это всё что основано на формуле предсказания результата: Sa = 1 / ( 1 + 1 / 10 ** ((Rb-Ra)/400) ). Здесь Sa - вероятный счёт игрока "a" в матче с игроком "b", Ra и Rb - рейтинги игроков "a" и "b". Гипотеза Эло - в том что принципиально можно описать силу игрока одним числом - рейтингом, и предсказывать результаты исходя из разности рейтингов. Далее, было изобретено несколько практических методов вычисления рейтингов, так чтобы эти рейтинги позволяли предсказывать результат по приведённой формуле.

Есть методы вычисления рейтингов учитывающие время и допускающие изменение силы игры от времени, это для людей. Для компьютеров, которые обычно не меняют силу игры от времени, используются методы где порядок партий неважен. Например популярная программа ELOstat считает рейтинги для базы партий по обратной формуле Эло (обратной к вышеприведённой) итеративно, до сходимости системы. Теоретически для ELOstat неважен порядок партий в базе. Bayeselo использует несколько изменённую формулу, где включены вероятность ничьей и преимущество белого цвета. Алгоритм Bayeselo пытается максимизировать вероятность того что предсказание результата по формуле будет верно, для данной базы партий. Это мне кажется верный ход мысли (хотя я ещё не вник в алгоритм). Рейтинги Bayeselo существенно достовернее чем ELOstat, на нашем опыте (мы проводим турниры программ), и тоже не зависят от порядка партий.

Так вот.. Рейтинги Эло имеют чётко определённый смысл (приведённая формула), и несколько способов вычисления, в зависимости от условий и задач. Рейтинги Эло позволяют довольно точно предсказывать результат матча, по крайней мере для матчей программ. Тому кто хочет заменить рейтинги Эло на что-то другое придётся доказать что предсказания нового рейтинга точнее чем предсказания основанные на Эло рейтинге. На страничках Е-рейтинга много слов и рассуждений, но я не смог найти ответа на этот вопрос: Точнее ли предсказания Е-рейтинга, и если да то как это можно доказать?

Alexander · 6 мар 2006

Думаю, Е-рейтинг (или, возможно, некая иная система учитывающая разницу в цене победы на соперниками разной силы) хорошо применим для швецарок, где у каждого свои индивидуальные соперники, а не к круговикам или матчам. Согласен с Георгом, что в круговике именно равная оценка победы позволяет определить сильнейшего в турнире. А уж насколько результаты победителя имеют общечеловеческое значение, пусть определяет рейтинг (или Е-рейтинг).

ProstoTak · 6 мар 2006

Надо смотреть спец случаи типа 1 1 1 1 1 1 1 0 0 0 0 0 0 0
Нажмите, чтобы раскрыть...

Однозначно что это не то же что 0 0 0 0 0 0 0 1 1 1 1 1 1 1. В Эло последние результаты имеют больший вес, если, конечно, вести пересчёт после каждой партии. САМ проверял!

ProstoTak · 6 мар 2006

Не знаю о каком входе и каком конечном рейтинге Вы говорите, Е, но если посадить играть двух людей с одинаковым рейтингом матч из 14 партий, пересчитывать рейтинг после каждой партии то к концу матча рейтинг будет разный, в зависимости от последовательности побед. Хоть и отличаться будет не слишком сильно.

Kirr · 6 мар 2006

Почитал немного, там всё чуть сложнее. Гипотеза Эло говорит также что результат партии - нормально распределённая случайная величина. Это я не учёл. Так что у старика Эло всё просчитано.

e271 пишет:

Да хорошая эмпирическая формула апроксимации результатов, я встречал и другие с арктангенсом, например, вместо логарифма ... Надо ли проверять какая из них лучше? Ну если есть желание...
Самое интересное, что если вы возмете 10000 результатов и у вас получиться что формула А лучше формулы Б это не гарантирует что в следующих 10000 все будет так же.
Нажмите, чтобы раскрыть...

Ну, это вы - изобретатель. На вас и ответственость доказывать что ваш новый метод лучше старого. Только не надо говорить что всё очевидно и приводить пример турнира. Один пример будет за другой против, на одном-двух примерах ничего не доказывается.

e271 пишет:

Не уверен... Надо смотреть спец случаи типа 1 1 1 1 1 1 1 0 0 0 0 0 0 0
Нажмите, чтобы раскрыть...

Я тоже не уверен. Попробую посчитать как нибудь. Дело в том что я сейчас не использую ELOstat, а использую Bayeselo, которому точно безразличен порядок партий.

e271 пишет:

Ну это элементарно Вы присылаете базу данных по результатам обсчитываете по Эло а я обсчитаю ее по е-рейтингу. Можно с учетом цвета...
Мне это тоже интересно...
Нажмите, чтобы раскрыть...

Да, будет интересно посмотреть. Наша текущая база партий доступна здесь: http://computerchess.org.uk/ccrl/4040/ (обновление - каждую субботу). Попробуйте скачать базу (прямая ссылка на файл) и посчитать, если вам не сложно. Будет очень интересно посмотреть что получится. Хотя скажу что это не заменит для меня программу, так как хочется погонять на разных предельных случаях и посмотреть какие будут получаться рейтинги.

e271 пишет:

Ну а потом считается количество и вес ошибок
Нажмите, чтобы раскрыть...

Вот здесь уже интересно. Я пока что не пришёл к выводу какой наилучший способ оценить качество рейтингов. Пока что наилучший известный мне способ - примерно такой: База партий разбивается на две половины, поровну, случайным образом. Рейтинги считаются по одной половине, потом смотрится насколько точно эти рейтинги предсказывают результаты из другой половины. Эксперимент повторяется раз 10000.

Способ описанный по вашей ссылке мне не нравится тем что там учитывается "Важность ошибки", то есть этот способ будет высоко ценить рейтинги которые хорошо считают верх таблицы в ущерб точности в середине и внизу таблицы. Мне например не менее важно точно узнать кто на 19-м месте и кто на 20-м.

ProstoTak пишет:

Не знаю о каком входе и каком конечном рейтинге Вы говорите, Е, но если посадить играть двух людей с одинаковым рейтингом матч из 14 партий, пересчитывать рейтинг после каждой партии то к концу матча рейтинг будет разный, в зависимости от последовательности побед. Хоть и отличаться будет не слишком сильно.
Нажмите, чтобы раскрыть...

Речь шла не о матче двух людей, а о программе для рассчёта рейтингов ELOstat, которая по идее не зависит от порядка партий. Эта программа популярна для оценки рейтингов шахматных программ, так как программы не меняют силу игры от времени.

Kirr · 10 мар 2006

e271 пишет:

Вообще, мне кажется, что для прогнозирования результатов между прогами вообще рейтинги не нужны. Просто результвты матчей между прогами когда их число переходит за сотню лучше всего оценивают ситуацию. Вот когда матчей между прогами не проводилось, тогда для оценки можно использовать рейтинг. Кстати попробуйте сравнить Эло прогнозы с прогнозами просто по матчам...
Нажмите, чтобы раскрыть...

Мы проводим матчи из 30 партий, это слишком мало для для хорошего прогноза. В 30 играх может случиться что угодно, результат в +100 ЭЛО по одному матчу - не редкость. К тому же бывает что несколько программ очень близки по силе - в таком случае чтобы быть уверенным какая из них сильнее надо проводить матчи из нескольких сотен партий. Вобщем всё не так просто. Есть ещё "искажения" рейтингов вызванные клонами и версиями одной и той же программы.

e271 пишет:

Другое дело если вы хотите установить единую линейку программ. Но тогда нужен не прогноз, а объяснение. или как говорят американцы ретрорейтингию
Нажмите, чтобы раскрыть...

Да, хочется прежде всего выделить линейку программ. Просто точность прогноза - это, мне кажется, единственный объективный критерий качества ранжирования. Иначе получается замкнутая петля - рейтинг строим по некоторому принципу, потом по нему же вычисляем что рейтинг правильный..

Kirr · 10 мар 2006

У меня есть одна претензия к Е-рейтингу - у него линейная шкала, в отличие от логарифмической шкалы Эло. (Или наоборот?) Е-рейтинги нужно делить чтобы понять насколько один сильнее другого, Эло-рейтинги - вычитать. Вычитать гораздо приятнее, так как это более наглядно, и не страдает точность представления из-за большого диапазона.

Например: Имеем результаты: A - B: 3-1, B - C: 3-1, C - D: 3-1. По E-рейтингу получим рейтинои вроде 27 - 9 - 3 - 1 (если я правильно понял). По Эло-рейтингу - что-то вроде 1800 - 1600 - 1400 - 1200. Эта шкала гораздо удобнее для восприятия, и вычитать/прибавлять проще чем делить/умножать.

У меня появилась мысль.. что если логарифмировать ваши рейтинги, и умножить на коэффициэнт. Теоретически должно получиться что-то вроде Эло? Было бы интересно сравнить логарифмы ваших рейтингов, с рейтингами например ELOstat и Bayeselo.

Ещё один момент - ваш основной аргумент в пользу Е-рейтинга, как я понял, заключается в том что это лучше чем абсолютные очки. Ну, здесь ведь тоже можно использовать ELOstat или Bayeselo для получения более точных оценок, с учётом того кто с кем играл и т.д.. Bayeselo учитывает даже преимущество белого цвета и вероятность ничьей. Надо будет более подробно исследовать как отличаются рейтинги полученные этими программами от Е-рейтингов.

WinPooh · 10 мар 2006

Да, правильная длина тестовых матчей - загадочная область... В последнее время часто почему-то наблюдаю такой сценарий: первые 5-6 партий выигрывает один движок, затем второй отыгрывается со счёта, скажем, 0-6 - до 6-6, подряд Затем начинается равная борьба, победы чередуются

Kirr · 10 мар 2006

e271 пишет:

1. Рейтинг строим для чего? Для прогнозирования. Тогда для компов это МАТРИЦА результатов. а не линейка
Нажмите, чтобы раскрыть...

Как по матрице понять кто победил? Надо преобразовать матрицу в линейку. Как проверить что линейка - правильная? Только точностью прогноза по этой линейке, а не по матрице. По-моему так.

e271 пишет:

2. Считаю принципиальным отличием е-рейтинга от Эло - отсутствие эмпирических коэффициентов.
Нажмите, чтобы раскрыть...

В базовой формуле Эло нет эмпирических коэффициэнтов. Хотя их и легко ввести при желании. Если вы про число 400 - то это просто для определения шкалы, в результате счёт 3 - 1 даёт примерно 200 очков разницы. Качество самих рейтингов от этого числа не зависит.

e271 пишет:

3. Всякие игры с логарифмированием, коэффициентами и т.д. просто забавны, но не более того ...
Нажмите, чтобы раскрыть...

Логарифмирование и коэффициэнт - это всего лишь перевод из одной шкалы в другую, более удобную. Информация не теряется.

e271 пишет:

4. Что касается наглядности, то отношение ИМХО более наглядно, поскольку сразу дает вероятность ...
Нажмите, чтобы раскрыть...

Мне почему-то легче произвести вычитание в уме чем деление. Осообенно если там не делится нацело.

e271 пишет:

5. Е-рейтинг более правильный (пока) способ преобразования матрицы результатов в линейку... поскольку использует меньшее количество допущений по сравнению с абсолютными очками
Нажмите, чтобы раскрыть...

Более правильный чем абсолютные очки? Здесь я согласен. Более правильный по сравнению с существующими способами оценки Эло рейтингов по набору партий? Вот это мне совсем неочевидно.

e271 пишет:

Очки "говорят" все участники одинаковы и не изменяются в течении турнира (периода)
е-рейтинг "говорит" все участники не изменяются в течении турнира (периода)

Сохранение самоидентичности каждого участника ИМХО основной принцип любого соревнования ПО ДАННОМУ ВИДУ. В противном случае мы имеем соревнование по САМООБУЧАЕМОСТИ в данном виде. Тоже можно, но это уже другой спорт.

У нас в МИФИ практиковался по статам, квантам. Ты приходишь на экзамен и можешь пользоваться любой литературой ...
Нажмите, чтобы раскрыть...

Я согласен насчёт абсолютных очков. Но Е-рейтинг - не единственное решение проблемы. И не факт что лучшее решение, пока что. Как я уже говорил, есть методы ELOstat и Bayeselo, которые в принципе решают ту же проблему что и Е-рейтинг. Кроме того эти методы получают привычные вем нам Эло-рейтинги, а не странные числа которые нужно делить в уме.

NS · 1 июн 2006

Зачем искать решение проблемы там, где её нет? (проблемы)
ЭЛО плохо показывает относительную силу??? Отлично показывает! А от добра добра не ищут...
При пересчете рейтинга после каждой партии рейтинг есно зависит от порядка партий. И пересчет после каждой партии/турнира делают только в том случае, когда за этот период возможно изменение силы игры обсчитываемого...
И ЭлоСтат и Bayeselo есно не учитывают порядок партий.

NS · 18 июл 2006

Кстати - насколько я понимаю - Bayeselo по турниру может дать разные рейтинги игрокам с одинаковым результатом, и дать меньший рейтинг игроку с лучшим результатом
И его вполне можно применять на незаконченном турнире, причем разными может быть сыграно разное число партий.
e-рейтинг на данный момент - неудавшаяся попытка сделать примерно то-же самое.

e271 · 23 авг 2006

NS пишет:

Зачем искать решение проблемы там, где её нет? (проблемы)
Нажмите, чтобы раскрыть...

Понятно есть люди и их много, для которых очень многое янсно и мало где есть проблемы Кстати одни из них совершили Октябрьскую революцию

Войти или зарегистрироваться

Статья Власова о ерейтинге++

atoku Модератор

Crest Админ, МГ

chich Учаcтник

boriz Учаcтник

Гриня Учаcтник

chich Учаcтник

boriz Учаcтник

boriz Учаcтник

Georg Учаcтник

Kirr Администратор

atoku Модератор

chich Учаcтник

Kirr Администратор

Alexander Заслуженный

ProstoTak Старожил

ProstoTak Старожил

Kirr Администратор

Kirr Администратор

Kirr Администратор

WinPooh В.М.

Kirr Администратор

NS Нефёдов Сергей

NS Нефёдов Сергей

e271 Старожил

Поделиться этой страницей