Тестовый турнир четырех версий Тоги

NS · 20 дек 2006

Для сравнения - вот что выдает ЭлоСтат:

Код:

  1 Toga 4s                        : 2297   59  57    79    67.7 %   2168   44.3 %
  2 Toga 3s                        : 2255   55  54    79    60.1 %   2184   49.4 %
  3 Toga II 1.2.1a 2s              : 2182   56  57    79    46.2 %   2209   46.8 %
  4 Toga II 1.2.1a 1s              : 2065   63  65    79    25.9 %   2248   36.7 %

NS · 20 дек 2006

И пока, так как формула BayesElo ближе к линейной чем формула Эло - BayesElo показывает лучший результат (меньшую сумму квадратов), но линейная формула всё равно бьет их обоих!

WinPooh · 20 дек 2006

NS, можешь вкратце написать байесовскую и линейную формулы в ветке "Математические основы рейтинг-систем"? А ещё, я знаю, у тебя таблиц много

NS · 20 дек 2006

У меня не таблицы, у меня программы подсчета Таблиц
и раз в той ветке нет обсуждения скажу в этой -
пока на моем тесте лучший результат показывает система Сонаса, а худший система Эло.
причем система Сонаса показывает довольно заметный отрыв от формул Эло/BayesElo.

Таблицы выложу ближе к вечеру - сейчас нужно ехать за лекарствами.
Формулы сейчас напишу.

WildCat · 20 дек 2006

Я же говорил, что Сонас рулит, а Эло глючит непадецки

NS · 20 дек 2006

Неа, посмотрим что будет на 900 партиях.
Рейтинг Эло вышел вперед, теперь лучше BayesElo и Сонаса, причем Сонас уже на последнем месте.
По системе Эло - усиление на удвоении (по 217 партиям) ровно 120 пунктов Эло.
сейчас начну писать расчет доверительных интервалов.

NS · 20 дек 2006

Текущая таблица

Код:

Рейтинг Имя Tog Tog Tog Tog Очки S-B % 
1 Toga 4s X 22.5 23.0 28.5 74.0 / 109 3421.00 67.89% 
2 Toga 3s 13.5 X 24.0 28.5 66.0 / 108 2982.00 61.11% 
3 Toga 2s 13.0 12.0 X 22.0 47.0 / 108 2414.00 43.52% 
4 Toga 1s  8.5  7.5 14.0 X 30.0 / 109 1782.00 27.52%

NS · 20 дек 2006

После 240-ка партий.

Код:

1 Toga 4s    X 24.5 25.5 31.0 81.0 / 120 4160.75 67.50% 
2 Toga 3s 15.5    X 25.5 31.5 72.5 / 120 3656.25 60.42% 
3 Toga 2s 14.5 14.5    X 25.0 54.0 / 120 3038.25 45.00% 
4 Toga 1s  9.0  8.5 15.0    X 32.5 / 120 2155.25 27.08%

По системе Эло

Код:

Best rating  =    119
Sum(Delta^2) =  12.29

   1  2200
   2  2319
   3  2389
   4  2438

 XXXX 22.8 26.6 31.9
 17.2 XXXX 24.0 29.9
 13.4 16.0 XXXX 26.6
  8.1 10.1 13.4 XXXX

По системе Сонаса E=0.5+D/800

Код:

Best rating  =    124
Sum(Delta^2) =  13.91

   1  2200
   2  2324
   3  2397
   4  2448

 XXXX 22.6 26.2 32.4
 17.4 XXXX 23.6 29.8
 13.8 16.4 XXXX 26.2
  7.6 10.2 13.8 XXXX

NS · 21 дек 2006

на данный момент с 95% достоверностью прибавка (85-130)

WildCat · 21 дек 2006

NS пишет:

Рейтинг Эло вышел вперед, теперь лучше BayesElo и Сонаса, причем Сонас уже на последнем месте.
Нажмите, чтобы раскрыть...

Может действительно все не так, как на самом деле?
Появилась идея для своего IKRL тоже посчитать ошибки разных рейтинговых систем. Может действительно Эло лучше?

WildCat · 21 дек 2006

NS пишет:

на данный момент с 95% достоверностью прибавка (85-130)
Нажмите, чтобы раскрыть...

Похоже я лучше всех угадал

NS · 21 дек 2006

Я утром приведу точный доверительный интервал по 300 партиям (я вывел таблицу на экран, а по вероятносям каждого увеличения - прикинул на глазок), похоже что всё-таки больше 100 пунктов.
Насчет рейтингов - формула Сонаса точно дает немного, но заметно худший результат. BayesElo дает совсем немного хуже - но искажена шкала. В случае этого теста идет завышение прибавки на удвоении на шесть пунктов.

NS · 21 дек 2006

по 300 партиям. (рейтинги Эло)
95% доверительный интервал [91,130]
Наиболее вероятное значение 115,
Мат. ожидание 113,
значение посчитанное методом минимизации суммы квадратов 116.

WildCat · 22 дек 2006

На самом деле нельзя проверять рейтинговые системы на таком турнире, т.к. мы имеем искаженные рейтинги.

NS · 22 дек 2006

На самом деле нельзя проверять рейтинговые системы на таком турнире, т.к. мы имеем искаженные рейтинги.
Нажмите, чтобы раскрыть...

Как это имеем? Никаких рейтингов у нас нет.
Мы знаем что удвоение прибавляет X пунктов.
Для каждой системы находим такое X чтоб сумма квадратов отклонений была минимальна.
Рейтинги никакие изначально не ихвестны, минимизируем функцию по одному параметру.
И вот система Сонаса по этому одному параметру минимизирует сумму квадратов отклонений по шести матчам хуже.

WildCat · 22 дек 2006

Так мы заранее знаем, что получим неправильные результаты, т.к. перевес одной и той же проги над собой обычно чуть ли не вдвое завышается.

NS · 22 дек 2006

Ничего не понимаю. В лучае матча двух соперников - всегда будет минимальная сумма квадратов. Всегда будет ноль - при любой системе рейтингов.
в случае трех соперников (Три внутренних матча)
Допустим соперники с 1 секундой на ход, двумя и четыремя.
Результат 1/2 и 2/4 должен быть одинаков. И он будет одинаков при любой системе рейтингов.
А расхождение рассчитанного результата пары 1/4 - как раз и будет говорить о правильности системы.
У нас шесть пар. Какая разница - завышена разница или нет?
Мы же не тестируем конкретную разницу, а подбираем для каждой системы рейтингов отдельно, как раз так чтоб минимизировать сумма квадратов отклонений. И как раз это очень хороший параметр для оценки эффективности системы. И на данный момент он показывает что система Эло немного лучше линеной.

WildCat · 22 дек 2006

NS пишет:

Какая разница - завышена разница или нет?
Нажмите, чтобы раскрыть...

Это ключевой момент. Получится, что рейтинговая система, в которой разница завышается будет иметь меньше ошибок. Это нехорошо. Надо проверять на турнире множества реальных разных движков.

NS · 22 дек 2006

неужели четырех мало?
Если вышлешь детализацию (до результатов внутренних матчей) IKRL, то могу посчитать по ней.

WildCat · 22 дек 2006

Вышлю базу партий по почте.

NS · 22 дек 2006

Угу, давай - посчитаю, и выложу результаты в новой ветке.
сейчас буду придумывать алгоритмы - по одному параметру минимизировать просто
А вот по десятку - сделаю сочетание монте-карло с направленным поиском (по производной)

WildCat · 22 дек 2006

NS пишет:

неужели четырех мало?
Нажмите, чтобы раскрыть...

Тут дело не в том, что их мало. А что мы заранее знаем, что их результаты явно неадекватны их силе.

NS · 22 дек 2006

Почему - адевкатны, просто шкала немного растянулась
На результат это не влияет, но посмотрим что получится с IKRL.

NS · 22 дек 2006

20 параметров... Если напишу хороший сходящийся метод поиск минимума - то получится готовая система для расчета рейтингов (правда без доверительных интервалов, но тесты показывают что минимизация суммы квадратов отклонений достаточно хороший метод, причем его результаты не зависят от вероятности ничьи)

NS · 22 дек 2006

Текущие данные по системе Эло
прибавка по методу наименьших квадратов 122 пункта.
Сумма квадратов отклонений 30.17

Наиболее вероятная прибавка 122 пункта.
Мат. ожидание прибавки 120 пунктов.
95% доверительный интервал [101,136]

По системе Сонаса E=0.5+D/800 методом наименьших квадратов прибавка 127 пунктов.
Сумма квадратов отклонений 32.12

Текущая таблица:
Код:
Toga 4s XXXX 41.0 47.0 57.5
Toga 3s 29.0 XXXX 46.5 53.5
Toga 2s 23.0 24.5 XXXX 43.0
Toga 1s 13.5 17.5 27.0 XXXX

thenewone · 22 дек 2006

Сергей, а не думаете ли Вы, что прибавка будет меньше при 2m и 4m чем, например, при 2s и 4s ?

идея моего вопроса в том, есть ли "критические" глубины поиска? Какая разница, в среднем, в глубину между двухсекундной Тоги и четырехсекундной?

NS · 22 дек 2006

Нет, много тестов есть которые показывают что прибавка одинакова (при таких низких разницах в контроле)

Идет меньшая прибавка от 1s/2s, чем 2s/4s по паре причин.

1. Тога, если ей слать секунду на ход - тратит на самом деле немного больше времени.
2. Просто погрешность в результате разброса результатов.

До этого матч версий 1s/2s у меня завершился со счетом 4.0/12.0 - что показывает прибавку на 200 пунктов

Критических глубин быть не может, так как всё время возникают разные позиции, с разной глубиной перебора, и с разным бренчинг-фактором.

NS · 22 дек 2006

Разница в глубине, при двухкратном увеличении контроля - около одного ply (У Тоги бренчинг-фактор около двух)

thenewone · 22 дек 2006

спасибо за ответ

компьютерные шахматы для меня прояснились немножко

NS · 23 дек 2006

Насчет минуты на ход - раньше было распространено мнение, что прибавка от удвоения при сильном увеличении контроля уменьшается, но скорей всего это не так. А точно проверить контроли от минуты на ход - нереально, на это требуется слишком много времени.

WildCat · 23 дек 2006

thenewone пишет:

компьютерные шахматы для меня прояснились немножко
Нажмите, чтобы раскрыть...

Это как это?
Проясните нам пожалуйста!

NS · 26 дек 2006

Турнир закончился, сейчас посчитаю цифры.
Результат турнира:

Код:

Рейтинг Имя Tog Tog Tog Tog Очки S-B % 
1 Toga 4s    X 90.0 102.5 122.5 315.0 / 450 58695.00 70.00% 
2 Toga 3s 60.0     X 96.0 119.0 275.0 / 450 51155.50 61.11% 
3 Toga 2s 47.5 54.0     X 100.0 201.5 / 450 40662.50 44.78% 
4 Toga 1s 27.5 31.0 50.0      X 108.5 / 450 27262.50 24.11%

WildCat · 2 янв 2007

Ну и где рейтинги?

Нет желания потестировать Тогу с разными хеш-таблицами?

NS · 2 янв 2007

Я только сегодня вернулся домой.
Завтра выложу рейтинги.
С разными - разным типом хеш таблиц?
Если проверять отдачу от двух оценок в хеше/двух лучшийх ходов - нужны длинные контроли.
Слишком тяжело увидеть отдачу (Хотя в случае двух оценок в Хеше отдачу можно отследить использовав Mtd(f) вместо Негаскаута)
А Хеширование в PV добавляет очень мало, и чтоб отследить отдачу так-же нужны длинные контроли...

WildCat · 2 янв 2007

Для начала просто сравнить разные размеры таблиц.

Войти или зарегистрироваться

Тестовый турнир четырех версий Тоги

NS Нефёдов Сергей

NS Нефёдов Сергей

WinPooh В.М.

NS Нефёдов Сергей

WildCat Коршунов Игорь

NS Нефёдов Сергей

NS Нефёдов Сергей

NS Нефёдов Сергей

NS Нефёдов Сергей

WildCat Коршунов Игорь

WildCat Коршунов Игорь

NS Нефёдов Сергей

NS Нефёдов Сергей

WildCat Коршунов Игорь

NS Нефёдов Сергей

WildCat Коршунов Игорь

NS Нефёдов Сергей

WildCat Коршунов Игорь

NS Нефёдов Сергей

WildCat Коршунов Игорь

NS Нефёдов Сергей

WildCat Коршунов Игорь

NS Нефёдов Сергей

NS Нефёдов Сергей

NS Нефёдов Сергей

thenewone Евгений Манев

NS Нефёдов Сергей

NS Нефёдов Сергей

thenewone Евгений Манев

NS Нефёдов Сергей

WildCat Коршунов Игорь

NS Нефёдов Сергей

WildCat Коршунов Игорь

NS Нефёдов Сергей

WildCat Коршунов Игорь

Поделиться этой страницей