Тестовый турнир четырех версий Тоги

Тема в разделе "Машинное отделение", создана пользователем NS, 19 дек 2006.

  1. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Для сравнения - вот что выдает ЭлоСтат:

    Код:
      1 Toga 4s                        : 2297   59  57    79    67.7 %   2168   44.3 %
      2 Toga 3s                        : 2255   55  54    79    60.1 %   2184   49.4 %
      3 Toga II 1.2.1a 2s              : 2182   56  57    79    46.2 %   2209   46.8 %
      4 Toga II 1.2.1a 1s              : 2065   63  65    79    25.9 %   2248   36.7 %
  2. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    И пока, так как формула BayesElo ближе к линейной чем формула Эло - BayesElo показывает лучший результат (меньшую сумму квадратов), но линейная формула всё равно бьет их обоих!
  3. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.494
    Симпатии:
    3.127
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    NS, можешь вкратце написать байесовскую и линейную формулы в ветке "Математические основы рейтинг-систем"? А ещё, я знаю, у тебя таблиц много :)
  4. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    У меня не таблицы, у меня программы подсчета Таблиц :)
    и раз в той ветке нет обсуждения скажу в этой -
    пока на моем тесте лучший результат показывает система Сонаса, а худший система Эло.
    причем система Сонаса показывает довольно заметный отрыв от формул Эло/BayesElo.

    Таблицы выложу ближе к вечеру - сейчас нужно ехать за лекарствами.
    Формулы сейчас напишу.
  5. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Я же говорил, что Сонас рулит, а Эло глючит непадецки :lol:
  6. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Неа, посмотрим что будет на 900 партиях. :)
    Рейтинг Эло вышел вперед, теперь лучше BayesElo и Сонаса, причем Сонас уже на последнем месте.
    По системе Эло - усиление на удвоении (по 217 партиям) ровно 120 пунктов Эло.
    сейчас начну писать расчет доверительных интервалов.
  7. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Текущая таблица
    Код:
    Рейтинг Имя Tog Tog Tog Tog Очки S-B % 
    1 Toga 4s X 22.5 23.0 28.5 74.0 / 109 3421.00 67.89% 
    2 Toga 3s 13.5 X 24.0 28.5 66.0 / 108 2982.00 61.11% 
    3 Toga 2s 13.0 12.0 X 22.0 47.0 / 108 2414.00 43.52% 
    4 Toga 1s  8.5  7.5 14.0 X 30.0 / 109 1782.00 27.52%
  8. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    После 240-ка партий.

    Код:
    1 Toga 4s    X 24.5 25.5 31.0 81.0 / 120 4160.75 67.50% 
    2 Toga 3s 15.5    X 25.5 31.5 72.5 / 120 3656.25 60.42% 
    3 Toga 2s 14.5 14.5    X 25.0 54.0 / 120 3038.25 45.00% 
    4 Toga 1s  9.0  8.5 15.0    X 32.5 / 120 2155.25 27.08%
    По системе Эло

    Код:
    Best rating  =    119
    Sum(Delta^2) =  12.29
    
       1  2200
       2  2319
       3  2389
       4  2438
    
     XXXX 22.8 26.6 31.9
     17.2 XXXX 24.0 29.9
     13.4 16.0 XXXX 26.6
      8.1 10.1 13.4 XXXX
    По системе Сонаса E=0.5+D/800

    Код:
    Best rating  =    124
    Sum(Delta^2) =  13.91
    
       1  2200
       2  2324
       3  2397
       4  2448
    
     XXXX 22.6 26.2 32.4
     17.4 XXXX 23.6 29.8
     13.8 16.4 XXXX 26.2
      7.6 10.2 13.8 XXXX
  9. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    на данный момент с 95% достоверностью прибавка (85-130)
  10. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Может действительно все не так, как на самом деле?
    Появилась идея для своего IKRL тоже посчитать ошибки разных рейтинговых систем. Может действительно Эло лучше?
  11. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Похоже я лучше всех угадал :)
  12. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Я утром приведу точный доверительный интервал по 300 партиям (я вывел таблицу на экран, а по вероятносям каждого увеличения - прикинул на глазок), похоже что всё-таки больше 100 пунктов.
    Насчет рейтингов - формула Сонаса точно дает немного, но заметно худший результат. BayesElo дает совсем немного хуже - но искажена шкала. В случае этого теста идет завышение прибавки на удвоении на шесть пунктов.
  13. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    по 300 партиям. (рейтинги Эло)
    95% доверительный интервал [91,130]
    Наиболее вероятное значение 115,
    Мат. ожидание 113,
    значение посчитанное методом минимизации суммы квадратов 116.
  14. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    На самом деле нельзя проверять рейтинговые системы на таком турнире, т.к. мы имеем искаженные рейтинги.
  15. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Как это имеем? Никаких рейтингов у нас нет.
    Мы знаем что удвоение прибавляет X пунктов.
    Для каждой системы находим такое X чтоб сумма квадратов отклонений была минимальна.
    Рейтинги никакие изначально не ихвестны, минимизируем функцию по одному параметру.
    И вот система Сонаса по этому одному параметру минимизирует сумму квадратов отклонений по шести матчам хуже.
  16. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Так мы заранее знаем, что получим неправильные результаты, т.к. перевес одной и той же проги над собой обычно чуть ли не вдвое завышается.
  17. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Ничего не понимаю. В лучае матча двух соперников - всегда будет минимальная сумма квадратов. Всегда будет ноль - при любой системе рейтингов.
    в случае трех соперников (Три внутренних матча)
    Допустим соперники с 1 секундой на ход, двумя и четыремя.
    Результат 1/2 и 2/4 должен быть одинаков. И он будет одинаков при любой системе рейтингов.
    А расхождение рассчитанного результата пары 1/4 - как раз и будет говорить о правильности системы.
    У нас шесть пар. Какая разница - завышена разница или нет?
    Мы же не тестируем конкретную разницу, а подбираем для каждой системы рейтингов отдельно, как раз так чтоб минимизировать сумма квадратов отклонений. И как раз это очень хороший параметр для оценки эффективности системы. И на данный момент он показывает что система Эло немного лучше линеной.
  18. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Это ключевой момент. Получится, что рейтинговая система, в которой разница завышается будет иметь меньше ошибок. Это нехорошо. Надо проверять на турнире множества реальных разных движков.
  19. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    неужели четырех мало? :)
    Если вышлешь детализацию (до результатов внутренних матчей) IKRL, то могу посчитать по ней.
  20. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Вышлю базу партий по почте.
  21. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Угу, давай - посчитаю, и выложу результаты в новой ветке.
    сейчас буду придумывать алгоритмы - по одному параметру минимизировать просто :)
    А вот по десятку - сделаю сочетание монте-карло с направленным поиском (по производной)
  22. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Тут дело не в том, что их мало. А что мы заранее знаем, что их результаты явно неадекватны их силе.
  23. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Почему - адевкатны, просто шкала немного растянулась :)
    На результат это не влияет, но посмотрим что получится с IKRL.
  24. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    20 параметров... Если напишу хороший сходящийся метод поиск минимума - то получится готовая система для расчета рейтингов (правда без доверительных интервалов, но тесты показывают что минимизация суммы квадратов отклонений достаточно хороший метод, причем его результаты не зависят от вероятности ничьи)
  25. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Текущие данные по системе Эло
    прибавка по методу наименьших квадратов 122 пункта.
    Сумма квадратов отклонений 30.17

    Наиболее вероятная прибавка 122 пункта.
    Мат. ожидание прибавки 120 пунктов.
    95% доверительный интервал [101,136]

    По системе Сонаса E=0.5+D/800 методом наименьших квадратов прибавка 127 пунктов.
    Сумма квадратов отклонений 32.12

    Текущая таблица:

    Код:
    Toga 4s XXXX 41.0 47.0 57.5
    Toga 3s 29.0 XXXX 46.5 53.5
    Toga 2s 23.0 24.5 XXXX 43.0
    Toga 1s 13.5 17.5 27.0 XXXX
  26. thenewone Евгений Манев

    • Участник
    • Старожил
    Рег.:
    09.06.2006
    Сообщения:
    3.173
    Симпатии:
    18
    Репутация:
    1
    Адрес:
    Пловдив
    Оффлайн
    Сергей, а не думаете ли Вы, что прибавка будет меньше при 2m и 4m чем, например, при 2s и 4s ?

    идея моего вопроса в том, есть ли "критические" глубины поиска? Какая разница, в среднем, в глубину между двухсекундной Тоги и четырехсекундной?
  27. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Нет, много тестов есть которые показывают что прибавка одинакова (при таких низких разницах в контроле)

    Идет меньшая прибавка от 1s/2s, чем 2s/4s по паре причин.

    1. Тога, если ей слать секунду на ход - тратит на самом деле немного больше времени.
    2. Просто погрешность в результате разброса результатов.

    До этого матч версий 1s/2s у меня завершился со счетом 4.0/12.0 - что показывает прибавку на 200 пунктов :)

    Критических глубин быть не может, так как всё время возникают разные позиции, с разной глубиной перебора, и с разным бренчинг-фактором.
  28. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Разница в глубине, при двухкратном увеличении контроля - около одного ply (У Тоги бренчинг-фактор около двух)
  29. thenewone Евгений Манев

    • Участник
    • Старожил
    Рег.:
    09.06.2006
    Сообщения:
    3.173
    Симпатии:
    18
    Репутация:
    1
    Адрес:
    Пловдив
    Оффлайн
    спасибо за ответ

    компьютерные шахматы для меня прояснились немножко :)
  30. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Насчет минуты на ход - раньше было распространено мнение, что прибавка от удвоения при сильном увеличении контроля уменьшается, но скорей всего это не так. А точно проверить контроли от минуты на ход - нереально, на это требуется слишком много времени.
  31. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Это как это?
    Проясните нам пожалуйста!
  32. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Турнир закончился, сейчас посчитаю цифры.
    Результат турнира:

    Код:
    Рейтинг Имя Tog Tog Tog Tog Очки S-B % 
    1 Toga 4s    X 90.0 102.5 122.5 315.0 / 450 58695.00 70.00% 
    2 Toga 3s 60.0     X 96.0 119.0 275.0 / 450 51155.50 61.11% 
    3 Toga 2s 47.5 54.0     X 100.0 201.5 / 450 40662.50 44.78% 
    4 Toga 1s 27.5 31.0 50.0      X 108.5 / 450 27262.50 24.11%
  33. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Ну и где рейтинги?

    Нет желания потестировать Тогу с разными хеш-таблицами?
  34. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Я только сегодня вернулся домой.
    Завтра выложу рейтинги.
    С разными - разным типом хеш таблиц?
    Если проверять отдачу от двух оценок в хеше/двух лучшийх ходов - нужны длинные контроли.
    Слишком тяжело увидеть отдачу (Хотя в случае двух оценок в Хеше отдачу можно отследить использовав Mtd(f) вместо Негаскаута)
    А Хеширование в PV добавляет очень мало, и чтоб отследить отдачу так-же нужны длинные контроли...
  35. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Для начала просто сравнить разные размеры таблиц.

Поделиться этой страницей