WildCat: нужны тестеры

Discussion in 'Машинное отделение' started by WildCat, 26 Oct 2006.

  1. TopicStarter Overlay

    WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    На CEGT рейтинг рейтинг поднялся только на 11 пунктов. Это может быть из-за глюков в системе Эло, т.к. новая играла против более низкорейтинговых противников.
  2. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Это не глюк в системе ЭЛО, а ошибка в BayesElo.
    Они исказили таблицу ЭЛО, в итоге именно такой эффект и наблюдается.
    правильные цифры должны получиться при пересчете ЭлоСтатом.
  3. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    http://remi.coulom.free.fr/Bayesian-Elo/
    f(Delta) = 1 / (1 + 10^(Delta/400))
    P(WhiteWins) = f(eloBlack - eloWhite - eloAdvantage + eloDraw)
    P(BlackWins) = f(eloWhite - eloBlack + eloAdvantage + eloDraw)
    P(Draw) = 1 - P(WhiteWins) - P(BlackWins)
    Вот что у них...
    А на самом деле (без учета цвета) формула без искажений другая :)
    P(Draw) = 1 - f(eloBlack - eloWhite+ eloDraw) - f(eloWhite - eloBlack + eloDraw)
    P(WhiteWins) = f(eloBlack - eloWhite) - P(Draw)/2;
    P(BlackWins) = f(eloWhite - eloBlack) - P(Draw)/2;
  4. Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    Интересно. NS, вы можете как-то доказать что ваша формула лучше? Лучше всего с кросс-валидацией на какой-нибудь большой базе партий.

    Или хотя бы утверждение что ELOstat лучше чем Bayeselo?
  5. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Я могу доказать что моя формула соответствует мат. ожиданию по формуле ЭЛО :)
    А формула предложенная авторами BayesElo - не соотвествует.
    При этом вероятность ничьи по обеим формулам будет одинакова :)
  6. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Я не утверждаю что что-то лучше другого.
    Я утверждаю что авторы БайесЭло исказили формулу ЭЛО.
    Причем абсолютно непонятно зачем.
    Есть достаточное число исследований подверждающих что формула ЭЛО верна (именно мат. ожидание) результата.
    А если формула ЭЛО верна - то получается что формула предложенная авторами неверна!
  7. Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    Кстати насчёт Wildcat снова. Он удивительно легко расправляется с Colossus 2006f.

    Wildcat 7 − Colossus 2006f: 17.5 − 7.5 (текущий счёт)
    Wildcat 6 − Colossus 2006f: 27.5 − 10.5

    Похоже в колоссе есть какая-то слабость на которой Wildcat успешно выезжает. :) (Если опустить дежурную присказку что мало партий).
  8. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Насчет BayesElo
    При разнице в 200 пунктов по формуле ЭЛО мат. ожидание 0,240253073
    По формуле БайесЭло, например при eloDraw = 100 :
    Вероятности победы/ничьи/поражения
    0,150979557
    0,208955443
    0,640065
    мат. ожидание 0,255457279

    Неужели потребовалось изменять формулу Эло для мат. ожидания?

    По предложенной мной формуле вероятности -
    0,135775352
    0,208955443
    0,655269205
    мат. ожидание 0,240253073
  9. Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    Да, есть такой момент. Шкала Bayeslo немного отличается от шкалы ELOstat. Но это не искажение а просто немного растянутая шкала. Пункт шкалы Bayeselo чуть-чуть отличается от пункта шкалы ELOstat, на где-то около процента. Но это ничему не вредит принципиально.

    Bayeselo лучше чем ELOstat тем что учитывает вероятность ничьей и преимущество белого цвета. Так же он лучше справляется со сложными ситуациями, как например система из нескольких лиг с соединяющими турнирами. А доказать какая из формул (ELOstat, Bayeselo или предложенная NS) лучше описывает реальность можно только масштабным экспериментом на большом числе партий.
  10. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Я думаю что в BayesElo растянули шкалу не специально, а просто в спешке не придумали формулу соответсвующую формуле Эло.
    А вот с тем как они применяют eloAdvantage я полностью согласен.

    у меня где-то лежит программка для расчета доверительных интервалов по матчу двух соперников - я использую для расчета подправленную формулу BayesElo.

    А написать программу для расчета наиболее вероятного результата (кстати в BayesElo выводят не наиболее вероятный рейтинги!!! Тут они тоже немного исказили, и то что они представляют это искажение как преимущество над ЕлоСтат - весьма спорно) и доверительных интервалов по партиям нескольких соперников - у меня никак не хватает времени...
  11. TopicStarter Overlay

    WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    Нужно сделать эксперимент с разными формулами расчета рейтинга. Тогда можно будет говорить о том, чья формула лучше.
    NS, если ты готов сделать такой эксперимент заводи спец. ветку и там будем это обсуждать.
  12. Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    [CCRL 40/40] Wildcat 7 - Zappa 1.1 64-bit: 18.0 - 14.0 (+9-5=18)
    [CCRL 40/40] Wildcat 7 - Slow Chess Blitz WV2.1: 16.0 - 16.0 (+9-9=14)
  13. Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
  14. TopicStarter Overlay

    WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    Так они готовили Фрица вовсе не к Крамнику! Все силы были брошены на то, чтобы найти Кошкины слабые места :/
  15. TopicStarter Overlay

    WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
  16. Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    Обновился наш рейтинг лист (40/40). Wildcat сыграл уже 451 партию: Результаты, Сравнение с шестой версией.

    8-е место среди бесплатных однопроцессорных движков:
    Code:
        6 Scorpio 1.8                     2750  +20  -20  48.0%  +14.4   845
        7 Slow Chess Blitz WV2.1          2744  +17  -17  49.1%   +6.5  1156
        8 WildCat 7                       2740  +27  -27  50.7%   -3.9   451
        9 Zappa 1.1 64-bit                2737  +26  -26  45.9%  +29.9   476
       10 List 5.12                       2727  +20  -20  47.1%  +19.4   796
  17. krey Михаил Кройтор

    • Команда форума
    Member Since:
    10.04.2006
    Message Count:
    3.709
    Likes Received:
    50
    Репутация:
    1
    Location:
    Кишинев
    Оффлайн
    почему я до сих пор не уверен в месте Scorpio на доске почета?! Неужели он настолько хорош?
  18. Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    krey, а ты сыграй с ним в шахматы. :cool:

    А вообще всё может быть, 800 партий это немного. И, например, в нашем чистом листе (CCRL 40/40 Pure list) для бесплатных однопроцессорных движков Scorpio 1.8 уже делит 9-10 места.

    Я думаю он в любом случае в десятке бесплатных движков и, что для меня важнее, третий движок с открытым кодом.
  19. TopicStarter Overlay

    WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    Сейчас тестируются версии 7 и 6.08 на контроле 20 + 10 (пока по 541 партий).
    Результат - падение силы: -17 для 7-ой версии и -28 для 6.08.

    Похоже все-таки Кошка любит более быстрые контроли.
  20. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Слишком много режешь? :)
    Вроде WildCat имеет один из лучших бренчинг-фактор среди всех сильных программ.
  21. TopicStarter Overlay

    WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    Очень много.
  22. Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    Результаты моих последних матчей Wildcat 7 (CCRL 40/40):

    Wildcat 7 - Rybka 1.0 Beta 64-bit: 5.5 - 26.5 (+2-23=7)
    Wildcat 7 - Toga II 1.2.1a 32-bit: 8.5 - 23.5 (+4-19=9)
    Wildcat 7 - Spike 1.2 Turin: 10.5 - 21.5 (+5-16=11)
    Wildcat 7 - Naum 2.0 64-bit: 12.0 - 20.0 (+4-12=16)
    Wildcat 7 - Naum 2.0 32-bit: 12.0 - 20.0 (+5-13=14)
    Wildcat 7 - Glaurung 1.2.1 64-bit 1-CPU: 12.5 - 19.5 (+8-15=9)
    Wildcat 7 - Scorpio 1.8 1-CPU 4-men-egbb: 18.0 - 14.0 (+16-12=4)

    Обновлённый рейтинг и партии будут доступны как обычно в субботу. На этом я пока что сделаю паузу и погоняю другие движки. :)
  23. krey Михаил Кройтор

    • Команда форума
    Member Since:
    10.04.2006
    Message Count:
    3.709
    Likes Received:
    50
    Репутация:
    1
    Location:
    Кишинев
    Оффлайн
    неудачно как-то с рыбкой...
  24. Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    Провёл блиц-круговик из четырёх движков (32 круга, контроль CCRL 40/4). Результаты:

    55.0 - Wildcat 7
    50.5 - Zappa 1.1 64-bit 1-CPU
    46.5 - List 5.12
    40.0 - Pharaon 3.5.1 1-CPU

    Возможно Wildcat 7 действительно сильнее в блице..
  25. TopicStarter Overlay

    WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    Это потому, что я сам блиц больше люблю :)
  26. Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    Обновился CCRL 40/40. Wildcat 7 уступил восьмое место Заппе: (бесплатные однопроцессорные движки):
    Code:
     Rank             Engine               ELO   +    -   Score  AvOp  Games
        7 Slow Chess Blitz WV2.1          2743  +17  -17  49.1%   +6.9  1156
        8 Zappa 1.1 64-bit                2737  +26  -26  45.9%  +29.3   476
    ->  9 WildCat 7                       2733  +23  -23  45.4%  +31.4   628
       10 List 5.12                       2721  +20  -20  46.8%  +22.0   826
       11 Pharaon 3.5.1                   2716  +20  -20  44.2%  +41.9   844
       12 Ruffian 1.0.5                   2713  +21  -21  46.0%  +26.2   732
       13 Delfi 5.0                       2706  +21  -21  48.0%  +12.3   714
       14 Pro Deo 1.2                     2703  +34  -34  48.3%   +6.3   303
       15 Aristarch 4.50                  2700  +16  -16  43.1%  +49.3  1367
    ->    WildCat 6                       2699  +22  -22  47.1%  +18.0   680
       16 Jonny 2.83 32-bit               2686  +27  -27  46.4%  +24.0   456
       17 Pseudo 0.7c                     2679  +25  -25  47.5%  +15.5   485
    Разница между Wildcat 7 и Wildcat 6: 34 пункта.
  27. Igrok7 Учаcтник

    • Участник
    Member Since:
    04.01.2007
    Message Count:
    132
    Likes Received:
    0
    Репутация:
    0
    Оффлайн
    WildCat я(2400+)готов играть с твоей программой, с контролем 15+10.UCI она поддерживает?Желательно со своей книжкой.
    На 2733 она точно не потянет,хотя сразу победить(выиграть 1 партию) не обещаю:)))
  28. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Хоть на деньги, только ОЧНО.
  29. Igrok7 Учаcтник

    • Участник
    Member Since:
    04.01.2007
    Message Count:
    132
    Likes Received:
    0
    Репутация:
    0
    Оффлайн
    NS,я же четко написал,что она не сыграет на 2733,т.е мне достаточно набрать всего 15% очков!А выиграть я хочу всего 1 партию,хоть из 50!
  30. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Конечно не играет, так-же как и Фриц8 не играет на 2800, и так-же как и Фриц7 не играет на 2750+ ну и Ждуниор тоже самое.
    Еще раз - на современной технике Кошка играет не слабее Фрицев/Жуниоров четырехлетней давности (на той технике), что доказывают не ваши непонятные рассуждения, а результаты большого числа тестовых партий.
    И ежели Вы способны выиграть у неё матч, то нужно признать что вы играете сильнее Крамника и Каспарова :)
  31. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Я знаю КМСа, который хотел набрать примерно столько-же очков против Анечки :)
    С нормальной Книгой, с нормальными установками, на нормальном Компе - Кошка вынесет игрока с рейтингом 2400 практически всухую.
  32. Igrok7 Учаcтник

    • Участник
    Member Since:
    04.01.2007
    Message Count:
    132
    Likes Received:
    0
    Репутация:
    0
    Оффлайн
    Не писал я,что хочу выиграть матч,читай внимательнее!Не хочу я его выигрывть и знаю,что НИГОДА не выиграю.Я просто хочу сказать,что рейтинг 2733-завышен и вообще все рейтиги ССRL-завышены. Вот этот рейтинг-лист я считаю более объективным http://www.computerschach.de/index.php?option=com_wrapper&Itemid=222
  33. Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    Я хочу на всякий случай уточнить что рейтинги CCRL не имеют прямого отношения к человеческим рейтингам. Мы выравниваем наши рейтинги по SSDF, используюя средне-взвешенный ЭЛО 14-ти движков (а может и невзвешенный, не помню уже). Рейтинги SSDF исторически вроде были привязаны к человеческим, но с тех пор прошло много времени, программы стали сильнее, и как теперешние сильные программы сравнимы с человеком никто достоверно не знает.

    Так что рейтинг Wildcat 7 может быть как выше так и ниже 2733 по шкале ФИДЕ, и даже существенно. Кроме того нужно учесть контроль времени, человек и компьютер по-разному реагируют не изменение контроля. И ещё.. Наши рейтинги не учитывают книжку. Любой серьёзный матч Wildcat 7 скорее всего будет играть с какой-нибудь книжкой. Толковая книжка легко может прибавить пунктов 100.
  34. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Если бы Рейтинги CCRL были завышены, то следует признать что в четырех матчах (два матча Каспарова, и два матча Крамника) люди просто откровенно поддавались :)

    По результатам этих четырех матчей рейтинги CCRL ЗАНИЖЕНЫ!!!

    А рейтинг листы, в которых даже неверно посчитаны доверительные интервалы - всерьез воспринимать нельзя :)

    http://www.computerschach.de/index.php?option=com_wrapper&Itemid=222

    Rybka 2.2 32-bit 31.10.2006 [UCI-?]
    V. Rajlich (CZ) 2982

    Эта цифра соответствует рейтингам CCRL :)
    Так-же как и остальные рейтинги :)
    А отличие цифр - из-за малого числа партий, в немецком рейтинг-листе неправильно посчитаны доверительные интервалы.
  35. Igrok7 Учаcтник

    • Участник
    Member Since:
    04.01.2007
    Message Count:
    132
    Likes Received:
    0
    Репутация:
    0
    Оффлайн
    А рейтинги где 1 прога сыграла 150 партий,а другая 1500?Что подразумевается под доверительным интервалом?

Share This Page