WildCat: нужны тестеры

WildCat · 17 дек 2006

На CEGT рейтинг рейтинг поднялся только на 11 пунктов. Это может быть из-за глюков в системе Эло, т.к. новая играла против более низкорейтинговых противников.

NS · 17 дек 2006

Это не глюк в системе ЭЛО, а ошибка в BayesElo.
Они исказили таблицу ЭЛО, в итоге именно такой эффект и наблюдается.
правильные цифры должны получиться при пересчете ЭлоСтатом.

NS · 17 дек 2006

http://remi.coulom.free.fr/Bayesian-Elo/
f(Delta) = 1 / (1 + 10^(Delta/400))
P(WhiteWins) = f(eloBlack - eloWhite - eloAdvantage + eloDraw)
P(BlackWins) = f(eloWhite - eloBlack + eloAdvantage + eloDraw)
P(Draw) = 1 - P(WhiteWins) - P(BlackWins)
Вот что у них...
А на самом деле (без учета цвета) формула без искажений другая
P(Draw) = 1 - f(eloBlack - eloWhite+ eloDraw) - f(eloWhite - eloBlack + eloDraw)
P(WhiteWins) = f(eloBlack - eloWhite) - P(Draw)/2;
P(BlackWins) = f(eloWhite - eloBlack) - P(Draw)/2;

Kirr · 17 дек 2006

NS пишет:

http://remi.coulom.free.fr/Bayesian-Elo/
f(Delta) = 1 / (1 + 10^(Delta/400))
P(WhiteWins) = f(eloBlack - eloWhite - eloAdvantage + eloDraw)
P(BlackWins) = f(eloWhite - eloBlack + eloAdvantage + eloDraw)
P(Draw) = 1 - P(WhiteWins) - P(BlackWins)
Вот что у них...
А на самом деле (без учета цвета) формула без искажений другая
P(Draw) = 1 - f(eloBlack - eloWhite+ eloDraw) - f(eloWhite - eloBlack + eloDraw)
P(WhiteWins) = f(eloBlack - eloWhite) - P(Draw)/2;
P(BlackWins) = f(eloWhite - eloBlack) - P(Draw)/2;
Нажмите, чтобы раскрыть...

Интересно. NS, вы можете как-то доказать что ваша формула лучше? Лучше всего с кросс-валидацией на какой-нибудь большой базе партий.

Или хотя бы утверждение что ELOstat лучше чем Bayeselo?

NS · 17 дек 2006

Я могу доказать что моя формула соответствует мат. ожиданию по формуле ЭЛО
А формула предложенная авторами BayesElo - не соотвествует.
При этом вероятность ничьи по обеим формулам будет одинакова

NS · 17 дек 2006

Я не утверждаю что что-то лучше другого.
Я утверждаю что авторы БайесЭло исказили формулу ЭЛО.
Причем абсолютно непонятно зачем.
Есть достаточное число исследований подверждающих что формула ЭЛО верна (именно мат. ожидание) результата.
А если формула ЭЛО верна - то получается что формула предложенная авторами неверна!

Kirr · 17 дек 2006

Кстати насчёт Wildcat снова. Он удивительно легко расправляется с Colossus 2006f.

Wildcat 7 − Colossus 2006f: 17.5 − 7.5 (текущий счёт)
Wildcat 6 − Colossus 2006f: 27.5 − 10.5

Похоже в колоссе есть какая-то слабость на которой Wildcat успешно выезжает. (Если опустить дежурную присказку что мало партий).

NS · 18 дек 2006

Насчет BayesElo
При разнице в 200 пунктов по формуле ЭЛО мат. ожидание 0,240253073
По формуле БайесЭло, например при eloDraw = 100 :
Вероятности победы/ничьи/поражения
0,150979557
0,208955443
0,640065
мат. ожидание 0,255457279

Неужели потребовалось изменять формулу Эло для мат. ожидания?

По предложенной мной формуле вероятности -
0,135775352
0,208955443
0,655269205
мат. ожидание 0,240253073

Kirr · 18 дек 2006

Да, есть такой момент. Шкала Bayeslo немного отличается от шкалы ELOstat. Но это не искажение а просто немного растянутая шкала. Пункт шкалы Bayeselo чуть-чуть отличается от пункта шкалы ELOstat, на где-то около процента. Но это ничему не вредит принципиально.

Bayeselo лучше чем ELOstat тем что учитывает вероятность ничьей и преимущество белого цвета. Так же он лучше справляется со сложными ситуациями, как например система из нескольких лиг с соединяющими турнирами. А доказать какая из формул (ELOstat, Bayeselo или предложенная NS) лучше описывает реальность можно только масштабным экспериментом на большом числе партий.

NS · 18 дек 2006

Я думаю что в BayesElo растянули шкалу не специально, а просто в спешке не придумали формулу соответсвующую формуле Эло.
А вот с тем как они применяют eloAdvantage я полностью согласен.

у меня где-то лежит программка для расчета доверительных интервалов по матчу двух соперников - я использую для расчета подправленную формулу BayesElo.

А написать программу для расчета наиболее вероятного результата (кстати в BayesElo выводят не наиболее вероятный рейтинги!!! Тут они тоже немного исказили, и то что они представляют это искажение как преимущество над ЕлоСтат - весьма спорно) и доверительных интервалов по партиям нескольких соперников - у меня никак не хватает времени...

WildCat · 18 дек 2006

Нужно сделать эксперимент с разными формулами расчета рейтинга. Тогда можно будет говорить о том, чья формула лучше.
NS, если ты готов сделать такой эксперимент заводи спец. ветку и там будем это обсуждать.

Kirr · 18 дек 2006

[CCRL 40/40] Wildcat 7 - Zappa 1.1 64-bit: 18.0 - 14.0 (+9-5=18)
[CCRL 40/40] Wildcat 7 - Slow Chess Blitz WV2.1: 16.0 - 16.0 (+9-9=14)

Kirr · 22 дек 2006

Wildcat огребает люли..

WildCat · 22 дек 2006

Так они готовили Фрица вовсе не к Крамнику! Все силы были брошены на то, чтобы найти Кошкины слабые места :/

WildCat · 23 дек 2006

Kirr пишет:

Wildcat огребает люли..
Нажмите, чтобы раскрыть...

А вот здесь:
http://www.vpittlik.org/wbforum/viewtopic.php?t=6026&sid=45581094220271f3aa7c06740ae657c2
Кошка почти рядом с десятым Фрицем.

Kirr · 23 дек 2006

Обновился наш рейтинг лист (40/40). Wildcat сыграл уже 451 партию: Результаты, Сравнение с шестой версией.

8-е место среди бесплатных однопроцессорных движков:
Код:
    6 Scorpio 1.8                     2750  +20  -20  48.0%  +14.4   845
    7 Slow Chess Blitz WV2.1          2744  +17  -17  49.1%   +6.5  1156
    8 WildCat 7                       2740  +27  -27  50.7%   -3.9   451
    9 Zappa 1.1 64-bit                2737  +26  -26  45.9%  +29.9   476
   10 List 5.12                       2727  +20  -20  47.1%  +19.4   796

krey · 23 дек 2006

почему я до сих пор не уверен в месте Scorpio на доске почета?! Неужели он настолько хорош?

Kirr · 23 дек 2006

krey пишет:

почему я до сих пор не уверен в месте Scorpio на доске почета?! Неужели он настолько хорош?
Нажмите, чтобы раскрыть...

krey, а ты сыграй с ним в шахматы.

А вообще всё может быть, 800 партий это немного. И, например, в нашем чистом листе (CCRL 40/40 Pure list) для бесплатных однопроцессорных движков Scorpio 1.8 уже делит 9-10 места.

Я думаю он в любом случае в десятке бесплатных движков и, что для меня важнее, третий движок с открытым кодом.

WildCat · 25 дек 2006

Сейчас тестируются версии 7 и 6.08 на контроле 20 + 10 (пока по 541 партий).
Результат - падение силы: -17 для 7-ой версии и -28 для 6.08.

Похоже все-таки Кошка любит более быстрые контроли.

NS · 25 дек 2006

Слишком много режешь?
Вроде WildCat имеет один из лучших бренчинг-фактор среди всех сильных программ.

WildCat · 26 дек 2006

NS пишет:

Слишком много режешь?
Нажмите, чтобы раскрыть...

Очень много.

Kirr · 27 дек 2006

Результаты моих последних матчей Wildcat 7 (CCRL 40/40):

Wildcat 7 - Rybka 1.0 Beta 64-bit: 5.5 - 26.5 (+2-23=7)
Wildcat 7 - Toga II 1.2.1a 32-bit: 8.5 - 23.5 (+4-19=9)
Wildcat 7 - Spike 1.2 Turin: 10.5 - 21.5 (+5-16=11)
Wildcat 7 - Naum 2.0 64-bit: 12.0 - 20.0 (+4-12=16)
Wildcat 7 - Naum 2.0 32-bit: 12.0 - 20.0 (+5-13=14)
Wildcat 7 - Glaurung 1.2.1 64-bit 1-CPU: 12.5 - 19.5 (+8-15=9)
Wildcat 7 - Scorpio 1.8 1-CPU 4-men-egbb: 18.0 - 14.0 (+16-12=4)

Обновлённый рейтинг и партии будут доступны как обычно в субботу. На этом я пока что сделаю паузу и погоняю другие движки.

krey · 27 дек 2006

неудачно как-то с рыбкой...

Kirr · 28 дек 2006

Провёл блиц-круговик из четырёх движков (32 круга, контроль CCRL 40/4). Результаты:

55.0 - Wildcat 7
50.5 - Zappa 1.1 64-bit 1-CPU
46.5 - List 5.12
40.0 - Pharaon 3.5.1 1-CPU

Возможно Wildcat 7 действительно сильнее в блице..

WildCat · 28 дек 2006

Это потому, что я сам блиц больше люблю

Kirr · 30 дек 2006

Обновился CCRL 40/40. Wildcat 7 уступил восьмое место Заппе: (бесплатные однопроцессорные движки):

Код:

 Rank             Engine               ELO   +    -   Score  AvOp  Games
    7 Slow Chess Blitz WV2.1          2743  +17  -17  49.1%   +6.9  1156
    8 Zappa 1.1 64-bit                2737  +26  -26  45.9%  +29.3   476
->  9 WildCat 7                       2733  +23  -23  45.4%  +31.4   628
   10 List 5.12                       2721  +20  -20  46.8%  +22.0   826
   11 Pharaon 3.5.1                   2716  +20  -20  44.2%  +41.9   844
   12 Ruffian 1.0.5                   2713  +21  -21  46.0%  +26.2   732
   13 Delfi 5.0                       2706  +21  -21  48.0%  +12.3   714
   14 Pro Deo 1.2                     2703  +34  -34  48.3%   +6.3   303
   15 Aristarch 4.50                  2700  +16  -16  43.1%  +49.3  1367
->    WildCat 6                       2699  +22  -22  47.1%  +18.0   680
   16 Jonny 2.83 32-bit               2686  +27  -27  46.4%  +24.0   456
   17 Pseudo 0.7c                     2679  +25  -25  47.5%  +15.5   485

Разница между Wildcat 7 и Wildcat 6: 34 пункта.

Igrok7 · 5 янв 2007

WildCat я(2400+)готов играть с твоей программой, с контролем 15+10.UCI она поддерживает?Желательно со своей книжкой.
На 2733 она точно не потянет,хотя сразу победить(выиграть 1 партию) не обещаю))

NS · 5 янв 2007

Хоть на деньги, только ОЧНО.

Igrok7 · 5 янв 2007

NS,я же четко написал,что она не сыграет на 2733,т.е мне достаточно набрать всего 15% очков!А выиграть я хочу всего 1 партию,хоть из 50!

NS · 5 янв 2007

Конечно не играет, так-же как и Фриц8 не играет на 2800, и так-же как и Фриц7 не играет на 2750+ ну и Ждуниор тоже самое.
Еще раз - на современной технике Кошка играет не слабее Фрицев/Жуниоров четырехлетней давности (на той технике), что доказывают не ваши непонятные рассуждения, а результаты большого числа тестовых партий.
И ежели Вы способны выиграть у неё матч, то нужно признать что вы играете сильнее Крамника и Каспарова

NS · 5 янв 2007

NS,я же четко написал,что она не сыграет на 2733,т.е мне достаточно набрать всего 15% очков!А выиграть я хочу всего 1 партию,хоть из 50!
Нажмите, чтобы раскрыть...

Я знаю КМСа, который хотел набрать примерно столько-же очков против Анечки
С нормальной Книгой, с нормальными установками, на нормальном Компе - Кошка вынесет игрока с рейтингом 2400 практически всухую.

Igrok7 · 5 янв 2007

Не писал я,что хочу выиграть матч,читай внимательнее!Не хочу я его выигрывть и знаю,что НИГОДА не выиграю.Я просто хочу сказать,что рейтинг 2733-завышен и вообще все рейтиги ССRL-завышены. Вот этот рейтинг-лист я считаю более объективным http://www.computerschach.de/index.php?option=com_wrapper&Itemid=222

Kirr · 5 янв 2007

Я хочу на всякий случай уточнить что рейтинги CCRL не имеют прямого отношения к человеческим рейтингам. Мы выравниваем наши рейтинги по SSDF, используюя средне-взвешенный ЭЛО 14-ти движков (а может и невзвешенный, не помню уже). Рейтинги SSDF исторически вроде были привязаны к человеческим, но с тех пор прошло много времени, программы стали сильнее, и как теперешние сильные программы сравнимы с человеком никто достоверно не знает.

Так что рейтинг Wildcat 7 может быть как выше так и ниже 2733 по шкале ФИДЕ, и даже существенно. Кроме того нужно учесть контроль времени, человек и компьютер по-разному реагируют не изменение контроля. И ещё.. Наши рейтинги не учитывают книжку. Любой серьёзный матч Wildcat 7 скорее всего будет играть с какой-нибудь книжкой. Толковая книжка легко может прибавить пунктов 100.

NS · 5 янв 2007

Если бы Рейтинги CCRL были завышены, то следует признать что в четырех матчах (два матча Каспарова, и два матча Крамника) люди просто откровенно поддавались

По результатам этих четырех матчей рейтинги CCRL ЗАНИЖЕНЫ!!!

А рейтинг листы, в которых даже неверно посчитаны доверительные интервалы - всерьез воспринимать нельзя

http://www.computerschach.de/index.php?option=com_wrapper&Itemid=222

Rybka 2.2 32-bit 31.10.2006 [UCI-?]
V. Rajlich (CZ) 2982

Эта цифра соответствует рейтингам CCRL
Так-же как и остальные рейтинги
А отличие цифр - из-за малого числа партий, в немецком рейтинг-листе неправильно посчитаны доверительные интервалы.

Igrok7 · 5 янв 2007

А рейтинги где 1 прога сыграла 150 партий,а другая 1500?Что подразумевается под доверительным интервалом?

Войти или зарегистрироваться

WildCat: нужны тестеры

WildCat Коршунов Игорь

NS Нефёдов Сергей

NS Нефёдов Сергей

Kirr Администратор

NS Нефёдов Сергей

NS Нефёдов Сергей

Kirr Администратор

NS Нефёдов Сергей

Kirr Администратор

NS Нефёдов Сергей

WildCat Коршунов Игорь

Kirr Администратор

Kirr Администратор

WildCat Коршунов Игорь

WildCat Коршунов Игорь

Kirr Администратор

krey Михаил Кройтор

Kirr Администратор

WildCat Коршунов Игорь

NS Нефёдов Сергей

WildCat Коршунов Игорь

Kirr Администратор

krey Михаил Кройтор

Kirr Администратор

WildCat Коршунов Игорь

Kirr Администратор

Igrok7 Учаcтник

NS Нефёдов Сергей

Igrok7 Учаcтник

NS Нефёдов Сергей

NS Нефёдов Сергей

Igrok7 Учаcтник

Kirr Администратор

NS Нефёдов Сергей

Igrok7 Учаcтник

Поделиться этой страницей