Тестовый турнир четырех версий Тоги

drowsy · 2 Jan 2007

ламерский вопрос : какой лучше кэш ставить тоге для игры/анализа? У меня 2 гига оперативки.
Чем больше, тем лучше или есть некоторая оптимальная величина ?

WildCat · 2 Jan 2007

Ставь 1 гиг.
Вообще-то для ответа на этот вопрос и нужен турнир NS. Вот только согласится ли он делать такой турнир? Ведь как бы и так очевидно, что чем больше - тем лучше
Но хотя бы станет понятно насколько этот вопрос важен.

NS · 2 Jan 2007

Марков писал что цена вопроса - 7 пунктов на каждом увоении размера хеша.
Но на всякий случай запущу турнир.

WildCat · 2 Jan 2007

Сделай новый опрос. Я думаю прирост от удвояния будет 15 - 20.

NS · 3 Jan 2007

По системе Эло прибавка от удвоения контроля:
Методом наименьших квадратов - 138 пунктов.
Сумма квадратов отклонений 43.25

MO 134
Наиболее вероятное значение 135
95% доверительный интервал [123,143]

По системе Сонаса сумма Квадратов отклонений 82.42

WildCat · 3 Jan 2007

NS said:

По системе Эло прибавка от удвоения контроля:
Методом наименьших квадратов - 138 пунктов.
Click to expand...

Стоит, наверно, проверить разные Тоги против набора других движков, чтобы результаты небыли искажены, если мы хотим узнать реальную прибавку Эло.

NS · 3 Jan 2007

Надо попробовать...
Но я думаю что всё-таки это значительно больше чем 70 пунктов.

Igrok7 · 4 Jan 2007

NS,
1)WildCat,тебе правильно говорит,что тестировать движок против самого себя бессмысленно!WC: Так мы заранее знаем, что получим неправильные результаты, т.к. перевес одной и той же проги над собой обычно чуть ли не вдвое завышается.Я много думал над этим,но по другому поводу.Я считаю,что я(моя сила игры в 2003году) нигогда не выиграл бы у я(2007 года),хотя рейтинг мой вырос незначительно.
Если шахматисты-люди примерно одного стиля и разница в рейтинге у них скажем 50 пунктов,то более слабый НИКОГДА не удержит эту разницу(проиграет более 50 пунктов)!Ему просто нечего будет противопоставить.Так и Тога с 1с ничего не сможет противопоставить Тоге с 2с.Поэтому твой эксперимент интересен,но не даёт ответ на главный вопрос.
2)Самое главное.Зависимость увеличения силы от увеличения времени не ЛИНЕЙНА!!! Т.е при увеличении времени с 1с до 2с на ход и с 1 мин до 2 мин на ход различно.Если не согласен,то я тебе это смогу просто доказать.
Вот и появилась новая задача-найти график этой нелинейной функции.

NS · 4 Jan 2007

То есть как это бессмысленно?

Наверно стоит прочитать ветку с самого начала
Речь идет не о том что оно бессмысленно, а о том что прибавка от удвоения в матче движка с самим собой будет завышена, но об этом я вроде писал в самом начале ветки

NS · 4 Jan 2007

2)Самое главное.Зависимость увеличения силы от увеличения времени не ЛИНЕЙНА!!! Т.е при увеличении времени с 1с до 2с на ход и с 1 мин до 2 мин на ход различно.Если не согласен,то я тебе это смогу просто доказать.
Вот и появилась новая задача-найти график этой нелинейной функции.
Click to expand...

Не различно оно, а одинаково. Практически одинаково.
Доказательство было бы очень интересно, только если оно конечно не абстрактное, а показывающее ЗНАЧИТЕЛЬНУЮ разницу в прибавке от удвоения при разнице контролей в 60 раз, и при достаточно большой глубине перебора.

под абстрактным доказательством я имею в виду доказательство через "потолок силы"
Это доказательство не показывает РАЗНИЦУ от удвоения, а вот разница как раз очень несущественна...

Igrok7 · 4 Jan 2007

Ты считаешь,что сила шахматных программ бесконечна?Скажем движок может играть в силу 3200-3300?

NS · 4 Jan 2007

За минуту до твоего поста я всё написал...
Пусть потолок силы 5000 пунктов Эло...
Дальше можно строить графики как угодно
Ни один практический тест не показывает разницу в прибавке при разных контролях...

WinPooh · 4 Jan 2007

Igrok7 said:

NS,
1)WildCat,тебе правильно говорит,что тестировать движок против самого себя бессмысленно!
Click to expand...

Нет, не бессмысленно. Одно применение всё-таки есть: пусть мы добавили в оценку какую-то опцию, про которую вообще не можем сказать, усиливает она игру или ослабляет. Тогда тест против самой себя покажет нам ЗНАК изменения силы. А точную цифровую оценку, конечно, мы будем искать в тестовых матчах против других движков.

Igrok7 · 4 Jan 2007

Ни один практический тест не показывает разницу в прибавке при разных контролях...
Для таких тестов надо слишком много времени.
Пример.Гораздо важнее просчитать например с 10-й глубины на 11-ю,чем с 16-й на 17-ю.Надо провести тест например 5мин против 10,но обязательно разными движками и я уверен разницы в фантастические 70 пунктов не будет.

WinPooh · 4 Jan 2007

Насколько я слышал, diminishing returns в шахматах не работает.
И прибавка 16->17 может давать столько же силы, сколько и 11->12. Или сравнимо.
В других играх (не во всех) - да, есть некие характерные глубины, после которых дальнейшее углубление не столь критично.
В шахматах - не так. Подозреваю, что и в Го тоже - но по другим причинам.

Igrok7 · 4 Jan 2007

Вообщем нужен новый тест!

NS · 4 Jan 2007

Гораздо важнее просчитать например с 10-й глубины на 11-ю,чем с 16-й на 17-ю.Надо провести тест например 5мин против 10,но обязательно разными движками и я уверен разницы в фантастические 70 пунктов не будет.
Click to expand...

Будет. Разница 1/2 абсолютно идентична разнице 2/4.
5 минут против 10-ти? Чтоб уловить разницу в 5 пунктов нужно провести около 5 тысяч партий. Пусть средняя партия 50 ходов. 5*50+10*50=750 минут на партию. (пусть будет 1/2 дня)
5000 партий это всего лишь 2500 дней, 7 лет.
Я за такой тест не возьмусь

Igrok7 · 4 Jan 2007

NS,потолок силы имеет очень большое значение,т.к к нему подошли достаточно близко. Пример.Одна программа досчитывает до 18 глубины,а другая до 17-й.Последняя программа делает небольшие ошибки(т.к глубина на 1 меньше).Но их НЕДОСТАТОЧНО для победы другой.А если сранить скажем 7 и 8 глубину то вероятность просчета резко возрастает.Шахматы в целом ничейная игра и это надо учитывать.Я,например достаточно успешно играю с компами(делаю много ничьх),а выиграть не могу ни одной!
А практически ты наверное прав.Если брать программы типа Анечки,то разница в рейтинге будет одинаковой.

NS · 4 Jan 2007

К потолку силы подошли достаточно близко в шашках 8x8, но никак не в шахматах.
1. достаточно сравнить результативность сильнейших игроков в турнирах.
2. Так-же можно посмотреть на результативность сильнейших программ между собой.

Ничего не говорит о том что порог близко. Есть основания так думать?

И самое главное - то что при изменении контроля рост силы при удвоении одинаков, то что более слабые движки с ростом контроля не догоняют более сильных - всё это говорит о том что до потолка как до луны.

И на каком основании можно считать что потолок близко? Хотя бы один признак этого есть?

Если есть желание сравнить - могу привести результативность в матчах среди шашечных программ, она весьма показательна...

А так-же результаты Рыбки с длинными контролями - когда потолок близко - сильнейшие играют примерно в одинаковую силу, а когда возможен такой чудовищный отрыв, и когда результативность просто зашкаливает - потолка еще не видно...

Igrok7 · 5 Jan 2007

Давай подойдем с другой стороны.Каков теоретический потолок рейтинга комп.программ?Под рейтингом понимаем классические шахматы и программа будет играть против сильнейших людей(на условиях сходных с матчем Крамник-Фриц)Я считаю что предел около 3000,может чуть более.Сейчас компьютеры точно перешли отметку 2850, возможно 2900.

NS · 5 Jan 2007

А я вижу что программы перешли отметку в 3100, и потолок оцениваю в 5000 пунктов Эло.
Какие есть основания думать что потолок 3000?
Откуда взята цифра в 2900?
Программы играющие слабее лидеров на 300-400 пунктов не проиграли ни одного матча сильнейшим шахматистам. То есть сильнейшие шахматисты играют на 2400-2500?

Если мы говорим о рейтингах ФИДЕ, то сильнейшие гроссы играют всё-таки в силу 2800

NS · 5 Jan 2007

для примера -
http://www.computerchess.org.uk/ccrl/4040/
и при этом
Fritz 8 Bilbao
оценен меньше чем в 2800 на современной технике... А это уже тот уровень, когда человек не выиграл ни одного матча
Вот полный рейтинг-лист.
http://www.computerchess.org.uk/ccrl/4040/rating_list_all.html

Igrok7 · 5 Jan 2007

Почему в 3000?Да,потому,что человек будет тупо делать ничьи!!!Шахматы-это ничейная игра!Ты хочешь сказать,что будет такая программа,которая выиграет у Крамника скажем 20-0? 5000 пунктов ))."Программы играющие слабее лидеров на 300-400 пунктов не проиграли ни одного матча сильнейшим шахматистам" -не на 300-400!Тут правда и статистики нет.
Я вот играю с сильнейшими прогами- самая слабая Скорпио-2690, самая сильная рыбка 2980,контроль 15+10.Пока cыграл 16 партий,6 ничьих,10 поражений.Могу с уверенностью сказать,что я буду делать периодически ничьи с любыми прогами и на любых компах.Почему?Потому,что в некоторых партиях я буду делать такое кол-во ошибок,которых не будет хватать для победы компа.

NS · 5 Jan 2007

Ничего не понял из ваших рассуждений...
Кроме того что имея рейтинг 2400 Вы играете сильнее Крамника и Каспарова, что можно легко понять хотя бы из Вашего намерения выиграть матч у Кошки

не на 300-400!Тут правда и статистики нет.
Click to expand...

Я отлично понимаю, что рейтинг листы на 40000 партий для Вас статистикой не являются

NS · 5 Jan 2007

Могу с уверенностью сказать,что я буду делать периодически ничьи с любыми прогами и на любых компах.Почему?Потому,что в некоторых партиях я буду делать такое кол-во ошибок,которых не будет хватать для победы компа.
Click to expand...

Могу так-же сказать, что по формуле Эло вероятность ничьи есть при любой разнице в силах

Igrok7 · 5 Jan 2007

"Я отлично понимаю, что рейтинг листы на 40000 партий для Вас статистикой не являются"
Я имел ввиду статистику игр компа против человека,которой действительно нет.
Думаю,что Кошка против Крамника не потянет.

NS · 5 Jan 2007

Есть статистика игры компа против человека. После матча с Дип Блю было сыграно достаточно серьезных матчей, и относительная сила всех программ (кроме Гидры) достоверно известна.

Log in or Sign up

Тестовый турнир четырех версий Тоги

drowsy Учаcтник

WildCat Коршунов Игорь Staff Member

NS Нефёдов Сергей баннер

WildCat Коршунов Игорь Staff Member

NS Нефёдов Сергей баннер

WildCat Коршунов Игорь Staff Member

NS Нефёдов Сергей баннер

Igrok7 Учаcтник

NS Нефёдов Сергей баннер

NS Нефёдов Сергей баннер

Igrok7 Учаcтник

NS Нефёдов Сергей баннер

WinPooh В.М. Staff Member

Igrok7 Учаcтник

WinPooh В.М. Staff Member

Igrok7 Учаcтник

NS Нефёдов Сергей баннер

Igrok7 Учаcтник

NS Нефёдов Сергей баннер

Igrok7 Учаcтник

NS Нефёдов Сергей баннер

NS Нефёдов Сергей баннер

Igrok7 Учаcтник

NS Нефёдов Сергей баннер

NS Нефёдов Сергей баннер

Igrok7 Учаcтник

NS Нефёдов Сергей баннер