Тесты CCRL

Kirr · 13 Aug 2006

Провёл четыре матча Jonny 2.83 64-bit (результаты). Рейтинг получается 2698 пока что - хуже чем у 32-битной версии (2726). Думаю это вызвано разницей в оппозиции - 32-битная версия набрала рейтинг в турнирах со слабыми бесплатными движками, 64-битная версия играла матчи с очень сильными соперниками. Продолжаю тестировать Jonny, следующий на очереди - Delfi 5.0.

Мне не терпится узнать состав первой десятки сильнейших движков, но похоже конкуренция будет плотная и придётся провести много матчей для достоверного ранжирования. Мне напомнили что Ruffian 1.0.5 может тоже побороться за место в десятке. Не верится но придётся проверить.

Да, в выходные как обычно обновился рейтинг лист CCRL 40/40 и вся сопутствующая статистика.

WildCat · 14 Aug 2006

Ruffian 1.0.5 не на много отличается от последнего. Так что вполне поборется. Я вообще сомневаюсь, что возможно определить десятку. Уж слишком много игр понадобиться.

Мастер Икс · 16 Aug 2006

Одной из главных особенностей Шреддера 10 являются уникальные эндшпильные базы - доступ к ним якобы на два порядка быстрее, нежели к стандартным таблицам Налимова.
Используются ли оригинальные базы Шреддера в тестовых матчах?

Fruit · 16 Aug 2006

Оригинальные базы Шреддера пока может использовать только Шреддер.

Мастер Икс · 17 Aug 2006

Съест-то он съест, да кто ж ему даст?
Если ему не дают использовать свои базы в матче, например, против Фрица, то тем самым лишают важного свойства.

Fruit · 17 Aug 2006

Ну, он может их использовать в матче против Фрица! Только это не совсем правильно при тестировании engine - engine, другое дело, когда противостояние Shredder team - Fritz team.

bankuss · 17 Aug 2006

эндшпильные базы (даже если они уникальные) на игру сильно повлиять не могут, так что ничего страшного не будет, если шредер их будет использовать в матче.

WildCat · 17 Aug 2006

Страшно станет, если каждый движок будет использовать собственные базы.

bankuss · 17 Aug 2006

WildCat рыбка ведь использует свои базы? только они в exe "внедрены" чтоб таких проблем не возникало

NS · 17 Aug 2006

Врятли в exe-шнике хранятся пятифигурные базы ))))
Хотя exe-шник на пол-гига это круто!!! (У Шреддера именно столько занимают его родные Базы, хранящиесы в оперативке)

bankuss · 17 Aug 2006

NS я имел ввиду не эндшпильные а вобще..

Fruit · 18 Aug 2006

bankuss said:

NS я имел ввиду не эндшпильные а вобще..
Click to expand...

Интересно, а какие ещё базы существуют?

WildCat · 18 Aug 2006

телефонные

bankuss · 18 Aug 2006

Fruit как ты думаешь почему рыба "весит" почти 5 мег? неужели ты думаешь что на все 5 мег алгоритм движка? весь алгоритм без проблем влезет в 150-200 кБ... а что же остальное как не доп инфа для поиска? (таблицы, базы, как угодно назовите)

Fruit · 18 Aug 2006

Я не знаю, почему рыбка весит 5 мв, но, именно поэтому, я не могу сказать, что там базы. Тем более, что я, кроме эндшпильных баз и, с недавних пор,
телефонных, ни о каких других шахматных базах не ведал.

bankuss · 19 Aug 2006

Fruit еще создатели Каиссы предлагали для оценки стандартных миттельшпильных позиций использовать технику аналогии - если получившая позиция похожа на ту которая есть в базе данных (по ключевым полям и фигурам) то даем ей определенную оценку... что то подобное видимо есть в рыбке (некие стнандартные позиции).
посмотри exe рыбки по F3 в командере, особенно начиная с середины увидишь много повторяющихся символов. Уверяю тебя, что это не алгоритм, а именно данные, расположенные в виде таблиц или подобия базы! Если exe был бы пакованным, то это было не так заметно и таких повторений не было.

Kirr · 19 Aug 2006

WildCat said:

Ruffian 1.0.5 не на много отличается от последнего. Так что вполне поборется. Я вообще сомневаюсь, что возможно определить десятку. Уж слишком много игр понадобиться.
Click to expand...

Шестёрку уже определили вполне надёжно, по-моему, а значит есть шанс определить и десятку. Конечно, на это понадобится время. Этим занимаюсь практически я один пока что. Остальные участники либо тестируют новейшие коммерческие движки, либо проводят турниры из где-то 22 бесплатных движков.

Kirr · 19 Aug 2006

Мастер Икс said:

Одной из главных особенностей Шреддера 10 являются уникальные эндшпильные базы - доступ к ним якобы на два порядка быстрее, нежели к стандартным таблицам Налимова.
Используются ли оригинальные базы Шреддера в тестовых матчах?
Click to expand...

Да, используем базы. Кто как на самом деле, кто-то использует, кто-то нет. Мы стараемся фиксировать это в нашей "внутренней" базе. Когда "внутренняя" база конвертируется в "побличную" (доступную для скачивания, и по которой мы считаем рейтинги), то Шреддеры со всеми вариантами собственных баз объединяются под одним именем. Мы объеденяем их так прибавка в силе от собственных баз минимальна, если она есть вообще. Даже разница в силе программ с базами и без баз обычно мизерная, а базы Налимова используются в любом случае. Если в один момент окажется что базы всё-таки дают сильный прирост, выделим шреддеров с собственными базами под отдельным именем.

Kirr · 19 Aug 2006

Fruit said:

Ну, он может их использовать в матче против Фрица! Только это не совсем правильно при тестировании engine - engine, другое дело, когда противостояние Shredder team - Fritz team.
Click to expand...

Почему неправильно, всё честно. Если движок играет сильнее с собственными базами окончаний - так и замечательно. Точно так же мы проводим матчи 32-битных движков против 64-битных, например. То что 32-битный движок не умеет использовать 32 бита - это его личные проблемы. Зато он будет включён в 32-битный лист. Или много-процессорные движки - мы проводим матчи 2 процессора против одного. Очень показательно, когда, например, Рыбка на одном процессоре выносит Шреддера на четырёх.

bankuss said:

WildCat рыбка ведь использует свои базы? только они в exe "внедрены" чтоб таких проблем не возникало
Click to expand...

Здесь речь о чём-то на порядки большем (по объёму), чем то что внедрено в экзешник рыбки.

bankuss said:

Fruit еще создатели Каиссы предлагали для оценки стандартных миттельшпильных позиций использовать технику аналогии - если получившая позиция похожа на ту которая есть в базе данных (по ключевым полям и фигурам) то даем ей определенную оценку... что то подобное видимо есть в рыбке (некие стнандартные позиции).
посмотри exe рыбки по F3 в командере, особенно начиная с середины увидишь много повторяющихся символов. Уверяю тебя, что это не алгоритм, а именно данные, расположенные в виде таблиц или подобия базы! Если exe был бы пакованным, то это было не так заметно и таких повторений не было.
Click to expand...

Я тоже пришёл к примерно такому выводу. Какие-то таблицы рыбка точно хранит, но что в них и как используются пока что вопрос. Да, если экзешник запакованный, его обычно можно распаковать, либо изучать прямо в памяти.

WildCat · 19 Aug 2006

Шестёрку уже определили вполне надёжно
6 Slow Chess Blitz WV2.1 2740 +22 −22
7 List 5.12 2721 +40 −40
8 Delfi 4.6 2717 +45 −45

И какой же из этих движков шестой?

MaxP · 19 Aug 2006

А почему Рыбка 1.0 включена в лист, а Fruit 2.1 - нет?

Fruit · 20 Aug 2006

bankuss said:

Fruit еще создатели Каиссы предлагали для оценки стандартных миттельшпильных позиций использовать технику аналогии - если получившая позиция похожа на ту которая есть в базе данных (по ключевым полям и фигурам) то даем ей определенную оценку... что то подобное видимо есть в рыбке (некие стнандартные позиции).
посмотри exe рыбки по F3 в командере, особенно начиная с середины увидишь много повторяющихся символов. Уверяю тебя, что это не алгоритм, а именно данные, расположенные в виде таблиц или подобия базы! Если exe был бы пакованным, то это было не так заметно и таких повторений не было.
Click to expand...

Очевидно, это так.

Fruit · 20 Aug 2006

Kirr said:

Почему неправильно, всё честно. Если движок играет сильнее с собственными базами окончаний - так и замечательно. Точно так же мы проводим матчи 32-битных движков против 64-битных, например. То что 32-битный движок не умеет использовать 32 бита - это его личные проблемы. Зато он будет включён в 32-битный лист. Или много-процессорные движки - мы проводим матчи 2 процессора против одного. Очень показательно, когда, например, Рыбка на одном процессоре выносит Шреддера на четырёх.
Click to expand...

Мне казалось, что движок с базами это не совсем сам движок, то есть его реальная сила искажается, если использовать базы!
С тестами 32-битных, 64-битных, многопроцессорных движков и проч.- другое дело. Очень интересно узнать, чего реально стоят эти лишние биты\процессоры. И, ведь, не зря существует 32-битный лист, где другим не место.
Впрочем, если влияние баз не значительно, то, конечно, нет разницы использовать их или нет.

Kirr · 20 Aug 2006

WildCat said:

Шестёрку уже определили вполне надёжно
6 Slow Chess Blitz WV2.1 2740 +22 −22
7 List 5.12 2721 +40 −40
8 Delfi 4.6 2717 +45 −45

И какой же из этих движков шестой?
Click to expand...

Slow Chess Blitz WV2.1 сильнее чем List с вероятностью 71.7% (из таблицы LOS). Так что да, не всё ясно. List ещё может его обойти. Рейтинг Дельфи по-моему завышен, так как версия 5.0 гораздо ниже в списке. Также неизвестно что покажет Руффиан. Я продолжаю матчи List, так что постепенно должно проясниться.

Kirr · 20 Aug 2006

MaxP said:

А почему Рыбка 1.0 включена в лист, а Fruit 2.1 - нет?
Click to expand...

Fruit 2.1 представлен своим более сильным вариантом "Toga II 1.2.1".

Kirr · 20 Aug 2006

Fruit said:

Мне казалось, что движок с базами это не совсем сам движок, то есть его реальная сила искажается, если использовать базы!
С тестами 32-битных, 64-битных, многопроцессорных движков и проч.- другое дело. Очень интересно узнать, чего реально стоят эти лишние биты\процессоры. И, ведь, не зря существует 32-битный лист, где другим не место.
Впрочем, если влияние баз не значительно, то, конечно, нет разницы использовать их или нет.
Click to expand...

Реальная сила - это и есть та что с базами. Ведь многим также интересно узнать чего стоят эти гигабайты баз. По нашему опыту - пока что немногого стоят. Реализация использования баз - разная во всех движках. Какие из позиций смотреть в базе, на какой глубине, как выбрать лучший ход, как учесть правило 50 ходов и т.д. - эти вопросы решаются движком. Так что даже с одними и теми же базами Налимова разные движки работают по-разному. Если автор напрягается и делает собственный формат баз, то совершенно странно было бы их не использовать.

Собственные книжки дебютов - другое дело. Собственная книжка дебютов лишает движка возможности принимать решения на протяжении 15-20 ходов, поэтому из партий сыгранных с собственными книжками (как чемпионат мира) нельзя делать выводы о сравнительной силе движков. Когда вы анализируете с помощью движка - вы скорее всего будете использовать базы окончаний, но не книжку дебютов. (Вместо книжки вы будете смотреть базу партий, а не книжку заточенную под какой-то конкретный движок). Базы помогают в анализе, и наш рейтинг лист оценивает насколько движки сильны в длинном анализе.

WildCat · 20 Aug 2006

из таблицы LOS
Кстати, как эта таблица считается?

Kirr · 20 Aug 2006

Таблицу считает Bayeselo.

WildCat · 20 Aug 2006

Bayeselo said:

Rank Name Elo + - games score draws
1 A 41 181 152 1 100% 0%
2 B -41 152 181 1 0% 0%

Rank Name Elo + - games score draws
1 A 169 172 99 10 100% 0%
2 B -169 99 172 10 0% 0%
Click to expand...

Выглядит очень странно. Как это они до такого додумались? Граница +181, вообще абсурдна. О каких границах в этом примере может идти речь? Короче, как я понял расчет рейтингов в основном основан на различных суевериях и ничего больше.

NS · 20 Aug 2006

На их сайте есть информация. (Bayeselo)
Во первых они считают разницу и доверительный в случае 100% результата, причем весьма странно...
А во вторых испоганили Формулу Эло. Причем достаточно серьезно.
Нигде на сайте не написано что за доверительный интервал они считают.

Kirr · 20 Aug 2006

NS said:

Нигде на сайте не написано что за доверительный интервал они считают.
Click to expand...

95% по умолчанию, и это можно настроить в программе.

NS · 20 Aug 2006

95% - это понятно. Но для какого показателя, и самое главное при каких условиях?
Вот этого нет.
Например - 95% при условии, что рейтинг всех соперников мы знаем четко (это значения полученные их алгоритмом), Рейтинг движка, для которого считаем доверительный интервал - имеет равномерное распределение.
Возможно множество других варинтов, и в каждом случае доверительный интервал при заданном проценте будет разный...

WildCat · 23 Dec 2006

Что-то странное с таблицей угадывания ходов:
http://www.computerchess.org.uk/ccr...+most+similar+pairs+(different+families+only)
Atlas угадывает ходы с почти > 75% у 16 других движков.

Kirr · 23 Dec 2006

Просто Atlas не всегда говорит какой ход он ожидает. Если бы он никогда не выдавал ожидаемый ход тогда проблем бы не было, но он иногда выдаёт иногда нет. Мы ещё не решили что с ним делать, видимо просто исключим из вычисления корреляции по угаданным ходам.

WildCat · 23 Dec 2006

Даже если он пытается угадать ход противника изредка, то все равно непонятно как у него получилось получить такой высокий процент.

Log in or Sign up

Тесты CCRL

Kirr Администратор

WildCat Коршунов Игорь

Мастер Икс Василий Щепетнев

Fruit Александр

Мастер Икс Василий Щепетнев

Fruit Александр

bankuss Александр

WildCat Коршунов Игорь

bankuss Александр

NS Нефёдов Сергей

bankuss Александр

Fruit Александр

WildCat Коршунов Игорь

bankuss Александр

Fruit Александр

bankuss Александр

Kirr Администратор

Kirr Администратор

Kirr Администратор

WildCat Коршунов Игорь

MaxP Максим

Fruit Александр

Fruit Александр

Kirr Администратор

Kirr Администратор

Kirr Администратор

WildCat Коршунов Игорь

Kirr Администратор

WildCat Коршунов Игорь

NS Нефёдов Сергей

Kirr Администратор

NS Нефёдов Сергей

WildCat Коршунов Игорь

Kirr Администратор

WildCat Коршунов Игорь

Share This Page