Тесты CCRL

Kirr · 13 авг 2006

Провёл четыре матча Jonny 2.83 64-bit (результаты). Рейтинг получается 2698 пока что - хуже чем у 32-битной версии (2726). Думаю это вызвано разницей в оппозиции - 32-битная версия набрала рейтинг в турнирах со слабыми бесплатными движками, 64-битная версия играла матчи с очень сильными соперниками. Продолжаю тестировать Jonny, следующий на очереди - Delfi 5.0.

Мне не терпится узнать состав первой десятки сильнейших движков, но похоже конкуренция будет плотная и придётся провести много матчей для достоверного ранжирования. Мне напомнили что Ruffian 1.0.5 может тоже побороться за место в десятке. Не верится но придётся проверить.

Да, в выходные как обычно обновился рейтинг лист CCRL 40/40 и вся сопутствующая статистика.

WildCat · 14 авг 2006

Ruffian 1.0.5 не на много отличается от последнего. Так что вполне поборется. Я вообще сомневаюсь, что возможно определить десятку. Уж слишком много игр понадобиться.

Мастер Икс · 16 авг 2006

Одной из главных особенностей Шреддера 10 являются уникальные эндшпильные базы - доступ к ним якобы на два порядка быстрее, нежели к стандартным таблицам Налимова.
Используются ли оригинальные базы Шреддера в тестовых матчах?

Fruit · 16 авг 2006

Оригинальные базы Шреддера пока может использовать только Шреддер.

Мастер Икс · 17 авг 2006

Съест-то он съест, да кто ж ему даст?
Если ему не дают использовать свои базы в матче, например, против Фрица, то тем самым лишают важного свойства.

Fruit · 17 авг 2006

Ну, он может их использовать в матче против Фрица! Только это не совсем правильно при тестировании engine - engine, другое дело, когда противостояние Shredder team - Fritz team.

bankuss · 17 авг 2006

эндшпильные базы (даже если они уникальные) на игру сильно повлиять не могут, так что ничего страшного не будет, если шредер их будет использовать в матче.

WildCat · 17 авг 2006

Страшно станет, если каждый движок будет использовать собственные базы.

bankuss · 17 авг 2006

WildCat рыбка ведь использует свои базы? только они в exe "внедрены" чтоб таких проблем не возникало

NS · 17 авг 2006

Врятли в exe-шнике хранятся пятифигурные базы ))))
Хотя exe-шник на пол-гига это круто!!! (У Шреддера именно столько занимают его родные Базы, хранящиесы в оперативке)

bankuss · 17 авг 2006

NS я имел ввиду не эндшпильные а вобще..

Fruit · 18 авг 2006

bankuss пишет:

NS я имел ввиду не эндшпильные а вобще..
Нажмите, чтобы раскрыть...

Интересно, а какие ещё базы существуют?

WildCat · 18 авг 2006

телефонные

bankuss · 18 авг 2006

Fruit как ты думаешь почему рыба "весит" почти 5 мег? неужели ты думаешь что на все 5 мег алгоритм движка? весь алгоритм без проблем влезет в 150-200 кБ... а что же остальное как не доп инфа для поиска? (таблицы, базы, как угодно назовите)

Fruit · 18 авг 2006

Я не знаю, почему рыбка весит 5 мв, но, именно поэтому, я не могу сказать, что там базы. Тем более, что я, кроме эндшпильных баз и, с недавних пор,
телефонных, ни о каких других шахматных базах не ведал.

bankuss · 19 авг 2006

Fruit еще создатели Каиссы предлагали для оценки стандартных миттельшпильных позиций использовать технику аналогии - если получившая позиция похожа на ту которая есть в базе данных (по ключевым полям и фигурам) то даем ей определенную оценку... что то подобное видимо есть в рыбке (некие стнандартные позиции).
посмотри exe рыбки по F3 в командере, особенно начиная с середины увидишь много повторяющихся символов. Уверяю тебя, что это не алгоритм, а именно данные, расположенные в виде таблиц или подобия базы! Если exe был бы пакованным, то это было не так заметно и таких повторений не было.

Kirr · 19 авг 2006

WildCat пишет:

Ruffian 1.0.5 не на много отличается от последнего. Так что вполне поборется. Я вообще сомневаюсь, что возможно определить десятку. Уж слишком много игр понадобиться.
Нажмите, чтобы раскрыть...

Шестёрку уже определили вполне надёжно, по-моему, а значит есть шанс определить и десятку. Конечно, на это понадобится время. Этим занимаюсь практически я один пока что. Остальные участники либо тестируют новейшие коммерческие движки, либо проводят турниры из где-то 22 бесплатных движков.

Kirr · 19 авг 2006

Мастер Икс пишет:

Одной из главных особенностей Шреддера 10 являются уникальные эндшпильные базы - доступ к ним якобы на два порядка быстрее, нежели к стандартным таблицам Налимова.
Используются ли оригинальные базы Шреддера в тестовых матчах?
Нажмите, чтобы раскрыть...

Да, используем базы. Кто как на самом деле, кто-то использует, кто-то нет. Мы стараемся фиксировать это в нашей "внутренней" базе. Когда "внутренняя" база конвертируется в "побличную" (доступную для скачивания, и по которой мы считаем рейтинги), то Шреддеры со всеми вариантами собственных баз объединяются под одним именем. Мы объеденяем их так прибавка в силе от собственных баз минимальна, если она есть вообще. Даже разница в силе программ с базами и без баз обычно мизерная, а базы Налимова используются в любом случае. Если в один момент окажется что базы всё-таки дают сильный прирост, выделим шреддеров с собственными базами под отдельным именем.

Kirr · 19 авг 2006

Fruit пишет:

Ну, он может их использовать в матче против Фрица! Только это не совсем правильно при тестировании engine - engine, другое дело, когда противостояние Shredder team - Fritz team.
Нажмите, чтобы раскрыть...

Почему неправильно, всё честно. Если движок играет сильнее с собственными базами окончаний - так и замечательно. Точно так же мы проводим матчи 32-битных движков против 64-битных, например. То что 32-битный движок не умеет использовать 32 бита - это его личные проблемы. Зато он будет включён в 32-битный лист. Или много-процессорные движки - мы проводим матчи 2 процессора против одного. Очень показательно, когда, например, Рыбка на одном процессоре выносит Шреддера на четырёх.

bankuss пишет:

WildCat рыбка ведь использует свои базы? только они в exe "внедрены" чтоб таких проблем не возникало
Нажмите, чтобы раскрыть...

Здесь речь о чём-то на порядки большем (по объёму), чем то что внедрено в экзешник рыбки.

bankuss пишет:

Fruit еще создатели Каиссы предлагали для оценки стандартных миттельшпильных позиций использовать технику аналогии - если получившая позиция похожа на ту которая есть в базе данных (по ключевым полям и фигурам) то даем ей определенную оценку... что то подобное видимо есть в рыбке (некие стнандартные позиции).
посмотри exe рыбки по F3 в командере, особенно начиная с середины увидишь много повторяющихся символов. Уверяю тебя, что это не алгоритм, а именно данные, расположенные в виде таблиц или подобия базы! Если exe был бы пакованным, то это было не так заметно и таких повторений не было.
Нажмите, чтобы раскрыть...

Я тоже пришёл к примерно такому выводу. Какие-то таблицы рыбка точно хранит, но что в них и как используются пока что вопрос. Да, если экзешник запакованный, его обычно можно распаковать, либо изучать прямо в памяти.

WildCat · 19 авг 2006

Шестёрку уже определили вполне надёжно
6 Slow Chess Blitz WV2.1 2740 +22 −22
7 List 5.12 2721 +40 −40
8 Delfi 4.6 2717 +45 −45

И какой же из этих движков шестой?

MaxP · 19 авг 2006

А почему Рыбка 1.0 включена в лист, а Fruit 2.1 - нет?

Fruit · 20 авг 2006

bankuss пишет:

Fruit еще создатели Каиссы предлагали для оценки стандартных миттельшпильных позиций использовать технику аналогии - если получившая позиция похожа на ту которая есть в базе данных (по ключевым полям и фигурам) то даем ей определенную оценку... что то подобное видимо есть в рыбке (некие стнандартные позиции).
посмотри exe рыбки по F3 в командере, особенно начиная с середины увидишь много повторяющихся символов. Уверяю тебя, что это не алгоритм, а именно данные, расположенные в виде таблиц или подобия базы! Если exe был бы пакованным, то это было не так заметно и таких повторений не было.
Нажмите, чтобы раскрыть...

Очевидно, это так.

Fruit · 20 авг 2006

Kirr пишет:

Почему неправильно, всё честно. Если движок играет сильнее с собственными базами окончаний - так и замечательно. Точно так же мы проводим матчи 32-битных движков против 64-битных, например. То что 32-битный движок не умеет использовать 32 бита - это его личные проблемы. Зато он будет включён в 32-битный лист. Или много-процессорные движки - мы проводим матчи 2 процессора против одного. Очень показательно, когда, например, Рыбка на одном процессоре выносит Шреддера на четырёх.
Нажмите, чтобы раскрыть...

Мне казалось, что движок с базами это не совсем сам движок, то есть его реальная сила искажается, если использовать базы!
С тестами 32-битных, 64-битных, многопроцессорных движков и проч.- другое дело. Очень интересно узнать, чего реально стоят эти лишние биты\процессоры. И, ведь, не зря существует 32-битный лист, где другим не место.
Впрочем, если влияние баз не значительно, то, конечно, нет разницы использовать их или нет.

Kirr · 20 авг 2006

WildCat пишет:

Шестёрку уже определили вполне надёжно
6 Slow Chess Blitz WV2.1 2740 +22 −22
7 List 5.12 2721 +40 −40
8 Delfi 4.6 2717 +45 −45

И какой же из этих движков шестой?
Нажмите, чтобы раскрыть...

Slow Chess Blitz WV2.1 сильнее чем List с вероятностью 71.7% (из таблицы LOS). Так что да, не всё ясно. List ещё может его обойти. Рейтинг Дельфи по-моему завышен, так как версия 5.0 гораздо ниже в списке. Также неизвестно что покажет Руффиан. Я продолжаю матчи List, так что постепенно должно проясниться.

Kirr · 20 авг 2006

MaxP пишет:

А почему Рыбка 1.0 включена в лист, а Fruit 2.1 - нет?
Нажмите, чтобы раскрыть...

Fruit 2.1 представлен своим более сильным вариантом "Toga II 1.2.1".

Kirr · 20 авг 2006

Fruit пишет:

Мне казалось, что движок с базами это не совсем сам движок, то есть его реальная сила искажается, если использовать базы!
С тестами 32-битных, 64-битных, многопроцессорных движков и проч.- другое дело. Очень интересно узнать, чего реально стоят эти лишние биты\процессоры. И, ведь, не зря существует 32-битный лист, где другим не место.
Впрочем, если влияние баз не значительно, то, конечно, нет разницы использовать их или нет.
Нажмите, чтобы раскрыть...

Реальная сила - это и есть та что с базами. Ведь многим также интересно узнать чего стоят эти гигабайты баз. По нашему опыту - пока что немногого стоят. Реализация использования баз - разная во всех движках. Какие из позиций смотреть в базе, на какой глубине, как выбрать лучший ход, как учесть правило 50 ходов и т.д. - эти вопросы решаются движком. Так что даже с одними и теми же базами Налимова разные движки работают по-разному. Если автор напрягается и делает собственный формат баз, то совершенно странно было бы их не использовать.

Собственные книжки дебютов - другое дело. Собственная книжка дебютов лишает движка возможности принимать решения на протяжении 15-20 ходов, поэтому из партий сыгранных с собственными книжками (как чемпионат мира) нельзя делать выводы о сравнительной силе движков. Когда вы анализируете с помощью движка - вы скорее всего будете использовать базы окончаний, но не книжку дебютов. (Вместо книжки вы будете смотреть базу партий, а не книжку заточенную под какой-то конкретный движок). Базы помогают в анализе, и наш рейтинг лист оценивает насколько движки сильны в длинном анализе.

WildCat · 20 авг 2006

из таблицы LOS
Кстати, как эта таблица считается?

Kirr · 20 авг 2006

Таблицу считает Bayeselo.

WildCat · 20 авг 2006

Bayeselo пишет:

Rank Name Elo + - games score draws
1 A 41 181 152 1 100% 0%
2 B -41 152 181 1 0% 0%

Rank Name Elo + - games score draws
1 A 169 172 99 10 100% 0%
2 B -169 99 172 10 0% 0%
Нажмите, чтобы раскрыть...

Выглядит очень странно. Как это они до такого додумались? Граница +181, вообще абсурдна. О каких границах в этом примере может идти речь? Короче, как я понял расчет рейтингов в основном основан на различных суевериях и ничего больше.

NS · 20 авг 2006

На их сайте есть информация. (Bayeselo)
Во первых они считают разницу и доверительный в случае 100% результата, причем весьма странно...
А во вторых испоганили Формулу Эло. Причем достаточно серьезно.
Нигде на сайте не написано что за доверительный интервал они считают.

Kirr · 20 авг 2006

NS пишет:

Нигде на сайте не написано что за доверительный интервал они считают.
Нажмите, чтобы раскрыть...

95% по умолчанию, и это можно настроить в программе.

NS · 20 авг 2006

95% - это понятно. Но для какого показателя, и самое главное при каких условиях?
Вот этого нет.
Например - 95% при условии, что рейтинг всех соперников мы знаем четко (это значения полученные их алгоритмом), Рейтинг движка, для которого считаем доверительный интервал - имеет равномерное распределение.
Возможно множество других варинтов, и в каждом случае доверительный интервал при заданном проценте будет разный...

WildCat · 23 дек 2006

Что-то странное с таблицей угадывания ходов:
http://www.computerchess.org.uk/ccr...+most+similar+pairs+(different+families+only)
Atlas угадывает ходы с почти > 75% у 16 других движков.

Kirr · 23 дек 2006

Просто Atlas не всегда говорит какой ход он ожидает. Если бы он никогда не выдавал ожидаемый ход тогда проблем бы не было, но он иногда выдаёт иногда нет. Мы ещё не решили что с ним делать, видимо просто исключим из вычисления корреляции по угаданным ходам.

WildCat · 23 дек 2006

Даже если он пытается угадать ход противника изредка, то все равно непонятно как у него получилось получить такой высокий процент.

Войти или зарегистрироваться

Тесты CCRL

Kirr Команда форума Команда форума

WildCat Коршунов Игорь Команда форума

Мастер Икс Василий Щепетнев Команда форума

Fruit Александр баннер

Мастер Икс Василий Щепетнев Команда форума

Fruit Александр баннер

bankuss Александр баннер

WildCat Коршунов Игорь Команда форума

bankuss Александр баннер

NS Нефёдов Сергей баннер

bankuss Александр баннер

Fruit Александр баннер

WildCat Коршунов Игорь Команда форума

bankuss Александр баннер

Fruit Александр баннер

bankuss Александр баннер

Kirr Команда форума Команда форума

Kirr Команда форума Команда форума

Kirr Команда форума Команда форума

WildCat Коршунов Игорь Команда форума

MaxP Максим

Fruit Александр баннер

Fruit Александр баннер

Kirr Команда форума Команда форума

Kirr Команда форума Команда форума

Kirr Команда форума Команда форума

WildCat Коршунов Игорь Команда форума

Kirr Команда форума Команда форума

WildCat Коршунов Игорь Команда форума

NS Нефёдов Сергей баннер

Kirr Команда форума Команда форума

NS Нефёдов Сергей баннер

WildCat Коршунов Игорь Команда форума

Kirr Команда форума Команда форума

WildCat Коршунов Игорь Команда форума