Тесты CCRL

Тема в разделе "Машинное отделение", создана пользователем Kirr, 21 июл 2006.

  1. TopicStarter Overlay

    Kirr Администратор

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    1.208
    Симпатии:
    22
    Репутация:
    8
    Оффлайн
    Провёл четыре матча Jonny 2.83 64-bit (результаты). Рейтинг получается 2698 пока что - хуже чем у 32-битной версии (2726). Думаю это вызвано разницей в оппозиции - 32-битная версия набрала рейтинг в турнирах со слабыми бесплатными движками, 64-битная версия играла матчи с очень сильными соперниками. Продолжаю тестировать Jonny, следующий на очереди - Delfi 5.0.

    Мне не терпится узнать состав первой десятки сильнейших движков, но похоже конкуренция будет плотная и придётся провести много матчей для достоверного ранжирования. Мне напомнили что Ruffian 1.0.5 может тоже побороться за место в десятке. Не верится но придётся проверить. :)

    Да, в выходные как обычно обновился рейтинг лист CCRL 40/40 и вся сопутствующая статистика.
  2. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Ruffian 1.0.5 не на много отличается от последнего. Так что вполне поборется. Я вообще сомневаюсь, что возможно определить десятку. Уж слишком много игр понадобиться.
  3. Мастер Икс Василий Щепетнев

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    3.616
    Симпатии:
    282
    Репутация:
    19
    Адрес:
    Деревня Великая Гвазда
    Оффлайн
    Одной из главных особенностей Шреддера 10 являются уникальные эндшпильные базы - доступ к ним якобы на два порядка быстрее, нежели к стандартным таблицам Налимова.
    Используются ли оригинальные базы Шреддера в тестовых матчах?
  4. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    12.02.2006
    Сообщения:
    2.201
    Симпатии:
    64
    Репутация:
    3
    Оффлайн
    Оригинальные базы Шреддера пока может использовать только Шреддер.
  5. Мастер Икс Василий Щепетнев

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    3.616
    Симпатии:
    282
    Репутация:
    19
    Адрес:
    Деревня Великая Гвазда
    Оффлайн
    Съест-то он съест, да кто ж ему даст?
    Если ему не дают использовать свои базы в матче, например, против Фрица, то тем самым лишают важного свойства.
  6. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    12.02.2006
    Сообщения:
    2.201
    Симпатии:
    64
    Репутация:
    3
    Оффлайн
    Ну, он может их использовать в матче против Фрица! Только это не совсем правильно при тестировании engine - engine, другое дело, когда противостояние Shredder team - Fritz team.
  7. bankuss Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    24.05.2006
    Сообщения:
    1.084
    Симпатии:
    38
    Репутация:
    6
    Оффлайн
    эндшпильные базы (даже если они уникальные) на игру сильно повлиять не могут, так что ничего страшного не будет, если шредер их будет использовать в матче.
  8. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Страшно станет, если каждый движок будет использовать собственные базы.
  9. bankuss Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    24.05.2006
    Сообщения:
    1.084
    Симпатии:
    38
    Репутация:
    6
    Оффлайн
    WildCat рыбка ведь использует свои базы? только они в exe "внедрены" чтоб таких проблем не возникало :)
  10. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Врятли в exe-шнике хранятся пятифигурные базы :)))))
    Хотя exe-шник на пол-гига это круто!!! (У Шреддера именно столько занимают его родные Базы, хранящиесы в оперативке)
  11. bankuss Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    24.05.2006
    Сообщения:
    1.084
    Симпатии:
    38
    Репутация:
    6
    Оффлайн
    NS я имел ввиду не эндшпильные а вобще..
  12. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    12.02.2006
    Сообщения:
    2.201
    Симпатии:
    64
    Репутация:
    3
    Оффлайн
    Интересно, а какие ещё базы существуют?
  13. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    телефонные :)
  14. bankuss Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    24.05.2006
    Сообщения:
    1.084
    Симпатии:
    38
    Репутация:
    6
    Оффлайн
    Fruit как ты думаешь почему рыба "весит" почти 5 мег? неужели ты думаешь что на все 5 мег алгоритм движка? весь алгоритм без проблем влезет в 150-200 кБ... а что же остальное как не доп инфа для поиска? (таблицы, базы, как угодно назовите)
  15. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    12.02.2006
    Сообщения:
    2.201
    Симпатии:
    64
    Репутация:
    3
    Оффлайн
    Я не знаю, почему рыбка весит 5 мв, но, именно поэтому, я не могу сказать, что там базы. Тем более, что я, кроме эндшпильных баз и, с недавних пор,
    телефонных, ни о каких других шахматных базах не ведал. :)
  16. bankuss Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    24.05.2006
    Сообщения:
    1.084
    Симпатии:
    38
    Репутация:
    6
    Оффлайн
    Fruit еще создатели Каиссы предлагали для оценки стандартных миттельшпильных позиций использовать технику аналогии - если получившая позиция похожа на ту которая есть в базе данных (по ключевым полям и фигурам) то даем ей определенную оценку... что то подобное видимо есть в рыбке (некие стнандартные позиции).
    посмотри exe рыбки по F3 в командере, особенно начиная с середины :) увидишь много повторяющихся символов. Уверяю тебя, что это не алгоритм, а именно данные, расположенные в виде таблиц или подобия базы! Если exe был бы пакованным, то это было не так заметно и таких повторений не было.
  17. TopicStarter Overlay

    Kirr Администратор

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    1.208
    Симпатии:
    22
    Репутация:
    8
    Оффлайн
    Шестёрку уже определили вполне надёжно, по-моему, а значит есть шанс определить и десятку. :) Конечно, на это понадобится время. Этим занимаюсь практически я один пока что. Остальные участники либо тестируют новейшие коммерческие движки, либо проводят турниры из где-то 22 бесплатных движков.
  18. TopicStarter Overlay

    Kirr Администратор

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    1.208
    Симпатии:
    22
    Репутация:
    8
    Оффлайн
    Да, используем базы. Кто как на самом деле, кто-то использует, кто-то нет. Мы стараемся фиксировать это в нашей "внутренней" базе. Когда "внутренняя" база конвертируется в "побличную" (доступную для скачивания, и по которой мы считаем рейтинги), то Шреддеры со всеми вариантами собственных баз объединяются под одним именем. Мы объеденяем их так прибавка в силе от собственных баз минимальна, если она есть вообще. Даже разница в силе программ с базами и без баз обычно мизерная, а базы Налимова используются в любом случае. Если в один момент окажется что базы всё-таки дают сильный прирост, выделим шреддеров с собственными базами под отдельным именем.
  19. TopicStarter Overlay

    Kirr Администратор

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    1.208
    Симпатии:
    22
    Репутация:
    8
    Оффлайн
    Почему неправильно, всё честно. Если движок играет сильнее с собственными базами окончаний - так и замечательно. Точно так же мы проводим матчи 32-битных движков против 64-битных, например. То что 32-битный движок не умеет использовать 32 бита - это его личные проблемы. Зато он будет включён в 32-битный лист. :) Или много-процессорные движки - мы проводим матчи 2 процессора против одного. Очень показательно, когда, например, Рыбка на одном процессоре выносит Шреддера на четырёх.

    Здесь речь о чём-то на порядки большем (по объёму), чем то что внедрено в экзешник рыбки. :)

    Я тоже пришёл к примерно такому выводу. Какие-то таблицы рыбка точно хранит, но что в них и как используются пока что вопрос. Да, если экзешник запакованный, его обычно можно распаковать, либо изучать прямо в памяти.
  20. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Шестёрку уже определили вполне надёжно
    6 Slow Chess Blitz WV2.1 2740 +22 −22
    7 List 5.12 2721 +40 −40
    8 Delfi 4.6 2717 +45 −45

    И какой же из этих движков шестой? :)
  21. MaxP Максим

    • Новичок
    Рег.:
    22.07.2006
    Сообщения:
    55
    Симпатии:
    0
    Репутация:
    0
    Адрес:
    Ставрополь
    Оффлайн
    А почему Рыбка 1.0 включена в лист, а Fruit 2.1 - нет?
  22. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    12.02.2006
    Сообщения:
    2.201
    Симпатии:
    64
    Репутация:
    3
    Оффлайн
    Очевидно, это так. :)
  23. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    12.02.2006
    Сообщения:
    2.201
    Симпатии:
    64
    Репутация:
    3
    Оффлайн
    Мне казалось, что движок с базами это не совсем сам движок, то есть его реальная сила искажается, если использовать базы!
    С тестами 32-битных, 64-битных, многопроцессорных движков и проч.- другое дело. Очень интересно узнать, чего реально стоят эти лишние биты\процессоры. И, ведь, не зря существует 32-битный лист, где другим не место.
    Впрочем, если влияние баз не значительно, то, конечно, нет разницы использовать их или нет.
  24. TopicStarter Overlay

    Kirr Администратор

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    1.208
    Симпатии:
    22
    Репутация:
    8
    Оффлайн
    Slow Chess Blitz WV2.1 сильнее чем List с вероятностью 71.7% (из таблицы LOS). Так что да, не всё ясно. List ещё может его обойти. Рейтинг Дельфи по-моему завышен, так как версия 5.0 гораздо ниже в списке. Также неизвестно что покажет Руффиан. Я продолжаю матчи List, так что постепенно должно проясниться.
  25. TopicStarter Overlay

    Kirr Администратор

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    1.208
    Симпатии:
    22
    Репутация:
    8
    Оффлайн
    Fruit 2.1 представлен своим более сильным вариантом "Toga II 1.2.1".
  26. TopicStarter Overlay

    Kirr Администратор

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    1.208
    Симпатии:
    22
    Репутация:
    8
    Оффлайн
    Реальная сила - это и есть та что с базами. Ведь многим также интересно узнать чего стоят эти гигабайты баз. По нашему опыту - пока что немногого стоят. Реализация использования баз - разная во всех движках. Какие из позиций смотреть в базе, на какой глубине, как выбрать лучший ход, как учесть правило 50 ходов и т.д. - эти вопросы решаются движком. Так что даже с одними и теми же базами Налимова разные движки работают по-разному. Если автор напрягается и делает собственный формат баз, то совершенно странно было бы их не использовать.

    Собственные книжки дебютов - другое дело. Собственная книжка дебютов лишает движка возможности принимать решения на протяжении 15-20 ходов, поэтому из партий сыгранных с собственными книжками (как чемпионат мира) нельзя делать выводы о сравнительной силе движков. Когда вы анализируете с помощью движка - вы скорее всего будете использовать базы окончаний, но не книжку дебютов. (Вместо книжки вы будете смотреть базу партий, а не книжку заточенную под какой-то конкретный движок). Базы помогают в анализе, и наш рейтинг лист оценивает насколько движки сильны в длинном анализе.
  27. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    из таблицы LOS
    Кстати, как эта таблица считается?
  28. TopicStarter Overlay

    Kirr Администратор

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    1.208
    Симпатии:
    22
    Репутация:
    8
    Оффлайн
    Таблицу считает Bayeselo.
  29. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Выглядит очень странно. Как это они до такого додумались? Граница +181, вообще абсурдна. О каких границах в этом примере может идти речь? Короче, как я понял расчет рейтингов в основном основан на различных суевериях и ничего больше.
  30. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    На их сайте есть информация. (Bayeselo)
    Во первых они считают разницу и доверительный в случае 100% результата, причем весьма странно...
    А во вторых испоганили Формулу Эло. Причем достаточно серьезно.
    Нигде на сайте не написано что за доверительный интервал они считают.
  31. TopicStarter Overlay

    Kirr Администратор

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    1.208
    Симпатии:
    22
    Репутация:
    8
    Оффлайн
    95% по умолчанию, и это можно настроить в программе.
  32. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    95% - это понятно. Но для какого показателя, и самое главное при каких условиях?
    Вот этого нет.
    Например - 95% при условии, что рейтинг всех соперников мы знаем четко (это значения полученные их алгоритмом), Рейтинг движка, для которого считаем доверительный интервал - имеет равномерное распределение.
    Возможно множество других варинтов, и в каждом случае доверительный интервал при заданном проценте будет разный...
  33. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
  34. TopicStarter Overlay

    Kirr Администратор

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    1.208
    Симпатии:
    22
    Репутация:
    8
    Оффлайн
    Просто Atlas не всегда говорит какой ход он ожидает. Если бы он никогда не выдавал ожидаемый ход тогда проблем бы не было, но он иногда выдаёт иногда нет. Мы ещё не решили что с ним делать, видимо просто исключим из вычисления корреляции по угаданным ходам.
  35. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Даже если он пытается угадать ход противника изредка, то все равно непонятно как у него получилось получить такой высокий процент.

Поделиться этой страницей