Тесты CCRL

Тема в разделе "Машинное отделение", создана пользователем Kirr, 21 июл 2006.

  1. Kirr
    Оффлайн

    Kirr Команда форума Команда форума

    Репутация:
    8
    Провёл четыре матча Jonny 2.83 64-bit (результаты). Рейтинг получается 2698 пока что - хуже чем у 32-битной версии (2726). Думаю это вызвано разницей в оппозиции - 32-битная версия набрала рейтинг в турнирах со слабыми бесплатными движками, 64-битная версия играла матчи с очень сильными соперниками. Продолжаю тестировать Jonny, следующий на очереди - Delfi 5.0.

    Мне не терпится узнать состав первой десятки сильнейших движков, но похоже конкуренция будет плотная и придётся провести много матчей для достоверного ранжирования. Мне напомнили что Ruffian 1.0.5 может тоже побороться за место в десятке. Не верится но придётся проверить. :)

    Да, в выходные как обычно обновился рейтинг лист CCRL 40/40 и вся сопутствующая статистика.
     
  2. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    Ruffian 1.0.5 не на много отличается от последнего. Так что вполне поборется. Я вообще сомневаюсь, что возможно определить десятку. Уж слишком много игр понадобиться.
     
  3. Мастер Икс
    Оффлайн

    Мастер Икс Василий Щепетнев Команда форума

    Репутация:
    19
    Одной из главных особенностей Шреддера 10 являются уникальные эндшпильные базы - доступ к ним якобы на два порядка быстрее, нежели к стандартным таблицам Налимова.
    Используются ли оригинальные базы Шреддера в тестовых матчах?
     
  4. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Оригинальные базы Шреддера пока может использовать только Шреддер.
     
  5. Мастер Икс
    Оффлайн

    Мастер Икс Василий Щепетнев Команда форума

    Репутация:
    19
    Съест-то он съест, да кто ж ему даст?
    Если ему не дают использовать свои базы в матче, например, против Фрица, то тем самым лишают важного свойства.
     
  6. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Ну, он может их использовать в матче против Фрица! Только это не совсем правильно при тестировании engine - engine, другое дело, когда противостояние Shredder team - Fritz team.
     
  7. bankuss
    Оффлайн

    bankuss Александр баннер

    Репутация:
    6
    эндшпильные базы (даже если они уникальные) на игру сильно повлиять не могут, так что ничего страшного не будет, если шредер их будет использовать в матче.
     
  8. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    Страшно станет, если каждый движок будет использовать собственные базы.
     
  9. bankuss
    Оффлайн

    bankuss Александр баннер

    Репутация:
    6
    WildCat рыбка ведь использует свои базы? только они в exe "внедрены" чтоб таких проблем не возникало :)
     
  10. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Врятли в exe-шнике хранятся пятифигурные базы :)))))
    Хотя exe-шник на пол-гига это круто!!! (У Шреддера именно столько занимают его родные Базы, хранящиесы в оперативке)
     
  11. bankuss
    Оффлайн

    bankuss Александр баннер

    Репутация:
    6
    NS я имел ввиду не эндшпильные а вобще..
     
  12. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Интересно, а какие ещё базы существуют?
     
  13. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    телефонные :)
     
  14. bankuss
    Оффлайн

    bankuss Александр баннер

    Репутация:
    6
    Fruit как ты думаешь почему рыба "весит" почти 5 мег? неужели ты думаешь что на все 5 мег алгоритм движка? весь алгоритм без проблем влезет в 150-200 кБ... а что же остальное как не доп инфа для поиска? (таблицы, базы, как угодно назовите)
     
  15. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Я не знаю, почему рыбка весит 5 мв, но, именно поэтому, я не могу сказать, что там базы. Тем более, что я, кроме эндшпильных баз и, с недавних пор,
    телефонных, ни о каких других шахматных базах не ведал. :)
     
  16. bankuss
    Оффлайн

    bankuss Александр баннер

    Репутация:
    6
    Fruit еще создатели Каиссы предлагали для оценки стандартных миттельшпильных позиций использовать технику аналогии - если получившая позиция похожа на ту которая есть в базе данных (по ключевым полям и фигурам) то даем ей определенную оценку... что то подобное видимо есть в рыбке (некие стнандартные позиции).
    посмотри exe рыбки по F3 в командере, особенно начиная с середины :) увидишь много повторяющихся символов. Уверяю тебя, что это не алгоритм, а именно данные, расположенные в виде таблиц или подобия базы! Если exe был бы пакованным, то это было не так заметно и таких повторений не было.
     
  17. Kirr
    Оффлайн

    Kirr Команда форума Команда форума

    Репутация:
    8
    Шестёрку уже определили вполне надёжно, по-моему, а значит есть шанс определить и десятку. :) Конечно, на это понадобится время. Этим занимаюсь практически я один пока что. Остальные участники либо тестируют новейшие коммерческие движки, либо проводят турниры из где-то 22 бесплатных движков.
     
  18. Kirr
    Оффлайн

    Kirr Команда форума Команда форума

    Репутация:
    8
    Да, используем базы. Кто как на самом деле, кто-то использует, кто-то нет. Мы стараемся фиксировать это в нашей "внутренней" базе. Когда "внутренняя" база конвертируется в "побличную" (доступную для скачивания, и по которой мы считаем рейтинги), то Шреддеры со всеми вариантами собственных баз объединяются под одним именем. Мы объеденяем их так прибавка в силе от собственных баз минимальна, если она есть вообще. Даже разница в силе программ с базами и без баз обычно мизерная, а базы Налимова используются в любом случае. Если в один момент окажется что базы всё-таки дают сильный прирост, выделим шреддеров с собственными базами под отдельным именем.
     
  19. Kirr
    Оффлайн

    Kirr Команда форума Команда форума

    Репутация:
    8
    Почему неправильно, всё честно. Если движок играет сильнее с собственными базами окончаний - так и замечательно. Точно так же мы проводим матчи 32-битных движков против 64-битных, например. То что 32-битный движок не умеет использовать 32 бита - это его личные проблемы. Зато он будет включён в 32-битный лист. :) Или много-процессорные движки - мы проводим матчи 2 процессора против одного. Очень показательно, когда, например, Рыбка на одном процессоре выносит Шреддера на четырёх.

    Здесь речь о чём-то на порядки большем (по объёму), чем то что внедрено в экзешник рыбки. :)

    Я тоже пришёл к примерно такому выводу. Какие-то таблицы рыбка точно хранит, но что в них и как используются пока что вопрос. Да, если экзешник запакованный, его обычно можно распаковать, либо изучать прямо в памяти.
     
  20. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    Шестёрку уже определили вполне надёжно
    6 Slow Chess Blitz WV2.1 2740 +22 −22
    7 List 5.12 2721 +40 −40
    8 Delfi 4.6 2717 +45 −45

    И какой же из этих движков шестой? :)
     
  21. MaxP
    Оффлайн

    MaxP Максим

    Репутация:
    0
    А почему Рыбка 1.0 включена в лист, а Fruit 2.1 - нет?
     
  22. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Очевидно, это так. :)
     
  23. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Мне казалось, что движок с базами это не совсем сам движок, то есть его реальная сила искажается, если использовать базы!
    С тестами 32-битных, 64-битных, многопроцессорных движков и проч.- другое дело. Очень интересно узнать, чего реально стоят эти лишние биты\процессоры. И, ведь, не зря существует 32-битный лист, где другим не место.
    Впрочем, если влияние баз не значительно, то, конечно, нет разницы использовать их или нет.
     
  24. Kirr
    Оффлайн

    Kirr Команда форума Команда форума

    Репутация:
    8
    Slow Chess Blitz WV2.1 сильнее чем List с вероятностью 71.7% (из таблицы LOS). Так что да, не всё ясно. List ещё может его обойти. Рейтинг Дельфи по-моему завышен, так как версия 5.0 гораздо ниже в списке. Также неизвестно что покажет Руффиан. Я продолжаю матчи List, так что постепенно должно проясниться.
     
  25. Kirr
    Оффлайн

    Kirr Команда форума Команда форума

    Репутация:
    8
    Fruit 2.1 представлен своим более сильным вариантом "Toga II 1.2.1".
     
  26. Kirr
    Оффлайн

    Kirr Команда форума Команда форума

    Репутация:
    8
    Реальная сила - это и есть та что с базами. Ведь многим также интересно узнать чего стоят эти гигабайты баз. По нашему опыту - пока что немногого стоят. Реализация использования баз - разная во всех движках. Какие из позиций смотреть в базе, на какой глубине, как выбрать лучший ход, как учесть правило 50 ходов и т.д. - эти вопросы решаются движком. Так что даже с одними и теми же базами Налимова разные движки работают по-разному. Если автор напрягается и делает собственный формат баз, то совершенно странно было бы их не использовать.

    Собственные книжки дебютов - другое дело. Собственная книжка дебютов лишает движка возможности принимать решения на протяжении 15-20 ходов, поэтому из партий сыгранных с собственными книжками (как чемпионат мира) нельзя делать выводы о сравнительной силе движков. Когда вы анализируете с помощью движка - вы скорее всего будете использовать базы окончаний, но не книжку дебютов. (Вместо книжки вы будете смотреть базу партий, а не книжку заточенную под какой-то конкретный движок). Базы помогают в анализе, и наш рейтинг лист оценивает насколько движки сильны в длинном анализе.
     
  27. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    из таблицы LOS
    Кстати, как эта таблица считается?
     
  28. Kirr
    Оффлайн

    Kirr Команда форума Команда форума

    Репутация:
    8
    Таблицу считает Bayeselo.
     
  29. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    Выглядит очень странно. Как это они до такого додумались? Граница +181, вообще абсурдна. О каких границах в этом примере может идти речь? Короче, как я понял расчет рейтингов в основном основан на различных суевериях и ничего больше.
     
  30. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    На их сайте есть информация. (Bayeselo)
    Во первых они считают разницу и доверительный в случае 100% результата, причем весьма странно...
    А во вторых испоганили Формулу Эло. Причем достаточно серьезно.
    Нигде на сайте не написано что за доверительный интервал они считают.
     
  31. Kirr
    Оффлайн

    Kirr Команда форума Команда форума

    Репутация:
    8
    95% по умолчанию, и это можно настроить в программе.
     
  32. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    95% - это понятно. Но для какого показателя, и самое главное при каких условиях?
    Вот этого нет.
    Например - 95% при условии, что рейтинг всех соперников мы знаем четко (это значения полученные их алгоритмом), Рейтинг движка, для которого считаем доверительный интервал - имеет равномерное распределение.
    Возможно множество других варинтов, и в каждом случае доверительный интервал при заданном проценте будет разный...
     
  33. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
  34. Kirr
    Оффлайн

    Kirr Команда форума Команда форума

    Репутация:
    8
    Просто Atlas не всегда говорит какой ход он ожидает. Если бы он никогда не выдавал ожидаемый ход тогда проблем бы не было, но он иногда выдаёт иногда нет. Мы ещё не решили что с ним делать, видимо просто исключим из вычисления корреляции по угаданным ходам.
     
  35. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    Даже если он пытается угадать ход противника изредка, то все равно непонятно как у него получилось получить такой высокий процент.