Тесты CCRL

Discussion in 'Машинное отделение' started by Kirr, 21 Jul 2006.

  1. TopicStarter Overlay

    Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    Провёл четыре матча Jonny 2.83 64-bit (результаты). Рейтинг получается 2698 пока что - хуже чем у 32-битной версии (2726). Думаю это вызвано разницей в оппозиции - 32-битная версия набрала рейтинг в турнирах со слабыми бесплатными движками, 64-битная версия играла матчи с очень сильными соперниками. Продолжаю тестировать Jonny, следующий на очереди - Delfi 5.0.

    Мне не терпится узнать состав первой десятки сильнейших движков, но похоже конкуренция будет плотная и придётся провести много матчей для достоверного ранжирования. Мне напомнили что Ruffian 1.0.5 может тоже побороться за место в десятке. Не верится но придётся проверить. :)

    Да, в выходные как обычно обновился рейтинг лист CCRL 40/40 и вся сопутствующая статистика.
  2. WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    Ruffian 1.0.5 не на много отличается от последнего. Так что вполне поборется. Я вообще сомневаюсь, что возможно определить десятку. Уж слишком много игр понадобиться.
  3. Мастер Икс Василий Щепетнев

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    3.616
    Likes Received:
    282
    Репутация:
    19
    Location:
    Деревня Великая Гвазда
    Оффлайн
    Одной из главных особенностей Шреддера 10 являются уникальные эндшпильные базы - доступ к ним якобы на два порядка быстрее, нежели к стандартным таблицам Налимова.
    Используются ли оригинальные базы Шреддера в тестовых матчах?
  4. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    Оригинальные базы Шреддера пока может использовать только Шреддер.
  5. Мастер Икс Василий Щепетнев

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    3.616
    Likes Received:
    282
    Репутация:
    19
    Location:
    Деревня Великая Гвазда
    Оффлайн
    Съест-то он съест, да кто ж ему даст?
    Если ему не дают использовать свои базы в матче, например, против Фрица, то тем самым лишают важного свойства.
  6. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    Ну, он может их использовать в матче против Фрица! Только это не совсем правильно при тестировании engine - engine, другое дело, когда противостояние Shredder team - Fritz team.
  7. bankuss Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    24.05.2006
    Message Count:
    1.084
    Likes Received:
    38
    Репутация:
    6
    Оффлайн
    эндшпильные базы (даже если они уникальные) на игру сильно повлиять не могут, так что ничего страшного не будет, если шредер их будет использовать в матче.
  8. WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    Страшно станет, если каждый движок будет использовать собственные базы.
  9. bankuss Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    24.05.2006
    Message Count:
    1.084
    Likes Received:
    38
    Репутация:
    6
    Оффлайн
    WildCat рыбка ведь использует свои базы? только они в exe "внедрены" чтоб таких проблем не возникало :)
  10. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Врятли в exe-шнике хранятся пятифигурные базы :)))))
    Хотя exe-шник на пол-гига это круто!!! (У Шреддера именно столько занимают его родные Базы, хранящиесы в оперативке)
  11. bankuss Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    24.05.2006
    Message Count:
    1.084
    Likes Received:
    38
    Репутация:
    6
    Оффлайн
    NS я имел ввиду не эндшпильные а вобще..
  12. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    Интересно, а какие ещё базы существуют?
  13. WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    телефонные :)
  14. bankuss Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    24.05.2006
    Message Count:
    1.084
    Likes Received:
    38
    Репутация:
    6
    Оффлайн
    Fruit как ты думаешь почему рыба "весит" почти 5 мег? неужели ты думаешь что на все 5 мег алгоритм движка? весь алгоритм без проблем влезет в 150-200 кБ... а что же остальное как не доп инфа для поиска? (таблицы, базы, как угодно назовите)
  15. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    Я не знаю, почему рыбка весит 5 мв, но, именно поэтому, я не могу сказать, что там базы. Тем более, что я, кроме эндшпильных баз и, с недавних пор,
    телефонных, ни о каких других шахматных базах не ведал. :)
  16. bankuss Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    24.05.2006
    Message Count:
    1.084
    Likes Received:
    38
    Репутация:
    6
    Оффлайн
    Fruit еще создатели Каиссы предлагали для оценки стандартных миттельшпильных позиций использовать технику аналогии - если получившая позиция похожа на ту которая есть в базе данных (по ключевым полям и фигурам) то даем ей определенную оценку... что то подобное видимо есть в рыбке (некие стнандартные позиции).
    посмотри exe рыбки по F3 в командере, особенно начиная с середины :) увидишь много повторяющихся символов. Уверяю тебя, что это не алгоритм, а именно данные, расположенные в виде таблиц или подобия базы! Если exe был бы пакованным, то это было не так заметно и таких повторений не было.
  17. TopicStarter Overlay

    Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    Шестёрку уже определили вполне надёжно, по-моему, а значит есть шанс определить и десятку. :) Конечно, на это понадобится время. Этим занимаюсь практически я один пока что. Остальные участники либо тестируют новейшие коммерческие движки, либо проводят турниры из где-то 22 бесплатных движков.
  18. TopicStarter Overlay

    Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    Да, используем базы. Кто как на самом деле, кто-то использует, кто-то нет. Мы стараемся фиксировать это в нашей "внутренней" базе. Когда "внутренняя" база конвертируется в "побличную" (доступную для скачивания, и по которой мы считаем рейтинги), то Шреддеры со всеми вариантами собственных баз объединяются под одним именем. Мы объеденяем их так прибавка в силе от собственных баз минимальна, если она есть вообще. Даже разница в силе программ с базами и без баз обычно мизерная, а базы Налимова используются в любом случае. Если в один момент окажется что базы всё-таки дают сильный прирост, выделим шреддеров с собственными базами под отдельным именем.
  19. TopicStarter Overlay

    Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    Почему неправильно, всё честно. Если движок играет сильнее с собственными базами окончаний - так и замечательно. Точно так же мы проводим матчи 32-битных движков против 64-битных, например. То что 32-битный движок не умеет использовать 32 бита - это его личные проблемы. Зато он будет включён в 32-битный лист. :) Или много-процессорные движки - мы проводим матчи 2 процессора против одного. Очень показательно, когда, например, Рыбка на одном процессоре выносит Шреддера на четырёх.

    Здесь речь о чём-то на порядки большем (по объёму), чем то что внедрено в экзешник рыбки. :)

    Я тоже пришёл к примерно такому выводу. Какие-то таблицы рыбка точно хранит, но что в них и как используются пока что вопрос. Да, если экзешник запакованный, его обычно можно распаковать, либо изучать прямо в памяти.
  20. WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    Шестёрку уже определили вполне надёжно
    6 Slow Chess Blitz WV2.1 2740 +22 −22
    7 List 5.12 2721 +40 −40
    8 Delfi 4.6 2717 +45 −45

    И какой же из этих движков шестой? :)
  21. MaxP Максим

    • Новичок
    Member Since:
    22.07.2006
    Message Count:
    55
    Likes Received:
    0
    Репутация:
    0
    Location:
    Ставрополь
    Оффлайн
    А почему Рыбка 1.0 включена в лист, а Fruit 2.1 - нет?
  22. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    Очевидно, это так. :)
  23. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    Мне казалось, что движок с базами это не совсем сам движок, то есть его реальная сила искажается, если использовать базы!
    С тестами 32-битных, 64-битных, многопроцессорных движков и проч.- другое дело. Очень интересно узнать, чего реально стоят эти лишние биты\процессоры. И, ведь, не зря существует 32-битный лист, где другим не место.
    Впрочем, если влияние баз не значительно, то, конечно, нет разницы использовать их или нет.
  24. TopicStarter Overlay

    Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    Slow Chess Blitz WV2.1 сильнее чем List с вероятностью 71.7% (из таблицы LOS). Так что да, не всё ясно. List ещё может его обойти. Рейтинг Дельфи по-моему завышен, так как версия 5.0 гораздо ниже в списке. Также неизвестно что покажет Руффиан. Я продолжаю матчи List, так что постепенно должно проясниться.
  25. TopicStarter Overlay

    Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    Fruit 2.1 представлен своим более сильным вариантом "Toga II 1.2.1".
  26. TopicStarter Overlay

    Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    Реальная сила - это и есть та что с базами. Ведь многим также интересно узнать чего стоят эти гигабайты баз. По нашему опыту - пока что немногого стоят. Реализация использования баз - разная во всех движках. Какие из позиций смотреть в базе, на какой глубине, как выбрать лучший ход, как учесть правило 50 ходов и т.д. - эти вопросы решаются движком. Так что даже с одними и теми же базами Налимова разные движки работают по-разному. Если автор напрягается и делает собственный формат баз, то совершенно странно было бы их не использовать.

    Собственные книжки дебютов - другое дело. Собственная книжка дебютов лишает движка возможности принимать решения на протяжении 15-20 ходов, поэтому из партий сыгранных с собственными книжками (как чемпионат мира) нельзя делать выводы о сравнительной силе движков. Когда вы анализируете с помощью движка - вы скорее всего будете использовать базы окончаний, но не книжку дебютов. (Вместо книжки вы будете смотреть базу партий, а не книжку заточенную под какой-то конкретный движок). Базы помогают в анализе, и наш рейтинг лист оценивает насколько движки сильны в длинном анализе.
  27. WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    из таблицы LOS
    Кстати, как эта таблица считается?
  28. TopicStarter Overlay

    Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    Таблицу считает Bayeselo.
  29. WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    Выглядит очень странно. Как это они до такого додумались? Граница +181, вообще абсурдна. О каких границах в этом примере может идти речь? Короче, как я понял расчет рейтингов в основном основан на различных суевериях и ничего больше.
  30. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    На их сайте есть информация. (Bayeselo)
    Во первых они считают разницу и доверительный в случае 100% результата, причем весьма странно...
    А во вторых испоганили Формулу Эло. Причем достаточно серьезно.
    Нигде на сайте не написано что за доверительный интервал они считают.
  31. TopicStarter Overlay

    Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    95% по умолчанию, и это можно настроить в программе.
  32. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    95% - это понятно. Но для какого показателя, и самое главное при каких условиях?
    Вот этого нет.
    Например - 95% при условии, что рейтинг всех соперников мы знаем четко (это значения полученные их алгоритмом), Рейтинг движка, для которого считаем доверительный интервал - имеет равномерное распределение.
    Возможно множество других варинтов, и в каждом случае доверительный интервал при заданном проценте будет разный...
  33. WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
  34. TopicStarter Overlay

    Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    Просто Atlas не всегда говорит какой ход он ожидает. Если бы он никогда не выдавал ожидаемый ход тогда проблем бы не было, но он иногда выдаёт иногда нет. Мы ещё не решили что с ним делать, видимо просто исключим из вычисления корреляции по угаданным ходам.
  35. WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    Даже если он пытается угадать ход противника изредка, то все равно непонятно как у него получилось получить такой высокий процент.

Share This Page