Рыбка 2.3: что лучше - простая или "Кауфман"?

Тема в разделе "Машинное отделение", создана пользователем Goranflo, 16 фев 2007.

  1. Goranflo
    Оффлайн

    Goranflo баннер

    Репутация:
    673
    Ну что, специалисты по движкам, так какая же версия рыбины лучше?
    И что это за "новый метод оценки по Кауфману"?
    У кого какие соображения будут.
    Да и по новой возможности "рандом" какие соображения будут?
     
  2. Alexdragon
    Оффлайн

    Alexdragon Учаcтник

    Репутация:
    0
    В турнире CCT9 (проходит сейчас на ICC) Рыбка играет по Кауману,пока наша Рыбка 3 из 3
     
  3. Alexdragon
    Оффлайн

    Alexdragon Учаcтник

    Репутация:
    0
    Наша Рыбка -первая!
     
  4. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
  5. Alexdragon
    Оффлайн

    Alexdragon Учаcтник

    Репутация:
    0
    Совершенно не согласен!Рыбку 2.3 мы очень серьезно тестировали (порядка 1500 тестов)+матчи с разными движками (около 1000).
    Явно не слабее.Другое дело,что и уcиление не очень значительно.
    Но-в Рыбке 2.3 исправлены серьезные проблемы (например при работе с Налимовскими таблицами).
     
  6. Fotin
    Оффлайн

    Fotin Марат

    Репутация:
    0
    А вы версию LK тестировали? Если да, то скажите, какая же из версий все таки сильнее: LK или обычная?
     
  7. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Странная ветка... Хотя основной контингент таких форумов дети - либо по возрасту, либо по уровню развития.
     
  8. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    Васика Райлиха, как одного из самых частых посетителей рыбкофорума, к какой категории отнесём? :)
     
  9. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Васика пожалуй пока отнесем к категории "Владелец ресурса" :)
     
  10. Goranflo
    Оффлайн

    Goranflo баннер

    Репутация:
    673
    Хотелось бы узнать у "неребенка по возрасту и развитию", его мнение о функции "random", ставшей возможной в последней рыбке.
    А то все такие крутые специалисты, все терминами козыряют, которых и у Кнута не найдешь, а на вопрос ответит не могут.
    Как она осуществлена программно, какое значение лучше выставлять...
    А то ребенка обидеть не трудно...;)
     
  11. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Вопрос наверно всё-таки к Васику :)
    Рандомности игры можно добиться разными способами.
     
  12. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    А вы уверены что я редко посещаю форум Рыбки? :)
     
  13. Alexdragon
    Оффлайн

    Alexdragon Учаcтник

    Репутация:
    0
    Вот как раз собираюсь (по тестам).Думаю завтра-послезавтра будут результаты.тогда напишу.
    Мо матчам с Рыбкой 2.3 примерное равенство.
     
  14. Goranflo
    Оффлайн

    Goranflo баннер

    Репутация:
    673
    Да откуда же мне знать?
    Просто я знаю, что данный форум посещают авторы российских движков. Вот и хотелось бы услышать их мнение!
    Васика обо всем не распросишь - не так уж силен я в английском, а основная масса на форуме у него - это адванс-игроки, а не разработчики.
     
  15. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Я и говорю о контингенте -
    Проведут матч из 40-ка партий между двумя версиями, укажут две позиции, приведут рейтинги CCRL (а там Рыбка 2.3 сыграла 4!!! партии), и уже уверены что новая Рыбка слабее :)

    Васик на своем форуме об алгоритмах практически ничего не пишет.

    Есть только описани на сайте
    http://www.rybkachess.com/index.php?auswahl=Rybka+2.3+readme

    Вот Промтовский перевод этого описания -

    Игра Силы

    Сила игры кажется скромно улучшенной начиная с последней версии. Для того, что это стоит, я управлял состязанием блица (1' + 1") между Рибкой 2.3 и Рибкой 2.2n2 и получил результат: +245 =607-193 (52.5 %, +17 Elo).

    Randomizer

    Есть одна интересная новая особенность, которую мы назовем "randomizer". Идея должна позволить пользователю играть во многие игры от единственного стартового положения, чтобы собрать статистику о том положении. Рандомизированная Рибка будет держать след предыдущих игр и не повторять предыдущие изменения, так, чтобы состязание между два рандомизировало Rybkas, систематически исследует место изменений от стартового положения.

    Следующее - шаги чтобы играть, состязание между два рандомизировало Rybkas от некоторого стартового положения:

    1) Создайте два отдельных справочника (где-нибудь на вашей машине).
    2) Поместите копию "Рибки v2.3.x64.exe" в каждом справочнике. (Или "Рибка v2.3.w32.exe", небеса запрещают.)
    3) Создайте файл текста, названный rybka.config в каждом справочнике, и добавьте единственную линию "randomize=10" к этому файлу. (Эта ценность 10 - centipawn пороговый край для шагов кандидата, больше ниже.)
    4) Установите первый из двух Rybkas в вашем интерфейсе.
    5) Переименуйте эту первую Рибку кое к чему как "Рибка 2.3.1 (случайный)"
    — Отметьте: для интерфейса Неисправности, это должно быть сделано вручную, редактируя соответствующий .uci файл. Вы будете должны пойти в папку "Двигателей" для этого интерфейса, находить недавно-созданную "Рибку 2.3.uci" файл, и переименовывать и файл и линию "Name=xxx" в файле. Большинство интерфейсов позволяет изменениям названия быть сделанными в интерфейсе.
    6) Установите вторую Рибку в вашем интерфейсе
    7) Переименуйте это (как в шаге 5)
    8) Создайте .pgn файл с положением, которое Вы хотели бы проверить. Например, как это:

    [Случай "?"]
    [Участок "?"]
    [Дата "????.??.??"]
    [Вокруг "?"]
    [Белый "?"]
    [Черный "?"]
    [Результат "*"]
    [ОРГАНИЗАЦИЯ ПО ВОПРОСАМ ЭКОНОМИЧЕСКОГО СОТРУДНИЧЕСТВА "E32"]
    [PlyCount "20"]

    1. d4 Nf6 2. c4 e6 3. Nc3 Bb4 4. Qc2 O-O 5. a3 Bxc3 + 6. Qxc3 d6 7. f3 d5 8. Bg5 Nbd7 9. e3 Re8 10. Ne2 b6 {#} *

    9) Настройте машинное состязание между двумя недавно-установленными случайными Rybkas от этого положения. В Неисправности GUI, это сделано через "новый-> машинное состязание", используя кнопку "Openings DB", чтобы выбрать файл создал в шаге 8.
    10) Удостоверьтесь, что Вы спрашиваете много игр. (то есть "# игр"). Я предлагаю где-нибудь приблизительно 500.
    11) Я могу предложить очень быстрые игры, например использовать неподвижную глубину 6, 7 или 8.
    12) Как только состязание закончено, Вы будете иметь ряд игр. Это полезно по двум причинам:

    a) Статистические данные по этому набору игр находятся в моем опыте довольно надежный индикатор оценки положения.
    b) Эти игры могут быть импортированы в родной формат дерева вашего интерфейса для просмотра. В Неисправности GUI, это сделано через, "Редактируют-> Книга Открытий-> Игры Импорта".

    Альтернативные методы операции:

    1) Вы можете увеличить или уменьшить широту альтернатив, которые исследуются в течение игры, увеличиваясь или уменьшая край в "rybka.config" файле.
    2) Вы можете управлять многими положениями сразу включением многократных положений во входе .pgn файл. Только удостоверьтесь, что Вы выбираете надлежащее число игр, чтобы покрыть все положения.
    3) Вы можете иметь рандомизированную игру rybka против нерандомизированной Рибки. Нерандомизированная Рибка будет конечно всегда выбирать лучшие шаги, в то время как рандомизированная Рибка изменит ее игру, чтобы покрыть все изменения.

    Одно заключительное примечание:

    Рандомизированная Рика помнит предварительно-играемые положения с момента, она загружена к моменту, что она разгружена. Если бы Вы хотели бы повторить предыдущее состязание с начала, не пытаясь пропустить уже-играемые изменения, то Вы должны бы полностью разгрузить версию от интерфейса.
     
  16. klf
    Оффлайн

    klf баннер

    Репутация:
    0
    Провел матч 1' + 1".
    В нем версия 2.3. оказалась слабее:

    Рыбка 2.3 - Рыбка 2.2n2 +25 -35 = 86 (46,57 %).
     
  17. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    Маловато партий. Корень квадратный из 146 - примерно 12. На столько очков в среднем будет отклоняться от 50% результат, при игре двух равных по силе программ... Т. е. что 61:85, что 85:61 - вполне вероятный счёт, не говоря уже о 68:78 в данном случае.
     
  18. klf
    Оффлайн

    klf баннер

    Репутация:
    0
    Используя те же отношения, получается, что результат +245 =607-193 (52.5 %, +17 Elo) также попадает под среднее отклонение (32 - отклонение; 522,5 - среднее; 548,5 - набранные очки).

    Значит ли это что 2.3 по силе не превосходит 2.2.?
    Сколько партий необходимо провести?
     
  19. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    Это лучше у NS спросить, у него есть программа для быстрых подсчётов доверительных интервалов и всяческих отклонений рейтингов.

    На самом деле, мне кажется что я наврал слегка. Корень надо извлекать не из числа партий, а из среднего набираемого числа очков. Т.е. интервал для равных по силе движков оказывается в 1.4142 раза уже - но всё равно перекрывает полученную разницу.
     
  20. Мастер Икс
    Оффлайн

    Мастер Икс Василий Щепетнев Команда форума

    Репутация:
    19
    Если разница недостоверна, хоть сто тысяч партий играй, результат один.
     
  21. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Примерные цифры 95% доверительного интервала : 200 партий +-50 пунктов, 1000 партий +-20 пунктов.
    Но всё зависит от перекошенноси результатов и силы соперников.
    Для приблизительного расчета можно взять две сигмы, но необходимо учитывать что правило Сигм выдает правильные результат только при нормальном распределении, а тут нормалным распределением и близко не пахнет...

    Но в любом случае результат против предыдущей версии абсолютно недостоверен. Необходима тестовая группа соперников.
     
  22. klf
    Оффлайн

    klf баннер

    Репутация:
    0
    NS, поясните, плз.
    Что такое "тестовая группа соперников"?
    Почему нельзя сравнить 2 версии между собой, проведя матч?
    Что значит "результат против предыдущей версии абсолютно недостоверен"?
    (Если надо, могу выложить партии)
     
  23. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Это значит что в личном матче двух соперников - один может быть неудобен для другого по стилю.

    Тестовая группа - это тестовая группа. Что это такое можно посмотреть хотя-бы в этой ветке -
    http://kasparovchess.crestbook.com/viewtopic.php?id=578
     
  24. Goranflo
    Оффлайн

    Goranflo баннер

    Репутация:
    673
    Если по простому, чтобы оценить реальное соотношение между програмами-"гросмейстерами", надо их натравить на программы-"перворазрядники-КМС".
    Кто увереннее отпинает широкий набор "груш" - тот и молодец!;))
     
  25. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Неа, надо тестировать с соперниами близкими по силе к тестируемому, но в случае Рыбки таких соперников нет. Поэтому берем те что есть в наличии.
    А тестировать с другими версиями этой-же пограммы - абсолютно неверно. Значения силы будут сильно искажены.
     
  26. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    Ну это ты уже загнул. Вполне нормально так тестировать.
     
  27. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Пример - я ухудшил результат Skifi 0.03 в личном матче с KestoG и MiuMiu, сдуру тестировав его в матчах с промежуточной версией...
     
  28. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    А твой генетический алгоритм какие версии сравнивает?

    Разные версии этой же программы :)
    Еще не поздно отказаться от результатов полученных таким нехорошим путем :)
     
  29. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Это можно считать разными программами, так как сохраняются шесть лучших особей, которые имеют абсолютно разную ОФ, а у Васика Рыбки похожи как близнецы-братья...
     
  30. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Хотя, ладно - можно тестировать версии в личном матче, но не на 40-ка партиях, когда доверительный интервал в 10 раз больше показанной разницы в силе...
     
  31. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    :)
     
  32. thenewone
    Оффлайн

    thenewone Евгений Манев

    Репутация:
    1
    а в чем разница меж этими Рыбками — Кауфмановской и простой?
     
  33. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    ММ Ларри Хауфман проделал большую работу, улучшил оценку.
    Скорей всего никаких существенных отличий нет :)
     
  34. Goranflo
    Оффлайн

    Goranflo баннер

    Репутация:
    673
    Может и нет, но в тестовых турнирах Кауфман выглядит получше.
    Мне кажется, что нужно более глубокое изучение, нежели простое "стравливание" в матче.
    Жалко, что наборы тестовых позиций все-таки ограничены. Широкий спектр тестов, систематизированных по миттельшпильным или эндшпильным признакам, возможно позволил дать более полный ответ на вопрос кто лучше.
     
  35. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    А почему нельзя просто наиграть несколько тысяч партий с тестовой группой? Этого достаточно чтоб сравнить силу. У меня в день сейчас играется около 10000 тестовых партий :)