Рыбка 2.3: что лучше - простая или "Кауфман"?

Тема в разделе "Машинное отделение", создана пользователем Goranflo, 16 фев 2007.

  1. TopicStarter Overlay

    Goranflo Заслуженный

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    30.09.2006
    Сообщения:
    27.893
    Симпатии:
    30.151
    Репутация:
    673
    Оффлайн
    Ну что, специалисты по движкам, так какая же версия рыбины лучше?
    И что это за "новый метод оценки по Кауфману"?
    У кого какие соображения будут.
    Да и по новой возможности "рандом" какие соображения будут?
  2. Alexdragon Учаcтник

    • Участник
    Рег.:
    02.12.2006
    Сообщения:
    273
    Симпатии:
    0
    Репутация:
    0
    Оффлайн
    В турнире CCT9 (проходит сейчас на ICC) Рыбка играет по Кауману,пока наша Рыбка 3 из 3
  3. Alexdragon Учаcтник

    • Участник
    Рег.:
    02.12.2006
    Сообщения:
    273
    Симпатии:
    0
    Репутация:
    0
    Оффлайн
    Наша Рыбка -первая!
  4. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.491
    Симпатии:
    3.118
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
  5. Alexdragon Учаcтник

    • Участник
    Рег.:
    02.12.2006
    Сообщения:
    273
    Симпатии:
    0
    Репутация:
    0
    Оффлайн
    Совершенно не согласен!Рыбку 2.3 мы очень серьезно тестировали (порядка 1500 тестов)+матчи с разными движками (около 1000).
    Явно не слабее.Другое дело,что и уcиление не очень значительно.
    Но-в Рыбке 2.3 исправлены серьезные проблемы (например при работе с Налимовскими таблицами).
  6. Fotin Марат

    • Участник
    Рег.:
    25.11.2006
    Сообщения:
    249
    Симпатии:
    1
    Репутация:
    0
    Адрес:
    Ижевск
    Оффлайн
    А вы версию LK тестировали? Если да, то скажите, какая же из версий все таки сильнее: LK или обычная?
  7. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Странная ветка... Хотя основной контингент таких форумов дети - либо по возрасту, либо по уровню развития.
  8. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.491
    Симпатии:
    3.118
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Васика Райлиха, как одного из самых частых посетителей рыбкофорума, к какой категории отнесём? :)
  9. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Васика пожалуй пока отнесем к категории "Владелец ресурса" :)
  10. TopicStarter Overlay

    Goranflo Заслуженный

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    30.09.2006
    Сообщения:
    27.893
    Симпатии:
    30.151
    Репутация:
    673
    Оффлайн
    Хотелось бы узнать у "неребенка по возрасту и развитию", его мнение о функции "random", ставшей возможной в последней рыбке.
    А то все такие крутые специалисты, все терминами козыряют, которых и у Кнута не найдешь, а на вопрос ответит не могут.
    Как она осуществлена программно, какое значение лучше выставлять...
    А то ребенка обидеть не трудно...;)
  11. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Вопрос наверно всё-таки к Васику :)
    Рандомности игры можно добиться разными способами.
  12. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    А вы уверены что я редко посещаю форум Рыбки? :)
  13. Alexdragon Учаcтник

    • Участник
    Рег.:
    02.12.2006
    Сообщения:
    273
    Симпатии:
    0
    Репутация:
    0
    Оффлайн
    Вот как раз собираюсь (по тестам).Думаю завтра-послезавтра будут результаты.тогда напишу.
    Мо матчам с Рыбкой 2.3 примерное равенство.
  14. TopicStarter Overlay

    Goranflo Заслуженный

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    30.09.2006
    Сообщения:
    27.893
    Симпатии:
    30.151
    Репутация:
    673
    Оффлайн
    Да откуда же мне знать?
    Просто я знаю, что данный форум посещают авторы российских движков. Вот и хотелось бы услышать их мнение!
    Васика обо всем не распросишь - не так уж силен я в английском, а основная масса на форуме у него - это адванс-игроки, а не разработчики.
  15. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Я и говорю о контингенте -
    Проведут матч из 40-ка партий между двумя версиями, укажут две позиции, приведут рейтинги CCRL (а там Рыбка 2.3 сыграла 4!!! партии), и уже уверены что новая Рыбка слабее :)

    Васик на своем форуме об алгоритмах практически ничего не пишет.

    Есть только описани на сайте
    http://www.rybkachess.com/index.php?auswahl=Rybka+2.3+readme

    Вот Промтовский перевод этого описания -

    Игра Силы

    Сила игры кажется скромно улучшенной начиная с последней версии. Для того, что это стоит, я управлял состязанием блица (1' + 1") между Рибкой 2.3 и Рибкой 2.2n2 и получил результат: +245 =607-193 (52.5 %, +17 Elo).

    Randomizer

    Есть одна интересная новая особенность, которую мы назовем "randomizer". Идея должна позволить пользователю играть во многие игры от единственного стартового положения, чтобы собрать статистику о том положении. Рандомизированная Рибка будет держать след предыдущих игр и не повторять предыдущие изменения, так, чтобы состязание между два рандомизировало Rybkas, систематически исследует место изменений от стартового положения.

    Следующее - шаги чтобы играть, состязание между два рандомизировало Rybkas от некоторого стартового положения:

    1) Создайте два отдельных справочника (где-нибудь на вашей машине).
    2) Поместите копию "Рибки v2.3.x64.exe" в каждом справочнике. (Или "Рибка v2.3.w32.exe", небеса запрещают.)
    3) Создайте файл текста, названный rybka.config в каждом справочнике, и добавьте единственную линию "randomize=10" к этому файлу. (Эта ценность 10 - centipawn пороговый край для шагов кандидата, больше ниже.)
    4) Установите первый из двух Rybkas в вашем интерфейсе.
    5) Переименуйте эту первую Рибку кое к чему как "Рибка 2.3.1 (случайный)"
    — Отметьте: для интерфейса Неисправности, это должно быть сделано вручную, редактируя соответствующий .uci файл. Вы будете должны пойти в папку "Двигателей" для этого интерфейса, находить недавно-созданную "Рибку 2.3.uci" файл, и переименовывать и файл и линию "Name=xxx" в файле. Большинство интерфейсов позволяет изменениям названия быть сделанными в интерфейсе.
    6) Установите вторую Рибку в вашем интерфейсе
    7) Переименуйте это (как в шаге 5)
    8) Создайте .pgn файл с положением, которое Вы хотели бы проверить. Например, как это:

    [Случай "?"]
    [Участок "?"]
    [Дата "????.??.??"]
    [Вокруг "?"]
    [Белый "?"]
    [Черный "?"]
    [Результат "*"]
    [ОРГАНИЗАЦИЯ ПО ВОПРОСАМ ЭКОНОМИЧЕСКОГО СОТРУДНИЧЕСТВА "E32"]
    [PlyCount "20"]

    1. d4 Nf6 2. c4 e6 3. Nc3 Bb4 4. Qc2 O-O 5. a3 Bxc3 + 6. Qxc3 d6 7. f3 d5 8. Bg5 Nbd7 9. e3 Re8 10. Ne2 b6 {#} *

    9) Настройте машинное состязание между двумя недавно-установленными случайными Rybkas от этого положения. В Неисправности GUI, это сделано через "новый-> машинное состязание", используя кнопку "Openings DB", чтобы выбрать файл создал в шаге 8.
    10) Удостоверьтесь, что Вы спрашиваете много игр. (то есть "# игр"). Я предлагаю где-нибудь приблизительно 500.
    11) Я могу предложить очень быстрые игры, например использовать неподвижную глубину 6, 7 или 8.
    12) Как только состязание закончено, Вы будете иметь ряд игр. Это полезно по двум причинам:

    a) Статистические данные по этому набору игр находятся в моем опыте довольно надежный индикатор оценки положения.
    b) Эти игры могут быть импортированы в родной формат дерева вашего интерфейса для просмотра. В Неисправности GUI, это сделано через, "Редактируют-> Книга Открытий-> Игры Импорта".

    Альтернативные методы операции:

    1) Вы можете увеличить или уменьшить широту альтернатив, которые исследуются в течение игры, увеличиваясь или уменьшая край в "rybka.config" файле.
    2) Вы можете управлять многими положениями сразу включением многократных положений во входе .pgn файл. Только удостоверьтесь, что Вы выбираете надлежащее число игр, чтобы покрыть все положения.
    3) Вы можете иметь рандомизированную игру rybka против нерандомизированной Рибки. Нерандомизированная Рибка будет конечно всегда выбирать лучшие шаги, в то время как рандомизированная Рибка изменит ее игру, чтобы покрыть все изменения.

    Одно заключительное примечание:

    Рандомизированная Рика помнит предварительно-играемые положения с момента, она загружена к моменту, что она разгружена. Если бы Вы хотели бы повторить предыдущее состязание с начала, не пытаясь пропустить уже-играемые изменения, то Вы должны бы полностью разгрузить версию от интерфейса.
  16. klf Заслуженный

    • Заслуженный
    • Участник
    Рег.:
    06.12.2006
    Сообщения:
    918
    Симпатии:
    6
    Репутация:
    0
    Адрес:
    Москва
    Оффлайн
    Провел матч 1' + 1".
    В нем версия 2.3. оказалась слабее:

    Рыбка 2.3 - Рыбка 2.2n2 +25 -35 = 86 (46,57 %).
  17. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.491
    Симпатии:
    3.118
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Маловато партий. Корень квадратный из 146 - примерно 12. На столько очков в среднем будет отклоняться от 50% результат, при игре двух равных по силе программ... Т. е. что 61:85, что 85:61 - вполне вероятный счёт, не говоря уже о 68:78 в данном случае.
  18. klf Заслуженный

    • Заслуженный
    • Участник
    Рег.:
    06.12.2006
    Сообщения:
    918
    Симпатии:
    6
    Репутация:
    0
    Адрес:
    Москва
    Оффлайн
    Используя те же отношения, получается, что результат +245 =607-193 (52.5 %, +17 Elo) также попадает под среднее отклонение (32 - отклонение; 522,5 - среднее; 548,5 - набранные очки).

    Значит ли это что 2.3 по силе не превосходит 2.2.?
    Сколько партий необходимо провести?
  19. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.491
    Симпатии:
    3.118
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Это лучше у NS спросить, у него есть программа для быстрых подсчётов доверительных интервалов и всяческих отклонений рейтингов.

    На самом деле, мне кажется что я наврал слегка. Корень надо извлекать не из числа партий, а из среднего набираемого числа очков. Т.е. интервал для равных по силе движков оказывается в 1.4142 раза уже - но всё равно перекрывает полученную разницу.
  20. Мастер Икс Василий Щепетнев

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    3.616
    Симпатии:
    282
    Репутация:
    19
    Адрес:
    Деревня Великая Гвазда
    Оффлайн
    Если разница недостоверна, хоть сто тысяч партий играй, результат один.
  21. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Примерные цифры 95% доверительного интервала : 200 партий +-50 пунктов, 1000 партий +-20 пунктов.
    Но всё зависит от перекошенноси результатов и силы соперников.
    Для приблизительного расчета можно взять две сигмы, но необходимо учитывать что правило Сигм выдает правильные результат только при нормальном распределении, а тут нормалным распределением и близко не пахнет...

    Но в любом случае результат против предыдущей версии абсолютно недостоверен. Необходима тестовая группа соперников.
  22. klf Заслуженный

    • Заслуженный
    • Участник
    Рег.:
    06.12.2006
    Сообщения:
    918
    Симпатии:
    6
    Репутация:
    0
    Адрес:
    Москва
    Оффлайн
    NS, поясните, плз.
    Что такое "тестовая группа соперников"?
    Почему нельзя сравнить 2 версии между собой, проведя матч?
    Что значит "результат против предыдущей версии абсолютно недостоверен"?
    (Если надо, могу выложить партии)
  23. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Это значит что в личном матче двух соперников - один может быть неудобен для другого по стилю.

    Тестовая группа - это тестовая группа. Что это такое можно посмотреть хотя-бы в этой ветке -
    http://kasparovchess.crestbook.com/viewtopic.php?id=578
  24. TopicStarter Overlay

    Goranflo Заслуженный

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    30.09.2006
    Сообщения:
    27.893
    Симпатии:
    30.151
    Репутация:
    673
    Оффлайн
    Если по простому, чтобы оценить реальное соотношение между програмами-"гросмейстерами", надо их натравить на программы-"перворазрядники-КМС".
    Кто увереннее отпинает широкий набор "груш" - тот и молодец!;))
  25. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Неа, надо тестировать с соперниами близкими по силе к тестируемому, но в случае Рыбки таких соперников нет. Поэтому берем те что есть в наличии.
    А тестировать с другими версиями этой-же пограммы - абсолютно неверно. Значения силы будут сильно искажены.
  26. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Ну это ты уже загнул. Вполне нормально так тестировать.
  27. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Пример - я ухудшил результат Skifi 0.03 в личном матче с KestoG и MiuMiu, сдуру тестировав его в матчах с промежуточной версией...
  28. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    А твой генетический алгоритм какие версии сравнивает?

    Разные версии этой же программы :)
    Еще не поздно отказаться от результатов полученных таким нехорошим путем :)
  29. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Это можно считать разными программами, так как сохраняются шесть лучших особей, которые имеют абсолютно разную ОФ, а у Васика Рыбки похожи как близнецы-братья...
  30. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Хотя, ладно - можно тестировать версии в личном матче, но не на 40-ка партиях, когда доверительный интервал в 10 раз больше показанной разницы в силе...
  31. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    :)
  32. thenewone Евгений Манев

    • Участник
    • Старожил
    Рег.:
    09.06.2006
    Сообщения:
    3.173
    Симпатии:
    18
    Репутация:
    1
    Адрес:
    Пловдив
    Оффлайн
    а в чем разница меж этими Рыбками — Кауфмановской и простой?
  33. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    ММ Ларри Хауфман проделал большую работу, улучшил оценку.
    Скорей всего никаких существенных отличий нет :)
  34. TopicStarter Overlay

    Goranflo Заслуженный

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    30.09.2006
    Сообщения:
    27.893
    Симпатии:
    30.151
    Репутация:
    673
    Оффлайн
    Может и нет, но в тестовых турнирах Кауфман выглядит получше.
    Мне кажется, что нужно более глубокое изучение, нежели простое "стравливание" в матче.
    Жалко, что наборы тестовых позиций все-таки ограничены. Широкий спектр тестов, систематизированных по миттельшпильным или эндшпильным признакам, возможно позволил дать более полный ответ на вопрос кто лучше.
  35. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    А почему нельзя просто наиграть несколько тысяч партий с тестовой группой? Этого достаточно чтоб сравнить силу. У меня в день сейчас играется около 10000 тестовых партий :)

Поделиться этой страницей