Тестовые позиции для движков

Тема в разделе "Машинное отделение", создана пользователем akupr, 20 мар 2006.

  1. Инсайдер Bruce Wayne

    • Участник
    Рег.:
    10.02.2006
    Сообщения:
    697
    Симпатии:
    2
    Репутация:
    0
    Адрес:
    Gotham City
    Оффлайн
    Сейчас запустил WinFinder 2.2 на WM-100 по минуте на позу. Кстати, вы заметили что винфайндер в два раза меньше объемом, чем обычная Рыбка?
  2. Инсайдер Bruce Wayne

    • Участник
    Рег.:
    10.02.2006
    Сообщения:
    697
    Симпатии:
    2
    Репутация:
    0
    Адрес:
    Gotham City
    Оффлайн
    Кстати, вопрос:

    когда ChessProgram выполняет тест, в результате есть Average time=... и две цифры. Почему два средних времени, что значит второе врпемя?
  3. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Да, обратил - для поиска тактики не нужна супер-оценка.
    Он скорей всего порезал табличную ОФ, заменив её на базу оценок конкретных позиций (это о чем я говорил), хотя может базы оценок и нет... Обычные движки такую базу выносят в настройку - миттельшпильное обучение.
  4. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Не знаю как в ChessBase, а в Шреддер Классик - первая цифра это общее время прохождение теста (включая дополнительные Ply для контроля) - Эта цифра просто говорит о потраченном времени на тест, о силе движка она ничего не говорит.
    А вторая - это общее время решения (до нахождение выигрыша, или полное время обдумывания для нерешенных позиций)
  5. Инсайдер Bruce Wayne

    • Участник
    Рег.:
    10.02.2006
    Сообщения:
    697
    Симпатии:
    2
    Репутация:
    0
    Адрес:
    Gotham City
    Оффлайн
    Кажется, это Мастер Икс когда-то вроде писал, что под оболочками ChessBase UCI-движки работают медленней, чем под другими оболочками. Я сравнил - время решения позиций одинаково.
  6. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Работает медленней только на очень медленных машинах, и с супер-короткими контролями :)
    Либо если Сама оболочка отбирает много процессорного времени - у меня этой проблемы нет - двухядерная машина.
    А самая тормознутая оболочка - это Арена, Самая быстрая - ШреддерКлассик. ЧессБейс по качеству где-то между ними (если можно говорить о каком-либо качестве Арены), но на моей машине если и есть разница во времени нахождения решения (либо NPS), то отследить её не удается - всё абсолютно одинаково.
  7. Инсайдер Bruce Wayne

    • Участник
    Рег.:
    10.02.2006
    Сообщения:
    697
    Симпатии:
    2
    Репутация:
    0
    Адрес:
    Gotham City
    Оффлайн
    А что нам мешает предлагать и обсужать здесь тестовые позиции? Создадим Crestbook-test :) Помнится в старой гостевой Крест приводил позицию, на основе которой лично он оценивал качество движков, но я ее не могу пока найти.
  8. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    8.976
    Симпатии:
    2.182
    Репутация:
    85
    Адрес:
    Москва
    Оффлайн
    Не эта? :)

    AK442 нравится это.
  9. krey Михаил Кройтор

    • Команда форума
    Рег.:
    10.04.2006
    Сообщения:
    3.661
    Симпатии:
    19
    Репутация:
    1
    Адрес:
    Кишинев
    Оффлайн
    + 64 !!!
  10. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Классно - только что посчитали вероятности, что не оценить с достаточной точностью силу на сотне позиций, а оказалось что можно оценить по одной :) Бедная статистика. Нельзя же настолько издеваться над здравым смыслом :) Я уже приводил позицию (на самом деле их по форумам приведено сотни) - судя по которым Рыбка вообще не умеет играть :)
  11. Инсайдер Bruce Wayne

    • Участник
    Рег.:
    10.02.2006
    Сообщения:
    697
    Симпатии:
    2
    Репутация:
    0
    Адрес:
    Gotham City
    Оффлайн
    Вот эта:
    4kb1r/1b3pp1/p3pn1p/q7/1pr1P1PP/4BP2/P1PQN3/1K1R1B1R w k - 0 1



    1. g5 hxg5 2. Ng3 Rc8 3. hxg5 Nd5 4. exd5 Bxd5 5. Qxd5 exd5 6. Rxh8 Qc7 7. Rd2 Qxg3 8. Re2 Qxf3 9. Re1

    Кажется, так.
  12. Crest Админ, МГ

    • Команда форума
    Рег.:
    04.02.2006
    Сообщения:
    50.426
    Симпатии:
    11.178
    Репутация:
    454
    Адрес:
    Москва, Россия
    Оффлайн
    Вот она -



    1.g5!

    Я приветствую создание народной базы тестов для программ. Готов вносить лепту...

    Опоздал на минуту. Ну что ж, вот и славно.
  13. Инсайдер Bruce Wayne

    • Участник
    Рег.:
    10.02.2006
    Сообщения:
    697
    Симпатии:
    2
    Репутация:
    0
    Адрес:
    Gotham City
    Оффлайн
    Претензии - к Кресту :)
  14. Crest Админ, МГ

    • Команда форума
    Рег.:
    04.02.2006
    Сообщения:
    50.426
    Симпатии:
    11.178
    Репутация:
    454
    Адрес:
    Москва, Россия
    Оффлайн
    Претензии отвергаю с правой. :)
    Никто и не утверждал, что по одной позиции можно утверждать, что программа играет плохо.
    Однако, можно и нужно смотреть на это дело с другой стороны!
    Программа, которая именно в этой позиции оперативно находит правильное решение, заслуживает серьезного внимания. То есть это уже показатель счета и умения разбираться в нетривиальных осложнениях.

    Ну, вот к примеру возьмем сложную математическую задачу. Насколько силен ее решивший сказать трудно, но уже ясно, что он не слаб. :)

    Разумеется, для серьезного теста, котопрый позволит прощупать разные качества программы, нужны десятки и даже сотни позиций.
  15. Инсайдер Bruce Wayne

    • Участник
    Рег.:
    10.02.2006
    Сообщения:
    697
    Симпатии:
    2
    Репутация:
    0
    Адрес:
    Gotham City
    Оффлайн
    Итак:

    WM-100
    1 min/pos
    Celeron 1000


    Rybka WinFinder 2.2
    50/100
    Av. time=12/36 sec.
  16. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    На моей машине "по минуте" Shredder10 решает 59 позиций.
  17. Инсайдер Bruce Wayne

    • Участник
    Рег.:
    10.02.2006
    Сообщения:
    697
    Симпатии:
    2
    Репутация:
    0
    Адрес:
    Gotham City
    Оффлайн
    Твоя минута = моих 4-5, а если Шреддер - Дип, и 64-битный, то 10-15.
  18. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Нет, Шреддер однопотоковый, 32-битный. :)
  19. Мастер Икс Василий Щепетнев

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    3.553
    Симпатии:
    198
    Репутация:
    16
    Адрес:
    Деревня Великая Гвазда
    Оффлайн
    Дедуктивным методом решил. что
    1 время - среднее, затраченное на решенную позицию
    2 время - среднее время. затраченное на позицию (как решенную, так и нерешенную)
    При 1 минуте на решение, 100 позиций, 50 решенных позициях, если первое время = 12 секунам, то 2 будет равно 36 обязательно [(50х12 = 600) + (50х60 = 3000)]:100 = 36


    Мне другое интересно: фриц-бенчмарк у целерона 1000 равен единице? А у меня на 2000 едва единичка получается (1.05, если точно).

    И в хелпе пишут. что для полноценного Пентиума 2.600 фриц-бенчмарк всего 1.4
    "Typical chess benchmark values for a 2.6 GHz Pentium with 128 MB hash tables is 1.4 (i.e. it is 1.4 times faster than a P3 running at 1 GHz. "
  20. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Целорон 1000 на Базе P3, а Целерон 2000 на базе P4, поэтому так и выходит :)
    P4 с той-же частотой почти в два раза медленней чем P3 для шахматных движков.
    Так что всё верно :)
  21. Инсайдер Bruce Wayne

    • Участник
    Рег.:
    10.02.2006
    Сообщения:
    697
    Симпатии:
    2
    Репутация:
    0
    Адрес:
    Gotham City
    Оффлайн
    Ага, поэтому NetBurst/P4 и ушел в отстой, а Conroe - это вроде как развитие архитетуры P3/PentiumM.
  22. Мастер Икс Василий Щепетнев

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    3.553
    Симпатии:
    198
    Репутация:
    16
    Адрес:
    Деревня Великая Гвазда
    Оффлайн
    Понятно... Пентиум - 5, поди, еще медленнее будет...
  23. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Коре2дуо (Конрое) вышедший относительно недавно - быстрее всего остального при той-же частоте, так что не будет медленней :)
    И P4 не медленней P3, а быстрее.
    P4 медленней чем P3 при одинаковых частотах :)
    Но частоты у верхних P4 в четыре раза больше чем у старших P3.
  24. Crest Админ, МГ

    • Команда форума
    Рег.:
    04.02.2006
    Сообщения:
    50.426
    Симпатии:
    11.178
    Репутация:
    454
    Адрес:
    Москва, Россия
    Оффлайн
    По-моему несколько хороших тестовых позиций для движков создали участники матча в Элисте.
    А ну-ка, попробуем! Который из них в позиции
    7r/p1Rnbkpp/1n1Bp3/5p2/8/4P3/PP3PPP/3R2K1 b - - 0 26



    сыграет 1...Ra8! - ?

    Насколько я помню, их всех тянет поменять ладьи на с8. А это объективно слабее. И досчитать сию разницу просто нереально. Это вопрос позиционных настроек...
    Сейчас еще что-нибудь найду.
  25. Crest Админ, МГ

    • Команда форума
    Рег.:
    04.02.2006
    Сообщения:
    50.426
    Симпатии:
    11.178
    Репутация:
    454
    Адрес:
    Москва, Россия
    Оффлайн
    Еще один хороший тест - оценка позиции
    8/5p1p/4p2k/N7/3Pn3/4PpPP/1r3P2/5RK1 b - - 0 37



    Пусть подумают маленько... Реальная оценка - белые имеют серьезные проблемы. Примерно, на глазок - 0.6 +/- 0.2 То есть ближе к пешке в пользу черных, чем к равенству! И это несмотря на лишнюю пешку белых на доске.
  26. Инсайдер Bruce Wayne

    • Участник
    Рег.:
    10.02.2006
    Сообщения:
    697
    Симпатии:
    2
    Репутация:
    0
    Адрес:
    Gotham City
    Оффлайн
    Рыбка Ra8 находит быстро, и считает лучшим ходом.
  27. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    А есть доказательства того что ходы Ra8 и Rc8 ведут к разному результату?
  28. Мастер Икс Василий Щепетнев

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    3.553
    Симпатии:
    198
    Репутация:
    16
    Адрес:
    Деревня Великая Гвазда
    Оффлайн
    Нужно бежать изо всех сил. чтобы остаться на месте...
  29. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    На момент выхода P4 Интел показалось хорошим маркетинговым ходом повышение частоты.
    Частоты P3 достигли предела на тот момент, и возможности повысить их не было.
    Реально Интел выпустила более быстрый процессор за счет хорошего роста частот,
    и возможно Интел переоценила возможности оптимизирующих компиляторов.
    под P4 намного сложнее оптимизировать код.
    Но были добавлены новые системы команд (в шахматных программах практически не используется. но используются в играх и системах кодирования Аудио/Видео)
    И самое главное - в поздних версиях была добавлена 64-битность (что уже может использоваться в шахматных программах) и двухядерность.
    Плюс - гипертрейдинг хоть немного, но повышает производительность при нескольких параллельных процессах, и P4 быстрее работает с памятью (хотя в шахматных программах это не очень существенно)

    То есть Пню4 просто не повезло на 32-битной целочисленной арифметике - он медленнен конкретно для шахматных программ. :)
    Тут примерно та-же ситуация что и с быстрой ОФ (программа сильнее в тактике) и медленной ОФ (программа сильнее позиционно) - а реально сила программы и при такой, и при такой оценке остается примерно одинакова. Только видоизменяется стиль игры.
  30. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Насчет быстродействия моей машины на одном процессоре -
    FritzMark 1113kNPS Relative speed 2.32
    Так что меньше чем в 2.5 раза быстрей чем Целерон 1000 (ну или 2000 :) )
  31. Crest Админ, МГ

    • Команда форума
    Рег.:
    04.02.2006
    Сообщения:
    50.426
    Симпатии:
    11.178
    Репутация:
    454
    Адрес:
    Москва, Россия
    Оффлайн
    К разному результату? А зачем? Важно, что один ход принципиально сильнее второго. Видимо, и после 1...Ra8! белые могут спастись, но это проблема более высокого порядка, чем в случае размена ладей на с8 (там вообще нет проблемы).
  32. Crest Админ, МГ

    • Команда форума
    Рег.:
    04.02.2006
    Сообщения:
    50.426
    Симпатии:
    11.178
    Репутация:
    454
    Адрес:
    Москва, Россия
    Оффлайн
    Смотрим дальше. Вторая партия матча.
    6k1/pp3rb1/4pP2/3pP3/3P2Q1/4BN2/1r2q3/6RK w - - 0 36



    Найти надо не только и не столько 1.Qh5. Главное - после любого движения черной пешки, например, 1...а5 (оно находится методом исключения) найти феноменально сильный тихий ход 2.Rg3!!, после которого черные проигрывают во всех вариантах.
    Это тест на счет. На умение вести матовую атаку.
  33. Crest Админ, МГ

    • Команда форума
    Рег.:
    04.02.2006
    Сообщения:
    50.426
    Симпатии:
    11.178
    Репутация:
    454
    Адрес:
    Москва, Россия
    Оффлайн
    Следующая позиция:
    r2r2k1/pb2qppp/2p1pn2/R7/2NP4/1P2PB2/5PP1/3Q1RK1 b - - 0 21



    Если белые успеют припечатать черные пешки и сковать черные фигуры защитой, то получат ощутимый перевес. Поэтому необходимо срочно вернуть лишнюю пешку и освободить фигуры - 1...c5!
    Это тест на позиционное понимание.
  34. Инсайдер Bruce Wayne

    • Участник
    Рег.:
    10.02.2006
    Сообщения:
    697
    Симпатии:
    2
    Репутация:
    0
    Адрес:
    Gotham City
    Оффлайн
    6k1/pp3rb1/4pP2/3pP3/3P2Q1/4BN2/1r2q3/6RK w - - 0 36

    за полминуты Рыба решает
  35. Crest Админ, МГ

    • Команда форума
    Рег.:
    04.02.2006
    Сообщения:
    50.426
    Симпатии:
    11.178
    Репутация:
    454
    Адрес:
    Москва, Россия
    Оффлайн
    Еще один момент из 8-й партии:
    3rk2r/p2nbppp/2N1pn2/8/qp1Q4/4P3/PP1B1PPP/R1R3K1 w k - 0 19



    Программа должна сообразить не бить на d8 сразу. Конь на с6 очень силен и еще не время снимать напряжение. Намного сильнее 1.b3! и далее идут очень выгодные для белых осложнения. Докопаться до конечных позиций, а следовательно и адекватно оценить исходную позицию - под силу только очень мощной атакующей программе.

Поделиться этой страницей