Тестовые позиции для движков

Discussion in 'Машинное отделение' started by akupr, 20 Mar 2006.

  1. Crest
    Оффлайн

    Crest Админ, МГ Staff Member Команда форума

    Репутация:
    627
    Может быть, ОФ прог просто плохо учитывают фактор позиционной доминации? Мощная связка Ке4 + f3 впечатляет, не правда ли? Король белых на первой, конь не в силах встать на защищенное поле...
    И что бы не писали "старые добрые" программы, по-человечески, плюс с учетом тщательного изучения позиции, перевес черных совершенно очевиден.
    Хотя бы потому, что они всегда, в любой момент могут форсировать ничью, а вот белые на самом деле должны 20-30 ходов демонстрировать отменную точность в защите. См. текст партии и примечания.
    То есть при точной игре белых, может быть, черные и не выиграют... Наверное... Скорее всего...
    Но, FIDElio, согласитесь, что "перевес" и "выиграно" - отнюдь не одно и то же! Такая грубая градация в игровых позициях, которые досчитать до конца невозможно, просто недопустима.
    Точно так же и при небольшом перевесе одной из сторон в середине игры можно сказать, что, мол, позиция не проиграна, компьютер защитится, поэтому оценка позиции = 0.0
    А в указанной позиции Фриц показывает столь точную оценку, потому что ошибочно считает белых сильнейшей стороной. И потому настаивает на необходимости форситровать ничью. А между тем любой перворазрядник за пару минут поймет, что черным вообще ничего не грозит и они могут неторопливо катать на победу без особого риска.
    Так что "старые, добрые" пока слабоваты... То есть, недостаточно хороши для адекватной оценки многих позиций. :)

    P.S. То, что натворил в данной позиции (спустя 20 ходов) Топалов - другой вопрос. Это лишь доказывает, что зомби - всадник без головы - способен сам себя погубить в любой ситуации. Уж если ничья исключается из его списка допустимых результатов...
     
  2. WildCat
    Оффлайн

    WildCat Коршунов Игорь Staff Member

    Репутация:
    0
    Наверное большинство ОФ видят позиционный перевес черных, но считают, что нехватка пешки здесь более значима.
     
  3. Crest
    Оффлайн

    Crest Админ, МГ Staff Member Команда форума

    Репутация:
    627
    Следует обратить внимание на фразу "конь белых не в силах встать на защищенное поле...". И потому его могут отловить ходов этак через 25!
    Видимо, это та гирька, которая перевешивает чашу весов в пользу черных. И вот ее программы просто не замечают.
     
  4. krey
    Оффлайн

    krey Михаил Кройтор Staff Member Команда форума

    Репутация:
    1
    хороший момент - указать конкретные преимущества и недостатки сторон с точки зрения человека. и какие же будут перевешивать?
     
  5. Мастер Икс
    Оффлайн

    Мастер Икс Василий Щепетнев Staff Member

    Репутация:
    19
    Я, кажется, разобрался.
    Причина - тяжесть GUI Фрица для моей машины.

    Несколько раз запускал Fritz Chess Benchmark из GUI Фрица, получалось 533 -535 килонод в секунду, что давало 1.11- 1.12

    А потом запустил его без GUI, под голой ос и сразу получил 640 килонод (1.33)
    Прирост 20 процентов.
    Вот на эти 20 процентов и тормозятся движки под фрицем...

    У кого есть желание - проверьте бенчмарк "голый" и из-под фрица. Может, и на других машинах такое же...
     
  6. Мастер Икс
    Оффлайн

    Мастер Икс Василий Щепетнев Staff Member

    Репутация:
    19
    Красиво, хоть в учебники вставляй.
     
  7. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    У меня одинаково...
    Видимо сказывается
    1. Медленная машина.
    2. Отсутствие второго ядра (и Гипертрейдинга)
    3. Выставляются слишком большие размеры Хеша, и начинается Своп
    (Хотя у меня ChessBase GUI - тратит меньше 30 Мб памяти)
    Вот Мои цифры:
    Anechka 0.08, начальная позиция, 512 Mб хеш, 3 минуты на обдумывание:
    Арена: 242 kNPS
    ShredderClassic 1.3: 243 kNPS
    ChessBase Shredder10: 242 kNPS

    При этом Арена крадет время (засчитывает времени больше, чем реально прошло до выдачи хода)
    ChessBase и Shredder - время не крадут.

    Вывод один - просто совсем устарела техника...
     
  8. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    При этом Бенчмарк из GUI первый тест 1113, второй 1095.
    Без GUI 1099
    (то есть отклонения в пределах погрешности)
     
  9. Booot
    Оффлайн

    Booot Учаcтник

    Репутация:
    0
    "Так что "старые, добрые" пока слабоваты... То есть, недостаточно хороши для адекватной оценки многих позиций."

    Что такое термин "давление", если черными эту позицию у того же Фрица не выиграть? :). Но пошлепают оба 50-10-200 ходов, причем оба без риска проиграть... Ничья она и есть ничья. Это люди когда видят, что выиграть не могут начинают в панике биться. Компу эмоции фиолетовы.
     
  10. Crest
    Оффлайн

    Crest Админ, МГ Staff Member Команда форума

    Репутация:
    627
    Booot, вы опять же почему то путаете позиции, которые просчитывааются до конца, с игровыми.
    Положение из партии Крамник - Топалов Фриц и любая другая программа рассчитать точно не в состоянии! Вас просто вводит в заблуждение эта точность 0.00. А означает она лишь то, что программа считает необходимым тут же повторять ходы черными. Она выдает этот вердикт в долю секунды! О каком анализе тут можно вести речь?
    Попробуйте, докажите с мощным компом теорему, что черные в этой позиции не выигрывают! Действительно доказать это архисложно, все воспринимается лишь на уровне ощущений, на уровне общих оценок - как и в других сложных, игровых позициях.
    Вы уверены, что белые ничем не рискуют. Что позиция строго равная , что комп непременно, на сто процентов сделает ничью.
    Я, Сакаев, Загребельный и другие гроссмейстеры-комментаторы считаем иначе. Не хочу сравнивать вес... Просто мы в процессе анализа пришли к такому выводу. И полной уверенности в итоге партии при лучшей игре сторон у нас нет. Поэтому я и написал такую приблизительную оценку. На глазок. С игровой очки зрения :)

    Кстати, в этом аспекте мы вновь приходим к необходимости определений. Что такое "игровая". Что значит "оценка позиции". См. тему http://kasparovchess.crestbook.com/viewtopic.php?id=959
    Компьютеры, между прочим, тоже иногда ошибаются. И в сложных эндшпилях особенно. :)
     
  11. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Человек ошибается чаще чем машины - пример Re3 из Партии Алехин-Рети (Это как минимум не сильнейший ход, хотя и красивый. Рети не обязан был ошибаться. Но зачем-то эта позиция включена во все тесты), Либо позиция с ходом Rb4 из этой ветки - это только человеку может показаться что ход Rb4 выигрывает.
    Сильнейшие программы при большом времени обдумывания понимают что это не так.

    Насчет обсуждаемой позиции - проверить при помощи программы её достаточно легко - достаточно перекосить оценку за ничью (повторение позиции) на одну пешку в пользу белых.
     
  12. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Извиняюсь, партия конечно-же Рети-Алехин.
     
  13. Booot
    Оффлайн

    Booot Учаcтник

    Репутация:
    0
    "Положение из партии Крамник - Топалов Фриц и любая другая программа рассчитать точно не в состоянии!"

    А там есть что считать? :). Я понимаю, если б были осложнения в кторых человеческая оценка была бы "неясно", ну а тут позиция, где если отбросить страхи по поводу невозможности использовать лишний материал, нужно просто топтаться на месте и в нужный момент не прощелкать коня :). А его выигрыш человек еще меньше сможет предсказать(сосчитать), чем средней руки программа.

    "Попробуйте, докажите с мощным компом теорему, что черные в этой позиции не выигрывают!"
    Воспользуюсь "презумцией невиновности" :). Вам доказывать выигрыш черных :). Я лишь утверждаю, что "поприятней без риска проиграть" это еще меньшее доказательство, чем "одна бабушка сказала" с точки зрения шахматной истины (пример коей ЭБ).

    "Вы уверены, что белые ничем не рискуют."
    Риск конечно есть - проиграть можно все кроме голых королей.

    "Что позиция строго равная "
    Пока нет четкого доказательства, типа эндшпильных баз или толкового анализа можно лишь оперировать категориями "мне нравиться позиция черных". В истории много было подобных человеческих оценок ( все больше в дебютных вариантах), которые потом неоднократно менялись на противоположные :). Данная позиция мне тоже кажется приятней за черных, но белыми все же против компа предпочту именно эту позицию, а не начальную (на всю голову симметрично-равную) :).

    ", что комп непременно, на сто процентов сделает ничью."
    Смотря против кого :). Против меня - даже выиграет. Против Топалова... тут даже Крамник выиграл. против самого Крамника... поставил бы на ничью!

    "Я, Сакаев, Загребельный и другие гроссмейстеры-комментаторы считаем иначе. Не хочу сравнивать вес... "
    Действительно не стОит. Я когда-то лет 10 нзад играл в силу всего лишь толкового кандидата в мастера спорта.

    "И полной уверенности в итоге партии при лучшей игре сторон у нас нет."
    Лучшими ходами пока могут играть лишь компьютеры - и то только 6-7 фигурные позиции :). Вы или Сакаев пробовали выиграть эту позицию против той же Рыбки?

    "Поэтому я и написал такую приблизительную оценку. На глазок. С игровой очки зрения"
    Тогда другое дело :) На глазок - это по человечески. К примеру я "на глазок" достаточно уверенно могу оценить даже начальную позицию шахмат. Если это будет партия в блиц Рыбки против любого уважаемого шахматного аналитика :).Ну эта... с игровой точки зрения :).

    "Компьютеры, между прочим, тоже иногда ошибаются. И в сложных эндшпилях особенно."
    Как автор одной из программ - полностью с вами соглашусь. Пока ошибаются...
     
  14. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    против Рыбки эта позиция всё-таки выигрывается... Я проверил.
    http://kasparovchess.crestbook.com/viewtopic.php?id=1063
    Я там не привел Вариантов, но Рыбка человеку всё-таки эту позицию проигрывает...
     
  15. Booot
    Оффлайн

    Booot Учаcтник

    Репутация:
    0
    Значит действительно позиция белых неважная :).
     
  16. WildCat
    Оффлайн

    WildCat Коршунов Игорь Staff Member

    Репутация:
    0
    Здесь любая прога черными делает ничью. Ей пофигу против кого :)
     
  17. Mustitz
    Оффлайн

    Mustitz баннер

    Репутация:
    36
    Меня, например заинтересовала следующая позиция:

    4b3/2K1kp2/2p1p1p1/3pP1P1/1P1N1P2/8/8/8 w - - 5 45



    Как я понял, белые выигрывают (или могут бороться за победу) переводя коня на f6, ставя черных в цугцванг и вынуждая d5-d4. После чего пешка отбирается и все повторяется по новой :)

    45.Nf3 Bd7 46.Nh2 Be8 47.Ng4 Bd7 48.Nf6 Be8 49.Kc8 d4 50.Kc7 d3 51.Ne4 Bd7 52.Kb6 Kd8 53.Kc5 Ke7
    54.Kd4 Bc8 55.Kxd3 Ba6+ 56.Kd4 Bf1 57.Kc5 Bg2 58.Nd6 и т. д.

    Вот только те движки, что у меня есть, упорно пытаются удержать за белых ничью и не помышляют о переводе коня на f6. Кстати, на f6 можно попасть не только по маршруту d4-f3-h2-g4-f6, но и d4-c2-e3-g4-f6, так что может быть лучше давать позицию после 45. Nf3. Хотя и перевод на d4-b3-c5-b7-d6 тоже выигрывает :( Не получилось теста

    Я позволил себе отредактировать ваш текст - вставил для наглядности диаграмму с помощью тега
     
  18. bankuss
    Оффлайн

    bankuss Александр баннер

    Репутация:
    6
    Mustitz рыбина почти сразу выдает вариант с 1.Nb3 Bd7 2.Nc5 Be8 3.Kc8 d4 итд. Fritz 9, Shredder 10 то же самое. Фрукт только на 27 полуходу пишет белым приемущество и Nb3. Тога на 26-м :)
     
  19. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Диаграмма пропала :(
     
  20. Инсайдер
    Оффлайн

    Инсайдер Bruce Wayne

    Репутация:
    0
    Появится, только в другом месте, и дополненная.
     
  21. Инсайдер
    Оффлайн

    Инсайдер Bruce Wayne

    Репутация:
    0
  22. Инсайдер
    Оффлайн

    Инсайдер Bruce Wayne

    Репутация:
    0
  23. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Там есть одна тонкость - у движков нужно обязательно отключать обучение, и очищать файл обучения.
    Например у Шреддера. При повторном прогоне тестов, либо если он когда-либо смотрел этот тест (тем более с более длинным контролем) - его результаты резко улучшаются.
     
  24. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Кстати - Рыбке значительно больше года. :)
    Несколько лет назад это была не очень сильная программа.
    Потом Васик взял длительный таймаут, после которого появилось на свет... Короче эту историю все знают :)
     
  25. Инсайдер
    Оффлайн

    Инсайдер Bruce Wayne

    Репутация:
    0
    этой Рыбке - меньше года. Это совершенно другая программа. И нумерация версий у нее идет сначала.
     
  26. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    А не планируется протестировать на чисто тактических тестах? (IQ6)
    Если в WM Рыбка вытягивает за счет хорошей оценки позиции, то IQ6 почти чистая тактика, и Рыбка просто займет последнее место... (Либо одно из последних)
     
  27. Инсайдер
    Оффлайн

    Инсайдер Bruce Wayne

    Репутация:
    0
    NS, а кто вам не дает протестировать? Тестируйте, публикуйте :)
     
  28. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Небольшой Тест Fritz10
    20 секунд на ход, Athlon x2 3800+
    Хеш Таблицы 512Mb
    Fritz Benchmark
    Relative speed 2.41
    kNPS 1158

    wm-test на 100 позиций.
    Rybka WF 2.2 55/100
    Fritz 10 50/100
    Fritz 9 47/100
    Junior 10 43/100
    Shredder 10 42/100
    Rybka 2.2 41/100
    Hiarcs 10 41/100
    Toga II 1.2.1a 38/100
    Loop 10.32f 37/100
    Spike 1.2 Turin 29/100
    Fritz 5.32 28/100
    Naum 2.0 27/100
    Fritz 6 24/100
     
  29. Инсайдер
    Оффлайн

    Инсайдер Bruce Wayne

    Репутация:
    0
    грядущий Дип Фриц 10 может на 1 место выйти (в wm-test) - на 2-яд. проце-то.
     
  30. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Нет, не выйдет не первое место. Rybka WF MP его сделает :)
    Но на ста позициях погрешность - Полюс/Минус 8 позиций (95% доверительный интервал)
    Поэтому можно сказать что разница между Фрицами и WinFinder-ом в пределах погрешности.
     
  31. WildCat
    Оффлайн

    WildCat Коршунов Игорь Staff Member

    Репутация:
    0
    А что за тест и где его взять?
     
  32. WinPooh
    Оффлайн

    WinPooh В.М. Staff Member

    Репутация:
    95
    А откуда известно, что WM-позиции в тесте имеют правильные решения, если ни одна программа не набирает в них 100% ? (это возвращаясь к вопросу о WAC-230).
     
  33. Инсайдер
    Оффлайн

    Инсайдер Bruce Wayne

    Репутация:
    0
    Rybka WF MP не существует, и не слышал чтобы планировалась. Есть 64-битная, правда.
     
  34. Инсайдер
    Оффлайн

    Инсайдер Bruce Wayne

    Репутация:
    0
    я писал про него ранее в этой ветке и по ссылке http://crestbook.com/?q=node/57
     
  35. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Сомнительные позиции в тесте есть, например первая :)
    Но доверительные интервалы шире, чем возможное количество позиций с ошибками. Поэтому можно считать ошибки в тесте несущественными :)

    На форуме Васик проигнорировал вопрос по поводу WinFinder MP