Меряем позиционную силу программ

Тема в разделе "Машинное отделение", создана пользователем Fruit, 11 ноя 2006.

  1. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Тут сразу трудности!....
    1 Не много движков способны просматирвать на скорости 300 миллисек.
    2 Некоторые из тех, что могут, делают это очень медленно.
    3 Времени и партий, в связи с преложениями, нужно очень много.....
    "..предлагаю исключить те ходы для которых выбор всех движков и Каспарова совпал" - изменятся цифры, а пропорция ?
     
  2. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    Это, на самом деле, тестирование Каспарова.
    В пределах погрешности он угадывает 46% ходов произвольного сильного компьютера :)
     
  3. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Может быть :)
    SmarThink 515 на 7 полуходах:
    партии Каспарова(675): 11222/25833 = 43,441%
    партии Карпова(1095): 20889/48206 = 43,333%
     
  4. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Это было бы тестирование Каспарова, если бы движку давали несколько часов на ход.
    Это была бы проверка на близость стилей. если бы движку давали 10 000-100 000 мс. на ход.
    А когда движку дается 300мс. на ход - то это именно тестирование силы движка.
     
  5. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    В таком случае, выходит что все протестированные движки играют в одну и ту же силу.
    Потому что я не знаю, чем 46.1 отличается от 46.3 при таких погрешностях (обусловленных малым временем на ход).
     
  6. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    Обратите внимание, что чем дальше в этой ветке, тем ближе процент угадывания приближается к окончательному ответу - равному, как известно, 42 :)
     
  7. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Винни, а какой раздел мат. статистики отвечает за расчет погрешности вызванной малым временем на обдумывание????
    Малое время не вносит погрешность. Погрешность вносит только малое число тестовых позиций.
     
  8. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    Математическая статистика тут ни при чём. Чем больше мы даём программе времени на обдумывание, тем ближе, в идеале, приближаемся к абсолютной истине, совершенно точным ходам. И сравнивая с ними ходы Каспарова, находим его относительную силу.

    Это просто неверно. Поставим движкам настолько малое время, чтобы они успевали только сгенерировать в позиции все ходы, и посчитать на глубину = 1 (без ФВ). "Угаданные" таким образом ходы станут просто implementation-dependent от того, как написаны генераторы ходов.
     
  9. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    Мы ведь меряем не общую силу движка. А силу движка на конкретном контроле времени. И даже, если времени будет очень мало, силу движков все равно можно померить. И погрешность измерений при этом будет не больше, чем при контроле пару часов на ход.
     
  10. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    Тогда согласен.
     
  11. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Результат для Rybka 2.2:
    Rybka 2.2 Каспаров белыми 12919/26730 = 48,331%
    Rybka 2.2 Каспаров чёрными 12748/26010 = 49,012%
    Всего 25667/52740 = 48,667%
     
  12. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    Почему Рыбку постоянно перекашивает в пользу черных? Видимо есть какой-то баг, мешающий играть белыми.
    У меня тоже раньше был баг из-за которого черными играла хуже.
     
  13. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    А может прав NS: рыбка слишком сильна на 300 миллисек?....Ещё я предполагал, что рыбину натаскивали на сицилианскую, которую часто можно встретить в партиях Каспарова чёрными.

    Результаты рыбок:
    Rybka 2.1c = 48,779%
    Rybka 2.2 = 48,667%

    Рыбка 2.2 сильнее 2.1с.
    Выходит, силу проги уже нельзя мерить таким способом....
     
  14. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Рыбка 2.2 с короткими контролями играет не сильнее чем 2.1с
    Если и сильнее - то совсем немного.
    Вроде начинает вырываться вперед только на длинных контролях на многопроцессорных машинах...

    Можно опробовать тестировать её не на партиях Каспарова, а на миксе из партий сильнейших Гроссов.
     
  15. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Может быть, потом попробую....
     
  16. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Новый результат:
    Shredder 10 Каспаров белыми 12807/26730 = 47,912%
    Shredder 10 Каспаров чёрными 12600/26010 = 48,443%
    Всего 25407/52740 = 48,174%
     
  17. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    И тут черными лучше :rolleyes:
    Чтобы это значило?
     
  18. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    И тут тоже лучше, но не на много:
    Rybka 2.2 WinFinder Каспаров белыми 12586/26730 = 47,086%
    Rybka 2.2 WinFinder Каспаров чёрными 12327/26010 =47,393%
    Всего 24912/52740 =47,235%

    Предположу, что тут много всего. Разлиные дебюты; различный настрой, как себя, так и соперников; разное количество партий, наконец.
     
  19. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    Может это Каспаров черными играет несколько в ином стиле?
     
  20. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Ещё один результат. Подтвержающий, что, возможно, Каспаров чёрными играет в ином стиле :) :

    Gambit Fruit 1.0 Beta 4bx Каспаров белые 12836/26730 = 48,021%
    Gambit Fruit 1.0 Beta 4bx Каспаров чёрные 12506/26010 = 48,082%
    Всего 25342/52740 = 48,051%

    Ещё нужно отметить, что History Pruning в таком сверх быстром контроле ухудшает движок, поэтому у Тоги такой скромный результат.