Меряем позиционную силу программ

Тема в разделе "Машинное отделение", создана пользователем Fruit, 11 ноя 2006.

  1. TopicStarter Overlay

    Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    12.02.2006
    Сообщения:
    2.201
    Симпатии:
    64
    Репутация:
    3
    Оффлайн
    Тут сразу трудности!....
    1 Не много движков способны просматирвать на скорости 300 миллисек.
    2 Некоторые из тех, что могут, делают это очень медленно.
    3 Времени и партий, в связи с преложениями, нужно очень много.....
    "..предлагаю исключить те ходы для которых выбор всех движков и Каспарова совпал" - изменятся цифры, а пропорция ?
  2. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.492
    Симпатии:
    3.122
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Это, на самом деле, тестирование Каспарова.
    В пределах погрешности он угадывает 46% ходов произвольного сильного компьютера :)
  3. TopicStarter Overlay

    Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    12.02.2006
    Сообщения:
    2.201
    Симпатии:
    64
    Репутация:
    3
    Оффлайн
    Может быть :)
    SmarThink 515 на 7 полуходах:
    партии Каспарова(675): 11222/25833 = 43,441%
    партии Карпова(1095): 20889/48206 = 43,333%
  4. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Это было бы тестирование Каспарова, если бы движку давали несколько часов на ход.
    Это была бы проверка на близость стилей. если бы движку давали 10 000-100 000 мс. на ход.
    А когда движку дается 300мс. на ход - то это именно тестирование силы движка.
  5. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.492
    Симпатии:
    3.122
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    В таком случае, выходит что все протестированные движки играют в одну и ту же силу.
    Потому что я не знаю, чем 46.1 отличается от 46.3 при таких погрешностях (обусловленных малым временем на ход).
  6. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.492
    Симпатии:
    3.122
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Обратите внимание, что чем дальше в этой ветке, тем ближе процент угадывания приближается к окончательному ответу - равному, как известно, 42 :)
  7. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Винни, а какой раздел мат. статистики отвечает за расчет погрешности вызванной малым временем на обдумывание????
    Малое время не вносит погрешность. Погрешность вносит только малое число тестовых позиций.
  8. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.492
    Симпатии:
    3.122
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Математическая статистика тут ни при чём. Чем больше мы даём программе времени на обдумывание, тем ближе, в идеале, приближаемся к абсолютной истине, совершенно точным ходам. И сравнивая с ними ходы Каспарова, находим его относительную силу.

    Это просто неверно. Поставим движкам настолько малое время, чтобы они успевали только сгенерировать в позиции все ходы, и посчитать на глубину = 1 (без ФВ). "Угаданные" таким образом ходы станут просто implementation-dependent от того, как написаны генераторы ходов.
  9. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Мы ведь меряем не общую силу движка. А силу движка на конкретном контроле времени. И даже, если времени будет очень мало, силу движков все равно можно померить. И погрешность измерений при этом будет не больше, чем при контроле пару часов на ход.
  10. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.492
    Симпатии:
    3.122
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Тогда согласен.
  11. TopicStarter Overlay

    Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    12.02.2006
    Сообщения:
    2.201
    Симпатии:
    64
    Репутация:
    3
    Оффлайн
    Результат для Rybka 2.2:
    Rybka 2.2 Каспаров белыми 12919/26730 = 48,331%
    Rybka 2.2 Каспаров чёрными 12748/26010 = 49,012%
    Всего 25667/52740 = 48,667%
  12. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Почему Рыбку постоянно перекашивает в пользу черных? Видимо есть какой-то баг, мешающий играть белыми.
    У меня тоже раньше был баг из-за которого черными играла хуже.
  13. TopicStarter Overlay

    Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    12.02.2006
    Сообщения:
    2.201
    Симпатии:
    64
    Репутация:
    3
    Оффлайн
    А может прав NS: рыбка слишком сильна на 300 миллисек?....Ещё я предполагал, что рыбину натаскивали на сицилианскую, которую часто можно встретить в партиях Каспарова чёрными.

    Результаты рыбок:
    Rybka 2.1c = 48,779%
    Rybka 2.2 = 48,667%

    Рыбка 2.2 сильнее 2.1с.
    Выходит, силу проги уже нельзя мерить таким способом....
  14. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Рыбка 2.2 с короткими контролями играет не сильнее чем 2.1с
    Если и сильнее - то совсем немного.
    Вроде начинает вырываться вперед только на длинных контролях на многопроцессорных машинах...

    Можно опробовать тестировать её не на партиях Каспарова, а на миксе из партий сильнейших Гроссов.
  15. TopicStarter Overlay

    Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    12.02.2006
    Сообщения:
    2.201
    Симпатии:
    64
    Репутация:
    3
    Оффлайн
    Может быть, потом попробую....
  16. TopicStarter Overlay

    Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    12.02.2006
    Сообщения:
    2.201
    Симпатии:
    64
    Репутация:
    3
    Оффлайн
    Новый результат:
    Shredder 10 Каспаров белыми 12807/26730 = 47,912%
    Shredder 10 Каспаров чёрными 12600/26010 = 48,443%
    Всего 25407/52740 = 48,174%
  17. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    И тут черными лучше :rolleyes:
    Чтобы это значило?
  18. TopicStarter Overlay

    Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    12.02.2006
    Сообщения:
    2.201
    Симпатии:
    64
    Репутация:
    3
    Оффлайн
    И тут тоже лучше, но не на много:
    Rybka 2.2 WinFinder Каспаров белыми 12586/26730 = 47,086%
    Rybka 2.2 WinFinder Каспаров чёрными 12327/26010 =47,393%
    Всего 24912/52740 =47,235%

    Предположу, что тут много всего. Разлиные дебюты; различный настрой, как себя, так и соперников; разное количество партий, наконец.
  19. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Может это Каспаров черными играет несколько в ином стиле?
  20. TopicStarter Overlay

    Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    12.02.2006
    Сообщения:
    2.201
    Симпатии:
    64
    Репутация:
    3
    Оффлайн
    Ещё один результат. Подтвержающий, что, возможно, Каспаров чёрными играет в ином стиле :) :

    Gambit Fruit 1.0 Beta 4bx Каспаров белые 12836/26730 = 48,021%
    Gambit Fruit 1.0 Beta 4bx Каспаров чёрные 12506/26010 = 48,082%
    Всего 25342/52740 = 48,051%

    Ещё нужно отметить, что History Pruning в таком сверх быстром контроле ухудшает движок, поэтому у Тоги такой скромный результат.

Поделиться этой страницей