Меряем позиционную силу программ

Fruit · 22 ноя 2006

Тут сразу трудности!....
1 Не много движков способны просматирвать на скорости 300 миллисек.
2 Некоторые из тех, что могут, делают это очень медленно.
3 Времени и партий, в связи с преложениями, нужно очень много.....
"..предлагаю исключить те ходы для которых выбор всех движков и Каспарова совпал" - изменятся цифры, а пропорция ?

WinPooh · 22 ноя 2006

Это, на самом деле, тестирование Каспарова.
В пределах погрешности он угадывает 46% ходов произвольного сильного компьютера

Fruit · 22 ноя 2006

Может быть
SmarThink 515 на 7 полуходах:
партии Каспарова(675): 11222/25833 = 43,441%
партии Карпова(1095): 20889/48206 = 43,333%

NS · 22 ноя 2006

WinPooh пишет:

Это, на самом деле, тестирование Каспарова.
В пределах погрешности он угадывает 46% ходов произвольного сильного компьютера
Нажмите, чтобы раскрыть...

Это было бы тестирование Каспарова, если бы движку давали несколько часов на ход.
Это была бы проверка на близость стилей. если бы движку давали 10 000-100 000 мс. на ход.
А когда движку дается 300мс. на ход - то это именно тестирование силы движка.

WinPooh · 22 ноя 2006

NS пишет:

А когда движку дается 300мс. на ход - то это именно тестирование силы движка.
Нажмите, чтобы раскрыть...

В таком случае, выходит что все протестированные движки играют в одну и ту же силу.
Потому что я не знаю, чем 46.1 отличается от 46.3 при таких погрешностях (обусловленных малым временем на ход).

WinPooh · 22 ноя 2006

Обратите внимание, что чем дальше в этой ветке, тем ближе процент угадывания приближается к окончательному ответу - равному, как известно, 42

NS · 22 ноя 2006

В таком случае, выходит что все протестированные движки играют в одну и ту же силу.
Потому что я не знаю, чем 46.1 отличается от 46.3 при таких погрешностях (обусловленных малым временем на ход).
Нажмите, чтобы раскрыть...

Винни, а какой раздел мат. статистики отвечает за расчет погрешности вызванной малым временем на обдумывание????
Малое время не вносит погрешность. Погрешность вносит только малое число тестовых позиций.

WinPooh · 22 ноя 2006

Математическая статистика тут ни при чём. Чем больше мы даём программе времени на обдумывание, тем ближе, в идеале, приближаемся к абсолютной истине, совершенно точным ходам. И сравнивая с ними ходы Каспарова, находим его относительную силу.

Малое время не вносит погрешность.
Нажмите, чтобы раскрыть...

Это просто неверно. Поставим движкам настолько малое время, чтобы они успевали только сгенерировать в позиции все ходы, и посчитать на глубину = 1 (без ФВ). "Угаданные" таким образом ходы станут просто implementation-dependent от того, как написаны генераторы ходов.

WildCat · 22 ноя 2006

WinPooh пишет:

Малое время не вносит погрешность.
Нажмите, чтобы раскрыть...

Это просто неверно. Поставим движкам настолько малое время, чтобы они успевали только сгенерировать в позиции все ходы, и посчитать на глубину = 1 (без ФВ). "Угаданные" таким образом ходы станут просто implementation-dependent от того, как написаны генераторы ходов.
Нажмите, чтобы раскрыть...

Мы ведь меряем не общую силу движка. А силу движка на конкретном контроле времени. И даже, если времени будет очень мало, силу движков все равно можно померить. И погрешность измерений при этом будет не больше, чем при контроле пару часов на ход.

WinPooh · 22 ноя 2006

Мы ведь меряем не общую силу движка. А силу движка на конкретном контроле времени.
Нажмите, чтобы раскрыть...

Тогда согласен.

Fruit · 25 ноя 2006

Результат для Rybka 2.2:
Rybka 2.2 Каспаров белыми 12919/26730 = 48,331%
Rybka 2.2 Каспаров чёрными 12748/26010 = 49,012%
Всего 25667/52740 = 48,667%

WildCat · 25 ноя 2006

Почему Рыбку постоянно перекашивает в пользу черных? Видимо есть какой-то баг, мешающий играть белыми.
У меня тоже раньше был баг из-за которого черными играла хуже.

Fruit · 25 ноя 2006

А может прав NS: рыбка слишком сильна на 300 миллисек?....Ещё я предполагал, что рыбину натаскивали на сицилианскую, которую часто можно встретить в партиях Каспарова чёрными.

Результаты рыбок:
Rybka 2.1c = 48,779%
Rybka 2.2 = 48,667%

Рыбка 2.2 сильнее 2.1с.
Выходит, силу проги уже нельзя мерить таким способом....

NS · 25 ноя 2006

Рыбка 2.2 с короткими контролями играет не сильнее чем 2.1с
Если и сильнее - то совсем немного.
Вроде начинает вырываться вперед только на длинных контролях на многопроцессорных машинах...

Можно опробовать тестировать её не на партиях Каспарова, а на миксе из партий сильнейших Гроссов.

Fruit · 25 ноя 2006

Может быть, потом попробую....

Fruit · 27 ноя 2006

Новый результат:
Shredder 10 Каспаров белыми 12807/26730 = 47,912%
Shredder 10 Каспаров чёрными 12600/26010 = 48,443%
Всего 25407/52740 = 48,174%

WildCat · 27 ноя 2006

И тут черными лучше :rolleyes:
Чтобы это значило?

Fruit · 3 дек 2006

И тут тоже лучше, но не на много:
Rybka 2.2 WinFinder Каспаров белыми 12586/26730 = 47,086%
Rybka 2.2 WinFinder Каспаров чёрными 12327/26010 =47,393%
Всего 24912/52740 =47,235%

Предположу, что тут много всего. Разлиные дебюты; различный настрой, как себя, так и соперников; разное количество партий, наконец.

WildCat · 3 дек 2006

Может это Каспаров черными играет несколько в ином стиле?

Fruit · 8 дек 2006

Ещё один результат. Подтвержающий, что, возможно, Каспаров чёрными играет в ином стиле :

Gambit Fruit 1.0 Beta 4bx Каспаров белые 12836/26730 = 48,021%
Gambit Fruit 1.0 Beta 4bx Каспаров чёрные 12506/26010 = 48,082%
Всего 25342/52740 = 48,051%

Ещё нужно отметить, что History Pruning в таком сверх быстром контроле ухудшает движок, поэтому у Тоги такой скромный результат.

Войти или зарегистрироваться

Меряем позиционную силу программ

Fruit Александр баннер

WinPooh В.М. Команда форума

Fruit Александр баннер

NS Нефёдов Сергей баннер

WinPooh В.М. Команда форума

WinPooh В.М. Команда форума

NS Нефёдов Сергей баннер

WinPooh В.М. Команда форума

WildCat Коршунов Игорь Команда форума

WinPooh В.М. Команда форума

Fruit Александр баннер

WildCat Коршунов Игорь Команда форума

Fruit Александр баннер

NS Нефёдов Сергей баннер

Fruit Александр баннер

Fruit Александр баннер

WildCat Коршунов Игорь Команда форума

Fruit Александр баннер

WildCat Коршунов Игорь Команда форума

Fruit Александр баннер