Спортивные новости. Чемпионаты среди программ.

Crest · 10 авг 2006

Оказывается, недавно состоялся чемпионат мира среди программ. Многократный чемпион Джуниор подтвердил свой высокий класс - http://www.chessbase.com/newsdetail.asp?newsid=3277
Правда, Рыбешка, Фриц и некоторые другие программы не приняли участие. А жаль!
Так хотелось бы собрать их всех разом и определить сильнейших по гамбургскому счету...

thenewone · 10 авг 2006

Рыбка играла, Crest
под названием Rajlich

Crest · 11 авг 2006

Так это была Рыбка?
Так почему же она не выиграла, если в рейтинг-листах так уверенно лидирует? Была не в форме, то есть на плохом железе или как?
Почему не играет Фриц, давно всем ясно. Эта программа, как старый охотник, боится рисковать своим авторитетом. Ибо выиграть о-очень трудно. А потерять остатки былой исключительности - проще простого. И тогда продажи резко сократятся.

Fruit · 11 авг 2006

Количесто партий на подобных чемпионатах ничтожно мало, по сравнению с тем, что наигрывается для рейтинг-листов. Кроме этого, условия и железо для всех программ разные.
Вот:
Zappa 512x1 Intel 1.6GHz No
Rajlich 4x2 AMD 2.4GHz No
Shredder 4x2 AMD 2.6GHz Yes
Junior 2x2 Intel 3 GHz Yes
Spike 2x2 AMD 2.0GHz Yes
Crafty 4x2 AMD 2.4GHz Yes
DIEP 2x2 AMD 2.4GHz Yes
Ikarus 2x2 AMD 1.8GHz Yes
Jonny 1x2 AMD 2.5GHz Yes
ParSOS 1x1 AMD 2 GHz No
IsiChess MMX 1x1 AMD 2.2GHz No
Delphi 1x1 Intel 3.0GHz No
Chiron 1x1 AMD 2.2GHz No
Uragano3d 1x1 AMD 2 GHz No
FIBChess 1x1 AMD 2 GHz No
Chaturanga 1x1 Intel 3.2GHz No

С какой стати, Zappa (прошлый чемпион) играл с 512 процессами?
Почему одни программы использовали Tablebase (Yes или NO), а другие нет? Да, и дебютная книга у Junior явно лучше!

Fruit · 11 авг 2006

Состав вообще не ровный. FIBChess,Chaturanga,Uragano3d - статисты. Нет не только fritz, но и
List, King, Hiarcs, Gandalf, Fruit!!!! и тд.

На Playchess.com появился уже Deep Junior 10. И что вы думаете? Почти никакой против Рыбок,по крайней мере, в блице.

Crest · 11 авг 2006

Проверьте на контроле помедленнее.
Самое важное - как он смотрится на фоне своей же 9-й версии?

Kirr · 11 авг 2006

Почему выиграл Юниор а не Рыбка: 1. Все движки играли с собственной дебютной книжкой. В состязаниях такого уровня дебютная книжка имеет очень большое значение. Ведь всё решают одна-две партии (с основными конкурентами). 2. Все движки играли на своём железе. (2.5. Я не могу на 100% исключить возможность читерства - помощи человека). 3. Простая неточность вызванная малым количеством партий.

Любой даже один из этих факторов достаточен чтобы игнорировать ЧМ в вопросе сравнения движков. Для сравнения движков гораздо надёжнее использовать рейтинги построенные на основании тысяч партий, на одинаковом железе, с общей книжкой и базами окончаний. Например наши тесты: CCRL 40/40.

Мобуту · 11 авг 2006

"6 The 14th World Computer Chess Championship was held at the end of May this year, and the winner was the program Deep Junior."

Чемпионат был ещё в мае, в соответствующей теме вроде все всё высказали. Я там даже одну партейку из чемпионата привёл, чтобы стало ясно, что это за мероприятие такое. На всякий случай поднял ту тему. Сейчас на www.chessbase.com "вспомнили" про этот чемпионат чтобы повыгоднее впарить своего Джуниора-10. Согласен с Kirr: таким чемпионатам - ноль внимания.

2 Kirr: Про контроли согласен с Crest: медленные контроли - вещь более интересная, чем активные и тем более блиц. Понятно, статистику набрать раза в три труднее, но результаты зато будут более, как бы сказать, солидными.

Fruit · 12 авг 2006

"медленные контроли - вещь более интересная, чем активные и тем более блиц."

Так, это ж понятия субъективные! Сегодня я тестирую в медленных а через 3 года окажется, что я в блитц тестировал Ибо мощность компов растёт очень быстро.

Мобуту · 12 авг 2006

Через 3 года теперешние проги будут нужны разве что любителям антиквариата. А сейчас хотелось бы знать, как соотносятся современные проги на современном железе при классическом контроле времени.

Fruit · 12 авг 2006

Но именно столько уйдёт на тестирование и составление рейтингов.

Небольшой расчёт:
Допустим, одна партия длится примерно 5 часов, мы играем примерно 100 партий для каждой проги и хотим составить рейтинг для 50 прог. В этом случае, мы получим примерно, опять же, более 2,5 лет чистого времени тестирования для одного компа (5*100*50/(24*30*12). А, ведь, на CCRL тестируется больше, чем 50 программ и их версий(около 100), и партий для каждой проги больше, чем 100. Плюс тесты в других контролях.

В общем, было бы очень интересно, но это врядли осуществимо

NS · 12 авг 2006

Через 3 года теперешние проги будут нужны разве что любителям антиквариата. А сейчас хотелось бы знать, как соотносятся современные проги на современном железе при классическом контроле времени.

Так же как и в блиц

Я собрал данные по движкам с разными контролями (CEGT) Практически у всех отклонение в пределах погрешности.

http://www.kasparovchess.crestbook.com/viewtopic.php?pid=19930#p19930

Мобуту · 12 авг 2006

2 Fruit:

Если предположить, что все движки уже оценены и вышел новый (Junior 10), то его в принципе можно оценить сотней партий. Погрешность уже небольшой будет, а потребуется на такое порядка 1 комьютер*месяц.

Если надо оценить 50 прог (надо ли?), то понадобится что-то типа 50 компов*месяц. Единоразово! А дальше можно работать в спокойном режиме только с новыми движками.

NS · 12 авг 2006

В том то и дело что не получают... Я уже устал выкладывать таблицу с отклонением...
Посчитать Вам возможное отклонение на сотне партий? Оно весьма велико. Достаточно велико чтоб невозможно было сравнить движки в плотной группе (например пять ведущих движков исключая Рыбу)

Fruit · 12 авг 2006

Проги не люди. По словам Сергея Маркова, 100 партий мало, даже если разница в рейтинге 50 пунктов.

NS · 12 авг 2006

С людьми тоже самое Только не все это понимают.

atoku · 12 авг 2006

NS пишет:

С людьми тоже самое Только не все это понимают.
Нажмите, чтобы раскрыть...

Люди обычно играют 100-200 партий в год

Мобуту · 12 авг 2006

2 Fruit:

Ну да, случайное отклонение от среднего результата в сотне партий порядка нескольких очков. Блиц позволит заменить, скажем, ошибку в 5% на 1%. Но сколько при этом вскочит разных дурацких зевков, сделанных после обдумывания хода в течение нескольких секунд? Тут речь уже не о процентах пойдёт, а о десятках процентов. Это будут партии, завершившиеся незакономерно.

А чем, собственно, люди так уж от прог отличаются в плане рейтинга? Примерно те же погрешности, только сила ещё скачет со временем.

NS · 12 авг 2006

Причем тут зевки? Они не изменяют допустимый интервал Не изменяют корректность рейтинга!!!!
Какая погрешность по сотне партий с длинным контролем - точно такая же и по минуте на партию!!!!
То же самое и с тысячью партий.
И не важно кто играет, человек или программа, контроль 1 минута на партию или час на ход.
Если вероятность исхода 1/3,1/3,1/3 то при сотне партий равных соперников допустимый интервал, и среднеквадратичное - будет точь-в-точь одинаковое, причем точно такое-же как и если мы будем использовать генератор случайных чисел или кубик.
А рейтинг скачет несильно. Можно оценить что от снижения контроля в 10 раз мы можем получить изменение силы движка (в виду его особенностей, и предрасположенности к определенному контролю) максимум где-то пунктов на 10 (Для Элиты)
Так разница в достоверности между 100 и 1000 партиями значительно превышает эти 10 пунктов.
Поэтому и тестируют авторы движки с коротким контролем (так как достоверность выше, и мы четче можем отследить пользу от того или иного метода), а кому как не им знать как лучше тестировать

Fruit · 12 авг 2006

Ну, я вполне согласен, что классика не сравнима с блитц.......

Главное различие человека от компа - психология.
Напр, один известный немецкий тестер, говоря о непригодности тестирования с малым количеством партий, рассказывал, что однажды одна прога выигрывала у другой со счётом 10:0, но, в итоге, матч закончился в ничью или проигрывающая строна даже выиграла (жаль, я тот пост не сохранил и теперь не могу вспомнить достоверно).
Так вот, у людей такого бы точно не получилось. После фишеровского 6:0, Ларсен и Тайманов продолжать борьбу явно не могли и никогда ПОСЛЕ не играли так, как ДО.

Fruit · 12 авг 2006

NS пишет:

Причем тут зевки? Они не изменяют допустимый интервал Не изменяют корректность рейтинга!!!!
Какая погрешность по сотне партий с длинным контролем - точно такая же и по минуте на партию!!!!
Нажмите, чтобы раскрыть...

Это просто они глючат одинаково часто

NS · 12 авг 2006

Да, единственный фактор - психологический... Но на самом деле в матче (или турнире) психически устойчивых соперников - психологический фактор сводится к нулю... Так же как в Деберц (Удар) например, да и в блиц (то есть там где возможно наиграть действительно много партий).
Более слабый (человек!) может выиграть и десять партий подряд, но в итоге всё встанет на свои места... После достаточного числа партий.

NS · 12 авг 2006

ТАк в том то и дело, что снижение контроля сказывается примерно одинаково для всех движков - поэтому изменения в силе (Не достоверности! Она не меняется, по-разному падает сила движков!) для разных движков примерно одинаково.

NS · 12 авг 2006

Забыл - есть еще одна разница между человеком и программы... При изменении контроля времени отностительная сила человека подвержена значительно большим колебаниям. Поэтому результат матча двух людей в блиц может значительно отличаться от результата с длинным контролем (соответственно значительно отличается разница в силе)

Fruit · 12 авг 2006

NS пишет:

Более слабый (человек!) может выиграть и десять партий подряд, но в итоге всё встанет на свои места...После достаточного числа партий.
Нажмите, чтобы раскрыть...

Просто потому, что более сильный (человек!) может его побить

Хотя любопытно было бы взглянуть на партии такого матча, хоть и в блице. Интересно, был ли прецедент?

Fruit · 12 авг 2006

Итак,
1 Психология.
2 Колебания в силе, при уменьшении времени на обдумывание.
3 Усталость.
4 Подготовка к матчам и партиям. Сколько ело гросс прибавляется себе, если готовится к матчу?

Уже много различий!

NS · 12 авг 2006

Да, но достоверность от этого не меняется. 10 партий насколько недостоверны для программ, настолько-же недостоверны и для человека. А матчи на первенство мира - обыкновенная рулетка... Хотя у сильнейшего вероятность победить и больше, но это всего-лишь вероятность. Причем и не такая уж и большая (при маленькой разнице в силе).

WildCat · 12 авг 2006

ТАк в том то и дело, что снижение контроля сказывается примерно одинаково для всех движковp
Вот как ты теперь заговорил А раньше что говорил? Что заставило изменить свою точку зрения?
Вполне возможно, что бывают движки с большим дисбалансом. Но их очень мало.

NS · 12 авг 2006

Не менял я её Я говорил, что дисбаланс есть у относительно Слабых!!! движков. И что у них-
1. Меньше растет сила с увеличением контроля "в среднем"
2. Намного больше разброс силы (разброс коэффициента роста силы с увеличением контроля) по сравнению с сильными движками

WildCat · 12 авг 2006

А раньше позиционировать свой движок как несбалансированный, считалось очень модным. Например: Pro Deo, The King, Gromit, Diep. Может еще кого забыл. И все они намекали, что "умный" движок не может хорошо играть блиц.

NS · 12 авг 2006

Каждый приукрашивает свой движок как может...
проше всего заявить что движок плохо играет в блиц, так как он очень "умный", а вот проведите 1000 партий с разными соперниками с контрлем час на ход, и убедитесь что мой движок лучший )))
У меня так с версией 0.08 вышло. Слишком умная Играет на 50-70 пунктов слабее, чем 0.07 Но при часе на ход скорей всего догонит по силе

Kirr · 12 авг 2006

WildCat пишет:

А раньше позиционировать свой движок как несбалансированный, считалось очень модным. Например: Pro Deo, The King, Gromit, Diep. Может еще кого забыл. И все они намекали, что "умный" движок не может хорошо играть блиц.
Нажмите, чтобы раскрыть...

Винсент (автор Diep) и не намекает. Это до сих пор его любимая байка что его движок предназначен выигрывать чемпионаты мира, что он не для блица и т.д. Так как он к тому же чемпион по 20-пальцевому набору текста, то его очень сложно в чём-то убедить.

Насчёт разницы между контролями. Выбор контроля времени для тестирования это всегда поиск баланса между качественными интересными партиями и достаточным количеством партий для статистики. Если тестировать в одиночку то выбирать можно только между блицем и буллетом (либо тестировать два-три-пять движков). Если участников несколько то можно пробовать средние контроли (наш 40/40 например). Особенно длинные контроли времени я считаю непрактичными так как придётся ограничивать число движков.

Почему я не люблю блиц - не так ярко проявляются качества движков. Больше выигрывает счёт чем стратегия - лишний полуход глубины поиска имеет решающее значение. В контроле 40/40 любая простая тактика уже более менее контролируется с обеих сторон поэтому идёт борьба замыслов, понимания (или его отсутствия).

Fruit · 12 авг 2006

NS пишет:

Не менял я её Я говорил, что дисбаланс есть у относительно Слабых!!! движков. И что у них-
1. Меньше растет сила с увеличением контроля "в среднем"
2. Намного больше разброс силы (разброс коэффициента роста силы с увеличением контроля) по сравнению с сильными движками
Нажмите, чтобы раскрыть...

Кроме этого, традиционно принято считать, что те движки, которые не являются атакующими (Fruit и др)
также существенно увеличивают силу при увеличении контроля.
Напр, здесь можно сранить рейтинги Fruit в контроле 4+2 и 90+30:
http://www.geocities.com/sedatchess1/index.html
У Wildcat там 2589 и 2590, а у Fruit 2.2.1 2768 и 2816, соответственно.

WildCat · 12 авг 2006

Для 90+30 можно считать рейтингов нет, т.к. слишком малое число игр.
Можно сравнить результаты CEGT. Там 2769 (для 40/4) и 2776 для (40/40). В обоих случаях около 6500 партий.

Fruit · 12 авг 2006

90+30 по круче 40/40 будет , хотя и не попрёшь против 6500 партий.

Войти или зарегистрироваться

Спортивные новости. Чемпионаты среди программ.

Crest Админ, МГ Команда форума Команда форума

thenewone Евгений Манев

Crest Админ, МГ Команда форума Команда форума

Fruit Александр баннер

Fruit Александр баннер

Crest Админ, МГ Команда форума Команда форума

Kirr Команда форума Команда форума

Мобуту спаситель нации баннер

Fruit Александр баннер

Мобуту спаситель нации баннер

Fruit Александр баннер

NS Нефёдов Сергей баннер

Мобуту спаситель нации баннер

NS Нефёдов Сергей баннер

Fruit Александр баннер

NS Нефёдов Сергей баннер

atoku Модератор

Мобуту спаситель нации баннер

NS Нефёдов Сергей баннер

Fruit Александр баннер

Fruit Александр баннер

NS Нефёдов Сергей баннер

NS Нефёдов Сергей баннер

NS Нефёдов Сергей баннер

Fruit Александр баннер

Fruit Александр баннер

NS Нефёдов Сергей баннер

WildCat Коршунов Игорь Команда форума

NS Нефёдов Сергей баннер

WildCat Коршунов Игорь Команда форума

NS Нефёдов Сергей баннер

Kirr Команда форума Команда форума

Fruit Александр баннер

WildCat Коршунов Игорь Команда форума

Fruit Александр баннер