Спортивные новости. Чемпионаты среди программ.

Тема в разделе "Машинное отделение", создана пользователем Crest, 10 авг 2006.

  1. Crest
    Оффлайн

    Crest Админ, МГ Команда форума Команда форума

    Репутация:
    628
    Оказывается, недавно состоялся чемпионат мира среди программ. Многократный чемпион Джуниор подтвердил свой высокий класс - http://www.chessbase.com/newsdetail.asp?newsid=3277
    Правда, Рыбешка, Фриц и некоторые другие программы не приняли участие. А жаль!
    Так хотелось бы собрать их всех разом и определить сильнейших по гамбургскому счету...
     
  2. thenewone
    Оффлайн

    thenewone Евгений Манев

    Репутация:
    1
    Рыбка играла, Crest
    под названием Rajlich
     
  3. Crest
    Оффлайн

    Crest Админ, МГ Команда форума Команда форума

    Репутация:
    628
    Так это была Рыбка?
    Так почему же она не выиграла, если в рейтинг-листах так уверенно лидирует? Была не в форме, то есть на плохом железе или как?
    Почему не играет Фриц, давно всем ясно. Эта программа, как старый охотник, боится рисковать своим авторитетом. Ибо выиграть о-очень трудно. А потерять остатки былой исключительности - проще простого. И тогда продажи резко сократятся.
     
  4. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Количесто партий на подобных чемпионатах ничтожно мало, по сравнению с тем, что наигрывается для рейтинг-листов. Кроме этого, условия и железо для всех программ разные.
    Вот:
    Zappa 512x1 Intel 1.6GHz No
    Rajlich 4x2 AMD 2.4GHz No
    Shredder 4x2 AMD 2.6GHz Yes
    Junior 2x2 Intel 3 GHz Yes
    Spike 2x2 AMD 2.0GHz Yes
    Crafty 4x2 AMD 2.4GHz Yes
    DIEP 2x2 AMD 2.4GHz Yes
    Ikarus 2x2 AMD 1.8GHz Yes
    Jonny 1x2 AMD 2.5GHz Yes
    ParSOS 1x1 AMD 2 GHz No
    IsiChess MMX 1x1 AMD 2.2GHz No
    Delphi 1x1 Intel 3.0GHz No
    Chiron 1x1 AMD 2.2GHz No
    Uragano3d 1x1 AMD 2 GHz No
    FIBChess 1x1 AMD 2 GHz No
    Chaturanga 1x1 Intel 3.2GHz No

    С какой стати, Zappa (прошлый чемпион) играл с 512 процессами?
    Почему одни программы использовали Tablebase (Yes или NO), а другие нет? Да, и дебютная книга у Junior явно лучше!
     
  5. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Состав вообще не ровный. FIBChess,Chaturanga,Uragano3d - статисты. Нет не только fritz, но и
    List, King, Hiarcs, Gandalf, Fruit!!!! и тд.

    На Playchess.com появился уже Deep Junior 10. И что вы думаете? Почти никакой против Рыбок,по крайней мере, в блице.
     
  6. Crest
    Оффлайн

    Crest Админ, МГ Команда форума Команда форума

    Репутация:
    628
    Проверьте на контроле помедленнее.
    Самое важное - как он смотрится на фоне своей же 9-й версии?
     
  7. Kirr
    Оффлайн

    Kirr Команда форума Команда форума

    Репутация:
    8
    Почему выиграл Юниор а не Рыбка: 1. Все движки играли с собственной дебютной книжкой. В состязаниях такого уровня дебютная книжка имеет очень большое значение. Ведь всё решают одна-две партии (с основными конкурентами). 2. Все движки играли на своём железе. (2.5. Я не могу на 100% исключить возможность читерства - помощи человека). 3. Простая неточность вызванная малым количеством партий.

    Любой даже один из этих факторов достаточен чтобы игнорировать ЧМ в вопросе сравнения движков. Для сравнения движков гораздо надёжнее использовать рейтинги построенные на основании тысяч партий, на одинаковом железе, с общей книжкой и базами окончаний. Например наши тесты: CCRL 40/40. :)
     
  8. Мобуту
    Оффлайн

    Мобуту спаситель нации баннер

    Репутация:
    141
    "6 The 14th World Computer Chess Championship was held at the end of May this year, and the winner was the program Deep Junior."

    Чемпионат был ещё в мае, в соответствующей теме вроде все всё высказали. Я там даже одну партейку из чемпионата привёл, чтобы стало ясно, что это за мероприятие такое. На всякий случай поднял ту тему. Сейчас на www.chessbase.com "вспомнили" про этот чемпионат чтобы повыгоднее впарить своего Джуниора-10. Согласен с Kirr: таким чемпионатам - ноль внимания.

    2 Kirr: Про контроли согласен с Crest: медленные контроли - вещь более интересная, чем активные и тем более блиц. Понятно, статистику набрать раза в три труднее, но результаты зато будут более, как бы сказать, солидными.
     
  9. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    "медленные контроли - вещь более интересная, чем активные и тем более блиц."

    Так, это ж понятия субъективные! Сегодня я тестирую в медленных а через 3 года окажется, что я в блитц тестировал :) Ибо мощность компов растёт очень быстро.
     
  10. Мобуту
    Оффлайн

    Мобуту спаситель нации баннер

    Репутация:
    141
    Через 3 года теперешние проги будут нужны разве что любителям антиквариата. А сейчас хотелось бы знать, как соотносятся современные проги на современном железе при классическом контроле времени.
     
  11. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Но именно столько уйдёт на тестирование и составление рейтингов.

    Небольшой расчёт:
    Допустим, одна партия длится примерно 5 часов, мы играем примерно 100 партий для каждой проги и хотим составить рейтинг для 50 прог. В этом случае, мы получим примерно, опять же, более 2,5 лет чистого времени тестирования для одного компа (5*100*50/(24*30*12). А, ведь, на CCRL тестируется больше, чем 50 программ и их версий(около 100), и партий для каждой проги больше, чем 100. Плюс тесты в других контролях.

    В общем, было бы очень интересно, но это врядли осуществимо
     
  12. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Через 3 года теперешние проги будут нужны разве что любителям антиквариата. А сейчас хотелось бы знать, как соотносятся современные проги на современном железе при классическом контроле времени.

    Так же как и в блиц :)

    Я собрал данные по движкам с разными контролями (CEGT) Практически у всех отклонение в пределах погрешности.

    http://www.kasparovchess.crestbook.com/viewtopic.php?pid=19930#p19930
     
  13. Мобуту
    Оффлайн

    Мобуту спаситель нации баннер

    Репутация:
    141
    2 Fruit:

    Если предположить, что все движки уже оценены и вышел новый (Junior 10), то его в принципе можно оценить сотней партий. Погрешность уже небольшой будет, а потребуется на такое порядка 1 комьютер*месяц.

    Если надо оценить 50 прог (надо ли?), то понадобится что-то типа 50 компов*месяц. Единоразово! А дальше можно работать в спокойном режиме только с новыми движками.
     
  14. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    В том то и дело что не получают... Я уже устал выкладывать таблицу с отклонением...
    Посчитать Вам возможное отклонение на сотне партий? Оно весьма велико. Достаточно велико чтоб невозможно было сравнить движки в плотной группе (например пять ведущих движков исключая Рыбу)
     
  15. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Проги не люди. По словам Сергея Маркова, 100 партий мало, даже если разница в рейтинге 50 пунктов.
     
  16. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    С людьми тоже самое :) Только не все это понимают.
     
  17. atoku
    Оффлайн

    atoku Модератор

    Репутация:
    0
    Люди обычно играют 100-200 партий в год
     
  18. Мобуту
    Оффлайн

    Мобуту спаситель нации баннер

    Репутация:
    141
    2 Fruit:

    Ну да, случайное отклонение от среднего результата в сотне партий порядка нескольких очков. Блиц позволит заменить, скажем, ошибку в 5% на 1%. Но сколько при этом вскочит разных дурацких зевков, сделанных после обдумывания хода в течение нескольких секунд? Тут речь уже не о процентах пойдёт, а о десятках процентов. Это будут партии, завершившиеся незакономерно.

    А чем, собственно, люди так уж от прог отличаются в плане рейтинга? Примерно те же погрешности, только сила ещё скачет со временем.
     
  19. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Причем тут зевки? Они не изменяют допустимый интервал :) Не изменяют корректность рейтинга!!!!
    Какая погрешность по сотне партий с длинным контролем - точно такая же и по минуте на партию!!!!
    То же самое и с тысячью партий.
    И не важно кто играет, человек или программа, контроль 1 минута на партию или час на ход.
    Если вероятность исхода 1/3,1/3,1/3 то при сотне партий равных соперников допустимый интервал, и среднеквадратичное - будет точь-в-точь одинаковое, причем точно такое-же как и если мы будем использовать генератор случайных чисел или кубик.
    А рейтинг скачет несильно. Можно оценить что от снижения контроля в 10 раз мы можем получить изменение силы движка (в виду его особенностей, и предрасположенности к определенному контролю) максимум где-то пунктов на 10 (Для Элиты)
    Так разница в достоверности между 100 и 1000 партиями значительно превышает эти 10 пунктов.
    Поэтому и тестируют авторы движки с коротким контролем (так как достоверность выше, и мы четче можем отследить пользу от того или иного метода), а кому как не им знать как лучше тестировать :)
     
  20. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Ну, я вполне согласен, что классика не сравнима с блитц.......

    Главное различие человека от компа - психология.
    Напр, один известный немецкий тестер, говоря о непригодности тестирования с малым количеством партий, рассказывал, что однажды одна прога выигрывала у другой со счётом 10:0, но, в итоге, матч закончился в ничью или проигрывающая строна даже выиграла (жаль, я тот пост не сохранил и теперь не могу вспомнить достоверно).
    Так вот, у людей такого бы точно не получилось. После фишеровского 6:0, Ларсен и Тайманов продолжать борьбу явно не могли и никогда ПОСЛЕ не играли так, как ДО.
     
  21. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Это просто они глючат одинаково часто :)
     
  22. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Да, единственный фактор - психологический... Но на самом деле в матче (или турнире) психически устойчивых соперников - психологический фактор сводится к нулю... Так же как в Деберц (Удар) например, да и в блиц (то есть там где возможно наиграть действительно много партий).
    Более слабый (человек!) может выиграть и десять партий подряд, но в итоге всё встанет на свои места... После достаточного числа партий.
     
  23. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    ТАк в том то и дело, что снижение контроля сказывается примерно одинаково для всех движков - поэтому изменения в силе (Не достоверности! Она не меняется, по-разному падает сила движков!) для разных движков примерно одинаково.
     
  24. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Забыл - есть еще одна разница между человеком и программы... При изменении контроля времени отностительная сила человека подвержена значительно большим колебаниям. Поэтому результат матча двух людей в блиц может значительно отличаться от результата с длинным контролем (соответственно значительно отличается разница в силе)
     
  25. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Просто потому, что более сильный (человек!) может его побить :D

    Хотя любопытно было бы взглянуть на партии такого матча, хоть и в блице. Интересно, был ли прецедент?
     
  26. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Итак,
    1 Психология.
    2 Колебания в силе, при уменьшении времени на обдумывание.
    3 Усталость.
    4 Подготовка к матчам и партиям. Сколько ело гросс прибавляется себе, если готовится к матчу?

    Уже много различий!
     
  27. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Да, но достоверность от этого не меняется. 10 партий насколько недостоверны для программ, настолько-же недостоверны и для человека. А матчи на первенство мира - обыкновенная рулетка... Хотя у сильнейшего вероятность победить и больше, но это всего-лишь вероятность. Причем и не такая уж и большая (при маленькой разнице в силе).
     
  28. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    ТАк в том то и дело, что снижение контроля сказывается примерно одинаково для всех движковp
    Вот как ты теперь заговорил :) А раньше что говорил? Что заставило изменить свою точку зрения?
    Вполне возможно, что бывают движки с большим дисбалансом. Но их очень мало.
     
  29. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Не менял я её :) Я говорил, что дисбаланс есть у относительно Слабых!!! движков. И что у них-
    1. Меньше растет сила с увеличением контроля "в среднем"
    2. Намного больше разброс силы (разброс коэффициента роста силы с увеличением контроля) по сравнению с сильными движками :)
     
  30. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    А раньше позиционировать свой движок как несбалансированный, считалось очень модным. Например: Pro Deo, The King, Gromit, Diep. Может еще кого забыл. И все они намекали, что "умный" движок не может хорошо играть блиц. :)
     
  31. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Каждый приукрашивает свой движок как может... :)
    проше всего заявить что движок плохо играет в блиц, так как он очень "умный", а вот проведите 1000 партий с разными соперниками с контрлем час на ход, и убедитесь что мой движок лучший :))))
    У меня так с версией 0.08 вышло. Слишком умная :) Играет на 50-70 пунктов слабее, чем 0.07 Но при часе на ход скорей всего догонит по силе :)
     
  32. Kirr
    Оффлайн

    Kirr Команда форума Команда форума

    Репутация:
    8
    Винсент (автор Diep) и не намекает. Это до сих пор его любимая байка что его движок предназначен выигрывать чемпионаты мира, что он не для блица и т.д. Так как он к тому же чемпион по 20-пальцевому набору текста, то его очень сложно в чём-то убедить. :)

    Насчёт разницы между контролями. Выбор контроля времени для тестирования это всегда поиск баланса между качественными интересными партиями и достаточным количеством партий для статистики. Если тестировать в одиночку то выбирать можно только между блицем и буллетом (либо тестировать два-три-пять движков). Если участников несколько то можно пробовать средние контроли (наш 40/40 например). Особенно длинные контроли времени я считаю непрактичными так как придётся ограничивать число движков.

    Почему я не люблю блиц - не так ярко проявляются качества движков. Больше выигрывает счёт чем стратегия - лишний полуход глубины поиска имеет решающее значение. В контроле 40/40 любая простая тактика уже более менее контролируется с обеих сторон поэтому идёт борьба замыслов, понимания (или его отсутствия). :)
     
  33. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Кроме этого, традиционно принято считать, что те движки, которые не являются атакующими (Fruit и др)
    также существенно увеличивают силу при увеличении контроля.
    Напр, здесь можно сранить рейтинги Fruit в контроле 4+2 и 90+30:
    http://www.geocities.com/sedatchess1/index.html
    У Wildcat там 2589 и 2590, а у Fruit 2.2.1 2768 и 2816, соответственно.
     
  34. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    Для 90+30 можно считать рейтингов нет, т.к. слишком малое число игр.
    Можно сравнить результаты CEGT. Там 2769 (для 40/4) и 2776 для (40/40). В обоих случаях около 6500 партий.
     
  35. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    90+30 по круче 40/40 будет :), хотя и не попрёшь против 6500 партий. :)