Спортивные новости. Чемпионаты среди программ.

Discussion in 'Машинное отделение' started by Crest, 10 Aug 2006.

  1. TopicStarter Overlay

    Crest Админ, МГ

    • Команда форума
    Member Since:
    05.02.2006
    Message Count:
    57.245
    Likes Received:
    21.136
    Репутация:
    628
    Location:
    Москва, Россия
    Оффлайн
    Оказывается, недавно состоялся чемпионат мира среди программ. Многократный чемпион Джуниор подтвердил свой высокий класс - http://www.chessbase.com/newsdetail.asp?newsid=3277
    Правда, Рыбешка, Фриц и некоторые другие программы не приняли участие. А жаль!
    Так хотелось бы собрать их всех разом и определить сильнейших по гамбургскому счету...
  2. thenewone Евгений Манев

    • Участник
    • Старожил
    Member Since:
    09.06.2006
    Message Count:
    3.173
    Likes Received:
    18
    Репутация:
    1
    Location:
    Пловдив
    Оффлайн
    Рыбка играла, Crest
    под названием Rajlich
  3. TopicStarter Overlay

    Crest Админ, МГ

    • Команда форума
    Member Since:
    05.02.2006
    Message Count:
    57.245
    Likes Received:
    21.136
    Репутация:
    628
    Location:
    Москва, Россия
    Оффлайн
    Так это была Рыбка?
    Так почему же она не выиграла, если в рейтинг-листах так уверенно лидирует? Была не в форме, то есть на плохом железе или как?
    Почему не играет Фриц, давно всем ясно. Эта программа, как старый охотник, боится рисковать своим авторитетом. Ибо выиграть о-очень трудно. А потерять остатки былой исключительности - проще простого. И тогда продажи резко сократятся.
  4. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    Количесто партий на подобных чемпионатах ничтожно мало, по сравнению с тем, что наигрывается для рейтинг-листов. Кроме этого, условия и железо для всех программ разные.
    Вот:
    Zappa 512x1 Intel 1.6GHz No
    Rajlich 4x2 AMD 2.4GHz No
    Shredder 4x2 AMD 2.6GHz Yes
    Junior 2x2 Intel 3 GHz Yes
    Spike 2x2 AMD 2.0GHz Yes
    Crafty 4x2 AMD 2.4GHz Yes
    DIEP 2x2 AMD 2.4GHz Yes
    Ikarus 2x2 AMD 1.8GHz Yes
    Jonny 1x2 AMD 2.5GHz Yes
    ParSOS 1x1 AMD 2 GHz No
    IsiChess MMX 1x1 AMD 2.2GHz No
    Delphi 1x1 Intel 3.0GHz No
    Chiron 1x1 AMD 2.2GHz No
    Uragano3d 1x1 AMD 2 GHz No
    FIBChess 1x1 AMD 2 GHz No
    Chaturanga 1x1 Intel 3.2GHz No

    С какой стати, Zappa (прошлый чемпион) играл с 512 процессами?
    Почему одни программы использовали Tablebase (Yes или NO), а другие нет? Да, и дебютная книга у Junior явно лучше!
  5. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    Состав вообще не ровный. FIBChess,Chaturanga,Uragano3d - статисты. Нет не только fritz, но и
    List, King, Hiarcs, Gandalf, Fruit!!!! и тд.

    На Playchess.com появился уже Deep Junior 10. И что вы думаете? Почти никакой против Рыбок,по крайней мере, в блице.
  6. TopicStarter Overlay

    Crest Админ, МГ

    • Команда форума
    Member Since:
    05.02.2006
    Message Count:
    57.245
    Likes Received:
    21.136
    Репутация:
    628
    Location:
    Москва, Россия
    Оффлайн
    Проверьте на контроле помедленнее.
    Самое важное - как он смотрится на фоне своей же 9-й версии?
  7. Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    Почему выиграл Юниор а не Рыбка: 1. Все движки играли с собственной дебютной книжкой. В состязаниях такого уровня дебютная книжка имеет очень большое значение. Ведь всё решают одна-две партии (с основными конкурентами). 2. Все движки играли на своём железе. (2.5. Я не могу на 100% исключить возможность читерства - помощи человека). 3. Простая неточность вызванная малым количеством партий.

    Любой даже один из этих факторов достаточен чтобы игнорировать ЧМ в вопросе сравнения движков. Для сравнения движков гораздо надёжнее использовать рейтинги построенные на основании тысяч партий, на одинаковом железе, с общей книжкой и базами окончаний. Например наши тесты: CCRL 40/40. :)
  8. Мобуту спаситель нации

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    15.02.2006
    Message Count:
    6.916
    Likes Received:
    3.986
    Репутация:
    141
    Location:
    Заир
    Оффлайн
    "6 The 14th World Computer Chess Championship was held at the end of May this year, and the winner was the program Deep Junior."

    Чемпионат был ещё в мае, в соответствующей теме вроде все всё высказали. Я там даже одну партейку из чемпионата привёл, чтобы стало ясно, что это за мероприятие такое. На всякий случай поднял ту тему. Сейчас на www.chessbase.com "вспомнили" про этот чемпионат чтобы повыгоднее впарить своего Джуниора-10. Согласен с Kirr: таким чемпионатам - ноль внимания.

    2 Kirr: Про контроли согласен с Crest: медленные контроли - вещь более интересная, чем активные и тем более блиц. Понятно, статистику набрать раза в три труднее, но результаты зато будут более, как бы сказать, солидными.
  9. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    "медленные контроли - вещь более интересная, чем активные и тем более блиц."

    Так, это ж понятия субъективные! Сегодня я тестирую в медленных а через 3 года окажется, что я в блитц тестировал :) Ибо мощность компов растёт очень быстро.
  10. Мобуту спаситель нации

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    15.02.2006
    Message Count:
    6.916
    Likes Received:
    3.986
    Репутация:
    141
    Location:
    Заир
    Оффлайн
    Через 3 года теперешние проги будут нужны разве что любителям антиквариата. А сейчас хотелось бы знать, как соотносятся современные проги на современном железе при классическом контроле времени.
  11. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    Но именно столько уйдёт на тестирование и составление рейтингов.

    Небольшой расчёт:
    Допустим, одна партия длится примерно 5 часов, мы играем примерно 100 партий для каждой проги и хотим составить рейтинг для 50 прог. В этом случае, мы получим примерно, опять же, более 2,5 лет чистого времени тестирования для одного компа (5*100*50/(24*30*12). А, ведь, на CCRL тестируется больше, чем 50 программ и их версий(около 100), и партий для каждой проги больше, чем 100. Плюс тесты в других контролях.

    В общем, было бы очень интересно, но это врядли осуществимо
  12. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Через 3 года теперешние проги будут нужны разве что любителям антиквариата. А сейчас хотелось бы знать, как соотносятся современные проги на современном железе при классическом контроле времени.

    Так же как и в блиц :)

    Я собрал данные по движкам с разными контролями (CEGT) Практически у всех отклонение в пределах погрешности.

    http://www.kasparovchess.crestbook.com/viewtopic.php?pid=19930#p19930
  13. Мобуту спаситель нации

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    15.02.2006
    Message Count:
    6.916
    Likes Received:
    3.986
    Репутация:
    141
    Location:
    Заир
    Оффлайн
    2 Fruit:

    Если предположить, что все движки уже оценены и вышел новый (Junior 10), то его в принципе можно оценить сотней партий. Погрешность уже небольшой будет, а потребуется на такое порядка 1 комьютер*месяц.

    Если надо оценить 50 прог (надо ли?), то понадобится что-то типа 50 компов*месяц. Единоразово! А дальше можно работать в спокойном режиме только с новыми движками.
  14. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    В том то и дело что не получают... Я уже устал выкладывать таблицу с отклонением...
    Посчитать Вам возможное отклонение на сотне партий? Оно весьма велико. Достаточно велико чтоб невозможно было сравнить движки в плотной группе (например пять ведущих движков исключая Рыбу)
  15. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    Проги не люди. По словам Сергея Маркова, 100 партий мало, даже если разница в рейтинге 50 пунктов.
  16. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    С людьми тоже самое :) Только не все это понимают.
  17. atoku Модератор

    • Команда форума
    Member Since:
    05.02.2006
    Message Count:
    2.949
    Likes Received:
    9
    Репутация:
    0
    Location:
    USA
    Оффлайн
    Люди обычно играют 100-200 партий в год
  18. Мобуту спаситель нации

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    15.02.2006
    Message Count:
    6.916
    Likes Received:
    3.986
    Репутация:
    141
    Location:
    Заир
    Оффлайн
    2 Fruit:

    Ну да, случайное отклонение от среднего результата в сотне партий порядка нескольких очков. Блиц позволит заменить, скажем, ошибку в 5% на 1%. Но сколько при этом вскочит разных дурацких зевков, сделанных после обдумывания хода в течение нескольких секунд? Тут речь уже не о процентах пойдёт, а о десятках процентов. Это будут партии, завершившиеся незакономерно.

    А чем, собственно, люди так уж от прог отличаются в плане рейтинга? Примерно те же погрешности, только сила ещё скачет со временем.
  19. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Причем тут зевки? Они не изменяют допустимый интервал :) Не изменяют корректность рейтинга!!!!
    Какая погрешность по сотне партий с длинным контролем - точно такая же и по минуте на партию!!!!
    То же самое и с тысячью партий.
    И не важно кто играет, человек или программа, контроль 1 минута на партию или час на ход.
    Если вероятность исхода 1/3,1/3,1/3 то при сотне партий равных соперников допустимый интервал, и среднеквадратичное - будет точь-в-точь одинаковое, причем точно такое-же как и если мы будем использовать генератор случайных чисел или кубик.
    А рейтинг скачет несильно. Можно оценить что от снижения контроля в 10 раз мы можем получить изменение силы движка (в виду его особенностей, и предрасположенности к определенному контролю) максимум где-то пунктов на 10 (Для Элиты)
    Так разница в достоверности между 100 и 1000 партиями значительно превышает эти 10 пунктов.
    Поэтому и тестируют авторы движки с коротким контролем (так как достоверность выше, и мы четче можем отследить пользу от того или иного метода), а кому как не им знать как лучше тестировать :)
  20. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    Ну, я вполне согласен, что классика не сравнима с блитц.......

    Главное различие человека от компа - психология.
    Напр, один известный немецкий тестер, говоря о непригодности тестирования с малым количеством партий, рассказывал, что однажды одна прога выигрывала у другой со счётом 10:0, но, в итоге, матч закончился в ничью или проигрывающая строна даже выиграла (жаль, я тот пост не сохранил и теперь не могу вспомнить достоверно).
    Так вот, у людей такого бы точно не получилось. После фишеровского 6:0, Ларсен и Тайманов продолжать борьбу явно не могли и никогда ПОСЛЕ не играли так, как ДО.
  21. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    Это просто они глючат одинаково часто :)
  22. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Да, единственный фактор - психологический... Но на самом деле в матче (или турнире) психически устойчивых соперников - психологический фактор сводится к нулю... Так же как в Деберц (Удар) например, да и в блиц (то есть там где возможно наиграть действительно много партий).
    Более слабый (человек!) может выиграть и десять партий подряд, но в итоге всё встанет на свои места... После достаточного числа партий.
  23. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    ТАк в том то и дело, что снижение контроля сказывается примерно одинаково для всех движков - поэтому изменения в силе (Не достоверности! Она не меняется, по-разному падает сила движков!) для разных движков примерно одинаково.
  24. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Забыл - есть еще одна разница между человеком и программы... При изменении контроля времени отностительная сила человека подвержена значительно большим колебаниям. Поэтому результат матча двух людей в блиц может значительно отличаться от результата с длинным контролем (соответственно значительно отличается разница в силе)
  25. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    Просто потому, что более сильный (человек!) может его побить :D

    Хотя любопытно было бы взглянуть на партии такого матча, хоть и в блице. Интересно, был ли прецедент?
  26. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    Итак,
    1 Психология.
    2 Колебания в силе, при уменьшении времени на обдумывание.
    3 Усталость.
    4 Подготовка к матчам и партиям. Сколько ело гросс прибавляется себе, если готовится к матчу?

    Уже много различий!
  27. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Да, но достоверность от этого не меняется. 10 партий насколько недостоверны для программ, настолько-же недостоверны и для человека. А матчи на первенство мира - обыкновенная рулетка... Хотя у сильнейшего вероятность победить и больше, но это всего-лишь вероятность. Причем и не такая уж и большая (при маленькой разнице в силе).
  28. WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    ТАк в том то и дело, что снижение контроля сказывается примерно одинаково для всех движковp
    Вот как ты теперь заговорил :) А раньше что говорил? Что заставило изменить свою точку зрения?
    Вполне возможно, что бывают движки с большим дисбалансом. Но их очень мало.
  29. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Не менял я её :) Я говорил, что дисбаланс есть у относительно Слабых!!! движков. И что у них-
    1. Меньше растет сила с увеличением контроля "в среднем"
    2. Намного больше разброс силы (разброс коэффициента роста силы с увеличением контроля) по сравнению с сильными движками :)
  30. WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    А раньше позиционировать свой движок как несбалансированный, считалось очень модным. Например: Pro Deo, The King, Gromit, Diep. Может еще кого забыл. И все они намекали, что "умный" движок не может хорошо играть блиц. :)
  31. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Каждый приукрашивает свой движок как может... :)
    проше всего заявить что движок плохо играет в блиц, так как он очень "умный", а вот проведите 1000 партий с разными соперниками с контрлем час на ход, и убедитесь что мой движок лучший :))))
    У меня так с версией 0.08 вышло. Слишком умная :) Играет на 50-70 пунктов слабее, чем 0.07 Но при часе на ход скорей всего догонит по силе :)
  32. Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    Винсент (автор Diep) и не намекает. Это до сих пор его любимая байка что его движок предназначен выигрывать чемпионаты мира, что он не для блица и т.д. Так как он к тому же чемпион по 20-пальцевому набору текста, то его очень сложно в чём-то убедить. :)

    Насчёт разницы между контролями. Выбор контроля времени для тестирования это всегда поиск баланса между качественными интересными партиями и достаточным количеством партий для статистики. Если тестировать в одиночку то выбирать можно только между блицем и буллетом (либо тестировать два-три-пять движков). Если участников несколько то можно пробовать средние контроли (наш 40/40 например). Особенно длинные контроли времени я считаю непрактичными так как придётся ограничивать число движков.

    Почему я не люблю блиц - не так ярко проявляются качества движков. Больше выигрывает счёт чем стратегия - лишний полуход глубины поиска имеет решающее значение. В контроле 40/40 любая простая тактика уже более менее контролируется с обеих сторон поэтому идёт борьба замыслов, понимания (или его отсутствия). :)
  33. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    Кроме этого, традиционно принято считать, что те движки, которые не являются атакующими (Fruit и др)
    также существенно увеличивают силу при увеличении контроля.
    Напр, здесь можно сранить рейтинги Fruit в контроле 4+2 и 90+30:
    http://www.geocities.com/sedatchess1/index.html
    У Wildcat там 2589 и 2590, а у Fruit 2.2.1 2768 и 2816, соответственно.
  34. WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    Для 90+30 можно считать рейтингов нет, т.к. слишком малое число игр.
    Можно сравнить результаты CEGT. Там 2769 (для 40/4) и 2776 для (40/40). В обоих случаях около 6500 партий.
  35. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    90+30 по круче 40/40 будет :), хотя и не попрёшь против 6500 партий. :)

Share This Page