Матч Комодо – Стокфиш, 22 ноября 2013. И не только

Тема в разделе "Зрительный зал", создана пользователем SimpleSimple, 25 ноя 2013.

  1. SimpleSimple
    Оффлайн

    SimpleSimple Учаcтник

    Репутация:
    4
    Как вы думаете у кого из соперников раньше сдадут нервы?
     
  2. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
  3. E-not
    Оффлайн

    E-not Он видел динозавров

    Репутация:
    31
    А вот кстати вопрос. Говорят элитный гросс всегда может засушить партию. Если это так, то интересно каков будет счет например Карлсена с Комодо если человеку считать ничьи за победы?
     
  4. Aprilia
    Оффлайн

    Aprilia баннер

    Репутация:
    1.434
    А если считать ничью за две победы? А черными и вовсе за три?
     
    IvanHoe нравится это.
  5. IvanHoe
    Оффлайн

    IvanHoe Зарегистрирован

    Репутация:
    0
    С вероятностью 100% победит Карлсен. Даже Сергей Юрьевич вполне легко делал ничью с Гудини :crest:
     
  6. Bulldozer
    Оффлайн

    Bulldozer Влад

    Репутация:
    77
    Рейтинг-гуру могли бы и сами сделать прикидки. :)
    Вероятное кол-во очков Карлсена в одной партии по обычной схеме будет E = 1 / (1 + 10^((R2 - R1)/400)) по Эло.
    А по схеме, где ничьи Карлсена считаются за полное очко, E* = E + 0.5*d, где d - вероятность ничьей.
    Для d нет стандартной формулы. Оно должно зависеть от разницы силы игры соперников. Я когда-то решил использовать кусочно-линейную аппроксимацию:
    d = 2*d0*E при E < 0.5,
    d = 2*d0*(1 - E) при E >= 0.5, где d0 - вероятность ничьей в партии равных соперников данного уровня.
    Итого, E* = E + 0.5*d = E + 0.5*2*d0*E = E * (1 + d0).
    Если взять d0=0.6 и рейтинги R1=2872 и R2=3097, то для Карлсена
    E* = 1 / (1 + 10^((3097 - 2872)/400)) * (1 + 0.6) = 0.34.
    34% очков - до 12-й партии он бы не дожил. :)
     
  7. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    Осталось доказать, что R1 и R2 лежат на одной и той же шкале.
    Потому что получены они в совершенно разных рейтинг-пулах, между собой практически не пересекающихся.
     
  8. Bulldozer
    Оффлайн

    Bulldozer Влад

    Репутация:
    77
    А вроде есть рейтинг адекватный человеческому. Может, и не этот (взял со странички чемпионата). В общем, лопату я дал, дальше сами. :)
     
  9. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    Кажется, раньше таковым считался рейтинг SSDF, http://ssdf.bosjo.net/list.htm
    Не знаю, как сейчас.

    В любом случае, по порядку величины оценка верна.
    И ещё ясно, что против компьютеров у Карлсена катать на победу ничейные эндшпиля так просто не выйдет :)
     
    IvanHoe нравится это.
  10. Mustitz
    Оффлайн

    Mustitz баннер

    Репутация:
    37

    Откуда? Мне, пожалуйста, приведите хотя бы 1000 партий между компами и человеком в классику с обсчетом рейтинга.
     
  11. Bulldozer
    Оффлайн

    Bulldozer Влад

    Репутация:
    77
    SSDF has played several hundred games between computers and human players in serious tournaments and used these results to set a "correct" absolute level for the rating list according to Swedish conditions.

    Отсюда: http://www.chessusa.com/SSDF_FAQ.html

    Можете сами помочь общественности, если у вас есть устаканившийся рейтинг FIDE. Для этого нужно сыграть хотя бы пару десятков партий с любым движком, примерно равным вам по силам (в том же Комодо покрутить настройки). Потом по сотне партий между этим движком A и движком B, который несколько сильнее. Потом между B и C, который ещё сильнее и т.д., пока не придёте к полноценному Комодо. По этим результатам можно будет вычислить рейтинг Комодо. Я бы сам так сделал, но у меня только есть блиц-рейтинг по 9 партиям.
     
  12. Bulldozer
    Оффлайн

    Bulldozer Влад

    Репутация:
    77
    Если это про случай, когда Сергей Юрьевич сыграл вничью со своим телефоном, то он тогда перехаживал пару раз, так что не катит.
    Но зато можно вспомнить про сильного мастера ФИДЕ Б. Иванова - у него вроде кое-какая статистика с Гудини и Рыбкой есть.
     
  13. Crest
    Оффлайн

    Crest Админ, МГ Команда форума Команда форума

    Репутация:
    630
    Ничью с Гудиней на своем сильном компе я делал, когда первыми ходами насильно начинали партию с не очень сильного гамбита. Я пешку брал и отбивался. То есть, была фора в мою пользу.
    А с телефоном - да, это были обычные партии. У меня новенький Sony Xperia Z1 (там вроде четыре ядрышка) и там уже была установлена некая программа с безликим названием Chess Game. Я выбираю самый сильный уровень этой проги и катаю. Очень тяжело, но ничьи делать вполне реально. Иногда делаю. :)
     
  14. Фримен
    Оффлайн

    Фримен Учаcтник

    Репутация:
    7
    Не верю. Может быть у Chess Game движок Stockfish? Всё равно не верю. Все эти программы с телефонов держатся за счёт книги. За её пределами кушают пешки и получают мат как в старину. Не верю и всё тут.
     
  15. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    Это немного не так.
    Под Андроид уже портированы и Стокфиш, и Тога, и много других движков (включая даже GreKo :) )
    https://play.google.com/store/apps/details?id=com.google.android.chess&hl=ru

    И играют они на хороших телефонах... ну, вот как на PC 5-летней давности.
     
    IvanHoe нравится это.
  16. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
  17. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    Хотя лично я довольствуюсь старым добрым Chess Genius. Десять лет назад он был у меня на Палме, сейчас - на Sony. Единственная лицензионная шахматная программа, которую я купил, кстати.
    А что ещё надо перворазряднику в отставке :)
     
  18. Фримен
    Оффлайн

    Фримен Учаcтник

    Репутация:
    7
    Не верю!!!:dash:
    GreKo это же ваш? Всё хочу попробовать. Где для десктопа достать?:)
     
  19. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    ГреКо мой, но это не топ-класс. Его рейтинг в районе 2500 CCRL. Это на PC. Брать там же, где всегда: http://greko.110mb.com
    На Андроиде на 150 пунктов меньше, согласно вот этому рейтинг-листу: http://www.aartbik.com/MISC/tour13.html

    Есть для Андроида и посильнее движки, вот вам первая пятёрка:
    1 Critter 1.6a 32-bit 2891
    2 Stockfish 2.3.1 2854
    3 Toga II 3.0 2763
    4 Gaviota v0.86 2689
    5 Komodo DEV 2670
     
    Фримен нравится это.
  20. Rom
    Оффлайн

    Rom Старожил

    Репутация:
    28
    Я как-то тестировал так. За отсчет брал свой рейтинг (примерно 1200) и далее от движка к движку по цепочке вплоть до Fritz 5.32, по 200 партий. К концу тестов движки определенно пошли на опережение своих реальных рейтингов. Сейчас точно не помню, надо искать тесты, но кажется пунктов на 300.

    Кстати SSDF рейтинг тоже с годами корректировали. Примерно в 90-м году, его калибровали по перворазрядникам. А когда 10 лет спустя откалибровали по новой (видимо по результатам партий с более сильными шахматистами), то рейтинг пришлось осаживать на 100 пунктов ниже.
     
  21. Bulldozer
    Оффлайн

    Bulldozer Влад

    Репутация:
    77
    Наверное, нужно усложнить метод. Возможно, стоит скрещивать не только соседние по силе движки, но и вообще все, даже достаточно далёкие, чтобы получше моделировать реальный рейтинговый мир. А так, наверное, ошибка накопилась. В реале средний результат в 0.64 очка может соответствовать не 100 пунктам, а, например, 85 (а "компенсируется" это на других рейтинговых разницах). Тогда если выстроить лесенку движков с разницами по 100 пунктов, то на 20 ступеньках от 1200 до 3200 получим 20*15 = 300 пунктов несоответствия с реальным миром.
    Да и 1200, наверное, недостаточно высокий рейтинг, чтобы ожидать нормальную точность в топе листа. Если взять человека с 2200, то ошибка теоретически будет вдвое меньше.
     
  22. ubaldus
    Оффлайн

    ubaldus Учаcтник

    Репутация:
    -2
    Комодо - Магнус Карлсен компьютерного мира! Только что перекатал Стокфиш и белыми, и черными (!!) в лондонской системе (1. d4 Nf6 2. Nf3 e6 3. Bf4 d5 4. e3 ), и ведет 14.5:11.5 (+7-4=15).

    На длинном контроле сказываются все знания, которые Марк Кауфман и Дон Дэйли вложили в Комодо. Комодо в миттельшпиле добивает только до глубины 25, а Стокфиш 35 и больше - а прав обычно Комодо.

    Очень жаль, что Дон Дэйли уже не узнает об этом.
     
  23. Rom
    Оффлайн

    Rom Старожил

    Репутация:
    28
    Я думаю тут ошибка не накапливается, а скорее компенсируется. Если в одной паре 100 пунктов - это 85, то в следующей может оказаться что 100 пунктов - это уже например 115.
    Что касается тестирования движков с большей разницей в рейтинге, то тут наоборот - достоверность тестов с увеличением разницы в рейтинге уменьшается. (Это нетрудно проверить. Есть такая программка - Elostat 1.3 - она помимо рейтинга вычисляет и величину погрешности).
     
  24. Bulldozer
    Оффлайн

    Bulldozer Влад

    Репутация:
    77
    Я про следующее. Может оказаться так, что если поднять результаты всех игр с разницей между игроками в 100 пунктов, то среднее кол-во набираемых очков не 0.64, а меньше (например, соответствует разнице 85). Почему не по теории - 0.64? А потому что никто не обещал, что это работает на _всех_ разницах одинаково. Это работает в среднем. На 100 пунктах разницы имеем недобор очков, а на 50, например, перебор. А в среднем всё компенсируется.
    И вот, если мы будем всё время скрещивать движки с примерно одной и той же разницей в силе, то будем эту ошибку только накапливать.

    Вообще, неплохо взять статистику результатов игр и плясать от неё, а не от формул. То есть. Играют два движка матч. У движка A рейтинг мы уже определили. Нужно определить рейтинг движка B. Сыграли они матч с определённым результатом, и мы смотрим в статистику людских партий, скольким пунктам разницы такой результат лучше всего соответствует. И присваиваем рейтинг движку B соответственно этому.
     
  25. Rom
    Оффлайн

    Rom Старожил

    Репутация:
    28
    Не могу понять. Вы хотите сказать что нормальное распределение которое заложил в основу рейтинга профессор Эло не совсем соответствует реальному распределению силы игроков? Ну тогда могу сказать что в принципе у меня в парах движков разница в рейтинге колебалась в довольно широких пределах - от 70 эло до 338 (я нашел результаты). А общий итог был такой:
    - оценка: 1200 (я) - 2640 (Fritz 5.32).
    - тесты: 1200 => +100+245+338+215+117+70+241+296 => 2822.
     
  26. Bulldozer
    Оффлайн

    Bulldozer Влад

    Репутация:
    77
    Игрока, а не игроков. Он не задавал распределение силы игроков в популяции (оно зависит от игроков и может быть произвольным), он сделал допущение о нормальном распределении силы одного игрока. Да, не совсем соответствует. И сейчас от нормального ушли к extreme value distribution (что даёт логистическое распр-е при взятии разницы), что, впрочем, даёт совсем маленькие отличия. Но причина неудачи эксперимента явно не в этом. И я не знаю в чём.
    Интересно бы проверить "транзитивность" силы движков. Если B набирает с A 64% (100 пунктов разницы), а C набирает с B тоже 64%, то будет ли C набирать с A 76% (200 пунктов)?
     
  27. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    Математика учит нас, что складываются квадраты ошибок. А потом из полученной суммы извлекается корень.
     
    Rom нравится это.
  28. Крокодил
    Оффлайн

    Крокодил Новичок

    Репутация:
    1
    Поздравляем Комодского Варана - нового чемпиона мира!
     
  29. Pyhesty
    Оффлайн

    Pyhesty Учаcтник

    Репутация:
    0
    Супер!) Поздравляем Комодо)
    Кстати, хотел поделиться, может быть и не прав...
    я посмотрел партии комодо и заметил, что глубина его анализа
    значительно меньше соперника, примерно на 10, это огромная
    величина, и в то же время он уверенно играет...
    Так же посмотрел апрельское интервью, где разработчики говорят
    о том, что к финалу постараются сделать многопроцессорный вариант
    движка, так вот вопрос, такая разница по глубине анализа состоит
    именно из-за того что использовался одноядерный движок?
    Ведь если это так, то у Комодо огромный потенциал...
     
  30. Bulldozer
    Оффлайн

    Bulldozer Влад

    Репутация:
    77
    50 пунктов Эло на каждое удвоение мощности.
     
  31. ubaldus
    Оффлайн

    ubaldus Учаcтник

    Репутация:
    -2
    Матч завершен, 25:23 в пользу Комодо (+10-8=30). В последней трети матча Стокфиш выиграл три миниматча - в защите Филидора, защите Боголюбова и сицилианке (Рихтер-Раузер), но спасти матч не смог. В закрытых позициях Комодо - это просто компьютерный Карпов какой-то. Вроде ничего и не происходит, а оценка идет вверх потихоньку.

    Интересно, что Дон (земля ему пухом) и Ларри таки выполнили обещание создать движок, который далеко не первый в буллет и блиц, а вот на длинном контроле похоже лучший в мире сейчас.
     
  32. Алексей_Я
    Оффлайн

    Алексей_Я Учаcтник

    Репутация:
    3
    Ну, а по-моему, счет 25:23 - это очень незначительный перевес, в пределах статистической погрешности. В другой раз "Стокфиш" мог бы лучше оказаться.
     
    Challenger Spy нравится это.
  33. Гость форума
    Оффлайн

    Гость форума Учаcтник

    Репутация:
    4
    Есть подозрение, что недавно выпущенный Гудини 4 все-таки сильнее. В рейтинг-листах, по крайней мере, разница заметна.
     
  34. Алексей_Я
    Оффлайн

    Алексей_Я Учаcтник

    Репутация:
    3
    А какой рейтинг у Гудини? Пришлите, пожалуйста, ссылку на рейтинг-листы!:hi:
     
  35. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    http://www.computerchess.org.uk/ccrl/4040/