Матч Комодо – Стокфиш, 22 ноября 2013. И не только

Тема в разделе "Зрительный зал", создана пользователем SimpleSimple, 25 ноя 2013.

  1. TopicStarter Overlay

    SimpleSimple Учаcтник

    • Участник
    Рег.:
    05.05.2011
    Сообщения:
    155
    Симпатии:
    11
    Репутация:
    4
    Оффлайн
    Как вы думаете у кого из соперников раньше сдадут нервы?
  2. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.474
    Симпатии:
    3.068
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
  3. E-not Он видел динозавров

    • Ветеран
    Рег.:
    03.10.2007
    Сообщения:
    6.730
    Симпатии:
    163
    Репутация:
    31
    Адрес:
    Москва,
    Оффлайн
    А вот кстати вопрос. Говорят элитный гросс всегда может засушить партию. Если это так, то интересно каков будет счет например Карлсена с Комодо если человеку считать ничьи за победы?
  4. Aprilia Заслуженный

    • Заслуженный
    • Ветеран
    Рег.:
    23.08.2009
    Сообщения:
    13.688
    Симпатии:
    14.936
    Репутация:
    1.434
    Оффлайн
    А если считать ничью за две победы? А черными и вовсе за три?
    IvanHoe нравится это.
  5. IvanHoe Зарегистрирован

    Рег.:
    25.11.2013
    Сообщения:
    4
    Симпатии:
    0
    Репутация:
    0
    Оффлайн
    С вероятностью 100% победит Карлсен. Даже Сергей Юрьевич вполне легко делал ничью с Гудини :crest:
  6. Bulldozer Влад

    • Участник
    • Старожил
    Рег.:
    27.12.2012
    Сообщения:
    1.077
    Симпатии:
    757
    Репутация:
    77
    Оффлайн
    Рейтинг-гуру могли бы и сами сделать прикидки. :)
    Вероятное кол-во очков Карлсена в одной партии по обычной схеме будет E = 1 / (1 + 10^((R2 - R1)/400)) по Эло.
    А по схеме, где ничьи Карлсена считаются за полное очко, E* = E + 0.5*d, где d - вероятность ничьей.
    Для d нет стандартной формулы. Оно должно зависеть от разницы силы игры соперников. Я когда-то решил использовать кусочно-линейную аппроксимацию:
    d = 2*d0*E при E < 0.5,
    d = 2*d0*(1 - E) при E >= 0.5, где d0 - вероятность ничьей в партии равных соперников данного уровня.
    Итого, E* = E + 0.5*d = E + 0.5*2*d0*E = E * (1 + d0).
    Если взять d0=0.6 и рейтинги R1=2872 и R2=3097, то для Карлсена
    E* = 1 / (1 + 10^((3097 - 2872)/400)) * (1 + 0.6) = 0.34.
    34% очков - до 12-й партии он бы не дожил. :)
  7. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.474
    Симпатии:
    3.068
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Осталось доказать, что R1 и R2 лежат на одной и той же шкале.
    Потому что получены они в совершенно разных рейтинг-пулах, между собой практически не пересекающихся.
  8. Bulldozer Влад

    • Участник
    • Старожил
    Рег.:
    27.12.2012
    Сообщения:
    1.077
    Симпатии:
    757
    Репутация:
    77
    Оффлайн
    А вроде есть рейтинг адекватный человеческому. Может, и не этот (взял со странички чемпионата). В общем, лопату я дал, дальше сами. :)
  9. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.474
    Симпатии:
    3.068
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Кажется, раньше таковым считался рейтинг SSDF, http://ssdf.bosjo.net/list.htm
    Не знаю, как сейчас.

    В любом случае, по порядку величины оценка верна.
    И ещё ясно, что против компьютеров у Карлсена катать на победу ничейные эндшпиля так просто не выйдет :)
    IvanHoe нравится это.
  10. Mustitz Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    30.09.2006
    Сообщения:
    3.527
    Симпатии:
    1.243
    Репутация:
    32
    Адрес:
    Киев
    Оффлайн

    Откуда? Мне, пожалуйста, приведите хотя бы 1000 партий между компами и человеком в классику с обсчетом рейтинга.
  11. Bulldozer Влад

    • Участник
    • Старожил
    Рег.:
    27.12.2012
    Сообщения:
    1.077
    Симпатии:
    757
    Репутация:
    77
    Оффлайн
    SSDF has played several hundred games between computers and human players in serious tournaments and used these results to set a "correct" absolute level for the rating list according to Swedish conditions.

    Отсюда: http://www.chessusa.com/SSDF_FAQ.html

    Можете сами помочь общественности, если у вас есть устаканившийся рейтинг FIDE. Для этого нужно сыграть хотя бы пару десятков партий с любым движком, примерно равным вам по силам (в том же Комодо покрутить настройки). Потом по сотне партий между этим движком A и движком B, который несколько сильнее. Потом между B и C, который ещё сильнее и т.д., пока не придёте к полноценному Комодо. По этим результатам можно будет вычислить рейтинг Комодо. Я бы сам так сделал, но у меня только есть блиц-рейтинг по 9 партиям.
  12. Bulldozer Влад

    • Участник
    • Старожил
    Рег.:
    27.12.2012
    Сообщения:
    1.077
    Симпатии:
    757
    Репутация:
    77
    Оффлайн
    Если это про случай, когда Сергей Юрьевич сыграл вничью со своим телефоном, то он тогда перехаживал пару раз, так что не катит.
    Но зато можно вспомнить про сильного мастера ФИДЕ Б. Иванова - у него вроде кое-какая статистика с Гудини и Рыбкой есть.
  13. Crest Админ, МГ

    • Команда форума
    Рег.:
    05.02.2006
    Сообщения:
    56.959
    Симпатии:
    20.601
    Репутация:
    596
    Адрес:
    Москва, Россия
    Оффлайн
    Ничью с Гудиней на своем сильном компе я делал, когда первыми ходами насильно начинали партию с не очень сильного гамбита. Я пешку брал и отбивался. То есть, была фора в мою пользу.
    А с телефоном - да, это были обычные партии. У меня новенький Sony Xperia Z1 (там вроде четыре ядрышка) и там уже была установлена некая программа с безликим названием Chess Game. Я выбираю самый сильный уровень этой проги и катаю. Очень тяжело, но ничьи делать вполне реально. Иногда делаю. :)
  14. Фримен Учаcтник

    • Участник
    Рег.:
    11.05.2010
    Сообщения:
    488
    Симпатии:
    122
    Репутация:
    7
    Оффлайн
    Не верю. Может быть у Chess Game движок Stockfish? Всё равно не верю. Все эти программы с телефонов держатся за счёт книги. За её пределами кушают пешки и получают мат как в старину. Не верю и всё тут.
  15. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.474
    Симпатии:
    3.068
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Это немного не так.
    Под Андроид уже портированы и Стокфиш, и Тога, и много других движков (включая даже GreKo :) )
    https://play.google.com/store/apps/details?id=com.google.android.chess&hl=ru

    И играют они на хороших телефонах... ну, вот как на PC 5-летней давности.
    IvanHoe нравится это.
  16. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.474
    Симпатии:
    3.068
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
  17. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.474
    Симпатии:
    3.068
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Хотя лично я довольствуюсь старым добрым Chess Genius. Десять лет назад он был у меня на Палме, сейчас - на Sony. Единственная лицензионная шахматная программа, которую я купил, кстати.
    А что ещё надо перворазряднику в отставке :)
  18. Фримен Учаcтник

    • Участник
    Рег.:
    11.05.2010
    Сообщения:
    488
    Симпатии:
    122
    Репутация:
    7
    Оффлайн
    Не верю!!!:dash:
    GreKo это же ваш? Всё хочу попробовать. Где для десктопа достать?:)
  19. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.474
    Симпатии:
    3.068
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    ГреКо мой, но это не топ-класс. Его рейтинг в районе 2500 CCRL. Это на PC. Брать там же, где всегда: http://greko.110mb.com
    На Андроиде на 150 пунктов меньше, согласно вот этому рейтинг-листу: http://www.aartbik.com/MISC/tour13.html

    Есть для Андроида и посильнее движки, вот вам первая пятёрка:
    1 Critter 1.6a 32-bit 2891
    2 Stockfish 2.3.1 2854
    3 Toga II 3.0 2763
    4 Gaviota v0.86 2689
    5 Komodo DEV 2670
    Фримен нравится это.
  20. Rom Старожил

    • Участник
    • Старожил
    Рег.:
    12.02.2012
    Сообщения:
    644
    Симпатии:
    275
    Репутация:
    27
    Оффлайн
    Я как-то тестировал так. За отсчет брал свой рейтинг (примерно 1200) и далее от движка к движку по цепочке вплоть до Fritz 5.32, по 200 партий. К концу тестов движки определенно пошли на опережение своих реальных рейтингов. Сейчас точно не помню, надо искать тесты, но кажется пунктов на 300.

    Кстати SSDF рейтинг тоже с годами корректировали. Примерно в 90-м году, его калибровали по перворазрядникам. А когда 10 лет спустя откалибровали по новой (видимо по результатам партий с более сильными шахматистами), то рейтинг пришлось осаживать на 100 пунктов ниже.
  21. Bulldozer Влад

    • Участник
    • Старожил
    Рег.:
    27.12.2012
    Сообщения:
    1.077
    Симпатии:
    757
    Репутация:
    77
    Оффлайн
    Наверное, нужно усложнить метод. Возможно, стоит скрещивать не только соседние по силе движки, но и вообще все, даже достаточно далёкие, чтобы получше моделировать реальный рейтинговый мир. А так, наверное, ошибка накопилась. В реале средний результат в 0.64 очка может соответствовать не 100 пунктам, а, например, 85 (а "компенсируется" это на других рейтинговых разницах). Тогда если выстроить лесенку движков с разницами по 100 пунктов, то на 20 ступеньках от 1200 до 3200 получим 20*15 = 300 пунктов несоответствия с реальным миром.
    Да и 1200, наверное, недостаточно высокий рейтинг, чтобы ожидать нормальную точность в топе листа. Если взять человека с 2200, то ошибка теоретически будет вдвое меньше.
  22. ubaldus Учаcтник

    • Участник
    Рег.:
    07.07.2007
    Сообщения:
    170
    Симпатии:
    22
    Репутация:
    -2
    Адрес:
    Miami, FL
    Оффлайн
    Комодо - Магнус Карлсен компьютерного мира! Только что перекатал Стокфиш и белыми, и черными (!!) в лондонской системе (1. d4 Nf6 2. Nf3 e6 3. Bf4 d5 4. e3 ), и ведет 14.5:11.5 (+7-4=15).

    На длинном контроле сказываются все знания, которые Марк Кауфман и Дон Дэйли вложили в Комодо. Комодо в миттельшпиле добивает только до глубины 25, а Стокфиш 35 и больше - а прав обычно Комодо.

    Очень жаль, что Дон Дэйли уже не узнает об этом.
  23. Rom Старожил

    • Участник
    • Старожил
    Рег.:
    12.02.2012
    Сообщения:
    644
    Симпатии:
    275
    Репутация:
    27
    Оффлайн
    Я думаю тут ошибка не накапливается, а скорее компенсируется. Если в одной паре 100 пунктов - это 85, то в следующей может оказаться что 100 пунктов - это уже например 115.
    Что касается тестирования движков с большей разницей в рейтинге, то тут наоборот - достоверность тестов с увеличением разницы в рейтинге уменьшается. (Это нетрудно проверить. Есть такая программка - Elostat 1.3 - она помимо рейтинга вычисляет и величину погрешности).
  24. Bulldozer Влад

    • Участник
    • Старожил
    Рег.:
    27.12.2012
    Сообщения:
    1.077
    Симпатии:
    757
    Репутация:
    77
    Оффлайн
    Я про следующее. Может оказаться так, что если поднять результаты всех игр с разницей между игроками в 100 пунктов, то среднее кол-во набираемых очков не 0.64, а меньше (например, соответствует разнице 85). Почему не по теории - 0.64? А потому что никто не обещал, что это работает на _всех_ разницах одинаково. Это работает в среднем. На 100 пунктах разницы имеем недобор очков, а на 50, например, перебор. А в среднем всё компенсируется.
    И вот, если мы будем всё время скрещивать движки с примерно одной и той же разницей в силе, то будем эту ошибку только накапливать.

    Вообще, неплохо взять статистику результатов игр и плясать от неё, а не от формул. То есть. Играют два движка матч. У движка A рейтинг мы уже определили. Нужно определить рейтинг движка B. Сыграли они матч с определённым результатом, и мы смотрим в статистику людских партий, скольким пунктам разницы такой результат лучше всего соответствует. И присваиваем рейтинг движку B соответственно этому.
  25. Rom Старожил

    • Участник
    • Старожил
    Рег.:
    12.02.2012
    Сообщения:
    644
    Симпатии:
    275
    Репутация:
    27
    Оффлайн
    Не могу понять. Вы хотите сказать что нормальное распределение которое заложил в основу рейтинга профессор Эло не совсем соответствует реальному распределению силы игроков? Ну тогда могу сказать что в принципе у меня в парах движков разница в рейтинге колебалась в довольно широких пределах - от 70 эло до 338 (я нашел результаты). А общий итог был такой:
    - оценка: 1200 (я) - 2640 (Fritz 5.32).
    - тесты: 1200 => +100+245+338+215+117+70+241+296 => 2822.
  26. Bulldozer Влад

    • Участник
    • Старожил
    Рег.:
    27.12.2012
    Сообщения:
    1.077
    Симпатии:
    757
    Репутация:
    77
    Оффлайн
    Игрока, а не игроков. Он не задавал распределение силы игроков в популяции (оно зависит от игроков и может быть произвольным), он сделал допущение о нормальном распределении силы одного игрока. Да, не совсем соответствует. И сейчас от нормального ушли к extreme value distribution (что даёт логистическое распр-е при взятии разницы), что, впрочем, даёт совсем маленькие отличия. Но причина неудачи эксперимента явно не в этом. И я не знаю в чём.
    Интересно бы проверить "транзитивность" силы движков. Если B набирает с A 64% (100 пунктов разницы), а C набирает с B тоже 64%, то будет ли C набирать с A 76% (200 пунктов)?
  27. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.474
    Симпатии:
    3.068
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Математика учит нас, что складываются квадраты ошибок. А потом из полученной суммы извлекается корень.
    Rom нравится это.
  28. Крокодил Заблокирован

    • Новичок
    • Заблокирован
    Рег.:
    22.10.2013
    Сообщения:
    57
    Симпатии:
    59
    Репутация:
    1
    Нарушения:
    31
    Оффлайн
    Поздравляем Комодского Варана - нового чемпиона мира!
  29. Pyhesty Учаcтник

    • Участник
    Рег.:
    09.12.2009
    Сообщения:
    35
    Симпатии:
    0
    Репутация:
    0
    Оффлайн
    Супер!) Поздравляем Комодо)
    Кстати, хотел поделиться, может быть и не прав...
    я посмотрел партии комодо и заметил, что глубина его анализа
    значительно меньше соперника, примерно на 10, это огромная
    величина, и в то же время он уверенно играет...
    Так же посмотрел апрельское интервью, где разработчики говорят
    о том, что к финалу постараются сделать многопроцессорный вариант
    движка, так вот вопрос, такая разница по глубине анализа состоит
    именно из-за того что использовался одноядерный движок?
    Ведь если это так, то у Комодо огромный потенциал...
  30. Bulldozer Влад

    • Участник
    • Старожил
    Рег.:
    27.12.2012
    Сообщения:
    1.077
    Симпатии:
    757
    Репутация:
    77
    Оффлайн
    50 пунктов Эло на каждое удвоение мощности.
  31. ubaldus Учаcтник

    • Участник
    Рег.:
    07.07.2007
    Сообщения:
    170
    Симпатии:
    22
    Репутация:
    -2
    Адрес:
    Miami, FL
    Оффлайн
    Матч завершен, 25:23 в пользу Комодо (+10-8=30). В последней трети матча Стокфиш выиграл три миниматча - в защите Филидора, защите Боголюбова и сицилианке (Рихтер-Раузер), но спасти матч не смог. В закрытых позициях Комодо - это просто компьютерный Карпов какой-то. Вроде ничего и не происходит, а оценка идет вверх потихоньку.

    Интересно, что Дон (земля ему пухом) и Ларри таки выполнили обещание создать движок, который далеко не первый в буллет и блиц, а вот на длинном контроле похоже лучший в мире сейчас.
  32. Алексей_Я Учаcтник

    • Участник
    Рег.:
    01.04.2013
    Сообщения:
    89
    Симпатии:
    28
    Репутация:
    3
    Оффлайн
    Ну, а по-моему, счет 25:23 - это очень незначительный перевес, в пределах статистической погрешности. В другой раз "Стокфиш" мог бы лучше оказаться.
    Challenger Spy нравится это.
  33. Гость форума Учаcтник

    • Участник
    Рег.:
    27.12.2010
    Сообщения:
    621
    Симпатии:
    66
    Репутация:
    4
    Адрес:
    Новороссийск
    Оффлайн
    Есть подозрение, что недавно выпущенный Гудини 4 все-таки сильнее. В рейтинг-листах, по крайней мере, разница заметна.
  34. Алексей_Я Учаcтник

    • Участник
    Рег.:
    01.04.2013
    Сообщения:
    89
    Симпатии:
    28
    Репутация:
    3
    Оффлайн
    А какой рейтинг у Гудини? Пришлите, пожалуйста, ссылку на рейтинг-листы!:hi:
  35. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.474
    Симпатии:
    3.068
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    http://www.computerchess.org.uk/ccrl/4040/

Поделиться этой страницей