Матч Комодо – Стокфиш, 22 ноября 2013. И не только

Discussion in 'Зрительный зал' started by SimpleSimple, 25 Nov 2013.

  1. TopicStarter Overlay

    SimpleSimple Учаcтник

    • Участник
    Member Since:
    05.05.2011
    Message Count:
    155
    Likes Received:
    11
    Репутация:
    4
    Оффлайн
    Как вы думаете у кого из соперников раньше сдадут нервы?
  2. WinPooh В.М.

    • Команда форума
    Member Since:
    13.02.2006
    Message Count:
    9.492
    Likes Received:
    3.124
    Репутация:
    95
    Location:
    Москва
    Оффлайн
  3. E-not Он видел динозавров

    • Ветеран
    Member Since:
    03.10.2007
    Message Count:
    6.730
    Likes Received:
    163
    Репутация:
    31
    Location:
    Москва,
    Оффлайн
    А вот кстати вопрос. Говорят элитный гросс всегда может засушить партию. Если это так, то интересно каков будет счет например Карлсена с Комодо если человеку считать ничьи за победы?
  4. Aprilia Заслуженный

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    23.08.2009
    Message Count:
    13.688
    Likes Received:
    14.937
    Репутация:
    1.434
    Оффлайн
    А если считать ничью за две победы? А черными и вовсе за три?
    IvanHoe likes this.
  5. IvanHoe Зарегистрирован

    Member Since:
    25.11.2013
    Message Count:
    4
    Likes Received:
    0
    Репутация:
    0
    Оффлайн
    С вероятностью 100% победит Карлсен. Даже Сергей Юрьевич вполне легко делал ничью с Гудини :crest:
  6. Bulldozer Влад

    • Участник
    • Старожил
    Member Since:
    27.12.2012
    Message Count:
    1.076
    Likes Received:
    757
    Репутация:
    77
    Оффлайн
    Рейтинг-гуру могли бы и сами сделать прикидки. :)
    Вероятное кол-во очков Карлсена в одной партии по обычной схеме будет E = 1 / (1 + 10^((R2 - R1)/400)) по Эло.
    А по схеме, где ничьи Карлсена считаются за полное очко, E* = E + 0.5*d, где d - вероятность ничьей.
    Для d нет стандартной формулы. Оно должно зависеть от разницы силы игры соперников. Я когда-то решил использовать кусочно-линейную аппроксимацию:
    d = 2*d0*E при E < 0.5,
    d = 2*d0*(1 - E) при E >= 0.5, где d0 - вероятность ничьей в партии равных соперников данного уровня.
    Итого, E* = E + 0.5*d = E + 0.5*2*d0*E = E * (1 + d0).
    Если взять d0=0.6 и рейтинги R1=2872 и R2=3097, то для Карлсена
    E* = 1 / (1 + 10^((3097 - 2872)/400)) * (1 + 0.6) = 0.34.
    34% очков - до 12-й партии он бы не дожил. :)
  7. WinPooh В.М.

    • Команда форума
    Member Since:
    13.02.2006
    Message Count:
    9.492
    Likes Received:
    3.124
    Репутация:
    95
    Location:
    Москва
    Оффлайн
    Осталось доказать, что R1 и R2 лежат на одной и той же шкале.
    Потому что получены они в совершенно разных рейтинг-пулах, между собой практически не пересекающихся.
  8. Bulldozer Влад

    • Участник
    • Старожил
    Member Since:
    27.12.2012
    Message Count:
    1.076
    Likes Received:
    757
    Репутация:
    77
    Оффлайн
    А вроде есть рейтинг адекватный человеческому. Может, и не этот (взял со странички чемпионата). В общем, лопату я дал, дальше сами. :)
  9. WinPooh В.М.

    • Команда форума
    Member Since:
    13.02.2006
    Message Count:
    9.492
    Likes Received:
    3.124
    Репутация:
    95
    Location:
    Москва
    Оффлайн
    Кажется, раньше таковым считался рейтинг SSDF, http://ssdf.bosjo.net/list.htm
    Не знаю, как сейчас.

    В любом случае, по порядку величины оценка верна.
    И ещё ясно, что против компьютеров у Карлсена катать на победу ничейные эндшпиля так просто не выйдет :)
    IvanHoe likes this.
  10. Mustitz Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    30.09.2006
    Message Count:
    3.547
    Likes Received:
    1.275
    Репутация:
    37
    Location:
    Киев
    Оффлайн

    Откуда? Мне, пожалуйста, приведите хотя бы 1000 партий между компами и человеком в классику с обсчетом рейтинга.
  11. Bulldozer Влад

    • Участник
    • Старожил
    Member Since:
    27.12.2012
    Message Count:
    1.076
    Likes Received:
    757
    Репутация:
    77
    Оффлайн
    SSDF has played several hundred games between computers and human players in serious tournaments and used these results to set a "correct" absolute level for the rating list according to Swedish conditions.

    Отсюда: http://www.chessusa.com/SSDF_FAQ.html

    Можете сами помочь общественности, если у вас есть устаканившийся рейтинг FIDE. Для этого нужно сыграть хотя бы пару десятков партий с любым движком, примерно равным вам по силам (в том же Комодо покрутить настройки). Потом по сотне партий между этим движком A и движком B, который несколько сильнее. Потом между B и C, который ещё сильнее и т.д., пока не придёте к полноценному Комодо. По этим результатам можно будет вычислить рейтинг Комодо. Я бы сам так сделал, но у меня только есть блиц-рейтинг по 9 партиям.
  12. Bulldozer Влад

    • Участник
    • Старожил
    Member Since:
    27.12.2012
    Message Count:
    1.076
    Likes Received:
    757
    Репутация:
    77
    Оффлайн
    Если это про случай, когда Сергей Юрьевич сыграл вничью со своим телефоном, то он тогда перехаживал пару раз, так что не катит.
    Но зато можно вспомнить про сильного мастера ФИДЕ Б. Иванова - у него вроде кое-какая статистика с Гудини и Рыбкой есть.
  13. Crest Админ, МГ

    • Команда форума
    Member Since:
    05.02.2006
    Message Count:
    57.251
    Likes Received:
    21.159
    Репутация:
    629
    Location:
    Москва, Россия
    Оффлайн
    Ничью с Гудиней на своем сильном компе я делал, когда первыми ходами насильно начинали партию с не очень сильного гамбита. Я пешку брал и отбивался. То есть, была фора в мою пользу.
    А с телефоном - да, это были обычные партии. У меня новенький Sony Xperia Z1 (там вроде четыре ядрышка) и там уже была установлена некая программа с безликим названием Chess Game. Я выбираю самый сильный уровень этой проги и катаю. Очень тяжело, но ничьи делать вполне реально. Иногда делаю. :)
  14. Фримен Учаcтник

    • Участник
    Member Since:
    11.05.2010
    Message Count:
    488
    Likes Received:
    122
    Репутация:
    7
    Оффлайн
    Не верю. Может быть у Chess Game движок Stockfish? Всё равно не верю. Все эти программы с телефонов держатся за счёт книги. За её пределами кушают пешки и получают мат как в старину. Не верю и всё тут.
  15. WinPooh В.М.

    • Команда форума
    Member Since:
    13.02.2006
    Message Count:
    9.492
    Likes Received:
    3.124
    Репутация:
    95
    Location:
    Москва
    Оффлайн
    Это немного не так.
    Под Андроид уже портированы и Стокфиш, и Тога, и много других движков (включая даже GreKo :) )
    https://play.google.com/store/apps/details?id=com.google.android.chess&hl=ru

    И играют они на хороших телефонах... ну, вот как на PC 5-летней давности.
    IvanHoe likes this.
  16. WinPooh В.М.

    • Команда форума
    Member Since:
    13.02.2006
    Message Count:
    9.492
    Likes Received:
    3.124
    Репутация:
    95
    Location:
    Москва
    Оффлайн
  17. WinPooh В.М.

    • Команда форума
    Member Since:
    13.02.2006
    Message Count:
    9.492
    Likes Received:
    3.124
    Репутация:
    95
    Location:
    Москва
    Оффлайн
    Хотя лично я довольствуюсь старым добрым Chess Genius. Десять лет назад он был у меня на Палме, сейчас - на Sony. Единственная лицензионная шахматная программа, которую я купил, кстати.
    А что ещё надо перворазряднику в отставке :)
  18. Фримен Учаcтник

    • Участник
    Member Since:
    11.05.2010
    Message Count:
    488
    Likes Received:
    122
    Репутация:
    7
    Оффлайн
    Не верю!!!:dash:
    GreKo это же ваш? Всё хочу попробовать. Где для десктопа достать?:)
  19. WinPooh В.М.

    • Команда форума
    Member Since:
    13.02.2006
    Message Count:
    9.492
    Likes Received:
    3.124
    Репутация:
    95
    Location:
    Москва
    Оффлайн
    ГреКо мой, но это не топ-класс. Его рейтинг в районе 2500 CCRL. Это на PC. Брать там же, где всегда: http://greko.110mb.com
    На Андроиде на 150 пунктов меньше, согласно вот этому рейтинг-листу: http://www.aartbik.com/MISC/tour13.html

    Есть для Андроида и посильнее движки, вот вам первая пятёрка:
    1 Critter 1.6a 32-bit 2891
    2 Stockfish 2.3.1 2854
    3 Toga II 3.0 2763
    4 Gaviota v0.86 2689
    5 Komodo DEV 2670
    Фримен likes this.
  20. Rom Старожил

    • Участник
    • Старожил
    Member Since:
    12.02.2012
    Message Count:
    645
    Likes Received:
    276
    Репутация:
    28
    Оффлайн
    Я как-то тестировал так. За отсчет брал свой рейтинг (примерно 1200) и далее от движка к движку по цепочке вплоть до Fritz 5.32, по 200 партий. К концу тестов движки определенно пошли на опережение своих реальных рейтингов. Сейчас точно не помню, надо искать тесты, но кажется пунктов на 300.

    Кстати SSDF рейтинг тоже с годами корректировали. Примерно в 90-м году, его калибровали по перворазрядникам. А когда 10 лет спустя откалибровали по новой (видимо по результатам партий с более сильными шахматистами), то рейтинг пришлось осаживать на 100 пунктов ниже.
  21. Bulldozer Влад

    • Участник
    • Старожил
    Member Since:
    27.12.2012
    Message Count:
    1.076
    Likes Received:
    757
    Репутация:
    77
    Оффлайн
    Наверное, нужно усложнить метод. Возможно, стоит скрещивать не только соседние по силе движки, но и вообще все, даже достаточно далёкие, чтобы получше моделировать реальный рейтинговый мир. А так, наверное, ошибка накопилась. В реале средний результат в 0.64 очка может соответствовать не 100 пунктам, а, например, 85 (а "компенсируется" это на других рейтинговых разницах). Тогда если выстроить лесенку движков с разницами по 100 пунктов, то на 20 ступеньках от 1200 до 3200 получим 20*15 = 300 пунктов несоответствия с реальным миром.
    Да и 1200, наверное, недостаточно высокий рейтинг, чтобы ожидать нормальную точность в топе листа. Если взять человека с 2200, то ошибка теоретически будет вдвое меньше.
  22. ubaldus Учаcтник

    • Участник
    Member Since:
    07.07.2007
    Message Count:
    170
    Likes Received:
    22
    Репутация:
    -2
    Location:
    Miami, FL
    Оффлайн
    Комодо - Магнус Карлсен компьютерного мира! Только что перекатал Стокфиш и белыми, и черными (!!) в лондонской системе (1. d4 Nf6 2. Nf3 e6 3. Bf4 d5 4. e3 ), и ведет 14.5:11.5 (+7-4=15).

    На длинном контроле сказываются все знания, которые Марк Кауфман и Дон Дэйли вложили в Комодо. Комодо в миттельшпиле добивает только до глубины 25, а Стокфиш 35 и больше - а прав обычно Комодо.

    Очень жаль, что Дон Дэйли уже не узнает об этом.
  23. Rom Старожил

    • Участник
    • Старожил
    Member Since:
    12.02.2012
    Message Count:
    645
    Likes Received:
    276
    Репутация:
    28
    Оффлайн
    Я думаю тут ошибка не накапливается, а скорее компенсируется. Если в одной паре 100 пунктов - это 85, то в следующей может оказаться что 100 пунктов - это уже например 115.
    Что касается тестирования движков с большей разницей в рейтинге, то тут наоборот - достоверность тестов с увеличением разницы в рейтинге уменьшается. (Это нетрудно проверить. Есть такая программка - Elostat 1.3 - она помимо рейтинга вычисляет и величину погрешности).
  24. Bulldozer Влад

    • Участник
    • Старожил
    Member Since:
    27.12.2012
    Message Count:
    1.076
    Likes Received:
    757
    Репутация:
    77
    Оффлайн
    Я про следующее. Может оказаться так, что если поднять результаты всех игр с разницей между игроками в 100 пунктов, то среднее кол-во набираемых очков не 0.64, а меньше (например, соответствует разнице 85). Почему не по теории - 0.64? А потому что никто не обещал, что это работает на _всех_ разницах одинаково. Это работает в среднем. На 100 пунктах разницы имеем недобор очков, а на 50, например, перебор. А в среднем всё компенсируется.
    И вот, если мы будем всё время скрещивать движки с примерно одной и той же разницей в силе, то будем эту ошибку только накапливать.

    Вообще, неплохо взять статистику результатов игр и плясать от неё, а не от формул. То есть. Играют два движка матч. У движка A рейтинг мы уже определили. Нужно определить рейтинг движка B. Сыграли они матч с определённым результатом, и мы смотрим в статистику людских партий, скольким пунктам разницы такой результат лучше всего соответствует. И присваиваем рейтинг движку B соответственно этому.
  25. Rom Старожил

    • Участник
    • Старожил
    Member Since:
    12.02.2012
    Message Count:
    645
    Likes Received:
    276
    Репутация:
    28
    Оффлайн
    Не могу понять. Вы хотите сказать что нормальное распределение которое заложил в основу рейтинга профессор Эло не совсем соответствует реальному распределению силы игроков? Ну тогда могу сказать что в принципе у меня в парах движков разница в рейтинге колебалась в довольно широких пределах - от 70 эло до 338 (я нашел результаты). А общий итог был такой:
    - оценка: 1200 (я) - 2640 (Fritz 5.32).
    - тесты: 1200 => +100+245+338+215+117+70+241+296 => 2822.
  26. Bulldozer Влад

    • Участник
    • Старожил
    Member Since:
    27.12.2012
    Message Count:
    1.076
    Likes Received:
    757
    Репутация:
    77
    Оффлайн
    Игрока, а не игроков. Он не задавал распределение силы игроков в популяции (оно зависит от игроков и может быть произвольным), он сделал допущение о нормальном распределении силы одного игрока. Да, не совсем соответствует. И сейчас от нормального ушли к extreme value distribution (что даёт логистическое распр-е при взятии разницы), что, впрочем, даёт совсем маленькие отличия. Но причина неудачи эксперимента явно не в этом. И я не знаю в чём.
    Интересно бы проверить "транзитивность" силы движков. Если B набирает с A 64% (100 пунктов разницы), а C набирает с B тоже 64%, то будет ли C набирать с A 76% (200 пунктов)?
  27. WinPooh В.М.

    • Команда форума
    Member Since:
    13.02.2006
    Message Count:
    9.492
    Likes Received:
    3.124
    Репутация:
    95
    Location:
    Москва
    Оффлайн
    Математика учит нас, что складываются квадраты ошибок. А потом из полученной суммы извлекается корень.
    Rom likes this.
  28. Крокодил Новичок

    • Новичок
    Member Since:
    22.10.2013
    Message Count:
    57
    Likes Received:
    59
    Репутация:
    1
    Оффлайн
    Поздравляем Комодского Варана - нового чемпиона мира!
  29. Pyhesty Учаcтник

    • Участник
    Member Since:
    09.12.2009
    Message Count:
    35
    Likes Received:
    0
    Репутация:
    0
    Оффлайн
    Супер!) Поздравляем Комодо)
    Кстати, хотел поделиться, может быть и не прав...
    я посмотрел партии комодо и заметил, что глубина его анализа
    значительно меньше соперника, примерно на 10, это огромная
    величина, и в то же время он уверенно играет...
    Так же посмотрел апрельское интервью, где разработчики говорят
    о том, что к финалу постараются сделать многопроцессорный вариант
    движка, так вот вопрос, такая разница по глубине анализа состоит
    именно из-за того что использовался одноядерный движок?
    Ведь если это так, то у Комодо огромный потенциал...
  30. Bulldozer Влад

    • Участник
    • Старожил
    Member Since:
    27.12.2012
    Message Count:
    1.076
    Likes Received:
    757
    Репутация:
    77
    Оффлайн
    50 пунктов Эло на каждое удвоение мощности.
  31. ubaldus Учаcтник

    • Участник
    Member Since:
    07.07.2007
    Message Count:
    170
    Likes Received:
    22
    Репутация:
    -2
    Location:
    Miami, FL
    Оффлайн
    Матч завершен, 25:23 в пользу Комодо (+10-8=30). В последней трети матча Стокфиш выиграл три миниматча - в защите Филидора, защите Боголюбова и сицилианке (Рихтер-Раузер), но спасти матч не смог. В закрытых позициях Комодо - это просто компьютерный Карпов какой-то. Вроде ничего и не происходит, а оценка идет вверх потихоньку.

    Интересно, что Дон (земля ему пухом) и Ларри таки выполнили обещание создать движок, который далеко не первый в буллет и блиц, а вот на длинном контроле похоже лучший в мире сейчас.
  32. Алексей_Я Учаcтник

    • Участник
    Member Since:
    01.04.2013
    Message Count:
    89
    Likes Received:
    28
    Репутация:
    3
    Оффлайн
    Ну, а по-моему, счет 25:23 - это очень незначительный перевес, в пределах статистической погрешности. В другой раз "Стокфиш" мог бы лучше оказаться.
    Challenger Spy likes this.
  33. Гость форума Учаcтник

    • Участник
    Member Since:
    27.12.2010
    Message Count:
    621
    Likes Received:
    66
    Репутация:
    4
    Location:
    Новороссийск
    Оффлайн
    Есть подозрение, что недавно выпущенный Гудини 4 все-таки сильнее. В рейтинг-листах, по крайней мере, разница заметна.
  34. Алексей_Я Учаcтник

    • Участник
    Member Since:
    01.04.2013
    Message Count:
    89
    Likes Received:
    28
    Репутация:
    3
    Оффлайн
    А какой рейтинг у Гудини? Пришлите, пожалуйста, ссылку на рейтинг-листы!:hi:
  35. WinPooh В.М.

    • Команда форума
    Member Since:
    13.02.2006
    Message Count:
    9.492
    Likes Received:
    3.124
    Репутация:
    95
    Location:
    Москва
    Оффлайн

Share This Page