Матч Комодо – Стокфиш, 22 ноября 2013. И не только

SimpleSimple · 25 ноя 2013

Как вы думаете у кого из соперников раньше сдадут нервы?

WinPooh · 25 ноя 2013

Don Dailey, 1956-2013
Автор программы Komodo.

Перевод интервью с ним: http://crestbook.com/node/1800

E-not · 27 ноя 2013

А вот кстати вопрос. Говорят элитный гросс всегда может засушить партию. Если это так, то интересно каков будет счет например Карлсена с Комодо если человеку считать ничьи за победы?

Aprilia · 27 ноя 2013

А если считать ничью за две победы? А черными и вовсе за три?

IvanHoe · 27 ноя 2013

E-not пишет: ↑

А вот кстати вопрос. Говорят элитный гросс всегда может засушить партию. Если это так, то интересно каков будет счет например Карлсена с Комодо если человеку считать ничьи за победы?
Нажмите, чтобы раскрыть...

С вероятностью 100% победит Карлсен. Даже Сергей Юрьевич вполне легко делал ничью с Гудини

Bulldozer · 27 ноя 2013

E-not пишет: ↑

А вот кстати вопрос. Говорят элитный гросс всегда может засушить партию. Если это так, то интересно каков будет счет например Карлсена с Комодо если человеку считать ничьи за победы?
Нажмите, чтобы раскрыть...

Рейтинг-гуру могли бы и сами сделать прикидки.
Вероятное кол-во очков Карлсена в одной партии по обычной схеме будет E = 1 / (1 + 10^((R2 - R1)/400)) по Эло.
А по схеме, где ничьи Карлсена считаются за полное очко, E* = E + 0.5*d, где d - вероятность ничьей.
Для d нет стандартной формулы. Оно должно зависеть от разницы силы игры соперников. Я когда-то решил использовать кусочно-линейную аппроксимацию:
d = 2*d0*E при E < 0.5,
d = 2*d0*(1 - E) при E >= 0.5, где d0 - вероятность ничьей в партии равных соперников данного уровня.
Итого, E* = E + 0.5*d = E + 0.5*2*d0*E = E * (1 + d0).
Если взять d0=0.6 и рейтинги R1=2872 и R2=3097, то для Карлсена
E* = 1 / (1 + 10^((3097 - 2872)/400)) * (1 + 0.6) = 0.34.
34% очков - до 12-й партии он бы не дожил.

WinPooh · 27 ноя 2013

Bulldozer пишет: ↑

Если взять d0=0.6 и рейтинги R1=2872 и R2=3097, то для Карлсена
Нажмите, чтобы раскрыть...

Осталось доказать, что R1 и R2 лежат на одной и той же шкале.
Потому что получены они в совершенно разных рейтинг-пулах, между собой практически не пересекающихся.

Bulldozer · 27 ноя 2013

WinPooh пишет: ↑

Bulldozer пишет: ↑

Если взять d0=0.6 и рейтинги R1=2872 и R2=3097, то для Карлсена
Нажмите, чтобы раскрыть...

Осталось доказать, что R1 и R2 лежат на одной и той же шкале.
Потому что получены они в совершенно разных рейтинг-пулах, между собой практически не пересекающихся.
Нажмите, чтобы раскрыть...

А вроде есть рейтинг адекватный человеческому. Может, и не этот (взял со странички чемпионата). В общем, лопату я дал, дальше сами.

WinPooh · 27 ноя 2013

Bulldozer пишет: ↑

А вроде есть рейтинг адекватный человеческому.
Нажмите, чтобы раскрыть...

Кажется, раньше таковым считался рейтинг SSDF, http://ssdf.bosjo.net/list.htm
Не знаю, как сейчас.

В любом случае, по порядку величины оценка верна.
И ещё ясно, что против компьютеров у Карлсена катать на победу ничейные эндшпиля так просто не выйдет

Mustitz · 27 ноя 2013

Bulldozer пишет: ↑

А вроде есть рейтинг адекватный человеческому. Может, и не этот (взял со странички чемпионата). В общем, лопату я дал, дальше сами.
Нажмите, чтобы раскрыть...

Откуда? Мне, пожалуйста, приведите хотя бы 1000 партий между компами и человеком в классику с обсчетом рейтинга.

Bulldozer · 27 ноя 2013

Mustitz пишет: ↑

Откуда? Мне, пожалуйста, приведите хотя бы 1000 партий между компами и человеком в классику с обсчетом рейтинга.
Нажмите, чтобы раскрыть...

SSDF has played several hundred games between computers and human players in serious tournaments and used these results to set a "correct" absolute level for the rating list according to Swedish conditions.

Отсюда: http://www.chessusa.com/SSDF_FAQ.html

Можете сами помочь общественности, если у вас есть устаканившийся рейтинг FIDE. Для этого нужно сыграть хотя бы пару десятков партий с любым движком, примерно равным вам по силам (в том же Комодо покрутить настройки). Потом по сотне партий между этим движком A и движком B, который несколько сильнее. Потом между B и C, который ещё сильнее и т.д., пока не придёте к полноценному Комодо. По этим результатам можно будет вычислить рейтинг Комодо. Я бы сам так сделал, но у меня только есть блиц-рейтинг по 9 партиям.

Bulldozer · 27 ноя 2013

IvanHoe пишет: ↑

E-not пишет: ↑

А вот кстати вопрос. Говорят элитный гросс всегда может засушить партию. Если это так, то интересно каков будет счет например Карлсена с Комодо если человеку считать ничьи за победы?
Нажмите, чтобы раскрыть...

С вероятностью 100% победит Карлсен. Даже Сергей Юрьевич вполне легко делал ничью с Гудини
Нажмите, чтобы раскрыть...

Если это про случай, когда Сергей Юрьевич сыграл вничью со своим телефоном, то он тогда перехаживал пару раз, так что не катит.
Но зато можно вспомнить про сильного мастера ФИДЕ Б. Иванова - у него вроде кое-какая статистика с Гудини и Рыбкой есть.

Crest · 27 ноя 2013

Bulldozer пишет: ↑

IvanHoe пишет: ↑

E-not пишет: ↑

А вот кстати вопрос. Говорят элитный гросс всегда может засушить партию. Если это так, то интересно каков будет счет например Карлсена с Комодо если человеку считать ничьи за победы?
Нажмите, чтобы раскрыть...

С вероятностью 100% победит Карлсен. Даже Сергей Юрьевич вполне легко делал ничью с Гудини
Нажмите, чтобы раскрыть...

Если это про случай, когда Сергей Юрьевич сыграл вничью со своим телефоном, то он тогда перехаживал пару раз, так что не катит.
Но зато можно вспомнить про сильного мастера ФИДЕ Б. Иванова - у него вроде кое-какая статистика с Гудини и Рыбкой есть.
Нажмите, чтобы раскрыть...

Ничью с Гудиней на своем сильном компе я делал, когда первыми ходами насильно начинали партию с не очень сильного гамбита. Я пешку брал и отбивался. То есть, была фора в мою пользу.
А с телефоном - да, это были обычные партии. У меня новенький Sony Xperia Z1 (там вроде четыре ядрышка) и там уже была установлена некая программа с безликим названием Chess Game. Я выбираю самый сильный уровень этой проги и катаю. Очень тяжело, но ничьи делать вполне реально. Иногда делаю.

Фримен · 27 ноя 2013

Не верю. Может быть у Chess Game движок Stockfish? Всё равно не верю. Все эти программы с телефонов держатся за счёт книги. За её пределами кушают пешки и получают мат как в старину. Не верю и всё тут.

WinPooh · 27 ноя 2013

Фримен пишет: ↑

Не верю. Может быть у Chess Game движок Stockfish? Всё равно не верю. Все эти программы с телефонов держатся за счёт книги. За её пределами кушают пешки и получают мат как в старину. Не верю и всё тут.
Нажмите, чтобы раскрыть...

Это немного не так.
Под Андроид уже портированы и Стокфиш, и Тога, и много других движков (включая даже GreKo )
https://play.google.com/store/apps/details?id=com.google.android.chess&hl=ru

И играют они на хороших телефонах... ну, вот как на PC 5-летней давности.

WinPooh · 27 ноя 2013

Собственно, вот список портированных движков:
http://www.aartbik.com/MISC/eng.html

WinPooh · 27 ноя 2013

Хотя лично я довольствуюсь старым добрым Chess Genius. Десять лет назад он был у меня на Палме, сейчас - на Sony. Единственная лицензионная шахматная программа, которую я купил, кстати.
А что ещё надо перворазряднику в отставке

Фримен · 27 ноя 2013

Не верю!!!
GreKo это же ваш? Всё хочу попробовать. Где для десктопа достать?

WinPooh · 27 ноя 2013

Фримен пишет: ↑

GreKo это же ваш? Всё хочу попробовать. Где для десктопа достать?
Нажмите, чтобы раскрыть...

ГреКо мой, но это не топ-класс. Его рейтинг в районе 2500 CCRL. Это на PC. Брать там же, где всегда: http://greko.110mb.com
На Андроиде на 150 пунктов меньше, согласно вот этому рейтинг-листу: http://www.aartbik.com/MISC/tour13.html

Есть для Андроида и посильнее движки, вот вам первая пятёрка:
1 Critter 1.6a 32-bit 2891
2 Stockfish 2.3.1 2854
3 Toga II 3.0 2763
4 Gaviota v0.86 2689
5 Komodo DEV 2670

Rom · 27 ноя 2013

Bulldozer пишет: ↑

...
Можете сами помочь общественности, если у вас есть устаканившийся рейтинг FIDE. Для этого нужно сыграть хотя бы пару десятков партий с любым движком, примерно равным вам по силам (в том же Комодо покрутить настройки). Потом по сотне партий между этим движком A и движком B, который несколько сильнее. Потом между B и C, который ещё сильнее и т.д., пока не придёте к полноценному Комодо. По этим результатам можно будет вычислить рейтинг Комодо. Я бы сам так сделал, но у меня только есть блиц-рейтинг по 9 партиям.
Нажмите, чтобы раскрыть...

Я как-то тестировал так. За отсчет брал свой рейтинг (примерно 1200) и далее от движка к движку по цепочке вплоть до Fritz 5.32, по 200 партий. К концу тестов движки определенно пошли на опережение своих реальных рейтингов. Сейчас точно не помню, надо искать тесты, но кажется пунктов на 300.

Кстати SSDF рейтинг тоже с годами корректировали. Примерно в 90-м году, его калибровали по перворазрядникам. А когда 10 лет спустя откалибровали по новой (видимо по результатам партий с более сильными шахматистами), то рейтинг пришлось осаживать на 100 пунктов ниже.

Bulldozer · 27 ноя 2013

Rom пишет: ↑

Я как-то тестировал так. За отсчет брал свой рейтинг (примерно 1200) и далее от движка к движку по цепочке вплоть до Fritz 5.32, по 200 партий. К концу тестов движки определенно пошли на опережение своих реальных рейтингов. Сейчас точно не помню, надо искать тесты, но кажется пунктов на 300.
Нажмите, чтобы раскрыть...

Наверное, нужно усложнить метод. Возможно, стоит скрещивать не только соседние по силе движки, но и вообще все, даже достаточно далёкие, чтобы получше моделировать реальный рейтинговый мир. А так, наверное, ошибка накопилась. В реале средний результат в 0.64 очка может соответствовать не 100 пунктам, а, например, 85 (а "компенсируется" это на других рейтинговых разницах). Тогда если выстроить лесенку движков с разницами по 100 пунктов, то на 20 ступеньках от 1200 до 3200 получим 20*15 = 300 пунктов несоответствия с реальным миром.
Да и 1200, наверное, недостаточно высокий рейтинг, чтобы ожидать нормальную точность в топе листа. Если взять человека с 2200, то ошибка теоретически будет вдвое меньше.

ubaldus · 27 ноя 2013

Комодо - Магнус Карлсен компьютерного мира! Только что перекатал Стокфиш и белыми, и черными (!!) в лондонской системе (1. d4 Nf6 2. Nf3 e6 3. Bf4 d5 4. e3 ), и ведет 14.5:11.5 (+7-4=15).

На длинном контроле сказываются все знания, которые Марк Кауфман и Дон Дэйли вложили в Комодо. Комодо в миттельшпиле добивает только до глубины 25, а Стокфиш 35 и больше - а прав обычно Комодо.

Очень жаль, что Дон Дэйли уже не узнает об этом.

Rom · 27 ноя 2013

Bulldozer пишет: ↑

Rom пишет: ↑

Я как-то тестировал так. За отсчет брал свой рейтинг (примерно 1200) и далее от движка к движку по цепочке вплоть до Fritz 5.32, по 200 партий. К концу тестов движки определенно пошли на опережение своих реальных рейтингов. Сейчас точно не помню, надо искать тесты, но кажется пунктов на 300.
Нажмите, чтобы раскрыть...

Наверное, нужно усложнить метод. Возможно, стоит скрещивать не только соседние по силе движки, но и вообще все, даже достаточно далёкие, чтобы получше моделировать реальный рейтинговый мир. А так, наверное, ошибка накопилась. В реале средний результат в 0.64 очка может соответствовать не 100 пунктам, а, например, 85 (а "компенсируется" это на других рейтинговых разницах). Тогда если выстроить лесенку движков с разницами по 100 пунктов, то на 20 ступеньках от 1200 до 3200 получим 20*15 = 300 пунктов несоответствия с реальным миром.
Да и 1200, наверное, недостаточно высокий рейтинг, чтобы ожидать нормальную точность в топе листа. Если взять человека с 2200, то ошибка теоретически будет вдвое меньше.
Нажмите, чтобы раскрыть...

Я думаю тут ошибка не накапливается, а скорее компенсируется. Если в одной паре 100 пунктов - это 85, то в следующей может оказаться что 100 пунктов - это уже например 115.
Что касается тестирования движков с большей разницей в рейтинге, то тут наоборот - достоверность тестов с увеличением разницы в рейтинге уменьшается. (Это нетрудно проверить. Есть такая программка - Elostat 1.3 - она помимо рейтинга вычисляет и величину погрешности).

Bulldozer · 28 ноя 2013

Rom пишет: ↑

Я думаю тут ошибка не накапливается, а скорее компенсируется. Если в одной паре 100 пунктов - это 85, то в следующей может оказаться что 100 пунктов - это уже например 115.
Нажмите, чтобы раскрыть...

Я про следующее. Может оказаться так, что если поднять результаты всех игр с разницей между игроками в 100 пунктов, то среднее кол-во набираемых очков не 0.64, а меньше (например, соответствует разнице 85). Почему не по теории - 0.64? А потому что никто не обещал, что это работает на _всех_ разницах одинаково. Это работает в среднем. На 100 пунктах разницы имеем недобор очков, а на 50, например, перебор. А в среднем всё компенсируется.
И вот, если мы будем всё время скрещивать движки с примерно одной и той же разницей в силе, то будем эту ошибку только накапливать.

Вообще, неплохо взять статистику результатов игр и плясать от неё, а не от формул. То есть. Играют два движка матч. У движка A рейтинг мы уже определили. Нужно определить рейтинг движка B. Сыграли они матч с определённым результатом, и мы смотрим в статистику людских партий, скольким пунктам разницы такой результат лучше всего соответствует. И присваиваем рейтинг движку B соответственно этому.

Rom · 28 ноя 2013

Bulldozer пишет: ↑

Я про следующее. Может оказаться так, что если поднять результаты всех игр с разницей между игроками в 100 пунктов, то среднее кол-во набираемых очков не 0.64, а меньше (например, соответствует разнице 85). Почему не по теории - 0.64? А потому что никто не обещал, что это работает на _всех_ разницах одинаково. Это работает в среднем. На 100 пунктах разницы имеем недобор очков, а на 50, например, перебор. А в среднем всё компенсируется.
И вот, если мы будем всё время скрещивать движки с примерно одной и той же разницей в силе, то будем эту ошибку только накапливать.

Вообще, неплохо взять статистику результатов игр и плясать от неё, а не от формул. То есть. Играют два движка матч. У движка A рейтинг мы уже определили. Нужно определить рейтинг движка B. Сыграли они матч с определённым результатом, и мы смотрим в статистику людских партий, скольким пунктам разницы такой результат лучше всего соответствует. И присваиваем рейтинг движку B соответственно этому.
Нажмите, чтобы раскрыть...

Не могу понять. Вы хотите сказать что нормальное распределение которое заложил в основу рейтинга профессор Эло не совсем соответствует реальному распределению силы игроков? Ну тогда могу сказать что в принципе у меня в парах движков разница в рейтинге колебалась в довольно широких пределах - от 70 эло до 338 (я нашел результаты). А общий итог был такой:
- оценка: 1200 (я) - 2640 (Fritz 5.32).
- тесты: 1200 => +100+245+338+215+117+70+241+296 => 2822.

Bulldozer · 28 ноя 2013

Rom пишет: ↑

Не могу понять. Вы хотите сказать что нормальное распределение которое заложил в основу рейтинга профессор Эло не совсем соответствует реальному распределению силы игроков?
Нажмите, чтобы раскрыть...

Игрока, а не игроков. Он не задавал распределение силы игроков в популяции (оно зависит от игроков и может быть произвольным), он сделал допущение о нормальном распределении силы одного игрока. Да, не совсем соответствует. И сейчас от нормального ушли к extreme value distribution (что даёт логистическое распр-е при взятии разницы), что, впрочем, даёт совсем маленькие отличия. Но причина неудачи эксперимента явно не в этом. И я не знаю в чём.
Интересно бы проверить "транзитивность" силы движков. Если B набирает с A 64% (100 пунктов разницы), а C набирает с B тоже 64%, то будет ли C набирать с A 76% (200 пунктов)?

WinPooh · 28 ноя 2013

Rom пишет: ↑

Я думаю тут ошибка не накапливается, а скорее компенсируется. Если в одной паре 100 пунктов - это 85, то в следующей может оказаться что 100 пунктов - это уже например 115.
Нажмите, чтобы раскрыть...

Математика учит нас, что складываются квадраты ошибок. А потом из полученной суммы извлекается корень.

Крокодил · 28 ноя 2013

Поздравляем Комодского Варана - нового чемпиона мира!

Pyhesty · 1 дек 2013

Супер!) Поздравляем Комодо)
Кстати, хотел поделиться, может быть и не прав...
я посмотрел партии комодо и заметил, что глубина его анализа
значительно меньше соперника, примерно на 10, это огромная
величина, и в то же время он уверенно играет...
Так же посмотрел апрельское интервью, где разработчики говорят
о том, что к финалу постараются сделать многопроцессорный вариант
движка, так вот вопрос, такая разница по глубине анализа состоит
именно из-за того что использовался одноядерный движок?
Ведь если это так, то у Комодо огромный потенциал...

Bulldozer · 1 дек 2013

50 пунктов Эло на каждое удвоение мощности.

ubaldus · 1 дек 2013

Матч завершен, 25:23 в пользу Комодо (+10-8=30). В последней трети матча Стокфиш выиграл три миниматча - в защите Филидора, защите Боголюбова и сицилианке (Рихтер-Раузер), но спасти матч не смог. В закрытых позициях Комодо - это просто компьютерный Карпов какой-то. Вроде ничего и не происходит, а оценка идет вверх потихоньку.

Интересно, что Дон (земля ему пухом) и Ларри таки выполнили обещание создать движок, который далеко не первый в буллет и блиц, а вот на длинном контроле похоже лучший в мире сейчас.

Алексей_Я · 2 дек 2013

Ну, а по-моему, счет 25:23 - это очень незначительный перевес, в пределах статистической погрешности. В другой раз "Стокфиш" мог бы лучше оказаться.

Гость форума · 4 дек 2013

Есть подозрение, что недавно выпущенный Гудини 4 все-таки сильнее. В рейтинг-листах, по крайней мере, разница заметна.

Алексей_Я · 4 дек 2013

А какой рейтинг у Гудини? Пришлите, пожалуйста, ссылку на рейтинг-листы!

WinPooh · 4 дек 2013

Алексей_Я пишет: ↑

А какой рейтинг у Гудини? Пришлите, пожалуйста, ссылку на рейтинг-листы!
Нажмите, чтобы раскрыть...

http://www.computerchess.org.uk/ccrl/4040/

Войти или зарегистрироваться

Матч Комодо – Стокфиш, 22 ноября 2013. И не только

SimpleSimple Учаcтник

WinPooh В.М. Команда форума

E-not Он видел динозавров

Aprilia баннер

IvanHoe Зарегистрирован

Bulldozer Влад

WinPooh В.М. Команда форума

Bulldozer Влад

WinPooh В.М. Команда форума

Mustitz баннер

Bulldozer Влад

Bulldozer Влад

Crest Админ, МГ Команда форума Команда форума

Фримен Учаcтник

WinPooh В.М. Команда форума

WinPooh В.М. Команда форума

WinPooh В.М. Команда форума

Фримен Учаcтник

WinPooh В.М. Команда форума

Rom Старожил

Bulldozer Влад

ubaldus Учаcтник

Rom Старожил

Bulldozer Влад

Rom Старожил

Bulldozer Влад

WinPooh В.М. Команда форума

Крокодил Новичок

Pyhesty Учаcтник

Bulldozer Влад

ubaldus Учаcтник

Алексей_Я Учаcтник

Гость форума Учаcтник

Алексей_Я Учаcтник

WinPooh В.М. Команда форума