Матч Комодо – Стокфиш, 22 ноября 2013. И не только

SimpleSimple · 25 Nov 2013

Как вы думаете у кого из соперников раньше сдадут нервы?

WinPooh · 25 Nov 2013

Don Dailey, 1956-2013
Автор программы Komodo.

Перевод интервью с ним: http://crestbook.com/node/1800

E-not · 27 Nov 2013

А вот кстати вопрос. Говорят элитный гросс всегда может засушить партию. Если это так, то интересно каков будет счет например Карлсена с Комодо если человеку считать ничьи за победы?

Aprilia · 27 Nov 2013

А если считать ничью за две победы? А черными и вовсе за три?

IvanHoe · 27 Nov 2013

E-not said: ↑

А вот кстати вопрос. Говорят элитный гросс всегда может засушить партию. Если это так, то интересно каков будет счет например Карлсена с Комодо если человеку считать ничьи за победы?
Click to expand...

С вероятностью 100% победит Карлсен. Даже Сергей Юрьевич вполне легко делал ничью с Гудини

Bulldozer · 27 Nov 2013

E-not said: ↑

А вот кстати вопрос. Говорят элитный гросс всегда может засушить партию. Если это так, то интересно каков будет счет например Карлсена с Комодо если человеку считать ничьи за победы?
Click to expand...

Рейтинг-гуру могли бы и сами сделать прикидки.
Вероятное кол-во очков Карлсена в одной партии по обычной схеме будет E = 1 / (1 + 10^((R2 - R1)/400)) по Эло.
А по схеме, где ничьи Карлсена считаются за полное очко, E* = E + 0.5*d, где d - вероятность ничьей.
Для d нет стандартной формулы. Оно должно зависеть от разницы силы игры соперников. Я когда-то решил использовать кусочно-линейную аппроксимацию:
d = 2*d0*E при E < 0.5,
d = 2*d0*(1 - E) при E >= 0.5, где d0 - вероятность ничьей в партии равных соперников данного уровня.
Итого, E* = E + 0.5*d = E + 0.5*2*d0*E = E * (1 + d0).
Если взять d0=0.6 и рейтинги R1=2872 и R2=3097, то для Карлсена
E* = 1 / (1 + 10^((3097 - 2872)/400)) * (1 + 0.6) = 0.34.
34% очков - до 12-й партии он бы не дожил.

WinPooh · 27 Nov 2013

Bulldozer said: ↑

Если взять d0=0.6 и рейтинги R1=2872 и R2=3097, то для Карлсена
Click to expand...

Осталось доказать, что R1 и R2 лежат на одной и той же шкале.
Потому что получены они в совершенно разных рейтинг-пулах, между собой практически не пересекающихся.

Bulldozer · 27 Nov 2013

WinPooh said: ↑

Bulldozer said: ↑

Если взять d0=0.6 и рейтинги R1=2872 и R2=3097, то для Карлсена
Click to expand...

Осталось доказать, что R1 и R2 лежат на одной и той же шкале.
Потому что получены они в совершенно разных рейтинг-пулах, между собой практически не пересекающихся.
Click to expand...

А вроде есть рейтинг адекватный человеческому. Может, и не этот (взял со странички чемпионата). В общем, лопату я дал, дальше сами.

WinPooh · 27 Nov 2013

Bulldozer said: ↑

А вроде есть рейтинг адекватный человеческому.
Click to expand...

Кажется, раньше таковым считался рейтинг SSDF, http://ssdf.bosjo.net/list.htm
Не знаю, как сейчас.

В любом случае, по порядку величины оценка верна.
И ещё ясно, что против компьютеров у Карлсена катать на победу ничейные эндшпиля так просто не выйдет

Mustitz · 27 Nov 2013

Bulldozer said: ↑

А вроде есть рейтинг адекватный человеческому. Может, и не этот (взял со странички чемпионата). В общем, лопату я дал, дальше сами.
Click to expand...

Откуда? Мне, пожалуйста, приведите хотя бы 1000 партий между компами и человеком в классику с обсчетом рейтинга.

Bulldozer · 27 Nov 2013

Mustitz said: ↑

Откуда? Мне, пожалуйста, приведите хотя бы 1000 партий между компами и человеком в классику с обсчетом рейтинга.
Click to expand...

SSDF has played several hundred games between computers and human players in serious tournaments and used these results to set a "correct" absolute level for the rating list according to Swedish conditions.

Отсюда: http://www.chessusa.com/SSDF_FAQ.html

Можете сами помочь общественности, если у вас есть устаканившийся рейтинг FIDE. Для этого нужно сыграть хотя бы пару десятков партий с любым движком, примерно равным вам по силам (в том же Комодо покрутить настройки). Потом по сотне партий между этим движком A и движком B, который несколько сильнее. Потом между B и C, который ещё сильнее и т.д., пока не придёте к полноценному Комодо. По этим результатам можно будет вычислить рейтинг Комодо. Я бы сам так сделал, но у меня только есть блиц-рейтинг по 9 партиям.

Bulldozer · 27 Nov 2013

IvanHoe said: ↑

E-not said: ↑

А вот кстати вопрос. Говорят элитный гросс всегда может засушить партию. Если это так, то интересно каков будет счет например Карлсена с Комодо если человеку считать ничьи за победы?
Click to expand...

С вероятностью 100% победит Карлсен. Даже Сергей Юрьевич вполне легко делал ничью с Гудини
Click to expand...

Если это про случай, когда Сергей Юрьевич сыграл вничью со своим телефоном, то он тогда перехаживал пару раз, так что не катит.
Но зато можно вспомнить про сильного мастера ФИДЕ Б. Иванова - у него вроде кое-какая статистика с Гудини и Рыбкой есть.

Crest · 27 Nov 2013

Bulldozer said: ↑

IvanHoe said: ↑

E-not said: ↑

А вот кстати вопрос. Говорят элитный гросс всегда может засушить партию. Если это так, то интересно каков будет счет например Карлсена с Комодо если человеку считать ничьи за победы?
Click to expand...

С вероятностью 100% победит Карлсен. Даже Сергей Юрьевич вполне легко делал ничью с Гудини
Click to expand...

Если это про случай, когда Сергей Юрьевич сыграл вничью со своим телефоном, то он тогда перехаживал пару раз, так что не катит.
Но зато можно вспомнить про сильного мастера ФИДЕ Б. Иванова - у него вроде кое-какая статистика с Гудини и Рыбкой есть.
Click to expand...

Ничью с Гудиней на своем сильном компе я делал, когда первыми ходами насильно начинали партию с не очень сильного гамбита. Я пешку брал и отбивался. То есть, была фора в мою пользу.
А с телефоном - да, это были обычные партии. У меня новенький Sony Xperia Z1 (там вроде четыре ядрышка) и там уже была установлена некая программа с безликим названием Chess Game. Я выбираю самый сильный уровень этой проги и катаю. Очень тяжело, но ничьи делать вполне реально. Иногда делаю.

Фримен · 27 Nov 2013

Не верю. Может быть у Chess Game движок Stockfish? Всё равно не верю. Все эти программы с телефонов держатся за счёт книги. За её пределами кушают пешки и получают мат как в старину. Не верю и всё тут.

WinPooh · 27 Nov 2013

Фримен said: ↑

Не верю. Может быть у Chess Game движок Stockfish? Всё равно не верю. Все эти программы с телефонов держатся за счёт книги. За её пределами кушают пешки и получают мат как в старину. Не верю и всё тут.
Click to expand...

Это немного не так.
Под Андроид уже портированы и Стокфиш, и Тога, и много других движков (включая даже GreKo )
https://play.google.com/store/apps/details?id=com.google.android.chess&hl=ru

И играют они на хороших телефонах... ну, вот как на PC 5-летней давности.

WinPooh · 27 Nov 2013

Собственно, вот список портированных движков:
http://www.aartbik.com/MISC/eng.html

WinPooh · 27 Nov 2013

Хотя лично я довольствуюсь старым добрым Chess Genius. Десять лет назад он был у меня на Палме, сейчас - на Sony. Единственная лицензионная шахматная программа, которую я купил, кстати.
А что ещё надо перворазряднику в отставке

Фримен · 27 Nov 2013

Не верю!!!
GreKo это же ваш? Всё хочу попробовать. Где для десктопа достать?

WinPooh · 27 Nov 2013

Фримен said: ↑

GreKo это же ваш? Всё хочу попробовать. Где для десктопа достать?
Click to expand...

ГреКо мой, но это не топ-класс. Его рейтинг в районе 2500 CCRL. Это на PC. Брать там же, где всегда: http://greko.110mb.com
На Андроиде на 150 пунктов меньше, согласно вот этому рейтинг-листу: http://www.aartbik.com/MISC/tour13.html

Есть для Андроида и посильнее движки, вот вам первая пятёрка:
1 Critter 1.6a 32-bit 2891
2 Stockfish 2.3.1 2854
3 Toga II 3.0 2763
4 Gaviota v0.86 2689
5 Komodo DEV 2670

Rom · 27 Nov 2013

Bulldozer said: ↑

...
Можете сами помочь общественности, если у вас есть устаканившийся рейтинг FIDE. Для этого нужно сыграть хотя бы пару десятков партий с любым движком, примерно равным вам по силам (в том же Комодо покрутить настройки). Потом по сотне партий между этим движком A и движком B, который несколько сильнее. Потом между B и C, который ещё сильнее и т.д., пока не придёте к полноценному Комодо. По этим результатам можно будет вычислить рейтинг Комодо. Я бы сам так сделал, но у меня только есть блиц-рейтинг по 9 партиям.
Click to expand...

Я как-то тестировал так. За отсчет брал свой рейтинг (примерно 1200) и далее от движка к движку по цепочке вплоть до Fritz 5.32, по 200 партий. К концу тестов движки определенно пошли на опережение своих реальных рейтингов. Сейчас точно не помню, надо искать тесты, но кажется пунктов на 300.

Кстати SSDF рейтинг тоже с годами корректировали. Примерно в 90-м году, его калибровали по перворазрядникам. А когда 10 лет спустя откалибровали по новой (видимо по результатам партий с более сильными шахматистами), то рейтинг пришлось осаживать на 100 пунктов ниже.

Bulldozer · 27 Nov 2013

Rom said: ↑

Я как-то тестировал так. За отсчет брал свой рейтинг (примерно 1200) и далее от движка к движку по цепочке вплоть до Fritz 5.32, по 200 партий. К концу тестов движки определенно пошли на опережение своих реальных рейтингов. Сейчас точно не помню, надо искать тесты, но кажется пунктов на 300.
Click to expand...

Наверное, нужно усложнить метод. Возможно, стоит скрещивать не только соседние по силе движки, но и вообще все, даже достаточно далёкие, чтобы получше моделировать реальный рейтинговый мир. А так, наверное, ошибка накопилась. В реале средний результат в 0.64 очка может соответствовать не 100 пунктам, а, например, 85 (а "компенсируется" это на других рейтинговых разницах). Тогда если выстроить лесенку движков с разницами по 100 пунктов, то на 20 ступеньках от 1200 до 3200 получим 20*15 = 300 пунктов несоответствия с реальным миром.
Да и 1200, наверное, недостаточно высокий рейтинг, чтобы ожидать нормальную точность в топе листа. Если взять человека с 2200, то ошибка теоретически будет вдвое меньше.

ubaldus · 27 Nov 2013

Комодо - Магнус Карлсен компьютерного мира! Только что перекатал Стокфиш и белыми, и черными (!!) в лондонской системе (1. d4 Nf6 2. Nf3 e6 3. Bf4 d5 4. e3 ), и ведет 14.5:11.5 (+7-4=15).

На длинном контроле сказываются все знания, которые Марк Кауфман и Дон Дэйли вложили в Комодо. Комодо в миттельшпиле добивает только до глубины 25, а Стокфиш 35 и больше - а прав обычно Комодо.

Очень жаль, что Дон Дэйли уже не узнает об этом.

Rom · 27 Nov 2013

Bulldozer said: ↑

Rom said: ↑

Я как-то тестировал так. За отсчет брал свой рейтинг (примерно 1200) и далее от движка к движку по цепочке вплоть до Fritz 5.32, по 200 партий. К концу тестов движки определенно пошли на опережение своих реальных рейтингов. Сейчас точно не помню, надо искать тесты, но кажется пунктов на 300.
Click to expand...

Наверное, нужно усложнить метод. Возможно, стоит скрещивать не только соседние по силе движки, но и вообще все, даже достаточно далёкие, чтобы получше моделировать реальный рейтинговый мир. А так, наверное, ошибка накопилась. В реале средний результат в 0.64 очка может соответствовать не 100 пунктам, а, например, 85 (а "компенсируется" это на других рейтинговых разницах). Тогда если выстроить лесенку движков с разницами по 100 пунктов, то на 20 ступеньках от 1200 до 3200 получим 20*15 = 300 пунктов несоответствия с реальным миром.
Да и 1200, наверное, недостаточно высокий рейтинг, чтобы ожидать нормальную точность в топе листа. Если взять человека с 2200, то ошибка теоретически будет вдвое меньше.
Click to expand...

Я думаю тут ошибка не накапливается, а скорее компенсируется. Если в одной паре 100 пунктов - это 85, то в следующей может оказаться что 100 пунктов - это уже например 115.
Что касается тестирования движков с большей разницей в рейтинге, то тут наоборот - достоверность тестов с увеличением разницы в рейтинге уменьшается. (Это нетрудно проверить. Есть такая программка - Elostat 1.3 - она помимо рейтинга вычисляет и величину погрешности).

Bulldozer · 28 Nov 2013

Rom said: ↑

Я думаю тут ошибка не накапливается, а скорее компенсируется. Если в одной паре 100 пунктов - это 85, то в следующей может оказаться что 100 пунктов - это уже например 115.
Click to expand...

Я про следующее. Может оказаться так, что если поднять результаты всех игр с разницей между игроками в 100 пунктов, то среднее кол-во набираемых очков не 0.64, а меньше (например, соответствует разнице 85). Почему не по теории - 0.64? А потому что никто не обещал, что это работает на _всех_ разницах одинаково. Это работает в среднем. На 100 пунктах разницы имеем недобор очков, а на 50, например, перебор. А в среднем всё компенсируется.
И вот, если мы будем всё время скрещивать движки с примерно одной и той же разницей в силе, то будем эту ошибку только накапливать.

Вообще, неплохо взять статистику результатов игр и плясать от неё, а не от формул. То есть. Играют два движка матч. У движка A рейтинг мы уже определили. Нужно определить рейтинг движка B. Сыграли они матч с определённым результатом, и мы смотрим в статистику людских партий, скольким пунктам разницы такой результат лучше всего соответствует. И присваиваем рейтинг движку B соответственно этому.

Rom · 28 Nov 2013

Bulldozer said: ↑

Я про следующее. Может оказаться так, что если поднять результаты всех игр с разницей между игроками в 100 пунктов, то среднее кол-во набираемых очков не 0.64, а меньше (например, соответствует разнице 85). Почему не по теории - 0.64? А потому что никто не обещал, что это работает на _всех_ разницах одинаково. Это работает в среднем. На 100 пунктах разницы имеем недобор очков, а на 50, например, перебор. А в среднем всё компенсируется.
И вот, если мы будем всё время скрещивать движки с примерно одной и той же разницей в силе, то будем эту ошибку только накапливать.

Вообще, неплохо взять статистику результатов игр и плясать от неё, а не от формул. То есть. Играют два движка матч. У движка A рейтинг мы уже определили. Нужно определить рейтинг движка B. Сыграли они матч с определённым результатом, и мы смотрим в статистику людских партий, скольким пунктам разницы такой результат лучше всего соответствует. И присваиваем рейтинг движку B соответственно этому.
Click to expand...

Не могу понять. Вы хотите сказать что нормальное распределение которое заложил в основу рейтинга профессор Эло не совсем соответствует реальному распределению силы игроков? Ну тогда могу сказать что в принципе у меня в парах движков разница в рейтинге колебалась в довольно широких пределах - от 70 эло до 338 (я нашел результаты). А общий итог был такой:
- оценка: 1200 (я) - 2640 (Fritz 5.32).
- тесты: 1200 => +100+245+338+215+117+70+241+296 => 2822.

Bulldozer · 28 Nov 2013

Rom said: ↑

Не могу понять. Вы хотите сказать что нормальное распределение которое заложил в основу рейтинга профессор Эло не совсем соответствует реальному распределению силы игроков?
Click to expand...

Игрока, а не игроков. Он не задавал распределение силы игроков в популяции (оно зависит от игроков и может быть произвольным), он сделал допущение о нормальном распределении силы одного игрока. Да, не совсем соответствует. И сейчас от нормального ушли к extreme value distribution (что даёт логистическое распр-е при взятии разницы), что, впрочем, даёт совсем маленькие отличия. Но причина неудачи эксперимента явно не в этом. И я не знаю в чём.
Интересно бы проверить "транзитивность" силы движков. Если B набирает с A 64% (100 пунктов разницы), а C набирает с B тоже 64%, то будет ли C набирать с A 76% (200 пунктов)?

WinPooh · 28 Nov 2013

Rom said: ↑

Я думаю тут ошибка не накапливается, а скорее компенсируется. Если в одной паре 100 пунктов - это 85, то в следующей может оказаться что 100 пунктов - это уже например 115.
Click to expand...

Математика учит нас, что складываются квадраты ошибок. А потом из полученной суммы извлекается корень.

Крокодил · 28 Nov 2013

Поздравляем Комодского Варана - нового чемпиона мира!

Pyhesty · 1 Dec 2013

Супер!) Поздравляем Комодо)
Кстати, хотел поделиться, может быть и не прав...
я посмотрел партии комодо и заметил, что глубина его анализа
значительно меньше соперника, примерно на 10, это огромная
величина, и в то же время он уверенно играет...
Так же посмотрел апрельское интервью, где разработчики говорят
о том, что к финалу постараются сделать многопроцессорный вариант
движка, так вот вопрос, такая разница по глубине анализа состоит
именно из-за того что использовался одноядерный движок?
Ведь если это так, то у Комодо огромный потенциал...

Bulldozer · 1 Dec 2013

50 пунктов Эло на каждое удвоение мощности.

ubaldus · 1 Dec 2013

Матч завершен, 25:23 в пользу Комодо (+10-8=30). В последней трети матча Стокфиш выиграл три миниматча - в защите Филидора, защите Боголюбова и сицилианке (Рихтер-Раузер), но спасти матч не смог. В закрытых позициях Комодо - это просто компьютерный Карпов какой-то. Вроде ничего и не происходит, а оценка идет вверх потихоньку.

Интересно, что Дон (земля ему пухом) и Ларри таки выполнили обещание создать движок, который далеко не первый в буллет и блиц, а вот на длинном контроле похоже лучший в мире сейчас.

Алексей_Я · 2 Dec 2013

Ну, а по-моему, счет 25:23 - это очень незначительный перевес, в пределах статистической погрешности. В другой раз "Стокфиш" мог бы лучше оказаться.

Гость форума · 4 Dec 2013

Есть подозрение, что недавно выпущенный Гудини 4 все-таки сильнее. В рейтинг-листах, по крайней мере, разница заметна.

Алексей_Я · 4 Dec 2013

А какой рейтинг у Гудини? Пришлите, пожалуйста, ссылку на рейтинг-листы!

WinPooh · 4 Dec 2013

Алексей_Я said: ↑

А какой рейтинг у Гудини? Пришлите, пожалуйста, ссылку на рейтинг-листы!
Click to expand...

http://www.computerchess.org.uk/ccrl/4040/

Log in or Sign up

Матч Комодо – Стокфиш, 22 ноября 2013. И не только

SimpleSimple Учаcтник

WinPooh В.М.

E-not Он видел динозавров

Aprilia Заслуженный

IvanHoe Зарегистрирован

Bulldozer Влад

WinPooh В.М.

Bulldozer Влад

WinPooh В.М.

Mustitz Заслуженный

Bulldozer Влад

Bulldozer Влад

Crest Админ, МГ

Фримен Учаcтник

WinPooh В.М.

WinPooh В.М.

WinPooh В.М.

Фримен Учаcтник

WinPooh В.М.

Rom Старожил

Bulldozer Влад

ubaldus Учаcтник

Rom Старожил

Bulldozer Влад

Rom Старожил

Bulldozer Влад

WinPooh В.М.

Крокодил Новичок

Pyhesty Учаcтник

Bulldozer Влад

ubaldus Учаcтник

Алексей_Я Учаcтник

Гость форума Учаcтник

Алексей_Я Учаcтник

WinPooh В.М.

Share This Page