AlphaZero. Нейронная сеть играет в шахматы

nh2008 · 9 дек 2017

Комсюк пишет: ↑

Все движки смотрят полный набор ходов, просто какой-то раньше режет , какой-то позже
Но лучше читать спецов
Чуть выше статья Маркова, Осипов тут где-то рядом...
Нажмите, чтобы раскрыть...

Если проконсультироваться с достаточным количеством экспертов, можно подтвердить любую точку зрения и получить поддержку для любой позиции.
Нажмите, чтобы раскрыть...

Я где-то читал, что в основном движки считают на определённую глубину и дальше обращаются к оценочной функции.
Когда возможны отклонения? Мне известна пара случаев: глубже считается форсированный вариант, пока встречаются шахи и, как я понимаю, обращение к таблице эндшпилей.
Комодо относится к этому типу. Из-за сплошного перебора получается меньше глубина анализа.
А вот Стокфиш отбрасывает "бесперспективные" варианты и поэтому при том же количестве оценённых позиций ей удаётся заглянуть глубже. Но при этом она может выпустить из внимания лучший ход, который попадает в ветвь "бесперспективного" варианта.

А0 просматривает меньше позиций, но анализирует их лучше. Если она при этом не занимается сплошным перебором, может что-то упустить. Вот тогда Комодо её и поймает.
Может быть Комодо проиграет с ещё более разгромным счётом, но при этом добьётся хотя бы одной победы.

Комсюк · 9 дек 2017

nh2008 пишет: ↑

Может быть Комодо проиграет с ещё более разгромным счётом, но при этом добьётся хотя бы одной победы.
Нажмите, чтобы раскрыть...

Стокфиш добился кучи побед
Просто в рекламных целях был проафиширован матч без первых ходов, "с нуля"
И Зеро там сыграла на ноль (как раз очень удачно)
А после ходов 1.e4 c5 2.Nf3 e6 у Альфы 7 поражений чёрными

sovaz1997 · 9 дек 2017

Посмотрите, как влияет мощность железа на силу игры: http://www.fastgm.de/schach/SMP-scaling.pdf :
вот, например, 4 потока против 1: +1111,=1835,-54.
Надо только учесть, что контроль здесь 10+0.1

Странно, что им помешало выложить все партии - ведь это не так сложно, вроде бы.

dom1n1k · 9 дек 2017

Многие говорят про несправедливые условия - разную мощность железа, неудобный регламент по времени и (главный камень преткновения) дебютную библиотеку.

1) Пока ничего непонятно (для меня). Да, формально TFLOPS у A0 было намного больше, но дело в том, что невозможно напрямую сравнивать процессоры разной архитектуры и назначения. Как например нельзя напрямую сравнивать мощность видеокарт и центральных процессоров: видеокарты как бы мощнее, но при этом "тупее" - они заточены только под узкий тип задач и алгоритмов, тогда как CPU гораздо универсальнее.

2) Тут наверное да. С одной стороны, DeepMind можно понять - они хотели максимально прозрачного и равного регламента, поэтому и сделали его очень простым, без всех этих тайм-менеджментов и фишеровских добавлений, которые запутали бы картину. Но с другой стороны, этот регламент точно неудобный для классического счетного движка. То есть формально хотели как лучше, де-факто вышло наоборот.

3) А вот тут я си-и-ильно сомневаюсь. Многие комментаторы сказали, что A0 в процессе обучения фактически создал себе дебютную библиотеку, а у SF её отобрали несправедливо. Я не согласен. Насколько я понимаю нейронные сети, никакой полноценной библиотеки (ну то есть таблицы, где абсолютно четко прописаны последовательности - ходить сюда, потом сюда и тд) он себе создать не мог. Он создавал себе вероятностное "виденье" и "понимание" любых позиций, ну и дебютных в том числе. Если посмотреть партии, то SF, даже (якобы) будучи лишенным дебютной библиотеки, не творил какую-то явную дичь, а делал вполне теоретические ходы (ну то есть он до них сам "додумался") и ведь никого это не удивляет? И A0 аналогично. В этом и был главный смысл - сравнить главные алгоритмы, а не боковые табличные костыли.

sovaz1997 · 9 дек 2017

По поводу дебютной библиотеки - согласен. Сравнивают алгоритмы, а не все вместе. Но то, что железо совсем разное, не дает нормально сравнивать эти подходы. Но Deepmind, в общем-то, только статью выложили, а оттуда уже пошла волна распространения.

Rom · 9 дек 2017

nh2008 пишет: ↑

Я где-то читал, что в основном движки считают на определённую глубину и дальше обращаются к оценочной функции.
Когда возможны отклонения? Мне известна пара случаев: глубже считается форсированный вариант, пока встречаются шахи и, как я понимаю, обращение к таблице эндшпилей. Комодо относится к этому типу. Из-за сплошного перебора получается меньше глубина анализа.
А вот Стокфиш отбрасывает "бесперспективные" варианты и поэтому при том же количестве оценённых позиций ей удаётся заглянуть глубже.
Нажмите, чтобы раскрыть...

И Комодо и Стокфиш отбрасывают бесперспективные варианты. Базовые принципы у них совершенно одинаковые. Если очень грубо: 1) Альфа-бета отсекает ходы которые всё равно не будут рассматриваться. 2) Нулевой ход отсекает откровенно плохие тихие ходы. 3) LMR сокращает глубину рассмотрения для малоперспективных тихих ходов. 4) Плюс ещё различные сокращения на последних полуходах вариантов, итд итп.

vasa · 9 дек 2017

Закрытие французской защиты

Michael-13 · 9 дек 2017

04-09 декабря проходит 31 ежегодная (!!!) конференция по нейронным сетям, в которой участвует DeepMind (автор AlphaZero).
https://deepmind.com/blog/deepmind-papers-nips-2017/
Так что ответы на все вопросы по матчу со стокфишем будут после конференции - скорее всего начиная с 12 декабря (вторник).

Rom · 9 дек 2017

Michael-13 пишет: ↑

04-09 декабря проходит 31 ежегодная (!!!) конференция по нейронным сетям, в которой участвует DeepMind (автор AlphaZero).
https://deepmind.com/blog/deepmind-papers-nips-2017/
Так что ответы на все вопросы по матчу со стокфишем будут после конференции - скорее всего начиная с 12 декабря (вторник).
Нажмите, чтобы раскрыть...

Некоторые слайды с той самой конференции:
https://lifein19x19.com/forum/viewtopic.php?p=225801#p225801

Комсюк · 9 дек 2017

sovaz1997 пишет: ↑

По поводу дебютной библиотеки - согласен. Сравнивают алгоритмы, а не все вместе.
Нажмите, чтобы раскрыть...

А я не согласен. С этим КВ на этом железе Сток играл французскую с большой вероятностью везде
А теперь посмотрите его провал чёрными в этом дебюте в матче с позициями
Это очень большая фора!

sovaz1997 · 9 дек 2017

Комсюк, это свойство алгоритмов. У Alpha Zero не было дебютной книги, как и у людей, играющих разные дебюты.

NoraNora · 9 дек 2017

vasa пишет: ↑

Закрытие французской защиты

Нажмите, чтобы раскрыть...

Закрытие или подтверждение известных проблем в одном из вариантов?...

Комсюк · 9 дек 2017

sovaz1997, ну ты-то, наверное, знаешь, что Сток тестируют не с начальной позиции, а с разных
Не приспособлен он считать первые ходы

—- добавлено: 9 дек 2017 —-

А тут будут партии-близнецы во французской и этом трэшевом варике новоиндийки

sovaz1997 · 9 дек 2017

Комсюк, если делать честное тестирование, нужно много чего еще сделать. Сейчас же это просто демонстрация. Если бы Alpha Zero была бы действительно на голову выше других, можно было бы спокойно тестировать с последними версиями SF на нормальном контроле, при этом показав все партии. Но перевес в силе не очень большой пока, все-таки (если он есть, конечно).

Комсюк · 9 дек 2017

sovaz1997 пишет: ↑

Но перевес в силе не очень большой пока, все-таки (если он есть, конечно)
Нажмите, чтобы раскрыть...

Гроссы может и видят инопланетную игру, но по цифрам, если принять за правду перевес мощности в 70 раз, то Сток8 просто сильнее (без книг и таблиц)

sovaz1997 · 9 дек 2017

Комсюк, для сравнения нужны одинаковые платформы в любом случае. Сейчас нельзя сравнивать движки из-за различных архитектур.

Мобуту · 9 дек 2017

Извините, что въезжаю к вам на белом носороге, но что произошло?

AlphaZero на супержелезе обыграла Стокфиша на обычном железе?
AlphaZero на супержелезе обыграла Стокфиша на супержелезе, т.к. тот не умеет им как следует пользоваться?
Или что-то ещё?

Вообще считаю не слишком-то спортивным хвалиться домашними победами над вяленым. Силу надо демонстрировать при всём честном народе. Есть TCEC, почему бы не сыграть там?

Комсюк · 9 дек 2017

sovaz1997 пишет: ↑

Сейчас нельзя сравнивать движки из-за различных архитектур.
Нажмите, чтобы раскрыть...

мне можно
Надо только грубую оценку перевеса по мощности

vasa · 9 дек 2017

Комсюк · 9 дек 2017

Мобуту пишет: ↑

Есть TCEC, почему бы не сыграть там?
Нажмите, чтобы раскрыть...

На слабо этих монстров не заманишь

NoraNora · 9 дек 2017

Мобуту пишет: ↑

Извините, что въезжаю к вам на белом носороге, но что произошло?
Нажмите, чтобы раскрыть...

Появился такой ИИ, который научился сам очень хорошо играть в шахматы. Остальное в принципе преувеличено, но и это очень круто.

sovaz1997 · 9 дек 2017

не получится сыграть в TCEC, т. к. Alpha Zero - это не только софт. Запустите на железе TCEC и получите Магнуса Карлсена с 2800)). Игры будут интереснее остальных, но слабыми.

просроченый_кмс · 9 дек 2017

Предлагаю мерить силу железа по энергопотреблению, и да, надо дать стокфишу час полтора на партию как и проге, пусть сами решают где сколько думать, с добавлением.
Но идея очень интересная, человеческая и даже больше оценка, и меньший перебор.
Судя по тому как стокфиш попадает со своими плохими слонами, понимания у проги больше, а он просто недосчитывает почему это плохо, и не понимает в отличие от нейросети.

Undying · 9 дек 2017

Vladruss пишет: ↑

Все на самом деле и проще и приземленнее: поскольку этот А0 умеет находить оптимальные - и даже не побоюсь сказать это слово: "гениальные" - решения, то это означает лишь одно: можно прогнозировать развитие экономической и политической ситуации в глобальном масштабе. То есть, некие дяди получают в руки идеальные прогностический инструмент.
Нажмите, чтобы раскрыть...

Не получили. Ничего общего между этими задачами и шахматами нет. А вот в более приземленных задачах, вроде искусственного водителя автотранспорта, вполне возможно что это действительно прорыв.

NoraNora · 9 дек 2017

Научите эту штуку играть в Civilization 5: Brave new world...

(помечать хочу)

Baron · 9 дек 2017

vasa пишет: ↑

Нажмите, чтобы раскрыть...

Сейчас очень популярна реакция "смотрите, рушатся основы мироздания!". С моей точки зрения, картина ровно обратная - новые данные только подтверждают уже известные нам истины. Ферзевый гамбит и даже защита Грюнфельда оказались действительно неплохими дебютами. Берлин остался неприступной крепостью.
Нажмите, чтобы раскрыть...

Интересное утверждение, ведь в опубликованных партиях Грюнфельда не видно. И в англоязычной статье я не нашел упоминаний об этой защите.

Комсюк · 9 дек 2017

Baron, есть партии с расстановки 1.d4 Nf6 2.c4 g6
Возможно, работая в Гугл, Андрей знает, что там был Грюнфельд

Undying · 9 дек 2017

просроченый_кмс пишет: ↑

Как было написано давно, компы понимают позицию на уровне кмс и очень быстро считают, последние годы понимание поднялось на мастерский уровень, а эта нейросеть уже гроссмейстерский с чем то ещё, т.к. она видит закономерности в позициях которые мы не всегда видим или понимаем, + скорость счёта, небольшая но в общем прога мечта Ботвинника, программа пионер на современном железе с современным подходом.
Нажмите, чтобы раскрыть...

Вы сильно переоцениваете современные компьютерные программы. Понимания там вообще нет. Кмс адвансер выносит комп без каких либо проблем. Если было бы иначе адванс шахмат бы просто не существовало. А вот у альфа зеро по-видимому какое-то понимание уже есть.

sovaz1997 · 9 дек 2017

КМС + Stockfish = адвансер
Гроссмейстер + Stockfish = Alpha Zero

Fruit · 9 дек 2017

sovaz1997 пишет: ↑

По поводу дебютной библиотеки - согласен. Сравнивают алгоритмы, а не все вместе.
Нажмите, чтобы раскрыть...

Так, в чем проблема? Достаточно подобрать набор дебютных позиций и заставить движки играть их за оба цвета. А можно множить победы в одном и том же варианте, который Стокфиш не в состоянии ни избежать, ни понять..... Как однажды чуть не сказал о Стокфише Боярский: Запомните, джентльмены: эту программу погубит рандомность.....Без нее матча на таких условиях "сравнения алгоритмов" просто бы не получилось.

Комсюк · 9 дек 2017

sovaz1997 пишет: ↑

КМС + Stockfish = адвансер
Гроссмейстер + Stockfish = Alpha Zero
Нажмите, чтобы раскрыть...

Дронов + Альфазеро =?

Vertu · 9 дек 2017

Самая большая непонятка (как справедиво заметил Crest) - это ход Стокфиша Rf8 в этой позиции.

Может, ходы заводились вручную, и оператор мышкой не туда ткнул?

sovaz1997 · 9 дек 2017

Vertu пишет: ↑

Самая большая непонятка (как справедиво заметил Crest) - это ход Стокфиша Rf8 в этой позиции.

Может, ходы заводились вручную, и оператор мышкой не туда ткнул?
Нажмите, чтобы раскрыть...

Здесь Kf8 SF играет:
Код:
info depth 49 seldepth 82 multipv 1 score cp -120 nodes 4583901898 nps 9354157 hashfull 999 tbhits 0 time 490039 pv g8f8 h4f4 h8g8 f4c7 c5c4 c7c4 e8d8 c4c3 f8e8 g3g4 g8f8 g4g5 e7e6 f6f3 a7a6 b3d5 f8e7 c3h8 e7f8 h8h7 e8e7 d5e6 d7e6 f3b3 d8d5 b3b7 e7d6 h7g7 f8d8 g7c3 d8g5 g2f1 d5d1 f1e2 g5c1 c3c1 d1c1 h6h7 c1h1 b7f7 h1h3 e2f1 h3h2 f1g1 h2h5 g1g2 e6e5 f7a7 a6a5 g2f3 d6e6 f3g4 a5a4 a2a3 e5e4 g4f4 e4e3 f2e3 e6f6 f4g4 h5g5 g4f3 g5f5 f3e2 f5h5 a7a6 f6g7 a6a4 g7h7 a4a7 h7h6 a3a4 h6g5 a4a5 g5f6 a7a8 h5h2 e2f3 f6e6 a5a6 h2a2

Baron · 9 дек 2017

Интересно, сколько очков АльфаЗеро набрала бы против 32-фигурной таблицы Налимова. Второй интересный момент, что с определенного времени самообучения ИИ перестает усиливаться и рейтинг застывает в районе 3500. Или дальше усиление идет в час по чайной ложке (вроде 0,1 эло/сутки). Если первый вариант, то это число (3500-3600) можно считать физической константой типа постоянной Планка или числа Пи

sovaz1997 · 9 дек 2017

Ход ладьей - самоубийство. Ни одна шахматная программа так не будет, сделано для красоты партии
(После хода ладьей, оценки относительно текущего хода)
Код:
info depth 39 seldepth 65 multipv 1 score cp 673 nodes 368530923 nps 10829271 hashfull 574 tbhits 0 time 34031 pv h4f4 d7d5 b3d5 e7d7 d5c4 a7a6 g3g4 a6a5 g4g5 a5a4 f4f3 d7c7 f3d5 h8f6 g5f6 f8c8 c4a6 c8f8 d5d6 c7a7 a6c4 f8a8 d6c6 a4a3 c6c5 a7d7 c5c6 d7a7 c4b3 a8f8 c6c5 a7a8 b3c4 a8e8 c5a7 e8c8 c4d5 c8e8 a7a3 e8d8 a3c5 d8d7 d5b3 f8d8 a2a4 d8a8 a4a5 d7a7 c5d5 a8f8 b3c4 a7c7 a5a6 f8c8 c4b3
На всякий случай проверил 8-й версией. Тоже все правильно находит.

Не знаю, может, надо считать до 60 или 70 глубины?

Войти или зарегистрироваться

AlphaZero. Нейронная сеть играет в шахматы

nh2008 Старожил

Комсюк народный модератор

sovaz1997 Учаcтник

dom1n1k Учаcтник

sovaz1997 Учаcтник

Rom Старожил

vasa Опытный перворазрядник

Michael-13 Господин

Rom Старожил

Комсюк народный модератор

sovaz1997 Учаcтник

NoraNora Старожил

Комсюк народный модератор

sovaz1997 Учаcтник

Комсюк народный модератор

sovaz1997 Учаcтник

Мобуту спаситель нации

Комсюк народный модератор

vasa Опытный перворазрядник

Комсюк народный модератор

NoraNora Старожил

sovaz1997 Учаcтник

просроченый_кмс Старожил

Undying Учаcтник

NoraNora Старожил

Baron Учаcтник

Комсюк народный модератор

Undying Учаcтник

sovaz1997 Учаcтник

Fruit Александр

Комсюк народный модератор

Vertu Старожил

sovaz1997 Учаcтник

Baron Учаcтник

sovaz1997 Учаcтник

Поделиться этой страницей