AlphaZero. Нейронная сеть играет в шахматы

WinPooh · 24 May 2019

tiger said: ↑

Главная разница - ни в какой момент не нужно знать числовую оценку одной позиции.
Click to expand...

Теперь понял, спасибо. Выглядит очень интересно.
Первый же вопрос, который возникает - позиции, вероятно, должны быть похожими, хотя бы из одной стадии партии? Будет странно сравнивать позиции из ладейного эндшпиля с лишней пешкой и какую-нибудь острую атаку в сицилианской защите. То есть на их сравнении мы научимся, но непонятно чему.

Mustitz · 25 May 2019

WinPooh said: ↑

Каждое отдельное слово, и даже большинство их сочетаний в вашем предложении мне вполне понятны. А вот общий смысл уловить никак не могу.
Не поясните алгоритм подробнее, пожалуйста? Лучше всего на каком-нибудь простом примере..
Click to expand...

Ну нужно выбрать лучший ход. Обычно мы смотрим позиции после каждого хода, каждой ставим оценку (число), и потом выбираем позицию с лучшей оценкой. Итого у нас И лучший ход argmax(ОФ(список_позиций)). Тут, как я понял, предлагается иметь функцию ЛУЧШЕ(позиция1, позиция2), которая возвращает лучшую позицию. Ну и выбор лучший ход будет соответствовать позиции (reduce(ЛУЧШЕ, список_позиций)).

nh2008 · 25 May 2019

WinPooh said: ↑

tiger said: ↑

Главная разница - ни в какой момент не нужно знать числовую оценку одной позиции.
Click to expand...

Теперь понял, спасибо. Выглядит очень интересно.
Первый же вопрос, который возникает - позиции, вероятно, должны быть похожими, хотя бы из одной стадии партии? Будет странно сравнивать позиции из ладейного эндшпиля с лишней пешкой и какую-нибудь острую атаку в сицилианской защите. То есть на их сравнении мы научимся, но непонятно чему.
Click to expand...

Шахматы 8*8 слишком сложная игра. А вот если сделать шахматы 6*6 или 5*5, данную идею, наверное, можно обкатать, чтобы понять насколько она жизнеспособна.

—- добавлено: 25 May 2019 —-

Mustitz said: ↑

WinPooh said: ↑

Каждое отдельное слово, и даже большинство их сочетаний в вашем предложении мне вполне понятны. А вот общий смысл уловить никак не могу.
Не поясните алгоритм подробнее, пожалуйста? Лучше всего на каком-нибудь простом примере..
Click to expand...

Ну нужно выбрать лучший ход. Обычно мы смотрим позиции после каждого хода, каждой ставим оценку (число), и потом выбираем позицию с лучшей оценкой. Итого у нас И лучший ход argmax(ОФ(список_позиций)). Тут, как я понял, предлагается иметь функцию ЛУЧШЕ(позиция1, позиция2), которая возвращает лучшую позицию. Ну и выбор лучший ход будет соответствовать позиции (reduce(ЛУЧШЕ, список_позиций)).
Click to expand...

В идеале достаточно иметь пару позиция-число. Число показывает во сколько ходов будет выигрыш, или проигрыш, или ничья.

WinPooh · 25 May 2019

nh2008 said: ↑

В идеале достаточно иметь пару позиция-число. Число показывает во сколько ходов будет выигрыш, или проигрыш, или ничья.
Click to expand...

В идеале нам нужно натренировать такую policy network, которая будет выдавать на выходе просто лучший ход, вообще безо всяких дополнительных чисел типа числа ходов до выигрыша. Просто "лошадью ходи!" - и партия выигрывается.

tiger · 25 May 2019

WinPooh said: ↑

tiger said: ↑

Главная разница - ни в какой момент не нужно знать числовую оценку одной позиции.
Click to expand...

Теперь понял, спасибо. Выглядит очень интересно.
Первый же вопрос, который возникает - позиции, вероятно, должны быть похожими, хотя бы из одной стадии партии? Будет странно сравнивать позиции из ладейного эндшпиля с лишней пешкой и какую-нибудь острую атаку в сицилианской защите. То есть на их сравнении мы научимся, но непонятно чему.
Click to expand...

Да, интуитивно кажется очевидным, что надо сравнивать только похожие. Но это не так! Если вести достаточно глубокий поиск по этой новой версии альфа бета, помня что запоминаются позиции, а не числа, то видно что приходится напрямую сравнивать между собой очень далекие между собой позиции.

nn · 25 May 2019

tiger said: ↑

Да, интуитивно кажется очевидным, что надо сравнивать только похожие. Но это не так! Если вести достаточно глубокий поиск по этой новой версии альфа бета, помня что запоминаются позиции, а не числа, то видно что приходится напрямую сравнивать между собой очень далекие между собой позиции.
Click to expand...

То есть на множестве позиций введена операция сравнения между двумя элементами. А в чем разница с отображением множества позиций на множество чисел? Свойство транзитивности не обязательно должно выполняться?

tiger · 25 May 2019

nn said: ↑

tiger said: ↑

Да, интуитивно кажется очевидным, что надо сравнивать только похожие. Но это не так! Если вести достаточно глубокий поиск по этой новой версии альфа бета, помня что запоминаются позиции, а не числа, то видно что приходится напрямую сравнивать между собой очень далекие между собой позиции.
Click to expand...

То есть на множестве позиций введена операция сравнения между двумя элементами. А в чем разница с отображением множества позиций на множество чисел? Свойство транзитивности не обязательно должно выполняться?
Click to expand...

Хороший вопрос. Может быть дело в двух вещах. Во-первых, формально тренированная сеть не гарантирует транзитивности. Но гораздо важнее, что если от нас требуется только сравнивать объекты, то зачем усложнять себе жизнь отображением в гораздо более простую структуру (числа) и сравнивать там? (Очень трудно сделать такое отображение без потери информации.)

Alhimik88 · 26 May 2019

tiger said: ↑

Недавно обнаружил статью про DeepChess. Она в свое время затмилась очередным бульдозером от гугла (AlphaZero), а там интересная идея. Не переводить позицию в число вообще. Вместо этого тренировать сиамскую сеть на паре позиций, и в альфа бета поиске держать сами позиции для сравнения, а не числа. По-моему хорошая идея так как число не отражает сути все равно, и плюс к тому лишь путает шахматистов.
Click to expand...

Не понял, как нейросеть будет классифицировать позиции? Допустим у нас уникальная позиция, нейросеть ее ни разу не видела. Как она классифицирует ее, чтобы потом сравнивать?

tiger · 27 May 2019

Alhimik88 said: ↑

tiger said: ↑

Недавно обнаружил статью про DeepChess. Она в свое время затмилась очередным бульдозером от гугла (AlphaZero), а там интересная идея. Не переводить позицию в число вообще. Вместо этого тренировать сиамскую сеть на паре позиций, и в альфа бета поиске держать сами позиции для сравнения, а не числа. По-моему хорошая идея так как число не отражает сути все равно, и плюс к тому лишь путает шахматистов.
Click to expand...

Не понял, как нейросеть будет классифицировать позиции? Допустим у нас уникальная позиция, нейросеть ее ни разу не видела. Как она классифицирует ее, чтобы потом сравнивать?
Click to expand...

Классифицировать позиции не надо, надо только сравнивать. Сеть, кстати, тоже не обязательна, любой механизм сравнения годится.

Если вопрос как конкретно сеть сравнивает две позиции, то надо просто посмотреть архитектуру сети. Сначала два одинаковых "autoencoders with shared weights", на которые подается пара позиций. На выходе пара векторов, которая уже и преобразуется в пару неотрицательных чисел, которые сеть выдает на выходе.

FlashNeo · 21 Nov 2019

https://venturebeat.com/2019/11/20/...tself-how-to-win-at-atari-chess-shogi-and-go/

Дипмайнд продолжает наступать

WinPooh · 21 Dec 2019

Автор Лилы Зеро для Го официально объявил об окончании процесса обучения. Причина - программа вышла на плато, за 500 тысяч последних партий усиления не произошло.
https://github.com/leela-zero/leela-zero/issues/2560

nn · 21 Dec 2019

И тут после 605 тыс игр произошло усиление.

Похоже, однако, что все это не автоматически полученные веса, а кто-то индивидуально обучает Лилу на сыгранных играх.

grizly · 3 Jan 2020

DeepMind's MuZero немного сильнее в Го играет чем AlphaZero. В шахматы и шоги то же самое.

Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model

Constructing agents with planning capabilities has long been one of the main challenges in the pursuit of artificial intelligence. Tree-based planning methods have enjoyed huge success in challenging domains, such as chess and Go, where a perfect simulator is available. However, in real-world problems the dynamics governing the environment are often complex and unknown. In this work we present the MuZero algorithm which, by combining a tree-based search with a learned model, achieves superhuman performance in a range of challenging and visually complex domains, without any knowledge of their underlying dynamics. MuZero learns a model that, when applied iteratively, predicts the quantities most directly relevant to planning: the reward, the action-selection policy, and the value function. When evaluated on 57 different Atari games - the canonical video game environment for testing AI techniques, in which model-based planning approaches have historically struggled - our new algorithm achieved a new state of the art. When evaluated on Go, chess and shogi, without any knowledge of the game rules, MuZero matched the superhuman performance of the AlphaZero algorithm that was supplied with the game rules.
Click to expand...

MayaWheel · 4 Jan 2020

grizly said: ↑

DeepMind's MuZero немного сильнее в Го играет чем AlphaZero. В шахматы и шоги то же самое.

Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model

Constructing agents with planning capabilities has long been one of the main challenges in the pursuit of artificial intelligence. Tree-based planning methods have enjoyed huge success in challenging domains, such as chess and Go, where a perfect simulator is available. However, in real-world problems the dynamics governing the environment are often complex and unknown. In this work we present the MuZero algorithm which, by combining a tree-based search with a learned model, achieves superhuman performance in a range of challenging and visually complex domains, without any knowledge of their underlying dynamics. MuZero learns a model that, when applied iteratively, predicts the quantities most directly relevant to planning: the reward, the action-selection policy, and the value function. When evaluated on 57 different Atari games - the canonical video game environment for testing AI techniques, in which model-based planning approaches have historically struggled - our new algorithm achieved a new state of the art. When evaluated on Go, chess and shogi, without any knowledge of the game rules, MuZero matched the superhuman performance of the AlphaZero algorithm that was supplied with the game rules.
Click to expand...

Click to expand...

Действительно зачем знать правила игры если весь алгоритм тупо ищет аналогии по типу распознавания образов.
Прикольно что можно играть в "интеллектуальные игры" на сверхчеловеческом уровне вообще не имея интеллекта.

Crest · 4 Jan 2020

WinPooh said: ↑

Автор Лилы Зеро для Го официально объявил об окончании процесса обучения. Причина - программа вышла на плато, за 500 тысяч последних партий усиления не произошло.
https://github.com/leela-zero/leela-zero/issues/2560
Click to expand...

Отлично!
Стало быть, у обычных программ есть шанс.
Болею за Стокфиш и компанию!

Kesandr · 4 Jan 2020

Crest said: ↑

WinPooh said: ↑

Автор Лилы Зеро для Го официально объявил об окончании процесса обучения. Причина - программа вышла на плато, за 500 тысяч последних партий усиления не произошло.
https://github.com/leela-zero/leela-zero/issues/2560
Click to expand...

Отлично!
Стало быть, у обычных программ есть шанс.
Болею за Стокфиш и компанию!
Click to expand...

Да з компании там только Стокфиш и остался что может пока что реально конкурировать з сетями.

sovaz1997 · 4 Jan 2020

Crest said: ↑

WinPooh said: ↑

Автор Лилы Зеро для Го официально объявил об окончании процесса обучения. Причина - программа вышла на плато, за 500 тысяч последних партий усиления не произошло.
https://github.com/leela-zero/leela-zero/issues/2560
Click to expand...

Отлично!
Стало быть, у обычных программ есть шанс.
Болею за Стокфиш и компанию!
Click to expand...

Это другой проект совсем (для Го). Там другие авторы участвуют, насколько я знаю.
Для шахмат - это Leela Chess Zero, 60-я сеть которого скоро превзойдет 40-ю, они не планируют останавливаться.

nn · 5 Jan 2020

Crest said: ↑

WinPooh said: ↑

Автор Лилы Зеро для Го официально объявил об окончании процесса обучения. Причина - программа вышла на плато, за 500 тысяч последних партий усиления не произошло.
https://github.com/leela-zero/leela-zero/issues/2560
Click to expand...

Отлично!
Стало быть, у обычных программ есть шанс.
Болею за Стокфиш и компанию!
Click to expand...

С того времени, т.е. за 2 недели, сеть по внутренним расчетам на 140 эло усилилась. Реально наверно на 50. Не бог весть что, но на дороге 50 эло не валяется. Автору просто надоело. Кто-то другой возможно продолжит. Но, кажется, есть какая-то китайская программа основанная на тех же принципах, которая значительно сильнее. В го усилений еще копать и копать. Правда, о шахматах этот проект ничего не говорит.

KEV81 · 5 Jan 2020

WinPooh said: ↑

Причина - программа вышла на плато,
Click to expand...

стала godlike

WinPooh · 5 Jan 2020

nn said: ↑

С того времени, т.е. за 2 недели, сеть по внутренним расчетам на 140 эло усилилась. Реально наверно на 50. Не бог весть что, но на дороге 50 эло не валяется. Автору просто надоело. Кто-то другой возможно продолжит. Но, кажется, есть какая-то китайская программа основанная на тех же принципах, которая значительно сильнее. В го усилений еще копать и копать. Правда, о шахматах этот проект ничего не говорит.
Click to expand...

FineArt ещё есть, китайская. Говорят, что по силе уже превзошла исходную AlphaGo Zero, и уж явно сильнее Лилы.
У Лилы же существенное ограничение было принято, использовать нулевой принцип - то есть учиться только на своих партиях. Конкуренты в этом отношении обладают большей свободой выбора.

svoitsl · 8 Jan 2020

WinPooh said: ↑

У Лилы же существенное ограничение было принято
Click to expand...

В общем то вполне возможно использовать правила или методы теоретически обеснованные, тут главное что б не было всяких предвзятостей. Но теория тут пока несколько отстает, поэтому основной способ приближения к истине пока скорее эмпирический

nn · 8 Jan 2020

Стокфиш, мне кажется, продвинулся дальше чем Alpha Zero, и совсем не очевидно, что Лила его догонит. AZ была сильнее стокфиша 8 на 100 эло, при этом у стокфиша на условиях украли минимум 20 эло. Сейчас стокфиш где-то на 150 эло сильнее чем 8-й. С Лилой немного сложнее оценить при тех же условиях. В лучшем случае эло на 20 сильнее AZ. Т.е отстает от SF эло на 30.

svoitsl · 8 Jan 2020

nn said: ↑

Стокфиш, мне кажется, продвинулся дальше чем Alpha Zero
Click to expand...

Стокфиш использует оценочную функцию с ограниченным и не очень большим числом параметров, многие вещи довольно трудно как то запрограммировать, другие- приводят к снижению скорости и в придачу Эло. Развитие Стокфиша целиком основано на эмпирических зависимостях и все более усложняется и как следствие - замедляется. Развитие Лилы тоже к концу года может замедлится, так как большую сеть тренировать весьма затруднительно, а алгоритм поиска скорее всего удастся довести до совершенства. Возможно, если разделить ее на три части - собственную дебютную книжку, сеть среднего размера тренированную на собственных дебютах (20х256) для миттельшпиля и меньшего (15х192 или 10х128) для эндшпиля несколько оживит ситуацию.

nn · 8 Jan 2020

Проблема алгоритма, того как он реализован в AZ в том, что он очень хорошо подходит для стратегических игр, тех где важна точная общая оценка позиции, возникающих структур, закономерностей, знание куда двигаться, и плохо для тактических , тех где нужен исключительно точный расчет. В этом смысле никакой быстрый переборный алгоритм даже близко не способен конкурировать с AZ в го. В шоги ситуация диаметрально противоположна. Первоначальный успех AZ в шоги связан с тем, что в шоги было вложено мало усилий в создание хороших переборных программ. Хотя вот теперь адаптированная версия стокфиш, даже с без настроенной оценочной функции, превосходит AZ. В шахматах ситуация где-то посередине. SF может накапливать маргинальные улучшения, а с Лилой как-то вроде бы не получается. Так что, думаю, без более хорошего переборного поиска у (AZ)Лилы и если на SF будут тратиться усилия и соотношение скорости CPU/GPU будет оставаться примерно таким же, SF будет сильнее.

Mustitz · 8 Jan 2020

Мне кажется, что усиление SF связано ещё и с тем, что его начали тренировать на матчах против Lc0. Что позволило нивелировать слабые стороны, которые не могли вскрывать другие движки.

nn · 14 Jan 2020

Mustitz said: ↑

Мне кажется, что усиление SF связано ещё и с тем, что его начали тренировать на матчах против Lc0. Что позволило нивелировать слабые стороны, которые не могли вскрывать другие движки.
Click to expand...

Что значит тренировать SF на матчах? Имеется ввиду, что кто-то написал какой-то патч, потому что увидел игру против лилы? В SF11 да, наверно, таких, наверно, на 5 эло наберется. Там вроде бы всего оценки на 14, но в нее входит все - и настройка оптимальных коэффицииентов в оценке, и то, что кому-то пришло в голову по другим причинам.

Mustitz · 14 Jan 2020

nn said: ↑

Что значит тренировать SF на матчах?
Click to expand...

А как тренируется SF? Есть у него оценочная функция, эвристики, в которых есть over 9000+ различных параметров. Меняем ряд из них, играем набор тестовых матчей против старой версии, против других движков и смотрим, результат лучше или хуже. Если лучше — нашли усиление. Несколько усилений — новая версия. В чём-то процесс даже похож на обучение Lc0.

nn · 14 Jan 2020

Mustitz said: ↑

А как тренируется SF? Есть у него оценочная функция, эвристики, в которых есть over 9000+ различных параметров. Меняем ряд из них, играем набор тестовых матчей против старой версии, против других движков и смотрим, результат лучше или хуже. Если лучше — нашли усиление. Несколько усилений — новая версия. В чём-то процесс даже похож на обучение Lc0.
Click to expand...

Да, изменения тестируются против себя. А тренируется против Лилы тут причем?

Mustitz · 14 Jan 2020

nn said: ↑

Да, изменения тестируются против себя. А тренируется против Лилы тут причем?
Click to expand...

Не только против себя, но и против других движков. Против себя может быть необъективно — может быть эксплойт эксплойта в цикле. Мой поинт в том, что когда начали тестировать против Lc0, то начал наблюдаться прирост силы.

nn · 14 Jan 2020

Mustitz said: ↑

Не только против себя, но и против других движков. Против себя может быть необъективно — может быть эксплойт эксплойта в цикле. Мой поинт в том, что когда начали тестировать против Lc0, то начал наблюдаться прирост силы.
Click to expand...

Патчи в стокфиш не тестируются против других. Появление Лилы никак не изменило методику улучшения стокфиш.

sovaz1997 · 14 Jan 2020

Mustitz said: ↑

nn said: ↑

Да, изменения тестируются против себя. А тренируется против Лилы тут причем?
Click to expand...

Не только против себя, но и против других движков. Против себя может быть необъективно — может быть эксплойт эксплойта в цикле. Мой поинт в том, что когда начали тестировать против Lc0, то начал наблюдаться прирост силы.
Click to expand...

Stockfish успешно развивается именно благодаря тестированию против себя на ультра-коротких контролях времени. Число партий в тесте определяется с помошью SPRT-теста. Таких тестов в параллельном режиме идет много: http://tests.stockfishchess.org/tests . Другое дело, что некоторые идеи действительно могут браться из результатов партий против других движков. В том числе, и против Лилы. Грамотная статистика, большие ресурсы как железа (бывает и несколько тысяч ядер процессора работают для тестирования), так и разработчиков дает нам то, что Stockfish отрывается от ближайших конкурентов - Komodo и Houdini (не включая Лилу), уже сильно больше, чем 100 пунктов Эло. На таком уровне это очень большой отрыв.

smpin · 14 Jun 2020

Добрый день.
Уважаемые форумчане, подскажите пожалуйста, есть ли база партий AlfaZeroc комментариями? Например Шипова С.Ю.

svoitsl · 14 Jun 2020

smpin said: ↑

база партий AlfaZeroc комментариями?
Click to expand...

на ютубе можно поискать кучку разобранных партий, может около 10, а с партиями Лилы может уже и 20 наберется.

smpin said: ↑

Например Шипова С.Ю.
Click to expand...

Если никто не подскажет, то можно не постесняться, и спросить прямо у него!

SKY · 14 Jun 2020

smpin, -
https://www.youtube.com/watch?v=lvJvLJsaMkg
https://www.youtube.com/watch?v=ba4_M7UINfo&t=2120s

smpin · 14 Jun 2020

SKY, большое спасибо.
А есть в формате chessbase?

Log in or Sign up

AlphaZero. Нейронная сеть играет в шахматы

WinPooh В.М.

Mustitz Заслуженный

nh2008 Старожил

WinPooh В.М.

tiger Новичок

nn Старожил

tiger Новичок

Alhimik88 Новичок

tiger Новичок

FlashNeo Учаcтник

WinPooh В.М.

nn Старожил

grizly Учаcтник

MayaWheel Новичок

Crest Админ, МГ

Kesandr Учаcтник

sovaz1997 Учаcтник

nn Старожил

KEV81 Учаcтник

WinPooh В.М.

svoitsl Учаcтник

nn Старожил

svoitsl Учаcтник

nn Старожил

Mustitz Заслуженный

nn Старожил

Mustitz Заслуженный

nn Старожил

Mustitz Заслуженный

nn Старожил

sovaz1997 Учаcтник

smpin Учаcтник

svoitsl Учаcтник

SKY Учаcтник

smpin Учаcтник

Share This Page