AlphaZero. Нейронная сеть играет в шахматы

WinPooh · 24 май 2019

tiger пишет: ↑

Главная разница - ни в какой момент не нужно знать числовую оценку одной позиции.
Нажмите, чтобы раскрыть...

Теперь понял, спасибо. Выглядит очень интересно.
Первый же вопрос, который возникает - позиции, вероятно, должны быть похожими, хотя бы из одной стадии партии? Будет странно сравнивать позиции из ладейного эндшпиля с лишней пешкой и какую-нибудь острую атаку в сицилианской защите. То есть на их сравнении мы научимся, но непонятно чему.

Mustitz · 25 май 2019

WinPooh пишет: ↑

Каждое отдельное слово, и даже большинство их сочетаний в вашем предложении мне вполне понятны. А вот общий смысл уловить никак не могу.
Не поясните алгоритм подробнее, пожалуйста? Лучше всего на каком-нибудь простом примере..
Нажмите, чтобы раскрыть...

Ну нужно выбрать лучший ход. Обычно мы смотрим позиции после каждого хода, каждой ставим оценку (число), и потом выбираем позицию с лучшей оценкой. Итого у нас И лучший ход argmax(ОФ(список_позиций)). Тут, как я понял, предлагается иметь функцию ЛУЧШЕ(позиция1, позиция2), которая возвращает лучшую позицию. Ну и выбор лучший ход будет соответствовать позиции (reduce(ЛУЧШЕ, список_позиций)).

nh2008 · 25 май 2019

WinPooh пишет: ↑

tiger пишет: ↑

Главная разница - ни в какой момент не нужно знать числовую оценку одной позиции.
Нажмите, чтобы раскрыть...

Теперь понял, спасибо. Выглядит очень интересно.
Первый же вопрос, который возникает - позиции, вероятно, должны быть похожими, хотя бы из одной стадии партии? Будет странно сравнивать позиции из ладейного эндшпиля с лишней пешкой и какую-нибудь острую атаку в сицилианской защите. То есть на их сравнении мы научимся, но непонятно чему.
Нажмите, чтобы раскрыть...

Шахматы 8*8 слишком сложная игра. А вот если сделать шахматы 6*6 или 5*5, данную идею, наверное, можно обкатать, чтобы понять насколько она жизнеспособна.

—- добавлено: 25 май 2019 —-

Mustitz пишет: ↑

WinPooh пишет: ↑

Каждое отдельное слово, и даже большинство их сочетаний в вашем предложении мне вполне понятны. А вот общий смысл уловить никак не могу.
Не поясните алгоритм подробнее, пожалуйста? Лучше всего на каком-нибудь простом примере..
Нажмите, чтобы раскрыть...

Ну нужно выбрать лучший ход. Обычно мы смотрим позиции после каждого хода, каждой ставим оценку (число), и потом выбираем позицию с лучшей оценкой. Итого у нас И лучший ход argmax(ОФ(список_позиций)). Тут, как я понял, предлагается иметь функцию ЛУЧШЕ(позиция1, позиция2), которая возвращает лучшую позицию. Ну и выбор лучший ход будет соответствовать позиции (reduce(ЛУЧШЕ, список_позиций)).
Нажмите, чтобы раскрыть...

В идеале достаточно иметь пару позиция-число. Число показывает во сколько ходов будет выигрыш, или проигрыш, или ничья.

WinPooh · 25 май 2019

nh2008 пишет: ↑

В идеале достаточно иметь пару позиция-число. Число показывает во сколько ходов будет выигрыш, или проигрыш, или ничья.
Нажмите, чтобы раскрыть...

В идеале нам нужно натренировать такую policy network, которая будет выдавать на выходе просто лучший ход, вообще безо всяких дополнительных чисел типа числа ходов до выигрыша. Просто "лошадью ходи!" - и партия выигрывается.

tiger · 25 май 2019

WinPooh пишет: ↑

tiger пишет: ↑

Главная разница - ни в какой момент не нужно знать числовую оценку одной позиции.
Нажмите, чтобы раскрыть...

Теперь понял, спасибо. Выглядит очень интересно.
Первый же вопрос, который возникает - позиции, вероятно, должны быть похожими, хотя бы из одной стадии партии? Будет странно сравнивать позиции из ладейного эндшпиля с лишней пешкой и какую-нибудь острую атаку в сицилианской защите. То есть на их сравнении мы научимся, но непонятно чему.
Нажмите, чтобы раскрыть...

Да, интуитивно кажется очевидным, что надо сравнивать только похожие. Но это не так! Если вести достаточно глубокий поиск по этой новой версии альфа бета, помня что запоминаются позиции, а не числа, то видно что приходится напрямую сравнивать между собой очень далекие между собой позиции.

nn · 25 май 2019

tiger пишет: ↑

Да, интуитивно кажется очевидным, что надо сравнивать только похожие. Но это не так! Если вести достаточно глубокий поиск по этой новой версии альфа бета, помня что запоминаются позиции, а не числа, то видно что приходится напрямую сравнивать между собой очень далекие между собой позиции.
Нажмите, чтобы раскрыть...

То есть на множестве позиций введена операция сравнения между двумя элементами. А в чем разница с отображением множества позиций на множество чисел? Свойство транзитивности не обязательно должно выполняться?

tiger · 25 май 2019

nn пишет: ↑

tiger пишет: ↑

Да, интуитивно кажется очевидным, что надо сравнивать только похожие. Но это не так! Если вести достаточно глубокий поиск по этой новой версии альфа бета, помня что запоминаются позиции, а не числа, то видно что приходится напрямую сравнивать между собой очень далекие между собой позиции.
Нажмите, чтобы раскрыть...

То есть на множестве позиций введена операция сравнения между двумя элементами. А в чем разница с отображением множества позиций на множество чисел? Свойство транзитивности не обязательно должно выполняться?
Нажмите, чтобы раскрыть...

Хороший вопрос. Может быть дело в двух вещах. Во-первых, формально тренированная сеть не гарантирует транзитивности. Но гораздо важнее, что если от нас требуется только сравнивать объекты, то зачем усложнять себе жизнь отображением в гораздо более простую структуру (числа) и сравнивать там? (Очень трудно сделать такое отображение без потери информации.)

Alhimik88 · 26 май 2019

tiger пишет: ↑

Недавно обнаружил статью про DeepChess. Она в свое время затмилась очередным бульдозером от гугла (AlphaZero), а там интересная идея. Не переводить позицию в число вообще. Вместо этого тренировать сиамскую сеть на паре позиций, и в альфа бета поиске держать сами позиции для сравнения, а не числа. По-моему хорошая идея так как число не отражает сути все равно, и плюс к тому лишь путает шахматистов.
Нажмите, чтобы раскрыть...

Не понял, как нейросеть будет классифицировать позиции? Допустим у нас уникальная позиция, нейросеть ее ни разу не видела. Как она классифицирует ее, чтобы потом сравнивать?

tiger · 27 май 2019

Alhimik88 пишет: ↑

tiger пишет: ↑

Недавно обнаружил статью про DeepChess. Она в свое время затмилась очередным бульдозером от гугла (AlphaZero), а там интересная идея. Не переводить позицию в число вообще. Вместо этого тренировать сиамскую сеть на паре позиций, и в альфа бета поиске держать сами позиции для сравнения, а не числа. По-моему хорошая идея так как число не отражает сути все равно, и плюс к тому лишь путает шахматистов.
Нажмите, чтобы раскрыть...

Не понял, как нейросеть будет классифицировать позиции? Допустим у нас уникальная позиция, нейросеть ее ни разу не видела. Как она классифицирует ее, чтобы потом сравнивать?
Нажмите, чтобы раскрыть...

Классифицировать позиции не надо, надо только сравнивать. Сеть, кстати, тоже не обязательна, любой механизм сравнения годится.

Если вопрос как конкретно сеть сравнивает две позиции, то надо просто посмотреть архитектуру сети. Сначала два одинаковых "autoencoders with shared weights", на которые подается пара позиций. На выходе пара векторов, которая уже и преобразуется в пару неотрицательных чисел, которые сеть выдает на выходе.

FlashNeo · 21 ноя 2019

https://venturebeat.com/2019/11/20/...tself-how-to-win-at-atari-chess-shogi-and-go/

Дипмайнд продолжает наступать

WinPooh · 21 дек 2019

Автор Лилы Зеро для Го официально объявил об окончании процесса обучения. Причина - программа вышла на плато, за 500 тысяч последних партий усиления не произошло.
https://github.com/leela-zero/leela-zero/issues/2560

nn · 21 дек 2019

И тут после 605 тыс игр произошло усиление.

Похоже, однако, что все это не автоматически полученные веса, а кто-то индивидуально обучает Лилу на сыгранных играх.

grizly · 3 янв 2020

DeepMind's MuZero немного сильнее в Го играет чем AlphaZero. В шахматы и шоги то же самое.

Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model

Constructing agents with planning capabilities has long been one of the main challenges in the pursuit of artificial intelligence. Tree-based planning methods have enjoyed huge success in challenging domains, such as chess and Go, where a perfect simulator is available. However, in real-world problems the dynamics governing the environment are often complex and unknown. In this work we present the MuZero algorithm which, by combining a tree-based search with a learned model, achieves superhuman performance in a range of challenging and visually complex domains, without any knowledge of their underlying dynamics. MuZero learns a model that, when applied iteratively, predicts the quantities most directly relevant to planning: the reward, the action-selection policy, and the value function. When evaluated on 57 different Atari games - the canonical video game environment for testing AI techniques, in which model-based planning approaches have historically struggled - our new algorithm achieved a new state of the art. When evaluated on Go, chess and shogi, without any knowledge of the game rules, MuZero matched the superhuman performance of the AlphaZero algorithm that was supplied with the game rules.
Нажмите, чтобы раскрыть...

MayaWheel · 4 янв 2020

grizly пишет: ↑

DeepMind's MuZero немного сильнее в Го играет чем AlphaZero. В шахматы и шоги то же самое.

Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model

Constructing agents with planning capabilities has long been one of the main challenges in the pursuit of artificial intelligence. Tree-based planning methods have enjoyed huge success in challenging domains, such as chess and Go, where a perfect simulator is available. However, in real-world problems the dynamics governing the environment are often complex and unknown. In this work we present the MuZero algorithm which, by combining a tree-based search with a learned model, achieves superhuman performance in a range of challenging and visually complex domains, without any knowledge of their underlying dynamics. MuZero learns a model that, when applied iteratively, predicts the quantities most directly relevant to planning: the reward, the action-selection policy, and the value function. When evaluated on 57 different Atari games - the canonical video game environment for testing AI techniques, in which model-based planning approaches have historically struggled - our new algorithm achieved a new state of the art. When evaluated on Go, chess and shogi, without any knowledge of the game rules, MuZero matched the superhuman performance of the AlphaZero algorithm that was supplied with the game rules.
Нажмите, чтобы раскрыть...

Нажмите, чтобы раскрыть...

Действительно зачем знать правила игры если весь алгоритм тупо ищет аналогии по типу распознавания образов.
Прикольно что можно играть в "интеллектуальные игры" на сверхчеловеческом уровне вообще не имея интеллекта.

Crest · 4 янв 2020

WinPooh пишет: ↑

Автор Лилы Зеро для Го официально объявил об окончании процесса обучения. Причина - программа вышла на плато, за 500 тысяч последних партий усиления не произошло.
https://github.com/leela-zero/leela-zero/issues/2560
Нажмите, чтобы раскрыть...

Отлично!
Стало быть, у обычных программ есть шанс.
Болею за Стокфиш и компанию!

Kesandr · 4 янв 2020

Crest пишет: ↑

WinPooh пишет: ↑

Автор Лилы Зеро для Го официально объявил об окончании процесса обучения. Причина - программа вышла на плато, за 500 тысяч последних партий усиления не произошло.
https://github.com/leela-zero/leela-zero/issues/2560
Нажмите, чтобы раскрыть...

Отлично!
Стало быть, у обычных программ есть шанс.
Болею за Стокфиш и компанию!
Нажмите, чтобы раскрыть...

Да з компании там только Стокфиш и остался что может пока что реально конкурировать з сетями.

sovaz1997 · 4 янв 2020

Crest пишет: ↑

WinPooh пишет: ↑

Автор Лилы Зеро для Го официально объявил об окончании процесса обучения. Причина - программа вышла на плато, за 500 тысяч последних партий усиления не произошло.
https://github.com/leela-zero/leela-zero/issues/2560
Нажмите, чтобы раскрыть...

Отлично!
Стало быть, у обычных программ есть шанс.
Болею за Стокфиш и компанию!
Нажмите, чтобы раскрыть...

Это другой проект совсем (для Го). Там другие авторы участвуют, насколько я знаю.
Для шахмат - это Leela Chess Zero, 60-я сеть которого скоро превзойдет 40-ю, они не планируют останавливаться.

nn · 5 янв 2020

Crest пишет: ↑

WinPooh пишет: ↑

Автор Лилы Зеро для Го официально объявил об окончании процесса обучения. Причина - программа вышла на плато, за 500 тысяч последних партий усиления не произошло.
https://github.com/leela-zero/leela-zero/issues/2560
Нажмите, чтобы раскрыть...

Отлично!
Стало быть, у обычных программ есть шанс.
Болею за Стокфиш и компанию!
Нажмите, чтобы раскрыть...

С того времени, т.е. за 2 недели, сеть по внутренним расчетам на 140 эло усилилась. Реально наверно на 50. Не бог весть что, но на дороге 50 эло не валяется. Автору просто надоело. Кто-то другой возможно продолжит. Но, кажется, есть какая-то китайская программа основанная на тех же принципах, которая значительно сильнее. В го усилений еще копать и копать. Правда, о шахматах этот проект ничего не говорит.

KEV81 · 5 янв 2020

WinPooh пишет: ↑

Причина - программа вышла на плато,
Нажмите, чтобы раскрыть...

стала godlike

WinPooh · 5 янв 2020

nn пишет: ↑

С того времени, т.е. за 2 недели, сеть по внутренним расчетам на 140 эло усилилась. Реально наверно на 50. Не бог весть что, но на дороге 50 эло не валяется. Автору просто надоело. Кто-то другой возможно продолжит. Но, кажется, есть какая-то китайская программа основанная на тех же принципах, которая значительно сильнее. В го усилений еще копать и копать. Правда, о шахматах этот проект ничего не говорит.
Нажмите, чтобы раскрыть...

FineArt ещё есть, китайская. Говорят, что по силе уже превзошла исходную AlphaGo Zero, и уж явно сильнее Лилы.
У Лилы же существенное ограничение было принято, использовать нулевой принцип - то есть учиться только на своих партиях. Конкуренты в этом отношении обладают большей свободой выбора.

svoitsl · 8 янв 2020

WinPooh пишет: ↑

У Лилы же существенное ограничение было принято
Нажмите, чтобы раскрыть...

В общем то вполне возможно использовать правила или методы теоретически обеснованные, тут главное что б не было всяких предвзятостей. Но теория тут пока несколько отстает, поэтому основной способ приближения к истине пока скорее эмпирический

nn · 8 янв 2020

Стокфиш, мне кажется, продвинулся дальше чем Alpha Zero, и совсем не очевидно, что Лила его догонит. AZ была сильнее стокфиша 8 на 100 эло, при этом у стокфиша на условиях украли минимум 20 эло. Сейчас стокфиш где-то на 150 эло сильнее чем 8-й. С Лилой немного сложнее оценить при тех же условиях. В лучшем случае эло на 20 сильнее AZ. Т.е отстает от SF эло на 30.

svoitsl · 8 янв 2020

nn пишет: ↑

Стокфиш, мне кажется, продвинулся дальше чем Alpha Zero
Нажмите, чтобы раскрыть...

Стокфиш использует оценочную функцию с ограниченным и не очень большим числом параметров, многие вещи довольно трудно как то запрограммировать, другие- приводят к снижению скорости и в придачу Эло. Развитие Стокфиша целиком основано на эмпирических зависимостях и все более усложняется и как следствие - замедляется. Развитие Лилы тоже к концу года может замедлится, так как большую сеть тренировать весьма затруднительно, а алгоритм поиска скорее всего удастся довести до совершенства. Возможно, если разделить ее на три части - собственную дебютную книжку, сеть среднего размера тренированную на собственных дебютах (20х256) для миттельшпиля и меньшего (15х192 или 10х128) для эндшпиля несколько оживит ситуацию.

nn · 8 янв 2020

Проблема алгоритма, того как он реализован в AZ в том, что он очень хорошо подходит для стратегических игр, тех где важна точная общая оценка позиции, возникающих структур, закономерностей, знание куда двигаться, и плохо для тактических , тех где нужен исключительно точный расчет. В этом смысле никакой быстрый переборный алгоритм даже близко не способен конкурировать с AZ в го. В шоги ситуация диаметрально противоположна. Первоначальный успех AZ в шоги связан с тем, что в шоги было вложено мало усилий в создание хороших переборных программ. Хотя вот теперь адаптированная версия стокфиш, даже с без настроенной оценочной функции, превосходит AZ. В шахматах ситуация где-то посередине. SF может накапливать маргинальные улучшения, а с Лилой как-то вроде бы не получается. Так что, думаю, без более хорошего переборного поиска у (AZ)Лилы и если на SF будут тратиться усилия и соотношение скорости CPU/GPU будет оставаться примерно таким же, SF будет сильнее.

Mustitz · 8 янв 2020

Мне кажется, что усиление SF связано ещё и с тем, что его начали тренировать на матчах против Lc0. Что позволило нивелировать слабые стороны, которые не могли вскрывать другие движки.

nn · 14 янв 2020

Mustitz пишет: ↑

Мне кажется, что усиление SF связано ещё и с тем, что его начали тренировать на матчах против Lc0. Что позволило нивелировать слабые стороны, которые не могли вскрывать другие движки.
Нажмите, чтобы раскрыть...

Что значит тренировать SF на матчах? Имеется ввиду, что кто-то написал какой-то патч, потому что увидел игру против лилы? В SF11 да, наверно, таких, наверно, на 5 эло наберется. Там вроде бы всего оценки на 14, но в нее входит все - и настройка оптимальных коэффицииентов в оценке, и то, что кому-то пришло в голову по другим причинам.

Mustitz · 14 янв 2020

nn пишет: ↑

Что значит тренировать SF на матчах?
Нажмите, чтобы раскрыть...

А как тренируется SF? Есть у него оценочная функция, эвристики, в которых есть over 9000+ различных параметров. Меняем ряд из них, играем набор тестовых матчей против старой версии, против других движков и смотрим, результат лучше или хуже. Если лучше — нашли усиление. Несколько усилений — новая версия. В чём-то процесс даже похож на обучение Lc0.

nn · 14 янв 2020

Mustitz пишет: ↑

А как тренируется SF? Есть у него оценочная функция, эвристики, в которых есть over 9000+ различных параметров. Меняем ряд из них, играем набор тестовых матчей против старой версии, против других движков и смотрим, результат лучше или хуже. Если лучше — нашли усиление. Несколько усилений — новая версия. В чём-то процесс даже похож на обучение Lc0.
Нажмите, чтобы раскрыть...

Да, изменения тестируются против себя. А тренируется против Лилы тут причем?

Mustitz · 14 янв 2020

nn пишет: ↑

Да, изменения тестируются против себя. А тренируется против Лилы тут причем?
Нажмите, чтобы раскрыть...

Не только против себя, но и против других движков. Против себя может быть необъективно — может быть эксплойт эксплойта в цикле. Мой поинт в том, что когда начали тестировать против Lc0, то начал наблюдаться прирост силы.

nn · 14 янв 2020

Mustitz пишет: ↑

Не только против себя, но и против других движков. Против себя может быть необъективно — может быть эксплойт эксплойта в цикле. Мой поинт в том, что когда начали тестировать против Lc0, то начал наблюдаться прирост силы.
Нажмите, чтобы раскрыть...

Патчи в стокфиш не тестируются против других. Появление Лилы никак не изменило методику улучшения стокфиш.

sovaz1997 · 14 янв 2020

Mustitz пишет: ↑

nn пишет: ↑

Да, изменения тестируются против себя. А тренируется против Лилы тут причем?
Нажмите, чтобы раскрыть...

Не только против себя, но и против других движков. Против себя может быть необъективно — может быть эксплойт эксплойта в цикле. Мой поинт в том, что когда начали тестировать против Lc0, то начал наблюдаться прирост силы.
Нажмите, чтобы раскрыть...

Stockfish успешно развивается именно благодаря тестированию против себя на ультра-коротких контролях времени. Число партий в тесте определяется с помошью SPRT-теста. Таких тестов в параллельном режиме идет много: http://tests.stockfishchess.org/tests . Другое дело, что некоторые идеи действительно могут браться из результатов партий против других движков. В том числе, и против Лилы. Грамотная статистика, большие ресурсы как железа (бывает и несколько тысяч ядер процессора работают для тестирования), так и разработчиков дает нам то, что Stockfish отрывается от ближайших конкурентов - Komodo и Houdini (не включая Лилу), уже сильно больше, чем 100 пунктов Эло. На таком уровне это очень большой отрыв.

smpin · 14 июн 2020

Добрый день.
Уважаемые форумчане, подскажите пожалуйста, есть ли база партий AlfaZeroc комментариями? Например Шипова С.Ю.

svoitsl · 14 июн 2020

smpin пишет: ↑

база партий AlfaZeroc комментариями?
Нажмите, чтобы раскрыть...

на ютубе можно поискать кучку разобранных партий, может около 10, а с партиями Лилы может уже и 20 наберется.

smpin пишет: ↑

Например Шипова С.Ю.
Нажмите, чтобы раскрыть...

Если никто не подскажет, то можно не постесняться, и спросить прямо у него!

SKY · 14 июн 2020

smpin, -
https://www.youtube.com/watch?v=lvJvLJsaMkg
https://www.youtube.com/watch?v=ba4_M7UINfo&t=2120s

smpin · 14 июн 2020

SKY, большое спасибо.
А есть в формате chessbase?

Войти или зарегистрироваться

AlphaZero. Нейронная сеть играет в шахматы

WinPooh В.М.

Mustitz Заслуженный

nh2008 Старожил

WinPooh В.М.

tiger Новичок

nn Старожил

tiger Новичок

Alhimik88 Новичок

tiger Новичок

FlashNeo Учаcтник

WinPooh В.М.

nn Старожил

grizly Учаcтник

MayaWheel Новичок

Crest Админ, МГ

Kesandr Учаcтник

sovaz1997 Учаcтник

nn Старожил

KEV81 Учаcтник

WinPooh В.М.

svoitsl Учаcтник

nn Старожил

svoitsl Учаcтник

nn Старожил

Mustitz Заслуженный

nn Старожил

Mustitz Заслуженный

nn Старожил

Mustitz Заслуженный

nn Старожил

sovaz1997 Учаcтник

smpin Учаcтник

svoitsl Учаcтник

SKY Учаcтник

smpin Учаcтник

Поделиться этой страницей