AlphaZero. Нейронная сеть играет в шахматы

Комсюк · 12 дек 2017

WinPooh пишет: ↑

Ещё есть игра Стратего: https://ru.wikipedia.org/wiki/Стратего
Нажмите, чтобы раскрыть...

как я понял, тут краплёные фишки просто решают партию

N1mTzo · 12 дек 2017

Jadn пишет: ↑

Ну так запустили бы Стокфиш на телефоне. Еще более впечатляющий успех бы был.
Нажмите, чтобы раскрыть...

Ну да, "64 CPU threads" очень слабое железо для Вяленого. Даже на TCEC, который тут часто приводят в пример в финале юзают максимум 44 ядра (22 на первом этапе).

Mustitz пишет: ↑

Каждая сторона собирает желело, дебютную книгу, таблицы Ломоносова и всё, что пожелает.
Нажмите, чтобы раскрыть...

И в чем смысл подобного матча? В том, чтобы ИИ играл против книги и эндшпильных таблиц?

MS пишет: ↑

Главной целью был рекламный эффект.
Нажмите, чтобы раскрыть...

На архиве статьи по ИИ (Artificial Intelligence) пачками выходят, только за сегодня 15 штук опубликовали, их только специалисты читают. И та статья (препринт) под названием "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm" вышла 5 декабря, а первые отклики в СМИ появились только 6 декабря, а топовые СМИ (типа американских или британских газет) и вовсе 7-8 числа об этом написали. При этом ни в твиттере DeepMind, ни у Хассабиса вообще никакой информации не было, только 8-го Демис отписался, что более подробная информация будет скоро. Не вижу тут спланированной PR-кампании, скорее похоже на то, что DeepMind не ожидали подобной шумихи из-за рядовой статьи.

NS · 12 дек 2017

N1mTzo пишет: ↑

И в чем смысл подобного матча? В том, чтобы ИИ играл против книги и эндшпильных таблиц?
Нажмите, чтобы раскрыть...

Не совсем понятно, почему Альфа - ИИ, а Стокфиш не ИИ?
ОФ на нейронной сети более ИИшная, чем классическая ОФ?
Или алгоритмы обучения нейронной сети (настройки весов ОФ на нейронной сети) более ИИшные чем алгоритмы подбора весов в Стокфише?
Или mcts более ИИшный чем альфа-бета?

Например в википедии, в статье про нейронные сети, ИИ содержательно упоминается только один раз, в цитате
"А с точки зрения искусственного интеллекта, ИНС является основой философского течения коннективизма и основным направлением в структурном подходе по изучению возможности построения (моделирования) естественного интеллекта с помощью компьютерных алгоритмов."
https://ru.wikipedia.org/wiki/Искусственная_нейронная_сеть

Baron · 12 дек 2017

Gordon10 пишет: ↑

Baron пишет: ↑

А с лишним конем даже я обыграл бы боженьку (правда не уверен, но с лишним ферзем - это точно).
Нажмите, чтобы раскрыть...

С лишней легкой фигурой любой квалифицированный шахматист, например с 2300 и выше (а может и пониже) обыграет и Стока и А0 в сухую. Я умудрился пару раз делать ничью и то, когда смотрел в полгаза на экран, а вполглаза в ТВ. А вот уже с форой в 2 пешки, С А0, если все правда, боюсь человек может рассчитывать только на ничью.
Нажмите, чтобы раскрыть...

Эльвест в 2007-08 годах проиграл "минус 3" Рыбке с форой в пешку два матча. Десять лет назад. Учитывая разницу между тогдашней Рыбкой и сегодняшним Стокфишем. Альфазеро радикально отличается от этих движков тем, что против людей она (или он?) научится играть в анти-человеческие шахматы. Будет уклоняться от разменов, максимально насыщая позицию тактикой, изучив больше игр людей, выявит даже типы комбинаций, которые люди чаще всего зевают и другие тонкости, которые сами шахматисты не знают. Структуру, которую иногда получают люди против машин, будет исключена (только если ИИ не решит что он форсированно выигрывает - тогда пожалуйста). Полагаю, что против такого хитрого соперника лишний конь может и не помочь (причем нейросети по большому счету без разницы против кого играть, Эльвеста или обычного кмс - оба одинаково слабы в плане тактики). В этом смысле против Альфы играть даже труднее, чем против 32-фигурной таблицы Налимова - потому что она может умышленно ухудшать свою позицию, лишь бы навредить людям.

West55 · 12 дек 2017

А не будет, как у людей? Заплатил ты за А0, за ее обучение. А она двоишником оказалась - играет на 3 разряд

WinPooh · 12 дек 2017

NS пишет: ↑

Нейросеть конечно же не дает ходов-кандидатов, а дает оценку поданной на вход позиции. Это полный аналог ОФ. А выбор хода производится переборными алгоритмами, но в данном случае это не альфа-бета, а mcts.
В чем суть mcts? Это наигрывание партий «до конца, до результата» со сбором статистики результата по ходам сыгранным в партии. При наигрывании партий выбор хода производится согласно собранной статистики и оценке позиции после этого хода.
Нажмите, чтобы раскрыть...

Policy network даёт на выходе именно что ходы-кандидаты. В смысле, распределение вероятностей для них оказаться лучшим ходом.
В первоначальной Alpha Go Fan эта сетка была отдельной, начиная с Alpha Go Master сетки value и policy объединили в одну, но ходы-кандидаты для MCTS она по-прежнему возвращает.

Mustitz · 12 дек 2017

Baron пишет: ↑

Будет уклоняться от разменов, максимально насыщая позицию тактикой, изучив больше игр людей, выявит даже типы комбинаций, которые люди чаще всего зевают и другие тонкости, которые сами шахматисты не знают.
Нажмите, чтобы раскрыть...

Научится точно находить момент, когда надо включать Stockfish

FIBM · 12 дек 2017

tiger пишет: ↑

WinPooh пишет: ↑

tiger пишет: ↑

Чтобы в точке, где градиент обращается в ноль был локальный минимум нужно чтобы все собственные значения Гессиана (матрицы вторых производных) были одного знака, положительными в данном случае. Если функция от N переменных, то вероятность этого 2 в степени -N. Так как у знака две равновероятных возможности.
Нажмите, чтобы раскрыть...

Там проблема не столько в локальных минимумах, сколько в длинных "ущельях" по которым можно долго-долго спускаться...
Нажмите, чтобы раскрыть...

Да, интересно понять как устроена поверхность функции ошибки. Но напрямую это сделать тяжело. Может быть можно начать шевелить шахматы, упрощая по чуть- чуть правила игры. Для каждой новой игры будет своя поверхность. В какой-то момент игра станет совсем простой, и ее поверхность скорее всего не будет иметь седловых точек, то есть будет выпуклой. Найдя глобальный минимум в этом случае мы пойдем обратно по той же дорожке от этой тривиальной игры к шахматам, следя за тем, что происходит с нашим глобальным минимумом по пути. По пути назад будут встречаться и быстро исчезать вырожденные поверхности, например с локальными минимумами, но возможно удастся понять как устроена изначальная поверхность. Чтобы следить как меняется поверхность у нас есть средство в виде траекторий решения простой выпуклой задачи (от разных начальных точек к глобальному минимуму). Весь этот набор траекторий, изначально сходившихся к минимуму будет по пути обратно к шахматам меняться, и позволит что-то понять про изначальную поверхность.
Нажмите, чтобы раскрыть...

Это называется "Адиабатический Квантовый Компьютер". У меня для вас его пока нет.

sovaz1997 · 12 дек 2017

Разработчики SF учатся у Alpha Zero

https://groups.google.com/forum/?fromgroups=#!topic/fishcooking/9WCxZgyXs2k

NS · 12 дек 2017

Policy network даёт на выходе именно что ходы-кандидаты. В смысле, распределение вероятностей для них оказаться лучшим ходом.
Нажмите, чтобы раскрыть...

Так вероятность же вторична. Сначала оценка (или матожидание результата как оценка), а потом исходя из оценки и статистики - вероятность. Или нет?

WinPooh · 12 дек 2017

NS пишет: ↑

Policy network даёт на выходе именно что ходы-кандидаты. В смысле, распределение вероятностей для них оказаться лучшим ходом.
Нажмите, чтобы раскрыть...

Так вероятность же вторична. Сначала оценка (или матожидание результата как оценка), а потом исходя из оценки и статистики - вероятность. Или нет?
Нажмите, чтобы раскрыть...

Вроде бы в первом варианте программы там вероятности из сетки и из симуляций складывались с определёнными весами (чуть ли не 0.5 на 0.5). В какой-то из тестировавшихся версий был и вариант 1 на 0, т.е. только policy network, если я ничего не путаю.

Про AG Fan была хорошая статья на Хабре: https://habrahabr.ru/post/279071/
А вот про AG Zero: https://habrahabr.ru/post/343590/

Undying · 12 дек 2017

NS пишет: ↑

Не совсем понятно, почему Альфа - ИИ, а Стокфиш не ИИ?
Нажмите, чтобы раскрыть...

Стокфиш это тоже ИИ, но тот который Искусственный Идиот. А у Альфа Зеро уже проблески интеллекта есть, как минимум шахматного.

NS · 12 дек 2017

Из первой статьи следует что сеть выдает два значения - вероятность хода (массив 19x19), и вероятность победы из позиции (оценка).
То есть и то и то.
Вот тут сразу появляется ответ на вопрос - почему не альфа-бета. Если у нас есть вероятности ходов, то MCTS лучше может их использовать.

—- добавлено: 12 дек 2017, опубликовано: 12 дек 2017 —-

Undying пишет: ↑

Стокфиш это тоже ИИ, но тот который Искусственный Идиот. А у Альфа Зеро уже проблески интеллекта есть, как минимум шахматного.
Нажмите, чтобы раскрыть...

Даже обрезанная версия стока сыграла всего на 80 пунктов эло слабее Альфы. 80 пунктов это разница между идиотом и проблесками интеллекта?
Возникает желание вычесть 80 пунктов из рейтинга Карлсена

Neo94 · 12 дек 2017

Если сравнивают алгоритмы, то совершенно верно убрали все дебютные и эндшпильные базы.
Какой смысл давать их стокфишу (а значит приделывать похожие костыли и альфазеро), если идет сравнение исключительно двух подходов? Это просто вырезание куска партии, пусть обе проги вручную доходят до того или иного результата.

Комсюк · 12 дек 2017

Neo94 пишет: ↑

Какой смысл давать их стокфишу (а значит приделывать похожие костыли и альфазеро), если идет сравнение исключительно двух подходов?
Нажмите, чтобы раскрыть...

Как раз Альфа дебют выдрочила при обучении

Diamond · 12 дек 2017

Neo94 пишет: ↑

Если сравнивают алгоритмы, то совершенно верно убрали все дебютные и эндшпильные базы.
Какой смысл давать их стокфишу (а значит приделывать похожие костыли и альфазеро), если идет сравнение исключительно двух подходов? Это просто вырезание куска партии, пусть обе проги вручную доходят до того или иного результата.
Нажмите, чтобы раскрыть...

если сравнивали алгоритмы, то вполне логично также не давать время на учебу, а обучаться в процессе боя

Нестор · 12 дек 2017

NS, привет, Сергей!
Как дела?

FIBM · 12 дек 2017

Комсюк пишет: ↑

Neo94 пишет: ↑

Какой смысл давать их стокфишу (а значит приделывать похожие костыли и альфазеро), если идет сравнение исключительно двух подходов?
Нажмите, чтобы раскрыть...

Как раз Альфа дебют выдрочила при обучении
Нажмите, чтобы раскрыть...

Не "выдрочила" а объяснила "себе" и "глупой железяке", что такое хорошие и плохие дебютные варианты.

NS · 12 дек 2017

Если движок изначально рассчитан на эндшпильные базы, то это его неделимая часть. Зачем прописывать эндшпильные малофигурные ньюансы в ОФ и переборных алгоритмах, если и так есть ЭБ?
То же самое и с дебютами. Нейросеть вообще-то научили дебютам, так как для дебютных позиций у неё как раз набралась статистика по (лучшим) ходам, которую она использовала в матче.
По-честному было как раз дать дебютную стоку.

—- добавлено: 12 дек 2017 —-

Нестор пишет: ↑

NS, привет, Сергей!
Как дела?
Нажмите, чтобы раскрыть...

Привет! Всё отлично.

Undying · 12 дек 2017

NS пишет: ↑

Возникает желание вычесть 80 пунктов из рейтинга Карлсена
Нажмите, чтобы раскрыть...

Причем здесь сила игры? Неужели калькулятор умнее вас, потому что лучше перемножает числа?

Речь о понимании шахмат. У Стокфиша понимание шахмат на уровне плинтуса, сильно играет он исключительно за счет глубины счета. А вот у Альфа Зеро понимание шахмат уже есть.

NS · 12 дек 2017

Neo94 пишет: ↑

Какой смысл давать их стокфишу (а значит приделывать похожие костыли и альфазеро), если идет сравнение исключительно двух подходов? Это просто вырезание куска партии, пусть обе проги вручную доходят до того или иного результата.
Нажмите, чтобы раскрыть...

Альфу научили дебютам. Почему не дали стоку посчитанную дебютную книгу? Хотя-бы монтекарловскую.

—- добавлено: 12 дек 2017, опубликовано: 12 дек 2017 —-

Undying пишет: ↑

NS пишет: ↑

Возникает желание вычесть 80 пунктов из рейтинга Карлсена
Нажмите, чтобы раскрыть...

Причем здесь сила игры? Неужели калькулятор умнее вас, потому что лучше перемножает числа?

Речь о понимании шахмат. У Стокфиша понимание шахмат на уровне плинтуса, сильно играет он исключительно за счет глубины счета. А вот у Альфа Зеро понимание шахмат уже есть.
Нажмите, чтобы раскрыть...

Разница в понимании шахмат - у них ровно на 80 пунктов Эло. И тот и другой - обычные калькуляторы. Альфа это тот-же калькулятор "вид сбоку". Играет так-же за счет счета.

crem · 12 дек 2017

NS пишет:

Альфу научили дебютам. Почему не дали стоку посчитанную дебютную книгу? Хотя-бы монтекарловскую.
Нажмите, чтобы раскрыть...

У alphazero нету "дебютной книги" в общепризнаном понимании. Она играет хорошо с первых же ходов, но это не значит, что у неё есть таблица для поиска следующего хода по предыдущим. Как и все остальные ходы, дебют альфа играет "по общим соображениям", примерно как "в дебюте X, Y лучше сделать до того как сделано Z" (упрощённый пример). Это не таблица, которой стокфиш смог бы воспользоваться.

Ну и я уверен, что если бы альфазеро не дали подумать на первых ходах минуту, ходы были бы слабее. А если есть дебютная книга, думать не надо.

NS · 12 дек 2017

crem пишет: ↑

У alphazero нету "дебютной книги" в общепризнаном понимании.
Нажмите, чтобы раскрыть...

Есть. Если нейросеть для каждого хода в позиции выдает вероятность того что он является лучшим, и если она для каждой позиции выдает матожидание результата - то это и есть дебютная книга в общепризнанном понимании. И когда она в процессе обучения наигрывает партии - как раз чем ближе к начальной позиции, тем лучше настраиваются оценки и вероятности ходов.

Наиграв партий с определенных позиций - она по сути в том числе наиграла дебютные книги с этих позиций.
И по-честному нужно было дать и стоку дебютную книгу, например монтекарловскую, наигранную им с тех же позиций, что наигрывала альфа. Ему даже такой не дали.

Jadn · 12 дек 2017

N1mTzo пишет: ↑

Jadn пишет: ↑

Ну так запустили бы Стокфиш на телефоне. Еще более впечатляющий успех бы был.
Нажмите, чтобы раскрыть...

Ну да, "64 CPU threads" очень слабое железо для Вяленого. Даже на TCEC, который тут часто приводят в пример в финале юзают максимум 44 ядра (22 на первом этапе).
Нажмите, чтобы раскрыть...

Я жаловался на слабое железо? Я написал, что условия неравные, мне в ответ сказали, что это ОК, и создавать равные условия не входило в задачу эксперимента. Вот я и предложил еще усовершенствовать условия.

Gridnev · 12 дек 2017

crem пишет: ↑

NS пишет:

Альфу научили дебютам. Почему не дали стоку посчитанную дебютную книгу? Хотя-бы монтекарловскую.
Нажмите, чтобы раскрыть...

У alphazero нету "дебютной книги" в общепризнаном понимании. Она играет хорошо с первых же ходов, но это не значит, что у неё есть таблица для поиска следующего хода по предыдущим. Как и все остальные ходы, дебют альфа играет "по общим соображениям", примерно как "в дебюте X, Y лучше сделать до того как сделано Z" (упрощённый пример). Это не таблица, которой стокфиш смог бы воспользоваться.

Ну и я уверен, что если бы альфазеро не дали подумать на первых ходах минуту, ходы были бы слабее. А если есть дебютная книга, думать не надо.
Нажмите, чтобы раскрыть...

Она себе создала дебютную книгу. В 700000 партий чаще всего (700000 раз) встречалась именно начальная позиция и в ней А0 больше всего прокачала "интуицию". Надо было их на тестовых позициях сравнивать.

dom1n1k · 12 дек 2017

А еще A0, в дополнение к дебютной, создала себе миттельшпильную книгу! Она ж тоже матоожидание результата для каждой позиции там видело. Так что по-честному было бы SF ещё и миттельшпильные таблицы дать, чо уж там.

crem · 12 дек 2017

Кстати, вчера deepmind запустил анализатор 6000 самых популярных дебютов для Go.
https://alphagoteach.deepmind.com/

FIBM · 12 дек 2017

NS пишет: ↑

crem пишет: ↑

У alphazero нету "дебютной книги" в общепризнаном понимании.
Нажмите, чтобы раскрыть...

Есть. Если нейросеть для каждого хода в позиции выдает вероятность того что он является лучшим, и если она для каждой позиции выдает матожидание результата - то это и есть дебютная книга в общепризнанном понимании. И когда она в процессе обучения наигрывает партии - как раз чем ближе к начальной позиции, тем лучше настраиваются оценки и вероятности ходов.

Наиграв партий с определенных позиций - она по сути в том числе наиграла дебютные книги с этих позиций.
И по-честному нужно было дать и стоку дебютную книгу, например монтекарловскую, наигранную им с тех же позиций, что наигрывала альфа. Ему даже такой не дали.
Нажмите, чтобы раскрыть...

А может ему ("брутфорсу") еще и бесплатных пироженых? Пусть свою базу ("брутфорсовскую") наработает, а потом приходит. А на чужую базу зарится не надо.

longinean · 12 дек 2017

Можно подключить дебютную книгу, обученную на 700.000 партий, плюс заработанные брутфорсом таблицы Сизиги

Camon14 · 12 дек 2017

NS пишет: ↑

http://arimaa.com/arimaa/
Создавалась как игра, в которую программы долго не смогут достичь силы игры человека.
Нажмите, чтобы раскрыть...

18 апреля 2015 года программа «bot_sharp» победила в игре против человека
Нажмите, чтобы раскрыть...

https://ru.m.wikipedia.org/wiki/Аримаа

Vladruss · 12 дек 2017

dom1n1k пишет: ↑

Так что по-честному было бы SF ещё и миттельшпильные таблицы дать, чо уж там.
Нажмите, чтобы раскрыть...

Этого мало. Надо сразу 32-х фигурные таблицы Налимова.

nn · 13 дек 2017

dom1n1k пишет: ↑

А еще A0, в дополнение к дебютной, создала себе миттельшпильную книгу! Она ж тоже матоожидание результата для каждой позиции там видело. Так что по-честному было бы SF ещё и миттельшпильные таблицы дать, чо уж там.
Нажмите, чтобы раскрыть...

Смысл в том, что AlphaZero тренировалась хоть и на большом массиве данных (более триллиона позиций), но далеко не охватывающем все шахматы. В data science и машинном обучении есть такая проблема как overfitting, когда результаты на in-sample data оказываются прекрасными, в то время как на out-of-sample может быть что угодно. Если мы рассматриваем AlphaZero как умеющую играть в шахматы, а не в набор позиций на котором она тренировалась, логично начинать игру с позиций которые ей не попадались или попадались не часто; книга на 2-хода как у Stockfish была бы нормальной.

Vertu · 13 дек 2017

FIBM пишет: ↑

А может ему ("брутфорсу") еще и бесплатных пироженых? Пусть свою базу ("брутфорсовскую") наработает, а потом приходит. А на чужую базу зарится не надо.
Нажмите, чтобы раскрыть...

А основные текущие базы Стокфиша чем, по-вашему, наработаны? С неба свалились? И причем тут "брутфорс"?

like · 13 дек 2017

crem пишет: ↑

2. Google Cloud будет предлагать TPU в аренду (и уже предлагает в режиме тестирования, https://cloud.google.com/tpu/) по цене, сопоставимой с арендой CPU и GPU (~0,5$ за один TPU в час).
Нажмите, чтобы раскрыть...

откуда расценки, можете дать ссылку?

FIBM · 13 дек 2017

nn пишет: ↑

Если мы рассматриваем AlphaZero как умеющую играть в шахматы, а не в набор позиций на котором она тренировалась, логично начинать игру с позиций которые ей не попадались или попадались не часто; книга на 2-хода как у Stockfish была бы нормальной.
Нажмите, чтобы раскрыть...

Вы что играете на первых ходах? е4....нет нет, так нечестно, давайте заставим вас играть с4! А, что очень логично.

Войти или зарегистрироваться

AlphaZero. Нейронная сеть играет в шахматы

Комсюк народный модератор

N1mTzo Учаcтник

NS Нефёдов Сергей

Baron Учаcтник

West55 Начинающий

WinPooh В.М.

Mustitz Заслуженный

FIBM Учаcтник

sovaz1997 Учаcтник

NS Нефёдов Сергей

WinPooh В.М.

Undying Учаcтник

NS Нефёдов Сергей

Neo94 Учаcтник

Комсюк народный модератор

Diamond Старожил

Нестор консультант_ специалист по черной магии

FIBM Учаcтник

NS Нефёдов Сергей

Undying Учаcтник

NS Нефёдов Сергей

crem Учаcтник

NS Нефёдов Сергей

Jadn Заслуженный

Gridnev Старожил

dom1n1k Учаcтник

crem Учаcтник

FIBM Учаcтник

longinean Учаcтник

Camon14 Хранитель традиций

Vladruss НедоКМС, победитель второразрядников.

nn Старожил

Vertu Старожил

like Начинающий

FIBM Учаcтник

Поделиться этой страницей