AlphaZero. Нейронная сеть играет в шахматы

NS · 15 дек 2017

Rom пишет: ↑

zeroalphazero пишет: ↑

Если правильно понял, элемент эвристики присутствует?
Нажмите, чтобы раскрыть...

В Зеро не присутствует, шаблоны там специально отключены. В АльфаГоЗеро никаких роллаутов нет. А в АльфаЗеро - там слишком поверхностная статья, но возможно что тоже.
Нажмите, чтобы раскрыть...

Да выше же из описания приведены цитаты что роллауты в АльфаГоЗеро есть, партии доигрываются до конца.
Из какой цитаты следует что их нет? Похоже на заговор, несколько человек говорят что их нет, но цитату приводить отказываются.

zeroalphazero · 15 дек 2017

Rom пишет: ↑

шаблоны там специально отключены
Нажмите, чтобы раскрыть...

Т.к. ходы, выбранные случайно в большинстве своем бессмысленны и не имеют какого-то общего направления, то для улучшения работы алгоритма используются различные эвристические методы, основанные на информации о конкретной игре. Один из таких методов это применение шаблонов...
Нажмите, чтобы раскрыть...

Шаблоны отключили, а какой(ие) метод(ы) использовали?
Основанные на информации о конкретной игре? — информацию в студию, please!

NS · 15 дек 2017

Всё, нашел
Our program, AlphaGo Zero, differs from AlphaGo Fan and AlphaGo Lee in several important aspects
...
Finally, it uses a simpler tree search that relies upon
this single neural network to evaluate positions and sample moves,
without performing any Monte Carlo rollouts.

Fruit · 15 дек 2017

redhelicopter пишет: ↑

Котэ пишет: ↑

В любом случае, это очень красиво
Нажмите, чтобы раскрыть...

Слушайте, ну это ж вообще фигня какая-то. Позиция 49-го хода черных:

Нам предлагается поверить, что "Стокфиш" в этой позиции пошел Rf8 вместо Кf8.
Запустил на своем ноутбуке: секунд 20 показывает Rf8, затем забраковывает его и дает Kf8. На Rf8 показывает, что это грубая ошибка и показывает, что это выигранная позиция за белых.
Нажмите, чтобы раскрыть...

А что после 49...Kf8 ничья? Позиция-то все равно проиграна.

NS · 15 дек 2017

https://geektimes.ru/post/2946
Вот, по-русски

Также AlphaGo Zero больше не использует “rollouts” — быстрое случайное проигрывание партий другими программами для игры в Го с целью предсказания, какой игрок выиграет из текущей позиции. Здесь сделан упор на высокое качество оценочных нейронных сетей.
Нажмите, чтобы раскрыть...

То есть её оценка настолько хороша, что ей нет надобности в роллаутах.
Ну и соответственно получается что в шахматах на этапе обучения играла до конца (это явно написано), а вот докуда играла в игровом режиме, и какие критерии обрыва использовались если играла не до конца - непонятно.

redhelicopter · 15 дек 2017

Комсюк пишет: ↑

Нет ни одного хода (я пока не видел) который не сделал бы Стокфиш 8
Нажмите, чтобы раскрыть...

Ну так раскройте глаза и увидите. Запустите движок, подсуньте ему позицию, и смотрите за сколько секунд он досчитает до 37-й глубины и откажется от хода ладьей. У меня - около 20 секунд.

Почему "Стокфиш" в партии не досчитал? Либо там было железо тормознее, чем у моего ноута - либо (что более вероятно), ему ограничили глубину счета.

NS · 15 дек 2017

Возможно действительно прибавляла по одному узлу.

MS · 15 дек 2017

NS пишет: ↑

Допустим MCTS прогнала ветку на 50 полуходов. При этом 50 раз было сделано обращение к НС.
Чтоб досчитать до 100 полуходов нужно сделать еще 50 обращений. Замедление в 2 раза, а не в 50.
Нажмите, чтобы раскрыть...

Спасибо за углубление в тему. Здесь у меня не срослось.
В моём понимании НС это ОФ. Если ход выбирается не случайно, а по весу (оценке?), то не является ли число ходов-кандидатов коэффициентом?
Типа: выбрали все ходы-кандидаты, прогнали ОФ, выбрали лучший и тд до конца (или заданной глубины).
Замедление при удвоении глубины тоже линейно (скорее, чуть меньше, поскольку обычно число ходов-кандидатов ближе к концу падает)

Комсюк · 15 дек 2017

redhelicopter пишет: ↑

Ну так раскройте глаза и увидите.
Нажмите, чтобы раскрыть...

Вот-вот
По ссылкам ходить умеете?

—- добавлено: 15 дек 2017 —-

Fruit пишет: ↑

redhelicopter пишет: ↑

Котэ пишет: ↑

В любом случае, это очень красиво
Нажмите, чтобы раскрыть...

Слушайте, ну это ж вообще фигня какая-то. Позиция 49-го хода черных:

Нам предлагается поверить, что "Стокфиш" в этой позиции пошел Rf8 вместо Кf8.
Запустил на своем ноутбуке: секунд 20 показывает Rf8, затем забраковывает его и дает Kf8. На Rf8 показывает, что это грубая ошибка и показывает, что это выигранная позиция за белых.
Нажмите, чтобы раскрыть...

А что после 49...Kf8 ничья? Позиция-то все равно проиграна.
Нажмите, чтобы раскрыть...

у него через 20 секунд показывает ничью...
Зачем смотреть дальше?

redhelicopter · 15 дек 2017

Fruit пишет: ↑

А что после 49...Kf8 ничья? Позиция-то все равно проиграна.
Нажмите, чтобы раскрыть...

В целом это просто иллюстративный пример, показывающий, что Стокфиш был "кастрированный", как выразился СЮ. Кастрировали ограничением глубины счета - в этом теперь нет сомнений. Понятно, что в партии и до этого хода были неточности, вызванные этим ограничением.

Комсюк пишет: ↑

По ссылкам ходить умеете?
Нажмите, чтобы раскрыть...

Вы там не написали ничего, что опровергало бы мною сказанное. Уперлись в мантру "Ход был возможен от Стока" - ну да, возможен если рубануть счет на малой для этой позиции глубине.
Запускал без эндшпильных баз, без запомненной линии с Qf4 в хеше. То есть все "зацепки" за которые вы там попытались ухватиться, не прокатывают.

Комсюк пишет: ↑

у него через 20 секунд показывает ничью...
Зачем смотреть дальше?
Нажмите, чтобы раскрыть...

Да что вы говорите. И до какой глубины надо смотреть, чтобы Стокфиш снова вернулся к Rf8?

Комсюк · 15 дек 2017

redhelicopter пишет: ↑

Вы там не написали ничего, что опровергало бы мною сказанное.
Нажмите, чтобы раскрыть...

по ссылкам скрин с возможным ходом Лф8 и подтверждение от второго юзера
Мало?
Мне хватит

Нестор · 15 дек 2017

Комсюк, рискну предположить, что ты с такой выдержкой тоже скоро гроссом станешь ...

Комсюк · 15 дек 2017

redhelicopter пишет: ↑

И до какой глубины надо смотреть, чтобы Стокфиш снова вернулся к Rf8?
Нажмите, чтобы раскрыть...

он не вернётся, если Фф4 увидел
А если не увидел, будет молотить, как показано на скрине

—- добавлено: 15 дек 2017 —-

Нестор пишет: ↑

Комсюк, рискну предположить, что ты с такой выдержкой тоже скоро гроссом станешь ...
Нажмите, чтобы раскрыть...

я под колпаком у Мюллера Антуана, а баллы мешают свободе маневра

просроченый_кмс · 15 дек 2017

Я думаю т.к. в го оценка сложна то игрались случайные ходы по методу монтекарло, а в шахматах с нейросетью улучшенные ходы, ещё думаю хорошая идея на первых ходах больше рассматривать вариантов чем в глубине.
Но мне непонятно, бывают же такие нелогичные но сильные ходы, как все эти проги хоть стокфиши хоть альфазеро умудряются не пропускать такие моменты.

Помню неск лет назад наверно на кубке мира, Шипов в анализе после сказал типа еслиб Свидлер (например) только начал считать ход то додумался бы, понял смысл, а ход с человеческой точки зрения вообще не смотрелся такие сразу отсекаются, и как эти проги умудряются не ошибаться отсекая нелогичные но сильные в дальнейших расчётах ходы.

NS · 15 дек 2017

MS пишет: ↑

NS пишет: ↑

Допустим MCTS прогнала ветку на 50 полуходов. При этом 50 раз было сделано обращение к НС.
Чтоб досчитать до 100 полуходов нужно сделать еще 50 обращений. Замедление в 2 раза, а не в 50.
Нажмите, чтобы раскрыть...

Спасибо за углубление в тему. Здесь у меня не срослось.
В моём понимании НС это ОФ. Если ход выбирается не случайно, а по весу (оценке?), то не является ли число ходов-кандидатов коэффициентом?
Типа: выбрали все ходы-кандидаты, прогнали ОФ, выбрали лучший и тд до конца (или заданной глубины).
Замедление при удвоении глубины тоже линейно (скорее, чуть меньше, поскольку обычно число ходов-кандидатов ближе к концу падает)
Нажмите, чтобы раскрыть...

Нет, mcts делает не лучший ход.
Стандартное описание mcts на многих сайтах только путает. Ибо рисуют уже готовое дерево, добавляют один лист, и из него играют партию до конца.
А обычная схема другая. Ветвь строится из корневой позиции. Если оставить за скобками пробег по уже рассмотренному поддереву, то это выглядит так как будто добавляем один лист, но в реальности это не так. Программа делает при этом не лучшие ходы, а ходы которые минимизируют ошибку (но чем "лучше" ход, тем чаще он будет исполняться). Это значит что если нашли ход, который всегда выигрывает, то другие ходы рассматриваться не будут. Если в позиции все ходы всегда проигрывают, то через какое-то число пробегов будут рассмотрены все ходы.
А если есть несколько хороших ходов, но какой-то из них показывает лучшую статистику - то он будет рассматриваться чаще остальных, но другие ходы не так часто, но тоже будут рассматриваться при повторных проходах через этот узел.
В этом очень похоже на альфа-бету, тем что в выигранных позициях в идеале за выигрывающую сторону будет в каждом узле рассмотрен только один ход, а за проигрывающую сторону все ходы (правда количество пробегов через разные проигрывающие ходы будет разное)

Ну и соответственно нет никаких ветвей и границ. В самом простом случае сильнейший ход - это который исполнялся из позиции чаще остальных, либо ход который показал лучшую статистику (средний результат)

Нестор · 15 дек 2017

Интересно, сами разработчики Альфы до конца понимают, как работает их нейросеть?
По аналогии с человеком, который точно не знает, как работает его мозг ...

Rom · 15 дек 2017

zeroalphazero пишет: ↑

Шаблоны отключили, а какой(ие) метод(ы) использовали?
Основанные на информации о конкретной игре? — информацию в студию, please!
Нажмите, чтобы раскрыть...

Оценивать позицию можно по разному. Можно использовать только оценку нейросети (так играет АльфаГоЗеро),
а можно суммируя оценку нейросети и процент выигрыша в роллаутах (так играл АльфаГоМастер, и он кстати обходит Зеро на одинаковой глубине нейросети). Для тренировки нейросети никаких заданных шаблонов не используется, поэтому её можно считать обучившейся без человеческих знаний. А для роллаутов шаблоны нужны, поэтому Зеро роллауты и не использует.

просроченый_кмс · 15 дек 2017

Нестор пишет: ↑

Интересно, сами разработчики Альфы до конца понимают, как работает их нейросеть?
По аналогии с человеком, который точно не знает, как работает его мозг ...
Нажмите, чтобы раскрыть...

«Как ограничительные Теории метаматематики, так и теория вычислений говорят, что как только возможность представлять собственную структуру достигает некоей критической точки, то пиши пропало - это гарантия того, что вы никогда не сможете представить себя полностью. Теорема Гёделя о неполноте, Теорема Чёрча о неразрешимости, Теорема остановки Тьюринга, Теорема Тарского о невыразимости истины - все они чем-то напоминают старинные сказки, предупреждающие читателя о том, что «поиск самопознания - это путешествие, которое […] обречено быть неполным, не может быть изображено ни на каких картах, никогда не остановится и не сможет быть описано». Дуглас Хофштадтер, Гёдель, Эшер, Бах: эта бесконечная гирлянда, Самара, «Барах-М», 2001 г., с. 655

Нестор · 15 дек 2017

просроченый_кмс, ну, спасибо, хоть вы меня утешили, а то все эти Альфы вгоняют меня в тоску.

NS · 15 дек 2017

https://senseis.xmp.net/?UCT
Это основа для классических MCTS движков. Дальше добавляется RAVE, оценка и т.д.
В каждом узле, из всех ходов выбирается ход с максимальным UCTValue
UCTValue(parent, n) = winrate + sqrt((ln(parent.visits))/(5*n.nodevisits))
Где n.nodevisits - это сколько раз исполнялся конкретный ход
parent.visits - это который раз мы появились в этом узле
winrate - это средний показанный результат для хода. 0- всегда проигрывал, 1 - всегда выигрывал.

Если чисто UCT - то из узла который встретился впервые делается случайных ход, если RAVE Eval и т.д., даже ес узел новый, то у каждого хода все-равно есть вес, и делается ход с максимальным весом.
Альфа устроена немного иначе, но сути и частоты исполнения ходов это не меняет.

—- добавлено: 15 дек 2017 —-

Только в коде написано, что если в позиции есть ходы, которые ни разу не выполнялись - то выбор хода в позиции будет из таких ходов.
Это косяк, на самом деле это не так. Код верный только в части ходов которые выполнялись хотя-бы один раз.

Вот мой старый пост для UCT+Eval

Value = Uctvalue + С*score/N, score - оценка после конкретного хода.
Где N - количество наигранных из позиции партий, С - коэффициент который надо подобрать.
Uctvalue = m/n + uctk * sqrt (ln N / (5n))
Где m - набранные в партиях очки после конкретного хода, n - сколько раз играли конкретный ход. Uctk стандартно равен единице, но можно подобрать более сильный.
Если ход не игрался, то uctvalue = 0.99
Нажмите, чтобы раскрыть...

redhelicopter · 15 дек 2017

Кстати, Komodo видит ошибочность Rf8 почти сразу - на 25 глубине.
Здесь уже высказывалась точка зрения, что Альфазеро натаскивался именно на игру против Стокфиша - похоже, так оно и есть. Нейросеть не столько играет в шахматы, сколько хорошо знает скрытые слабости соперника.

просроченый_кмс · 15 дек 2017

Насчёт нейросети в мозге, думаю это находится пока за гранью науки, т.к. там не просто сложение и умножение, в нейронах используются квантовые эффекты, и сигналы по синапсам передаются не в аналоговом а в виде кода, это всё намного усложняет наш мозг и понимание его.

Нестор · 15 дек 2017

redhelicopter, Вы специально так троллите, что ли?
Уж на что я далёк от компьютерных шахмат и программирования, и то уже давно понял в чём Ваше заблуждение.

longinean · 15 дек 2017

redhelicopter пишет: ↑

Нам предлагается поверить, что "Стокфиш" в этой позиции пошел Rf8 вместо Кf8.
Запустил на своем ноутбуке: секунд 20 показывает Rf8, затем забраковывает его и дает Kf8.
Нажмите, чтобы раскрыть...

А вы на восьмом стокфише считали, на официальном? У меня уже глубина 47, и он только Rf8 предлагает, и полное равенство. Мне, правда, на одном ядре ноута считать часа 2 до той же глубины, что у них была на 64 ядрах

NS · 15 дек 2017

Нестор пишет: ↑

Интересно, сами разработчики Альфы до конца понимают, как работает их нейросеть?
По аналогии с человеком, который точно не знает, как работает его мозг ...
Нажмите, чтобы раскрыть...

В Альфе нейросеть используется для аппроксимации. Что они пытаются аппроксимировать - разработчики конечно-же понимают. Как нейросеть аппроксимирует тоже известно.

Jadn · 15 дек 2017

просроченый_кмс пишет: ↑

Насчёт нейросети в мозге, думаю это находится пока за гранью науки, т.к. там не просто сложение и умножение, в нейронах используются квантовые эффекты, и сигналы по синапсам передаются не в аналоговом а в виде кода, это всё намного усложняет наш мозг и понимание его.
Нажмите, чтобы раскрыть...

Никаких доказательств того, что в мозге используются квантовые эффекты, нет. И что значит "сигналы по синапсам передаются не в аналоговом а в виде кода"? А в искусственных нейросетях не в виде кода, что ли?
Понимание мозга затрудняет только то, что нейронов там слишком дофига.

Нестор · 15 дек 2017

NS, спасибо, но я немного в шутку задавал свой вопрос, имея в виду скорее последствия алгоритма, нежели сам алгоритм ...

zeroalphazero · 15 дек 2017

NS пишет: ↑

В самом простом случае сильнейший ход - это который исполнялся из позиции чаще остальных, либо ход который показал лучшую статистику (средний результат)
Нажмите, чтобы раскрыть...

Возникают вопросы:
на каком этапе производились коррекции ошибок — т.е. только ли на этапе обучения?
использование статистики при выборе начальных ходов в разгромном матче — не есть ли подобие использования дебютной библиотеки?

Нестор · 15 дек 2017

Jadn пишет: ↑

просроченый_кмс пишет: ↑

Насчёт нейросети в мозге, думаю это находится пока за гранью науки, т.к. там не просто сложение и умножение, в нейронах используются квантовые эффекты, и сигналы по синапсам передаются не в аналоговом а в виде кода, это всё намного усложняет наш мозг и понимание его.
Нажмите, чтобы раскрыть...

Никаких доказательств того, что в мозге используются квантовые эффекты, нет. И что значит "сигналы по синапсам передаются не в аналоговом а в виде кода"? А в искусственных нейросетях не в виде кода, что ли?
Понимание мозга затрудняет только то, что нейронов там слишком дофига.
Нажмите, чтобы раскрыть...

Больше чем в нейросети Альфы?

redhelicopter · 15 дек 2017

Нестор пишет: ↑

Уж на что я далёк от компьютерных шахмат и программирования, и то уже давно понял в чём Ваше заблуждение.
Нажмите, чтобы раскрыть...

Расскажите, в чем.

longinean пишет: ↑

А вы на восьмом стокфише считали, на официальном?
Нажмите, чтобы раскрыть...

Да.

просроченый_кмс · 15 дек 2017

Jadn пишет: ↑

просроченый_кмс пишет: ↑

Насчёт нейросети в мозге, думаю это находится пока за гранью науки, т.к. там не просто сложение и умножение, в нейронах используются квантовые эффекты, и сигналы по синапсам передаются не в аналоговом а в виде кода, это всё намного усложняет наш мозг и понимание его.
Нажмите, чтобы раскрыть...

Никаких доказательств того, что в мозге используются квантовые эффекты, нет. И что значит "сигналы по синапсам передаются не в аналоговом а в виде кода"? А в искусственных нейросетях не в виде кода, что ли?
Понимание мозга затрудняет только то, что нейронов там слишком дофига.
Нажмите, чтобы раскрыть...

квантовые эффекты есть даже при фотосинтезе, а уж что бы зародилось сознание без них никак. имхо.

Нестор пишет: ↑

Больше чем в нейросети Альфы?
Нажмите, чтобы раскрыть...

Конечно, нейронов миллиарды, и связей у каждого десятки а то и сотни.

Нестор · 15 дек 2017

redhelicopter, для того чтобы Ваш комп вышел на глубину СтокФиша с 64-мя ядрами, который играл в матче против Альфы, Вам понадобится существенно больше времени чем 1 минута.
Сколько точно, я не знаю, мне это неинтересно, уточните у специалистов ...
Надеюсь, что больше не надо будет Вам это объяснять в 101-ый раз?

WinPooh · 15 дек 2017

redhelicopter пишет: ↑

Кстати, Komodo видит ошибочность Rf8 почти сразу - на 25 глубине.
Здесь уже высказывалась точка зрения, что Альфазеро натаскивался именно на игру против Стокфиша - похоже, так оно и есть. Нейросеть не столько играет в шахматы, сколько хорошо знает скрытые слабости соперника.
Нажмите, чтобы раскрыть...

Ну, или не натаскивали специально, а провели несколько матчей. Со Стокфишем получилось хорошо, с Комодо чуть похуже, с Гудини - так себе. Опубликовали в статье результаты со Стокфишем.

Jadn · 15 дек 2017

Нестор пишет: ↑

Jadn пишет: ↑

просроченый_кмс пишет: ↑

Насчёт нейросети в мозге, думаю это находится пока за гранью науки, т.к. там не просто сложение и умножение, в нейронах используются квантовые эффекты, и сигналы по синапсам передаются не в аналоговом а в виде кода, это всё намного усложняет наш мозг и понимание его.
Нажмите, чтобы раскрыть...

Никаких доказательств того, что в мозге используются квантовые эффекты, нет. И что значит "сигналы по синапсам передаются не в аналоговом а в виде кода"? А в искусственных нейросетях не в виде кода, что ли?
Понимание мозга затрудняет только то, что нейронов там слишком дофига.
Нажмите, чтобы раскрыть...

Больше чем в нейросети Альфы?
Нажмите, чтобы раскрыть...

Я не знаю сколько в Альфе, но думаю на много порядков меньше, чем в мозгу (примерно 10^11). Иначе никакой Гугл бы не смог ее обучить.

—- добавлено: 15 дек 2017 —-

просроченый_кмс пишет: ↑

а уж что бы зародилось сознание без них никак. имхо.
Нажмите, чтобы раскрыть...

имхо это не доказательство.

sovaz1997 · 15 дек 2017

Давайте не спорить больше о Rf8/Kf8.

Верно, Stockfish с чистым хешем достаточно быстро понимает, что Rf8 - ошибка, но при игре у SF забит хеш и он действительно мог недосчитать. Если бы контроль был не минута/ход, а время на партию, SF разрешил бы fail-high здесь.

Войти или зарегистрироваться

AlphaZero. Нейронная сеть играет в шахматы

NS Нефёдов Сергей баннер

zeroalphazero Учаcтник

NS Нефёдов Сергей баннер

Fruit Александр баннер

NS Нефёдов Сергей баннер

redhelicopter Старожил

NS Нефёдов Сергей баннер

MS Михаил Семионенков

Комсюк народный модератор баннер

redhelicopter Старожил

Комсюк народный модератор баннер

Нестор консультант_ специалист по черной магии баннер

Комсюк народный модератор баннер

просроченый_кмс Старожил

NS Нефёдов Сергей баннер

Нестор консультант_ специалист по черной магии баннер

Rom Старожил

просроченый_кмс Старожил

Нестор консультант_ специалист по черной магии баннер

NS Нефёдов Сергей баннер

redhelicopter Старожил

просроченый_кмс Старожил

Нестор консультант_ специалист по черной магии баннер

longinean Учаcтник

NS Нефёдов Сергей баннер

Jadn баннер

Нестор консультант_ специалист по черной магии баннер

zeroalphazero Учаcтник

Нестор консультант_ специалист по черной магии баннер

redhelicopter Старожил

просроченый_кмс Старожил

Нестор консультант_ специалист по черной магии баннер

WinPooh В.М. Команда форума

Jadn баннер

sovaz1997 Учаcтник