AlphaZero. Нейронная сеть играет в шахматы

просроченый_кмс · 15 дек 2017

Кстати я как то пришёл к выводу, что сознание и все наши умения, обучение что мы считаем разумом это лишь вершина айсберга, на самом деле всё намного сложнее, даже клетка устроена так что нам никогда не понять до конца, наше сознание заперто где то в мозгу что бы выполнять простейшие операции по поддержанию нас, а основные алгоритмы и операции от всего что идёт от органов чувств, намного сложнее, мы получаем обработанную картинку всего, основное выполняется на недосягаемом нам уровне.

Нестор · 15 дек 2017

sovaz1997, да какая разница?
Комсюк же сказал, что Крф8 тоже проигрывает!
А Комсюку я верю

просроченый_кмс · 15 дек 2017

Jadn пишет: ↑

имхо это не доказательство.
Нажмите, чтобы раскрыть...

это интуиция) квантовая причём

sovaz1997 · 15 дек 2017

Нестор, тоже проигрывает, но не так быстро. Но другой контроль дал бы не совершить ошибку до этого хода.

просроченый_кмс · 15 дек 2017

Не масштабируются нормально шахматы, даже когда идёт речь о 4 8 ядрах, там потери приличные, думаю столько затрат было что бы управлять ядрами, и так мало хеша, что наверно 16 ядер при нормальном хеше играли бы быстрее, хорошо бы гугл написал сколько позиций в секунду считал стокфиш что бы сравнить.
Но я думаю это была небольшая первая статейка, подождём усилят прогу и будет настоящий открытый матч, будем следить в прямом эфире, ещё и с комментами Шипова)

Нестор · 15 дек 2017

sovaz1997, возможно, с этим я не спорю.
Суть спора с "красным геликоптером" была не в этом ...

zeroalphazero · 15 дек 2017

sovaz1997 пишет: ↑

Но другой контроль дал бы не совершить ошибку до этого хода.
Нажмите, чтобы раскрыть...

Ну и каким же должен быть, по-Вашему, контроль, чтобы SF не тупил без дебютной библиотеки и/или не получал жбан с раздачи?

sovaz1997 · 15 дек 2017

zeroalphazero, в данном случае, 60 минут на 60 ходов.

redhelicopter · 15 дек 2017

sovaz1997 пишет: ↑

Верно, Stockfish с чистым хешем достаточно быстро понимает, что Rf8 - ошибка, но при игре у SF забит хеш и он действительно мог недосчитать
Нажмите, чтобы раскрыть...

Ну а стокфишу дали хэш "для бедных".

Нестор пишет: ↑

Комсюк же сказал, что Крф8 тоже проигрывает!
А Комсюку я верю
Нажмите, чтобы раскрыть...

А СЮ в обзоре сказал, что Крф8 отскакивает на ничью. И я как-то ему больше доверяю, нежели Комсюку, при всем уважении.

NS · 15 дек 2017

zeroalphazero пишет: ↑

Ну и каким же должен быть, по-Вашему, контроль, чтобы SF не тупил без дебютной библиотеки и/или не получал жбан с раздачи?
Нажмите, чтобы раскрыть...

Время на партию?
https://www.chess.com/news/view/alphazero-reactions-from-top-gms-stockfish-author
Гуглоперевод:

Тем временем Chess.com также получил длинный комментарий от одного из авторов оригинальной книги Stockfish Tord Romstad, который мы дадим в полном объеме:

Результаты матчей сами по себе не имеют особого значения из-за довольно странного выбора параметров времени и настроек параметра Stockfish: игры были сыграны в фиксированное время 1 минута / ход, что означает, что Stockfish не использует эвристику управления временем ( много усилий было предпринято для того, чтобы компания Stockfish определила критические моменты в игре и решила, когда потратить дополнительное время на ходу, в фиксированное время за ход сила будет значительно страдать).Используемая версия Stockfish - один год, играла с гораздо большим количеством поисковых потоков, чем когда-либо получала значительное количество тестов, и имела слишком маленькие хеш-таблицы для количества потоков.Я считаю, что процент ничьих был бы намного выше в матче с более нормальными условиями.

С другой стороны, нет никаких сомнений в том, что AlphaZero мог бы сыграть лучше, если бы в проект было включено больше работы (хотя «4 часа обучения», упомянутые в документе, очень вводят в заблуждение, когда вы принимаете во внимание огромные аппаратные ресурсы, используемые в течение этих 4 часов).Но в любом случае, Stockfish против AlphaZero - это очень сравнение яблок с орангутанами.Одна из них - обычная шахматная программа, работающая на обычных компьютерах, другая использует принципиально разные методы и работает на специально разработанных аппаратных средствах, которые недоступны для покупки (и это будет выход из бюджета обычных пользователей, если это так).
Нажмите, чтобы раскрыть...

—- добавлено: 15 дек 2017 —-

Какие аппаратные ресурсы Альфа использовала для обучения:
AlphaZero defeated Stockfish after just 4 hours of self-play, using 5,000 first generation TPUs to generate the games and 64 second generation TPUs to train the neural networks
https://en.wikipedia.org/wiki/AlphaZero

sovaz1997 · 15 дек 2017

При Kf8 там около 1.4 SF даёт, вроде. Надо проверять не по оценке, а игрой, т. к. возможно там теоретическая ничья, если С. Ю. Так говорит.

Нестор · 15 дек 2017

redhelicopter, СЮ — это живой человеческий гросс, а Комсюк — матёрый адвансер!
"Кто более матери-истории ценен?"©

redhelicopter · 15 дек 2017

zeroalphazero пишет: ↑

Ну и каким же должен быть, по-Вашему, контроль, чтобы SF не тупил без дебютной библиотеки и/или не получал жбан с раздачи?
Нажмите, чтобы раскрыть...

Интересно было бы просто посмотреть на результаты с разными контролями. Минута на ход - это, мягко говоря, специфический контроль, тайм-менеджмент - это все-таки крайне важный фактор, влияющий на эло в противостоянии программ. Если все время форсировать ход по истечении минуты - одним только этим вы отнимаете программе добрую сотню эло.

Нестор · 15 дек 2017

NS, интересно, можно ли сравнить условно эти "5000 TPU" Альфы с количеством
нейронов или нейронных связей человеческого мозга? В смысле мощности нейронной сети.

zeroalphazero · 15 дек 2017

sovaz1997 пишет: ↑

60 минут на 60 ходов
Нажмите, чтобы раскрыть...

Полугаевским-Романишиным и пр. 60-ти лет не хватило, а SF за 60 минут научится хотя бы в Новоиндийской не тупить?
Хотя... комиксы, говорят, — тоже литература.
Пока же создается впечатление, что публике предоставили любопытный, шедеврально-талантливо созданный комикс из разряда How to beat Stockfish.

Тестирование качества обучения нейросети необходимо проводить на примерах, которые не участвовали в её обучении. При этом число тестовых примеров должно быть тем больше, чем выше качество обучения. Если ошибки нейронной сети имеют вероятность близкую к одной миллиардной, то и для подтверждения этой вероятности нужен миллиард тестовых примеров. Получается, что тестирование хорошо обученных нейронных сетей становится очень трудной задачей.
Нажмите, чтобы раскрыть...

If consciousness arises because of some critical mass of interactions, then it may be possible. But we really do not understand what consciousness actually is, so it is difficult to say.

Challenger Spy · 15 дек 2017

Нестор пишет: ↑

@Комсюк, рискну предположить, что ты с такой выдержкой тоже скоро гроссом станешь ...
Нажмите, чтобы раскрыть...

Эх, этой бы выдержки да на другие случаи, когда нармода ...эээ..."провоцируют"

redhelicopter · 15 дек 2017

Нестор пишет: ↑

redhelicopter, для того чтобы Ваш комп вышел на глубину СтокФиша с 64-мя ядрами, который играл в матче против Альфы, Вам понадобится существенно больше времени чем 1 минута.
Сколько точно, я не знаю, мне это неинтересно, уточните у специалистов ...
Нажмите, чтобы раскрыть...

В рассматриваемом случае достоверно известно, что Rf8 объективно более плохой ход, чем Кf8. Можете запустить анализ хоть на сутки, добить до нереальной глубины и убедиться в этом, что называется, воочию.
Поэтому, ваш довод как раз только усиливает сомнения. Если на моем компе ход найдет за 20 секунд, почему на сильном железе он не был найден за 0,02 секунды?

Нестор · 15 дек 2017

redhelicopter, ну может хватит уже?
А то я ведь не гроссмейстер ИКЧФ, и моё терпение может лопнуть ...

Он (ход Крф8) и был очень быстро найден, как ход 1-ой, 2-ой или 3-ей линии.
Но достигнув за минуту определённой глубины (не знаю какой), конкретно эта прога на 64-ёх ядрах, которой ни у Вас, ни у меня, ни у кого-либо ещё здесь — нет(!), сочла, что уже все ходы имеют плохую оценку для чёрных и сделала ход Лф8, который также как и Крф8, проигрывает!

Ну как ещё Вам это надо объяснить, чтобы дошло? Разноцветными шрифтами написать, что ли?

sovaz1997 · 15 дек 2017

Нестор, на ночь ставлю, чтобы опровергнуть ваше заявление)

redhelicopter · 15 дек 2017

Нестор пишет: ↑

А то я ведь не гроссмейстер ИКЧФ, и моё терпение может лопнуть ...
Нажмите, чтобы раскрыть...

Да что мне будет-то с вашего лопнувшего терпения? Максимум легкое удивление, от чрезмерной эмоциональности реакций некоторых оппонентов.

Нестор пишет: ↑

Но достигнув за минуту определённой глубины (не знаю какой), конкретно эта прога на 64-ёх ядрах, которой ни у Вас, ни у меня, ни у кого-либо ещё здесь — нет(!), сочла, что уже все ходы имеют плохую оценку для чёрных и сделала ход Лф8, который также как и Крф8, проигрывает!
Нажмите, чтобы раскрыть...

То есть вы считаете, если программа оценивает один ход на +2 а другой на +6 в пользу оппонента, она может подумать "да пропади все пропадом" и лупануть более слабый ход? ;D

Нестор · 15 дек 2017

redhelicopter, sovaz1997, моё терпение лопнуло!

Рекомендую вам обоим для чистоты эксперимента купить в складчину компьютер на 64-ёх ядрах, установить на него необходимую версию Сток Фиша, и ещё раз всё хорошенько проверить ...
О результатах доложите!

sovaz1997 · 15 дек 2017

Нестор, на 50 глубине уже меньше 1 перевес у белых при Kg8. Не думаю, что что-то дальше изменится. Для меня, во всяком случае, все очевидно.

Не удивлюсь, если ничью покажет))

ШахматыЭтоДиагноз · 15 дек 2017

redhelicopter пишет: ↑

То есть вы считаете, если программа оценивает один ход на +2 а другой на +6 в пользу оппонента, она может подумать "да пропади все пропадом" и лупануть более слабый ход? ;D
Нажмите, чтобы раскрыть...

Вот меня это тоже здорово смущает. Может дело действительно в маленьком кеше, но у меня и сам Стокфиш, и Комодо и Гудини не идут на продолжения случившиеся в матче, считая их не самыми сильными ходами, сколько времени на анализ не поставь. Так что не надо больше мантр про 64 ядра, с ихними настройками он похоже и на 1 ядре играл бы в такую же силу.

Комсюк · 15 дек 2017

Нестор пишет: ↑

sovaz1997, да какая разница?
Комсюк же сказал, что Крф8 тоже проигрывает!
А Комсюку я верю
Нажмите, чтобы раскрыть...

Это сказал Фрукт http://kasparovchess.crestbook.com/threads/7644/page-24#post-770504
А я ему верю

—- добавлено: 15 дек 2017, опубликовано: 15 дек 2017 —-

sovaz1997 пишет: ↑

Давайте не спорить больше о Rf8/Kf8.

Верно, Stockfish с чистым хешем достаточно быстро понимает, что Rf8 - ошибка, но при игре у SF забит хеш и он действительно мог недосчитать. Если бы контроль был не минута/ход, а время на партию, SF разрешил бы fail-high здесь.
Нажмите, чтобы раскрыть...

Ключевой момент!
Определитесь с темой спора, а то тут все спорят о разном... и каждый о своём
1. Сделан ли Стокфишем ход Лf8?
2. Даёт ли Крf8 ничью?
Это разные вопросы... НЕ МЕШАЙТЕ ИХ В КУЧУ

З.Ы. а Хеликоптер пусть прочтёт всю ветку от корки до корки
А то он думает, что его идея с ослабленным Стокфишем тут новая, прямо откровение
Раскрыл нам глаза!

Комсюк · 15 дек 2017

Challenger Spy пишет: ↑

Нестор пишет: ↑

@Комсюк, рискну предположить, что ты с такой выдержкой тоже скоро гроссом станешь ...
Нажмите, чтобы раскрыть...

Эх, этой бы выдержки да на другие случаи, когда нармода ...эээ..."провоцируют"

Нажмите, чтобы раскрыть...

кавычки лишние

sovaz1997 · 15 дек 2017

Да, Kf8 - лучший ход с оценкой +1.70 и эта оценка держалась с 54 по 73 глубину:
Код:
info depth 73 seldepth 93 multipv 1 score cp -170 nodes 317736802486 nps 11914797 hashfull 999 tbhits 306519321 time 26667410 pv g8f8 h4f4 h8g8 f4c7 c5c4 c7c4 e8d8 g3g4 f8e8 c4c3 g8f8 g4g5 e7e6 f6f3 e8e7 c3d4 e7e8 f3d3 e6e1 g2g3 e1g1 g3h2 g1e1 d4c3 e1e4 h2g2 a7a6 b3d5 e4e2 g2f1 e2e6 d5e6 f7e6 d3f3 f8g8 c3f6 d8c8 f6d4 c8d8 d4d6 d8a8 f1g2 g8h8 d6b4 a8d8 b4f4 h8g8 f4d6 d8a8 d6c7 g8h8 f3f6 h8g8 a2a4 g8h8 c7d6 h8g8 a4a5 g8h8 d6c5 a8d8 c5c7 d8a8 c7d6 h8g8 f6f4 g8h8 g2g3 a8c8 f4f6 h8g8 f6f3 c8a8 d6b4 g8h8 f3f6 h8g8 f6f4 a8d8 b4d6 g8h8 f4f6 d8c8 d6b4 c8d8 f6f4 e6e5
Почему в партии был сделан Rf8? Не из-за мощного процессора, не из-за старой версии Stockfish (тоже проверял), а, скорее всего, из-за коллизий, связянных с маленьким размером хеша и фиксированным контролем времени. Я уже показывал, что при Rg8 оценка падает до +9.

P. S. в этот раз, кстати, старая версия подвела и не сделала ход Kf8. Новая версия быстро находит этот ход. Так что, и в этом тоже есть проблема. Все-таки, 45 пунктов ЭЛО.

Комсюк · 15 дек 2017

sovaz1997 пишет: ↑

Я уже показывал, что при Rg8
Нажмите, чтобы раскрыть...

там атэц стоит

—- добавлено: 15 дек 2017, опубликовано: 15 дек 2017 —-

А я уже давал Хеликоптеру две ссылки, вот третья http://kasparovchess.crestbook.com/threads/7644/page-25#post-770529
Глубина ещё маленькая, но если Сток "зациклится", то он может показать это на любой глубине, не увидев ответ Фf4
Причём если отступить ход назад (не вперёд, подсказывая ему!) а потом вернуться, то он может найти очень быстро
А может и не найти

Отсюда вывод - ход был сделан Стокфишем 8

sovaz1997 пишет: ↑

Kf8 - лучший ход с оценкой +1.70 и эта оценка держалась с 54 по 73 глубину:
Нажмите, чтобы раскрыть...

А здесь вывод - у чёрных проиграно по движку
Впрочем, на ночь можно было не оставлять, Fruit уже дал заключение

NS · 15 дек 2017

Нестор пишет: ↑

NS, интересно, можно ли сравнить условно эти "5000 TPU" Альфы с количеством
нейронов или нейронных связей человеческого мозга? В смысле мощности нейронной сети.
Нажмите, чтобы раскрыть...

Можно
https://geektimes.ru/sandbox/3436/

Нестор · 15 дек 2017

NS, спасибо, хорошая ссылка!
Позволю себе процитировать основные выводы:

Многие часто спотыкаются на софте, который позволит реализовать мышление, близкое к человеческому. — Окончательно не установлено каким именно образом мы думаем (хотя с каждым днем мы приближаемся к этому все ближе). Смогут ли люди написать нужный софт и освоить эти 10^20 FLOPS (которые мы, по всей видимости достигнем в будущем) и действительно эмулировать ум человека?

С этой точки зрения, лично я, особых проблем не предвижу.

1) Общие принципы работы мозга с информацией понятны
2) Нет особых причин реализовывать один в один именно работу биологических нейронов.
3) Современные нейросети на кремнии, которые усиленно разрабатываются и используются всеми крупными компаниями (Google, Microsoft, IBM, Apple и т.п.) уже весьма многообещающи даже на сравнительно скромных мощностях порядка 10^15 FLOPS.

Вообще, главный стимул развития ИИ — экономический. Не имеет значения, сможем ли мы создать сильный ИИ с четким сознательным мышлением, большинство экономических задач этого не требуют. Многие рабочие места сегодня выглядят заменимыми обычными программными нейросетями, возможно с небольшими доработками, в виде образования нескольких структур (зона анализа аудио, видео, смысла и т.п.) и какой-либо нейромедиаторной системы, которая может добавить 1-2 порядка сложности (а может и не добавить, надо подумать).

Короче говоря, мы находимся примерно в трех порядках от юзабельного ИИ.
Если б закон Мура продолжил выполняться, то в ближайшие 15-30 лет уже можно было бы говорить о создании развитого ИИ, сравнимого с человеком.
Поэтому единственный вопрос который тут остается — это будет ли ИИ сделан на кремнии или на чем-то другом.

Ну и очевидна технологическая сингулярность которая сокращает этот срок: сейчас мы сами придумываем материалы и технологию производства процессоров. Но в какой-то момент компьютер превзойдет нас в этом и будет сам для себя вычислять более эффективные вычислительные элементы и архитектуры для процессоров, на которых он работает. Возникнет положительная обратная связь и вычислительная мощность компьютера начнет расти экспоненциально, пока не упрется в фундаментальные ограничения Вселенной типа скорости света.

Но это все уже никак не будет касаться биологической жизни. Поэтому дальше мой хрустальный шар показывает туман.

В завершение, стоит сказать, что ни один ИИ не денется от двух фундаментальных потребностей жизни и саморазвивающихся систем:
1) Добыча энергии и вещества (т.е. в какой-то момент скорее всего потребуется зажечь свое солнышко (термояд), создать черную дыру, либо построить сферу Дайсона), с веществом особых проблем быть не должно.

2) Тонкое и сложное структурирование материи (т.е. разработка процессоров, которые будут осваивать эту энергию и процессить Вселенную)

А что вы думаете на этот счет?
Нажмите, чтобы раскрыть...

sovaz1997 · 15 дек 2017

Играл бы SF Dev, партия могла бы закончиться вничью:

Ну а после хода в партии все очень быстро заканчивается:

Undying · 15 дек 2017

Rom пишет: ↑

На входе позиция, на выходе ходы-кандидаты и оценка. Нейросеть одна, но она выполняет обе функции.
Нажмите, чтобы раскрыть...

Да, нейронная сеть одна. Когда Альфа Зеро играет в го, то на выходе нейронка отдает число от -1 до 1, показывающее вероятность выиграть или проиграть, и матрицу 19х19, показывающую насколько вероятен каждый из ходов в данной позиции.

https://habrahabr.ru/post/343590/

Вообще интересно в каком виде в шахматах вход и выход задается. Ведь ход в шахматах значительно сложнее, чем в го. Неочевидно как ходы матрицами задавать.

crem · 15 дек 2017

Undying пишет: ↑

Вообще интересно в каком виде в шахматах вход и выход задается. Ведь ход в шахматах значительно сложнее, чем в го. Неочевидно как ходы матрицами задавать.
Нажмите, чтобы раскрыть...

Это описано в препринте.

Ход (вывод) задаётся в виде:
- координаты фигуры, которая ходит (64 варианта)
- и направления хода. Это 73 варианта: 8 направлений хода коня, 56 возможностей хода ферзя (8 направлений и количество клеток от 1 до 7, ими же закодированы ходы остальных фигур, включая рокировки, ходы пешек, и превращения пешек в ферзей), и 9 возможностей превращения пешек не в ферзя (три варианта хода: [прямо, со взятием влево или вправо], и три фигуры превращения: [в коня, слона или ладью])
Итого 64*73 = 4672 варианта.

Нейронная сеть выдаёт коэффициенты для всех 4672 вариантов. Из всех вариантов выбираются ходы, соответствующие правилам, и softmax'ом эти коэффициенты приводятся к вероятностям (с суммой 1 по валидным ходам).

Ввод (состояние доски) задаётся так:
- "Битовые маски" для каждого из типов фигур каждого из игроков. (8*8*6*2 булевых значений)
- Количество повторений этого состояния доски.
(эти два пункта передаются о последних 8 полуходах! То есть получается, что повторения позиции если они случились раньше чем через 4 хода назад, alphazero может не заметить? Эта же информация нужна например для того чтоб понять, возможно ли взятие на проходе.)

- цвет игрока (но в любом случае доска для чёрных "разворачивается" чтоб он видел её из глаз игрока)
- текущий номер хода
- 4 бита о том разрешены ли рокировки
- количество ходов без взятий и ходов пешек

redhelicopter · 15 дек 2017

Комсюк пишет: ↑

Отсюда вывод - ход был сделан Стокфишем 8
Нажмите, чтобы раскрыть...

Вывод ниачем на самом деле. Точно так же можно сказать, что если монетку подкинуть 20 раз, она может 20 раз подряд выпасть решкой. Однако если вы станете свидетелем подобного, вы начнете подозревать, что что-то не так
Пример с ладьей-королем - лишь один из многих случаев в этих 10 партиях, когда Стокфиш выбирал слабый ход. Просто он слишком яркий и очевидный, поэтому на нем многие фокусируются. То есть, можно сделать вывод именно о недостаточной силе игры.

Нестор пишет: ↑

Рекомендую вам обоим для чистоты эксперимента купить в складчину компьютер на 64-ёх ядрах, установить на него необходимую версию Сток Фиша, и ещё раз всё хорошенько проверить ...
Нажмите, чтобы раскрыть...

А помолиться на 64 ядра не нужно перед этим?
Оценка одной и той же проги на домашнем компе на глубине 70 ничем не отличается от оценки на 64 ядрах на той же глубине. Разница исключительно во времени, за которое достигается эта глубина.

Нестор · 15 дек 2017

redhelicopter,
https://www.youtube.com/watch?v=bkh8otlJH0I

Комсюк · 15 дек 2017

redhelicopter пишет: ↑

Вывод ниачем на самом деле.
Нажмите, чтобы раскрыть...

Ниачом твой вывод по показаниям своего компа

redhelicopter пишет: ↑

Точно так же можно сказать, что если монетку подкинуть 20 раз, она может 20 раз подряд выпасть решкой. Однако если вы станете свидетелем подобного, вы начнете подозревать, что что-то не так
Нажмите, чтобы раскрыть...

я 13 чёрных подряд на рулетке видел, не сильно удивился
А здесь трое юзеров написали, что у них это произошло, причём один из них поменял точку зрения, убедившись, что с таблицами было Крф8, а без таблиц Лф8
А ты продолжай подозревать

Войти или зарегистрироваться

AlphaZero. Нейронная сеть играет в шахматы

просроченый_кмс Старожил

Нестор консультант_ специалист по черной магии

просроченый_кмс Старожил

sovaz1997 Учаcтник

просроченый_кмс Старожил

Нестор консультант_ специалист по черной магии

zeroalphazero Учаcтник

sovaz1997 Учаcтник

redhelicopter Старожил

NS Нефёдов Сергей

sovaz1997 Учаcтник

Нестор консультант_ специалист по черной магии

redhelicopter Старожил

Нестор консультант_ специалист по черной магии

zeroalphazero Учаcтник

Challenger Spy Технический специалист

redhelicopter Старожил

Нестор консультант_ специалист по черной магии

sovaz1997 Учаcтник

redhelicopter Старожил

Нестор консультант_ специалист по черной магии

sovaz1997 Учаcтник

ШахматыЭтоДиагноз Учаcтник

Комсюк народный модератор

Комсюк народный модератор

sovaz1997 Учаcтник

Комсюк народный модератор

NS Нефёдов Сергей

Нестор консультант_ специалист по черной магии

sovaz1997 Учаcтник

Undying Учаcтник

crem Учаcтник

redhelicopter Старожил

Нестор консультант_ специалист по черной магии

Комсюк народный модератор

Поделиться этой страницей