AlphaZero. Нейронная сеть играет в шахматы

Sergey1983 · 17 Apr 2018

Crem, а что там с движком, почему нет усиления?

crem · 17 Apr 2018

Sergey1983 said: ↑

Crem, а что там с движком, почему нет усиления?
Click to expand...

Я сейчас не очень слежу за обучением сети, больше за реализацией движков.

Но со слов людей, занимающихся тренировкой сети,
Во-первых, усиление есть, особенно если смотреть на игры с другими движками, а не с самим собой (сеть, которая вышла час назад, дала +50 к рейтингу).
А во-вторых, рост пока замедлился потому что мы находимся здесь:

Не факт, что рост ускорится, как на графике, но то, что он сейчас есть — факт, просто нужно терпение.
Первоначальные планы были обыграть stockfish через 9 месяцев, и пока этот план мы похоже опережаем.

svoitsl · 17 Apr 2018

crem said: ↑

А во-вторых, рост пока замедлился потому что мы находимся здесь:
Click to expand...

"Здесь" это конечно хорошо, но есть ли критерии по которым нужно увеличить размер сети?

crem said: ↑

и пока этот план мы похоже опережаем.
Click to expand...

Еще не все потеряно, думаю скоро будет замедление, как только размер сети увеличится ещё в 10 раз.

crem said: ↑

Ну и во-вторых не хватает рук чтобы всё сделать. Список длинный, а времени ни у кого не хватает.
Click to expand...

Это радует, значит ошибок будет меньше, а вот возможностей и производительности - больше.
Кстати, не быстрее ли будет, если перейти на целочисленную арифметику?
И не пора ли уже менять формат файла сети?

P.S. да, кстати, а как теперь принято скачивать файл сети, ведь сервера амазона заблокированы?
FriGate вроде помог

Sergey1983 · 17 Apr 2018

Я качаю отсюда http://lczero.org/networks
и у меня всё работает.

sovaz1997 · 17 Apr 2018

Andrew Tang будет играть против LCZero: https://lichess.org/blog/WtNG7CcAAFMTTHPj/gm-andrew-tang-vs-leela-chess-zero

crem · 18 Apr 2018

Нашли баг в реализации: LcZero не знало, что чёрные могут проводить пешку во что-нибудь кроме коня.
Это (наверное) объясняет и почему оно хуже играет чёрными, да и белыми в эндшпиле тоже тупит (белыми оно тоже думает, что чёрные могут только проводить коня).
Баг уже исправлен, новая версия lczero собирается.

crem · 18 Apr 2018

LCZero будет участвовать в TCEC! http://www.chessdom.com/breaking-leela-chess-zero-enters-tcec-season-12/
Пока только CPU, и неизвестно, разрешат ли использовать исправленную версию, которая знает, что пешки могут проводиться в ферзи.

Пломбир · 18 Apr 2018

crem said: ↑

Нашли баг в реализации: LcZero не знало, что чёрные могут проводить пешку во что-нибудь кроме коня.
Click to expand...

Ааа.. ну тогда это объясняет все мои выигрыши )))) Жаль )))

Rom · 18 Apr 2018

svoitsl said: ↑

Кстати, не быстрее ли будет, если перейти на целочисленную арифметику?
Click to expand...

Если я правильно понимаю, на CPU разница по скорости между вычисления int8 и float32 не слишком велика из-за наличия в CPU схем сопроцессора. А на видеокартах только топовая модель Nvidia, 1080Ti, поддерживает вычисления int8. Поэтому на данный момент квантизация не актуальна. Но если она будет поддерживатся в новой линейке видеокарт, выход которой ожидается, то со временем можно будет на неё перейти.

Michael-13 · 18 Apr 2018

Еще один сайт для игры с Leela. Или с людьми.
https://kontrachess.com

crem · 18 Apr 2018

svoitsl said: ↑

crem said: ↑

А во-вторых, рост пока замедлился потому что мы находимся здесь:
Click to expand...

"Здесь" это конечно хорошо, но есть ли критерии по которым нужно увеличить размер сети?

crem said: ↑

и пока этот план мы похоже опережаем.
Click to expand...

Еще не все потеряно, думаю скоро будет замедление, как только размер сети увеличится ещё в 10 раз.
Click to expand...

У Deepmind размер сети был 20x256, у нас сейчас 10x128.
Если увеличить сеть в 10 раз, она будет либо в 2.5 раза, либо в 10 раз больше чем у DeepMind (смотря как считать, потому что увеличение количества фильтров почти не замедляет вычисление, только увеличение количество блоков).

svoitsl said: ↑

crem said: ↑

Ну и во-вторых не хватает рук чтобы всё сделать. Список длинный, а времени ни у кого не хватает.
Click to expand...

Это радует, значит ошибок будет меньше, а вот возможностей и производительности - больше.
Кстати, не быстрее ли будет, если перейти на целочисленную арифметику?
И не пора ли уже менять формат файла сети?
Click to expand...

Int8 в нейронных сетях это не целочисленная арифметика, а квантизация вещественных чисел.
Когда будем пробовать TensorRt, или хотя бы перейдём на tensorflow, то попробуем.
В текущей реализации надо всё руками делать, нереально.

Пока старый формат не мешает. Эстетически может и лучше было бы сменить, но есть более срочные дела.

—- добавлено: 18 Apr 2018, опубликовано: 18 Apr 2018 —-

Michael-13 said: ↑

Еще один сайт для игры с Leela. Или с людьми.
https://kontrachess.com
Click to expand...

Кстати, в lichess.org скоро/со временем появится возможность поиграть с LCZero, а следом и поддержка других компьютерных аккаунтов.

Rom · 18 Apr 2018

crem said: ↑

У Deepmind размер сети был 20x256, у нас сейчас 10x128.
Если увеличить сеть в 10 раз, она будет либо в 2.5 раза, либо в 10 раз больше чем у DeepMind (смотря как считать, потому что увеличение количества фильтров почти не замедляет вычисление, только увеличение количество блоков).
Click to expand...

Мне кажется ещё, что помимо данного фактора, увеличение числа фильтров более актуально именно для шахмат. В шахматах не требуется распознавать очень протяженные структуры, как в Го или при распознавании изображений. А свёрточные сети на последних слоях как раз занимаются распознаванием крупных, многопиксельных структур. В шахматах это может быть не так важно, поэтому стоит присмотреться к возможности увеличения нейросети в первую очередь именно по фильтрам.

Boroda · 18 Apr 2018

Я правильно понимаю, что есть большая вероянтность, что уже в этом году на ТСЕС, Лила сможет побеждать таких титанов как Гудини и Сток?

Rom · 18 Apr 2018

Вероятность конечно есть, но её величину каждый оценивает по своему. Слишком много факторов надо учесть.

crem · 18 Apr 2018

Rom said: ↑

crem said: ↑

У Deepmind размер сети был 20x256, у нас сейчас 10x128.
Если увеличить сеть в 10 раз, она будет либо в 2.5 раза, либо в 10 раз больше чем у DeepMind (смотря как считать, потому что увеличение количества фильтров почти не замедляет вычисление, только увеличение количество блоков).
Click to expand...

Мне кажется ещё, что помимо данного фактора, увеличение числа фильтров более актуально именно для шахмат. В шахматах не требуется распознавать очень протяженные структуры, как в Го или при распознавании изображений. Свёрточные сети на последних слоях как раз занимаются распознаванием крупных, многопиксельных структур. В шахматах это может быть не так важно, поэтому стоит присмотреться к возможности увеличения нейросети в первую очередь именно по фильтрам.
Click to expand...

Насколько я слышал, есть теоретически доказанное оптимальное соотношение количества фильтров и блоков, и дисбаланс сильно мешает обучению.

Rom · 18 Apr 2018

crem said: ↑

Насколько я слышал, есть теоретически доказанное оптимальное соотношение количества фильтров и блоков, и дисбаланс сильно мешает обучению.
Click to expand...

Возможно, но не уверен, что шахматы наиболее типовая задача. Например, в задачах по распознаванию изображений сотни и даже тысячи слоёв. Кроме того, в разумных пределах соотношение всегда можно подвигать.

kirill57 · 19 Apr 2018

Вопрос к crem , а как можно к lcz прикрутить TB (я так понимаю именно такая версия будет использована в TCEC)?

svoitsl · 19 Apr 2018

Вопрос...
Как правильно настроить свой комп для обучения LC0?
Есть видео (GF730), есть проц (i5-4770, 4 ядра ) нужно все это заставить шустро работать
Но на ум приходит создать две папки CPU и GPU и просто тупо запустить несколько копий клиента...
Есть ли споcоб получше?

crem · 19 Apr 2018

kirill57 said: ↑

Вопрос к crem , а как можно к lcz прикрутить TB (я так понимаю именно такая версия будет использована в TCEC)?
Click to expand...

Собирались использовать, но наспех прикрутить не успели, поэтому играет версия без tablebase (вроде бы, по крайней мере два часа назад ещё ничего не работало).
И уже один раз проиграла, смотреть тут: http://tcec.chessdom.com/live.php

sovaz1997 · 19 Apr 2018

Новая сеть ещё прибавила 33 пункта в силе игры! Из России скачать можно, используя VPN.

kirill57 · 19 Apr 2018

crem said: ↑

Собирались использовать, но наспех прикрутить не успели, поэтому играет версия без tablebase (вроде бы, по крайней мере два часа назад ещё ничего не работало).
И уже один раз проиграла, смотреть тут: http://tcec.chessdom.com/live.php
Click to expand...

Интересно, а после начала турнира, уже нельзя добавить?

Sergey1983 · 19 Apr 2018

Crem, у меня клиент очень часто выдаёт такое:

svoitsl · 19 Apr 2018

kirill57 said: ↑

а после начала турнира, уже нельзя добавить?
Click to expand...

Ну если вдруг попадет в следующий дивизион....тогда можно, а если не попадет то ей это и не потребуется

crem · 19 Apr 2018

Sergey1983 said: ↑

Crem, у меня клиент очень часто выдаёт такое:
Click to expand...

Не знаю, что такое, но похоже, он не смог скачать сеть. Может, вас там настигли какие блокировки?

svoitsl · 19 Apr 2018

crem said: ↑

Может, вас там настигли какие блокировки?
Click to expand...

У меня скорее всего из-за них два потока закрылись (а два остались работать)

sovaz1997 · 19 Apr 2018

Заблокировали миллионы ip-адресов, под раздачу попали в т. ч. сервера Google и Amazon, где находятся файлы с сетями LZ.

Sergey1983 · 19 Apr 2018

Дело в том что иногда он всё-же качает сеть.

Boroda · 20 Apr 2018

crem said: ↑

Нашли баг в реализации: LcZero не знало, что чёрные могут проводить пешку во что-нибудь кроме коня.
Click to expand...

Поясните пожайлуста. Ведь Лила наиграла уже миллионы партий думая, что пешка преврашается только в коня. То есть, она обучалась на не верных правилах. Баг исправили, но те миллионы партий ведь уже повлияли на алгоритм лилы? Не правильнее было бы начать обучение заново?

Rom · 20 Apr 2018

Нейросеть - это вычислительно избыточная, но зато крайне гибкая структура, способная отыскивать и подстраиваться под любые игровые паттерны (шаблоны, структуры), тактические или позиционные. Я полагаю, за пару миллионов партий нейросеть способна переобучиться заново. Настолько, что её структура будет полностью перестроена. По крайней мере, это позволяют предположить тренировки нейросети в игре Го, где нейросеть тренированная с нуля показала аналогичную силу игры, что и нейросеть тренированная из предыдущей по технологии net2net. Поэтому, можно предположить, что тренировочные партии наигранные за ближайшие два-три дня позволят исправить все проблемы с превращением коня, как будто их и не было. Так что нет смысла начинать обучение заново.

svoitsl · 20 Apr 2018

Rom said: ↑

Я полагаю, за пару миллионов партий нейросеть способна переобучиться заново
Click to expand...

Я полагаю также, но вот некоторые разработчики полагают по другому. Они считают что обучение сети LC0 на Стокфише например её необратимо испортит, даже более того, обучения игре в эндшпиль на TB (Налимова....) её так же необратимо испортит.

Rom · 20 Apr 2018

svoitsl said: ↑

Я полагаю также, но вот некоторые разработчики полагают по другому. Они считают что обучение сети LC0 на Стокфише например её необратимо испортит, даже более того, обучения игре в эндшпиль на TB (Налимова....) её так же необратимо испортит.
Click to expand...

Необратимо вряд ли. Но мне кажется они поднимают несколько иной вопрос. Метод Монте-Карло (или точнее то, что им сейчас называют), выдаёт нам такие тренировочные примеры, которые, как уже неоднократно показано, позволяют качественно обучать нейросеть. О других методах, или программах которые их используют, так пока сказать нельзя. Поэтому возникают обоснованные опасения, что с другими методами поиска по шахматному дереву можно словить какие-нибудь проблемы связанные с переобучением, или некие другие скрытые проблемы связанные с иным тренировочным набором. И поэтому пока не отработан существующий код, и нейросеть вполне себе обучается, лучше использовать то, что гарантированно работает, а другие подходы опробовать потом.

svoitsl · 20 Apr 2018

Rom said: ↑

можно словить какие-нибудь проблемы связанные с переобучением
Click to expand...

Проблемы можно словить и ошибками в коде, от этого никто не застрахован, но в последующем метод Монте-Карло их исправит, так и тут, можно сперва обучить на Стокфише с ТВ Налимова, уж потом "лакирнуть" тренировочными примерами Монте - Карло.
В этом случае скорее всего потребуется меньше игр (и времени) что бы достичь уровня хотя бы Стокфиша.

Mustitz · 20 Apr 2018

Ну есть AlphaGo, которая тренировалась на партиях людей. Есть AlphaZero, которая тренировалась на матчах сама с собой. AlphaZero играет сильнее, хотя подход работает в обеих случаях. Где-то лучше, где-то хуже.

С таблицами Налимова я не вижу вообще никаких минусов, как бы это могло повлиять. В качестве бонуса я вижу незначительное ускорение обучения и экономию мощности нейросети (не надо тратить часть ресурсов на обучение игры в таких окончаниях). Но это может сильно повлиять на игру Leela Chess Zero без таблиц Налимова в позиции из такой таблицы.

Обучать на партиях человека и/или движков может иметь негативный эффект, потому что найросеть может попасть в яму острых тактических позиций, где надо считать много и вширь, для которой MCTS работает не очень успешно. И потом из этой ямы не выбраться.

Теоретически также баг с превращением также мог привести к такой яме — нейросеть будет стараться белыми стремиться к разменам, а чёрными уклонятся от них, потому как именно в окончании баг играл большую роль. Ну а что с этим делать — вопрос большой. Вряд ли есть много исследований на эту тему.

Опять же, лично я бы не говорил о проблемах с переобучением, а скорее о проблеме локального минимума.

Rom · 20 Apr 2018

svoitsl said: ↑

Проблемы можно словить и ошибками в коде, от этого никто не застрахован, но в последующем метод Монте-Карло их исправит, так и тут, можно сперва обучить на Стокфише с ТВ Налимова, уж потом "лакирнуть" тренировочными примерами Монте - Карло.
В этом случае скорее всего потребуется меньше игр (и времени) что бы достичь уровня хотя бы Стокфиша.
Click to expand...

Если тренировочные позиции брать из Налимова, то в принципе возможно. Не нужно наигрывать тренировочные партии. Но тренируется только поздний эндшпиль. А вот если играть тренировочные партии Стокфишем, то надо бы посчитать, сможем ли мы быстро наиграть достаточное количество партий нужного качества. Следует учесть, что при переборе 200 тысяч позиций на ход Стокфиш играет примерно на уровне 2800 эло, а сегодняшняя Лила уже достаточно приличного уровня.

crem · 20 Apr 2018

svoitsl said: ↑

Rom said: ↑

Я полагаю, за пару миллионов партий нейросеть способна переобучиться заново
Click to expand...

Я полагаю также, но вот некоторые разработчики полагают по другому. Они считают что обучение сети LC0 на Стокфише например её необратимо испортит, даже более того, обучения игре в эндшпиль на TB (Налимова....) её так же необратимо испортит.
Click to expand...

Насчёт обучения на стокфише: наверняка испортит, по крайней мере в статье про AlphaGo Zero написано, что сеть, изначально натренированная на партиях людей, прекратила рост раньше, чем натренированная с нуля.

Насчёт эндшпильных таблиц, тут другой вопрос. Когда сеть закончит рост и не останется идей, наверняка начнут пробовать тренировать искусственным образом, а пока просто любопытно как далеко сеть доберётся сама, может она и сама по себе с эндшпильными таблицами соревноваться сможет безо всякой помощи.

Log in or Sign up

AlphaZero. Нейронная сеть играет в шахматы

Sergey1983 Учаcтник

crem Учаcтник

svoitsl Учаcтник

Sergey1983 Учаcтник

sovaz1997 Учаcтник

crem Учаcтник

crem Учаcтник

Пломбир Новичок

Rom Старожил

Michael-13 Господин

crem Учаcтник

Rom Старожил

Boroda Новичок

Rom Старожил

crem Учаcтник

Rom Старожил

kirill57 Начинающий

svoitsl Учаcтник

crem Учаcтник

sovaz1997 Учаcтник

kirill57 Начинающий

Sergey1983 Учаcтник

Attached Files:

Снимок.PNG

svoitsl Учаcтник

crem Учаcтник

svoitsl Учаcтник

sovaz1997 Учаcтник

Sergey1983 Учаcтник

Boroda Новичок

Rom Старожил

svoitsl Учаcтник

Rom Старожил

svoitsl Учаcтник

Mustitz Заслуженный

Rom Старожил

crem Учаcтник

Share This Page