AlphaZero. Нейронная сеть играет в шахматы

Sergey1983 · 17 апр 2018

Crem, а что там с движком, почему нет усиления?

crem · 17 апр 2018

Sergey1983 пишет: ↑

Crem, а что там с движком, почему нет усиления?
Нажмите, чтобы раскрыть...

Я сейчас не очень слежу за обучением сети, больше за реализацией движков.

Но со слов людей, занимающихся тренировкой сети,
Во-первых, усиление есть, особенно если смотреть на игры с другими движками, а не с самим собой (сеть, которая вышла час назад, дала +50 к рейтингу).
А во-вторых, рост пока замедлился потому что мы находимся здесь:

Не факт, что рост ускорится, как на графике, но то, что он сейчас есть — факт, просто нужно терпение.
Первоначальные планы были обыграть stockfish через 9 месяцев, и пока этот план мы похоже опережаем.

svoitsl · 17 апр 2018

crem пишет: ↑

А во-вторых, рост пока замедлился потому что мы находимся здесь:
Нажмите, чтобы раскрыть...

"Здесь" это конечно хорошо, но есть ли критерии по которым нужно увеличить размер сети?

crem пишет: ↑

и пока этот план мы похоже опережаем.
Нажмите, чтобы раскрыть...

Еще не все потеряно, думаю скоро будет замедление, как только размер сети увеличится ещё в 10 раз.

crem пишет: ↑

Ну и во-вторых не хватает рук чтобы всё сделать. Список длинный, а времени ни у кого не хватает.
Нажмите, чтобы раскрыть...

Это радует, значит ошибок будет меньше, а вот возможностей и производительности - больше.
Кстати, не быстрее ли будет, если перейти на целочисленную арифметику?
И не пора ли уже менять формат файла сети?

P.S. да, кстати, а как теперь принято скачивать файл сети, ведь сервера амазона заблокированы?
FriGate вроде помог

Sergey1983 · 17 апр 2018

Я качаю отсюда http://lczero.org/networks
и у меня всё работает.

sovaz1997 · 17 апр 2018

Andrew Tang будет играть против LCZero: https://lichess.org/blog/WtNG7CcAAFMTTHPj/gm-andrew-tang-vs-leela-chess-zero

crem · 18 апр 2018

Нашли баг в реализации: LcZero не знало, что чёрные могут проводить пешку во что-нибудь кроме коня.
Это (наверное) объясняет и почему оно хуже играет чёрными, да и белыми в эндшпиле тоже тупит (белыми оно тоже думает, что чёрные могут только проводить коня).
Баг уже исправлен, новая версия lczero собирается.

crem · 18 апр 2018

LCZero будет участвовать в TCEC! http://www.chessdom.com/breaking-leela-chess-zero-enters-tcec-season-12/
Пока только CPU, и неизвестно, разрешат ли использовать исправленную версию, которая знает, что пешки могут проводиться в ферзи.

Пломбир · 18 апр 2018

crem пишет: ↑

Нашли баг в реализации: LcZero не знало, что чёрные могут проводить пешку во что-нибудь кроме коня.
Нажмите, чтобы раскрыть...

Ааа.. ну тогда это объясняет все мои выигрыши )))) Жаль )))

Rom · 18 апр 2018

svoitsl пишет: ↑

Кстати, не быстрее ли будет, если перейти на целочисленную арифметику?
Нажмите, чтобы раскрыть...

Если я правильно понимаю, на CPU разница по скорости между вычисления int8 и float32 не слишком велика из-за наличия в CPU схем сопроцессора. А на видеокартах только топовая модель Nvidia, 1080Ti, поддерживает вычисления int8. Поэтому на данный момент квантизация не актуальна. Но если она будет поддерживатся в новой линейке видеокарт, выход которой ожидается, то со временем можно будет на неё перейти.

Michael-13 · 18 апр 2018

Еще один сайт для игры с Leela. Или с людьми.
https://kontrachess.com

crem · 18 апр 2018

svoitsl пишет: ↑

crem пишет: ↑

А во-вторых, рост пока замедлился потому что мы находимся здесь:
Нажмите, чтобы раскрыть...

"Здесь" это конечно хорошо, но есть ли критерии по которым нужно увеличить размер сети?

crem пишет: ↑

и пока этот план мы похоже опережаем.
Нажмите, чтобы раскрыть...

Еще не все потеряно, думаю скоро будет замедление, как только размер сети увеличится ещё в 10 раз.
Нажмите, чтобы раскрыть...

У Deepmind размер сети был 20x256, у нас сейчас 10x128.
Если увеличить сеть в 10 раз, она будет либо в 2.5 раза, либо в 10 раз больше чем у DeepMind (смотря как считать, потому что увеличение количества фильтров почти не замедляет вычисление, только увеличение количество блоков).

svoitsl пишет: ↑

crem пишет: ↑

Ну и во-вторых не хватает рук чтобы всё сделать. Список длинный, а времени ни у кого не хватает.
Нажмите, чтобы раскрыть...

Это радует, значит ошибок будет меньше, а вот возможностей и производительности - больше.
Кстати, не быстрее ли будет, если перейти на целочисленную арифметику?
И не пора ли уже менять формат файла сети?
Нажмите, чтобы раскрыть...

Int8 в нейронных сетях это не целочисленная арифметика, а квантизация вещественных чисел.
Когда будем пробовать TensorRt, или хотя бы перейдём на tensorflow, то попробуем.
В текущей реализации надо всё руками делать, нереально.

Пока старый формат не мешает. Эстетически может и лучше было бы сменить, но есть более срочные дела.

—- добавлено: 18 апр 2018, опубликовано: 18 апр 2018 —-

Michael-13 пишет: ↑

Еще один сайт для игры с Leela. Или с людьми.
https://kontrachess.com
Нажмите, чтобы раскрыть...

Кстати, в lichess.org скоро/со временем появится возможность поиграть с LCZero, а следом и поддержка других компьютерных аккаунтов.

Rom · 18 апр 2018

crem пишет: ↑

У Deepmind размер сети был 20x256, у нас сейчас 10x128.
Если увеличить сеть в 10 раз, она будет либо в 2.5 раза, либо в 10 раз больше чем у DeepMind (смотря как считать, потому что увеличение количества фильтров почти не замедляет вычисление, только увеличение количество блоков).
Нажмите, чтобы раскрыть...

Мне кажется ещё, что помимо данного фактора, увеличение числа фильтров более актуально именно для шахмат. В шахматах не требуется распознавать очень протяженные структуры, как в Го или при распознавании изображений. А свёрточные сети на последних слоях как раз занимаются распознаванием крупных, многопиксельных структур. В шахматах это может быть не так важно, поэтому стоит присмотреться к возможности увеличения нейросети в первую очередь именно по фильтрам.

Boroda · 18 апр 2018

Я правильно понимаю, что есть большая вероянтность, что уже в этом году на ТСЕС, Лила сможет побеждать таких титанов как Гудини и Сток?

Rom · 18 апр 2018

Вероятность конечно есть, но её величину каждый оценивает по своему. Слишком много факторов надо учесть.

crem · 18 апр 2018

Rom пишет: ↑

crem пишет: ↑

У Deepmind размер сети был 20x256, у нас сейчас 10x128.
Если увеличить сеть в 10 раз, она будет либо в 2.5 раза, либо в 10 раз больше чем у DeepMind (смотря как считать, потому что увеличение количества фильтров почти не замедляет вычисление, только увеличение количество блоков).
Нажмите, чтобы раскрыть...

Мне кажется ещё, что помимо данного фактора, увеличение числа фильтров более актуально именно для шахмат. В шахматах не требуется распознавать очень протяженные структуры, как в Го или при распознавании изображений. Свёрточные сети на последних слоях как раз занимаются распознаванием крупных, многопиксельных структур. В шахматах это может быть не так важно, поэтому стоит присмотреться к возможности увеличения нейросети в первую очередь именно по фильтрам.
Нажмите, чтобы раскрыть...

Насколько я слышал, есть теоретически доказанное оптимальное соотношение количества фильтров и блоков, и дисбаланс сильно мешает обучению.

Rom · 18 апр 2018

crem пишет: ↑

Насколько я слышал, есть теоретически доказанное оптимальное соотношение количества фильтров и блоков, и дисбаланс сильно мешает обучению.
Нажмите, чтобы раскрыть...

Возможно, но не уверен, что шахматы наиболее типовая задача. Например, в задачах по распознаванию изображений сотни и даже тысячи слоёв. Кроме того, в разумных пределах соотношение всегда можно подвигать.

kirill57 · 19 апр 2018

Вопрос к crem , а как можно к lcz прикрутить TB (я так понимаю именно такая версия будет использована в TCEC)?

svoitsl · 19 апр 2018

Вопрос...
Как правильно настроить свой комп для обучения LC0?
Есть видео (GF730), есть проц (i5-4770, 4 ядра ) нужно все это заставить шустро работать
Но на ум приходит создать две папки CPU и GPU и просто тупо запустить несколько копий клиента...
Есть ли споcоб получше?

crem · 19 апр 2018

kirill57 пишет: ↑

Вопрос к crem , а как можно к lcz прикрутить TB (я так понимаю именно такая версия будет использована в TCEC)?
Нажмите, чтобы раскрыть...

Собирались использовать, но наспех прикрутить не успели, поэтому играет версия без tablebase (вроде бы, по крайней мере два часа назад ещё ничего не работало).
И уже один раз проиграла, смотреть тут: http://tcec.chessdom.com/live.php

sovaz1997 · 19 апр 2018

Новая сеть ещё прибавила 33 пункта в силе игры! Из России скачать можно, используя VPN.

kirill57 · 19 апр 2018

crem пишет: ↑

Собирались использовать, но наспех прикрутить не успели, поэтому играет версия без tablebase (вроде бы, по крайней мере два часа назад ещё ничего не работало).
И уже один раз проиграла, смотреть тут: http://tcec.chessdom.com/live.php
Нажмите, чтобы раскрыть...

Интересно, а после начала турнира, уже нельзя добавить?

Sergey1983 · 19 апр 2018

Crem, у меня клиент очень часто выдаёт такое:

svoitsl · 19 апр 2018

kirill57 пишет: ↑

а после начала турнира, уже нельзя добавить?
Нажмите, чтобы раскрыть...

Ну если вдруг попадет в следующий дивизион....тогда можно, а если не попадет то ей это и не потребуется

crem · 19 апр 2018

Sergey1983 пишет: ↑

Crem, у меня клиент очень часто выдаёт такое:
Нажмите, чтобы раскрыть...

Не знаю, что такое, но похоже, он не смог скачать сеть. Может, вас там настигли какие блокировки?

svoitsl · 19 апр 2018

crem пишет: ↑

Может, вас там настигли какие блокировки?
Нажмите, чтобы раскрыть...

У меня скорее всего из-за них два потока закрылись (а два остались работать)

sovaz1997 · 19 апр 2018

Заблокировали миллионы ip-адресов, под раздачу попали в т. ч. сервера Google и Amazon, где находятся файлы с сетями LZ.

Sergey1983 · 19 апр 2018

Дело в том что иногда он всё-же качает сеть.

Boroda · 20 апр 2018

crem пишет: ↑

Нашли баг в реализации: LcZero не знало, что чёрные могут проводить пешку во что-нибудь кроме коня.
Нажмите, чтобы раскрыть...

Поясните пожайлуста. Ведь Лила наиграла уже миллионы партий думая, что пешка преврашается только в коня. То есть, она обучалась на не верных правилах. Баг исправили, но те миллионы партий ведь уже повлияли на алгоритм лилы? Не правильнее было бы начать обучение заново?

Rom · 20 апр 2018

Нейросеть - это вычислительно избыточная, но зато крайне гибкая структура, способная отыскивать и подстраиваться под любые игровые паттерны (шаблоны, структуры), тактические или позиционные. Я полагаю, за пару миллионов партий нейросеть способна переобучиться заново. Настолько, что её структура будет полностью перестроена. По крайней мере, это позволяют предположить тренировки нейросети в игре Го, где нейросеть тренированная с нуля показала аналогичную силу игры, что и нейросеть тренированная из предыдущей по технологии net2net. Поэтому, можно предположить, что тренировочные партии наигранные за ближайшие два-три дня позволят исправить все проблемы с превращением коня, как будто их и не было. Так что нет смысла начинать обучение заново.

svoitsl · 20 апр 2018

Rom пишет: ↑

Я полагаю, за пару миллионов партий нейросеть способна переобучиться заново
Нажмите, чтобы раскрыть...

Я полагаю также, но вот некоторые разработчики полагают по другому. Они считают что обучение сети LC0 на Стокфише например её необратимо испортит, даже более того, обучения игре в эндшпиль на TB (Налимова....) её так же необратимо испортит.

Rom · 20 апр 2018

svoitsl пишет: ↑

Я полагаю также, но вот некоторые разработчики полагают по другому. Они считают что обучение сети LC0 на Стокфише например её необратимо испортит, даже более того, обучения игре в эндшпиль на TB (Налимова....) её так же необратимо испортит.
Нажмите, чтобы раскрыть...

Необратимо вряд ли. Но мне кажется они поднимают несколько иной вопрос. Метод Монте-Карло (или точнее то, что им сейчас называют), выдаёт нам такие тренировочные примеры, которые, как уже неоднократно показано, позволяют качественно обучать нейросеть. О других методах, или программах которые их используют, так пока сказать нельзя. Поэтому возникают обоснованные опасения, что с другими методами поиска по шахматному дереву можно словить какие-нибудь проблемы связанные с переобучением, или некие другие скрытые проблемы связанные с иным тренировочным набором. И поэтому пока не отработан существующий код, и нейросеть вполне себе обучается, лучше использовать то, что гарантированно работает, а другие подходы опробовать потом.

svoitsl · 20 апр 2018

Rom пишет: ↑

можно словить какие-нибудь проблемы связанные с переобучением
Нажмите, чтобы раскрыть...

Проблемы можно словить и ошибками в коде, от этого никто не застрахован, но в последующем метод Монте-Карло их исправит, так и тут, можно сперва обучить на Стокфише с ТВ Налимова, уж потом "лакирнуть" тренировочными примерами Монте - Карло.
В этом случае скорее всего потребуется меньше игр (и времени) что бы достичь уровня хотя бы Стокфиша.

Mustitz · 20 апр 2018

Ну есть AlphaGo, которая тренировалась на партиях людей. Есть AlphaZero, которая тренировалась на матчах сама с собой. AlphaZero играет сильнее, хотя подход работает в обеих случаях. Где-то лучше, где-то хуже.

С таблицами Налимова я не вижу вообще никаких минусов, как бы это могло повлиять. В качестве бонуса я вижу незначительное ускорение обучения и экономию мощности нейросети (не надо тратить часть ресурсов на обучение игры в таких окончаниях). Но это может сильно повлиять на игру Leela Chess Zero без таблиц Налимова в позиции из такой таблицы.

Обучать на партиях человека и/или движков может иметь негативный эффект, потому что найросеть может попасть в яму острых тактических позиций, где надо считать много и вширь, для которой MCTS работает не очень успешно. И потом из этой ямы не выбраться.

Теоретически также баг с превращением также мог привести к такой яме — нейросеть будет стараться белыми стремиться к разменам, а чёрными уклонятся от них, потому как именно в окончании баг играл большую роль. Ну а что с этим делать — вопрос большой. Вряд ли есть много исследований на эту тему.

Опять же, лично я бы не говорил о проблемах с переобучением, а скорее о проблеме локального минимума.

Rom · 20 апр 2018

svoitsl пишет: ↑

Проблемы можно словить и ошибками в коде, от этого никто не застрахован, но в последующем метод Монте-Карло их исправит, так и тут, можно сперва обучить на Стокфише с ТВ Налимова, уж потом "лакирнуть" тренировочными примерами Монте - Карло.
В этом случае скорее всего потребуется меньше игр (и времени) что бы достичь уровня хотя бы Стокфиша.
Нажмите, чтобы раскрыть...

Если тренировочные позиции брать из Налимова, то в принципе возможно. Не нужно наигрывать тренировочные партии. Но тренируется только поздний эндшпиль. А вот если играть тренировочные партии Стокфишем, то надо бы посчитать, сможем ли мы быстро наиграть достаточное количество партий нужного качества. Следует учесть, что при переборе 200 тысяч позиций на ход Стокфиш играет примерно на уровне 2800 эло, а сегодняшняя Лила уже достаточно приличного уровня.

crem · 20 апр 2018

svoitsl пишет: ↑

Rom пишет: ↑

Я полагаю, за пару миллионов партий нейросеть способна переобучиться заново
Нажмите, чтобы раскрыть...

Я полагаю также, но вот некоторые разработчики полагают по другому. Они считают что обучение сети LC0 на Стокфише например её необратимо испортит, даже более того, обучения игре в эндшпиль на TB (Налимова....) её так же необратимо испортит.
Нажмите, чтобы раскрыть...

Насчёт обучения на стокфише: наверняка испортит, по крайней мере в статье про AlphaGo Zero написано, что сеть, изначально натренированная на партиях людей, прекратила рост раньше, чем натренированная с нуля.

Насчёт эндшпильных таблиц, тут другой вопрос. Когда сеть закончит рост и не останется идей, наверняка начнут пробовать тренировать искусственным образом, а пока просто любопытно как далеко сеть доберётся сама, может она и сама по себе с эндшпильными таблицами соревноваться сможет безо всякой помощи.

Войти или зарегистрироваться

AlphaZero. Нейронная сеть играет в шахматы

Sergey1983 Учаcтник

crem Учаcтник

svoitsl Учаcтник

Sergey1983 Учаcтник

sovaz1997 Учаcтник

crem Учаcтник

crem Учаcтник

Пломбир Новичок

Rom Старожил

Michael-13 Господин

crem Учаcтник

Rom Старожил

Boroda Новичок

Rom Старожил

crem Учаcтник

Rom Старожил

kirill57 Начинающий

svoitsl Учаcтник

crem Учаcтник

sovaz1997 Учаcтник

kirill57 Начинающий

Sergey1983 Учаcтник

Вложения:

Снимок.PNG

svoitsl Учаcтник

crem Учаcтник

svoitsl Учаcтник

sovaz1997 Учаcтник

Sergey1983 Учаcтник

Boroda Новичок

Rom Старожил

svoitsl Учаcтник

Rom Старожил

svoitsl Учаcтник

Mustitz Заслуженный

Rom Старожил

crem Учаcтник

Поделиться этой страницей