AlphaZero. Нейронная сеть играет в шахматы

Rom · 20 апр 2018

Mustitz пишет: ↑

Обучать на партиях человека и/или движков может иметь негативный эффект, потому что найросеть может попасть в яму острых тактических позиций, где надо считать много и вширь, для которой MCTS работает не очень успешно. И потом из этой ямы не выбраться.
Нажмите, чтобы раскрыть...

У меня сложилось впечатление, что при правильном применении NN + MCTS, программа выбирается практически из любой ямы. Может быть, только, нужно больше времени. Впрочем, реальных примеров маловато, так что пока только гипотеза.

Rom · 20 апр 2018

crem пишет: ↑

Насчёт обучения на стокфише: наверняка испортит, по крайней мере в статье про AlphaGo Zero написано, что сеть, изначально натренированная на партиях людей, прекратила рост раньше, чем натренированная с нуля.
Нажмите, чтобы раскрыть...

Если я правильно помню, та сеть тренировалась только на партиях людей, поэтому она и слабее.

crem · 20 апр 2018

Rom пишет: ↑

crem пишет: ↑

Насчёт обучения на стокфише: наверняка испортит, по крайней мере в статье про AlphaGo Zero написано, что сеть, изначально натренированная на партиях людей, прекратила рост раньше, чем натренированная с нуля.
Нажмите, чтобы раскрыть...

Если я правильно помню, та сеть тренировалась только на партиях людей, поэтому она и слабее.
Нажмите, чтобы раскрыть...

Нет, она тренировалась вначале на 160'000 партиях людей, а потом то что получилось тренировалось на 30'000'000 партиях с собой.

Rom · 20 апр 2018

crem пишет: ↑

Нет, она тренировалась вначале на 160'000 партиях людей, а потом то что получилось тренировалось на 30'000'000 партиях с собой.
Нажмите, чтобы раскрыть...

Ну, не знаю... Я специально просматривал публикацию Гугла на этот предмет, и не нашел ни одного упоминания о "доигрывании" после Supervised Learning.

crem · 20 апр 2018

https://storage.googleapis.com/deepmind-media/alphago/AlphaGoNaturePaper.pdf

We begin by training a supervised learning (SL) policy network pσ directly from expert human moves. This provides fast, efficient learning updates with immediate feedback and high-quality gradients. Similar to prior work, we also train a fast policy pπ that can rapidly sample actions during rollouts. Next, we train a reinforcement learning (RL) policy network pρ that improves the SL policy network by optimizing the final outcome of games of selfplay. This adjusts the policy towards the correct goal of winning games, rather than maximizing predictive accuracy. Finally, we train a value network vθ that predicts the winner of games played by the RL policy network against itself.
Нажмите, чтобы раскрыть...

Rom · 20 апр 2018

Это статья не про АльфаГо Зеро, а про "простую" АльфаГо ещё 2015 года. Сравнение SL и RL Deep Mind приводили в статье об АльфаГо Зеро в октябре 2017:
https://deepmind.com/documents/119/agz_unformatted_nature.pdf

Вот там упоминаний о переходе с SL на RL я не могу найти. Вот это сравнение:

Пломбир · 21 апр 2018

Не нашел описание настроек лилы:
- FPU Reduction
- Puct
- SlowMover
- Go Nodes Visits
Кто знает, что это и как работает?

Sergey1983 · 21 апр 2018

Rom, Crem как я понимаю при изменении версии движка тюнинг нужно перезапускать?

crem · 21 апр 2018

Sergey1983 пишет: ↑

Rom, Crem как я понимаю при изменении версии движка тюнинг нужно перезапускать?
Нажмите, чтобы раскрыть...

Надо было только когда размер сети поменялся (с 6x64 на 10x128), а так с каждой версией не надо.

Пломбир пишет: ↑

Не нашел описание настроек лилы:
- FPU Reduction
- Puct
- SlowMover
- Go Nodes Visits
Кто знает, что это и как работает?
Нажмите, чтобы раскрыть...

FPU Reduction — (first play urgency) при выборе какую ветку дерева расширить, уменьшает оценку веток, в которых ещё не были. Идея в том, чтобы меньше заглядывать в поддеревья, которые изначально кажутся плохими, чтобы сэкономить время для более глубокого рассмотрения хороших поддеревьев. Для Leela Zero (Go) это подняло уровень игры. Для шахмат то помогает, то нет, поэтому сейчас по умолчанию отключено. Для корневого узла такое не делается в любом случае.

Сpuct — (polynomial upper confidence trees) это коэффициент из поиска методом монте-карло, показывает насколько быстро при исследовании поддеревьев дерева оценка value head становится более важной чем оценка policy head. Чем меньше значение, тем раньше. Большое значение способствует более широким деревьям, низкое — более глубоким.

SlowMover — это код, скопированный из Stockfish. Чем больше, тем дольше он думает над ходом (но за часами в любом случае следит).

Go Nodes Visits — если включено, то при использовании uci команды "uci nodes 10000" (посчитать 10000 узлов), в число этих 10000 будет включены также узлы, которые уже есть в кэше. Иначе только новые узлы.

Sergey1983 · 21 апр 2018

Турнир в ChessMasters Гастингс рейтинг 2400+, присутствуют такие персонажи как Карпов и Капабланка,v0.7 GPU, сеть 159, Nps ~3000, Geforce Gtx 1080

Rom · 21 апр 2018

Может лучше создать турнир против персонажей с фиксированными рейтингами? А то неизвестно как играет тот же "Карпов" сотоварищи.

Sergey1983 · 21 апр 2018

Rom, результат скорее всего будет аналогичен Вене, у самых сильных персонажей как я понял не проставлен рейтинг.

Rom · 21 апр 2018

Я имею ввиду Квини, Фридрих, сам Чессмастер и др. А те у которых не проставлен рейтинг могут быть слабее. Рейтинг у них потому и не проставлен, потому что это тематические персонажи и играют они бог весть как.

Sergey1983 · 21 апр 2018

Рейтинг турнира как я писал 2400 и выше, это тоже о чём-то говорит.

Rom · 21 апр 2018

Персонажам типа "Карпова", "Капабланки" и другим выставлены условные рейтинги - ровно 2700 или ровно 2800. Это видно в настройках. Значит они не тестировались толком.

Sergey1983 · 21 апр 2018

Rom пишет: ↑

Может лучше создать турнир против персонажей с фиксированными рейтингами? А то неизвестно как играет тот же "Карпов" сотоварищи.
Нажмите, чтобы раскрыть...

Rom, у меня турниры дело настроения, но как нибудь сделаю

Rom · 22 апр 2018

Ещё один турнир в Чессмастере.
Соперники у Лилы почти топ-игроки, с рейтингами от 2500 до 2650. Тем не менее она выигрывает! На двух тредах CPU, при скорости всего 70 поз/сек!
Контроль 40 минут на партию. Сеть 160:

Больше всего мне понравилась партия против Джинкс:

Пломбир · 22 апр 2018

Да, у меня Лила на длинных контролях сегодня в клочья рвала Stockfish 17 уровня (40 минут на игру). Но блиц ей не дается - даже 5+3 проигрывает почти все. Отлично играет дебют, но дальше зевает на большой глубине или слишком переоценивает эндшпиль. CPU core i5 3GHz, 3 потока, 2GB кеша.
Насколько я помню, AlphaZero тоже на коротких контролях хуже играла.

svoitsl · 22 апр 2018

Пломбир пишет: ↑

Насколько я помню, AlphaZero тоже на коротких контролях хуже играла.
Нажмите, чтобы раскрыть...

Только из за довольно не плохой производительности 4 TPU эти короткие контроли заканчивались уже блицем, и судя по их картинке уже начиная с 1 с на ход A0 уже выигрывала, в нашем случае это можно ожидать при 1 мин на ход

Пломбир · 22 апр 2018

В списке пользователей, которые участвуют в обучении сети, на первом месте стоит "Google Colab" с 52 тысячами игр в сутки Что это? Мощности гугла как-то присоединили? Официально?

svoitsl · 22 апр 2018

Пломбир пишет: ↑

Что это? Мощности гугла как-то присоединили? Официально?
Нажмите, чтобы раскрыть...

так ведь все хорошо описано, присоединяйтесь

crem · 22 апр 2018

Пломбир пишет: ↑

В списке пользователей, которые участвуют в обучении сети, на первом месте стоит "Google Colab" с 52 тысячами игр в сутки Что это? Мощности гугла как-то присоединили? Официально?
Нажмите, чтобы раскрыть...

У гугла есть проект Colab, который позволяет бесплатно использовать GPU для исследовательских целей.
Любой может настроить себе такой аккаунт для генерации тренировочных игр, инструкция тут: https://github.com/glinscott/leela-...-Tesla-K80-GPU-for-free-(Google-Colaboratory)

В инструкции "Google Colab" — это имя пользователя по умолчанию, которое можно сменить, но часто народ не меняет.

Гугл в курсе, что так делают и не против, но просит, чтобы один человек не заводил более одного Google Colab аккаунта.

svoitsl · 22 апр 2018

crem пишет: ↑

просит, чтобы один человек не заводил более одного Google Colab аккаунта.
Нажмите, чтобы раскрыть...

Но я что то не понял где это делать, менять аккаунт, пришлось использовать "метод научного тыка" - он и на сей раз осечки не дал
Гугл застрянет на строке с именем, надо его отредактировать через меню зайти в ноутбук

svoitsl · 22 апр 2018

Кажется понятно почему регресс, многие обучают с помощью версии 0.6.... вот отсюда и регресс.
Непонятно правда другое, почему такое неправильное обучение заносится в сеть?

Sergey1983 · 22 апр 2018

Поначалу то ведь был прогресс(с тех пор как вышла v0.7),значит регресс не из за этого, тем более что часть людей должна была перейти на v0.7.

svoitsl · 22 апр 2018

Sergey1983 пишет: ↑

часть людей должна была перейти на v0.7.
Нажмите, чтобы раскрыть...

так и есть, почти все перешли на 0.7, остались только те, вносил маленький вклад в обучение, но вот пришел один с 0.6 заняв второе место по числу партий и возможно исказил результат. Но почему сеть принимает игры от 0.6 ? Это пока не понятно.

crem · 22 апр 2018

svoitsl пишет: ↑

Sergey1983 пишет: ↑

часть людей должна была перейти на v0.7.
Нажмите, чтобы раскрыть...

так и есть, почти все перешли на 0.7, остались только те, вносил маленький вклад в обучение, но вот пришел один с 0.6 заняв второе место по числу партий и возможно исказил результат. Но почему сеть принимает игры от 0.6 ? Это пока не понятно.
Нажмите, чтобы раскрыть...

Забыли отключить. Где-то час назад починили.
(Когда отключали, сделали чтобы нельзя было пользоваться client.exe 0.7, но lczero.exe 0.6 запущенный через client.exe 0.7 всё ещё мог работать)

А тем временем LcZero обыгрывает гроссмейстера на личессе: https://lichess.org/@/LeelaChessOfficial/tv

Sergey1983 · 22 апр 2018

То есть партии от v0.6 сайт больше не будет принимать?

crem · 22 апр 2018

Sergey1983 пишет: ↑

То есть партии от v0.6 сайт больше не будет принимать?
Нажмите, чтобы раскрыть...

Да, уже должен не принимать.

Boroda · 23 апр 2018

crem пишет: ↑

А тем временем LcZero обыгрывает гроссмейстера на личессе:
Нажмите, чтобы раскрыть...

А какой рейтинг у гросса?

Boroda · 23 апр 2018

Забавно, как в последней результативной партии, сначала Лила теряет ферзя, затем ферзя зевает гросс)).

admd · 23 апр 2018

Пингвин все-таки выиграл 1 партию у Leela с контролем 15 секунд на партию.
Причем LeelaChessOfficial просто просмотрела тактику 2 раза:
https://lichess.org/jCcbfpB8/black#137
На личессе так же есть исходная (необученная) версия Leela https://lichess.org/@/leela-chess
и средней силы версия, с которой можно играть - https://lichess.org/@/LeelaChess

nn · 24 апр 2018

Leela играет в старом романтическом атакующем стиле, как играли раньше Морфи и Андерсен. Например, в одной из партий со мной

crem · 25 апр 2018

crem пишет: ↑

Benas пишет: ↑

crem пишет: ↑

Ну и во-вторых не хватает рук чтобы всё сделать. Список длинный, а времени ни у кого не хватает.
Нажмите, чтобы раскрыть...

А разработчики, разве не думают комерцизировать программу ?
Нажмите, чтобы раскрыть...

Нет, не думают, и даже против того, чтобы разместить кнопку доната на сайте.
Нажмите, чтобы раскрыть...

Уже не против.
Домашние компы разработчиков перестают успевать тренировать, поэтому решили, что без покупки отдельного компьютера для тренировки не обойтись.
Задонатить можно тут: gofundme.com/leela-chess-zero

Sergey1983 · 25 апр 2018

Сделал турнир в ChessMasters LcZero и пять топ игроков, на GPU(GTX 1080), сеть 187, 40 минут на игру, Nps ~3000.

AlphaZero. Нейронная сеть играет в шахматы

Rom Старожил

Rom Старожил

crem Учаcтник

Rom Старожил

crem Учаcтник

Rom Старожил

Вложения:

Пломбир Новичок

Sergey1983 Учаcтник

crem Учаcтник

Sergey1983 Учаcтник

Вложения:

Rom Старожил

Sergey1983 Учаcтник

Rom Старожил

Sergey1983 Учаcтник

Rom Старожил

Sergey1983 Учаcтник

Rom Старожил

Пломбир Новичок

svoitsl Учаcтник

Пломбир Новичок

svoitsl Учаcтник

crem Учаcтник

svoitsl Учаcтник

svoitsl Учаcтник

Sergey1983 Учаcтник

svoitsl Учаcтник

crem Учаcтник

Sergey1983 Учаcтник

crem Учаcтник

Boroda Новичок

Boroda Новичок

admd Заблокирован

nn Заблокирован

crem Учаcтник

Sergey1983 Учаcтник

Вложения:

Поделиться этой страницей