AlphaZero. Нейронная сеть играет в шахматы

Undying · 19 сен 2018

Sergey1983 пишет: ↑

В играх с переборными движками LCzero научиться лишь тому что умеют они об этом уже писалось.
Нажмите, чтобы раскрыть...

Это глупость какая-то. При обучении нейронная сеть учиться не ходы копировать, а выигрывать. А если бы ваша логика работала, то и люди были бы не способны превзойти своего учителя.

И речь не о том, чтобы с нуля обучать нейронку на играх с переборными движками. Предлагается взять допустим нынешнюю версию Лилы и дообучить ее на играх со Стокфишем и другими топовыми движками.

sovaz1997 · 19 сен 2018

Кстати, LCZero будет играть лучше во 2-м этапе CCCC, т. к. отключили Ponder и не будет усиления движков в игре против Lc0 из-за Hyperthreading. До этого движки имели больший NPS при игре против LC0, сейчас все одинаково. Так что и 3-е, и 2-е место Lc0 может занять

Sergey1983 · 19 сен 2018

Undying, я говорю лишь о том что читал насколько я помню примерно это писал один из разработчиков, или вернее то-что нейронка обученная переборным движком будет ограничена его пониманием игры.

P.S. Насколько я понял обучение нейронки идёт за счёт того что с одной стороны идёт движком не глядящем вперёд и глядящем на несколько ходов вперёд(с той-же нейронкой) таким образом новая нейронка как бы глядит вперёд без анализа на несколько ходов вперёд движком.Если тренировать по вашей методике то когда нейронка достигнет уровня переборного движка её придётся тренировать по старой вот только она к этому времени может попасть в какой нибудь локальный экстремум(из-за неправильной тренировки или возникнет другая проблема) из которого её будет вытянуть довольно сложно. ИМХО

Sergey1983 · 19 сен 2018

И ещё как я понял сеть именно запоминает выигрышные приёмы в разных позициях и потом интерполирует/экстраполирует эти приёмы на другие подобные позиции так что если её обучать переборным движком она начнёт использовать приёмы Stockfish/Houdini/Komodo, хотя вроде разработчикам также интересна чистота эксперимента, научить движок на играх с самим собой.

WinPooh · 19 сен 2018

sovaz1997 пишет: ↑

Кстати, LCZero будет играть лучше во 2-м этапе CCCC, т. к. отключили Ponder и не будет усиления движков в игре против Lc0 из-за Hyperthreading. До этого движки имели больший NPS при игре против LC0, сейчас все одинаково. Так что и 3-е, и 2-е место Lc0 может занять
Нажмите, чтобы раскрыть...

Второе - не сможет. Для этого надо обыграть кого-то из первой тройки. А имеющаяся статистика - 12 ничьих подряд - говорит за то, что Лила на это не способна.

sovaz1997 · 19 сен 2018

WinPooh, выборка очень маленькая. А так, Lc0 добилась выигранной позиции против SF и получила небольшой перевес против H черными

WinPooh · 19 сен 2018

sovaz1997 пишет: ↑

WinPooh, выборка очень маленькая. А так, Lc0 добилась выигранной позиции против SF и получила небольшой перевес против H черными
Нажмите, чтобы раскрыть...

Вернёмся к этой теме через пару-тройку кругов.

Undying · 20 сен 2018

Sergey1983 пишет: ↑

Undying, я говорю лишь о том что читал насколько я помню примерно это писал один из разработчиков, или вернее то-что нейронка обученная переборным движком будет ограничена его пониманием игры.
Нажмите, чтобы раскрыть...

Скорей всего разработчик имел в виду, что если обучать нейронку на партиях переборных движков, то нейронка научится только тому, что умеют переборные движки. Но речь не об этом. Смысл в том, чтобы Лила обучалась на своих партиях, но играя не сама с собой, а с переборными движками.

Sergey1983 пишет: ↑

хотя вроде разработчикам также интересна чистота эксперимента, научить движок на играх с самим собой.
Нажмите, чтобы раскрыть...

Нет такого интереса. Просто опыт Гугла для го показал, что самообучение эффективнее, чем обучение на человеческих партиях.

—- добавлено: 20 сен 2018, опубликовано: 20 сен 2018 —-

Sergey1983 пишет: ↑

Если тренировать по вашей методике то когда нейронка достигнет уровня переборного движка её придётся тренировать по старой
Нажмите, чтобы раскрыть...

Проблема возникнет только когда нейронка станет на голову сильнее переборных движков. Тогда возникнет ситуация аналогичная тому, что мастеру для повышения своей силы бессмысленно играть с перворазрядниками. Но до этого еще очень далеко.

Sergey1983 пишет: ↑

вот только она к этому времени может попасть в какой нибудь локальный экстремум(из-за неправильной тренировки или возникнет другая проблема) из которого её будет вытянуть довольно сложно. ИМХО
Нажмите, чтобы раскрыть...

Естественно при обучении на играх с переборными движками нейронка уйдет в локальный экстремум, стремясь к тем позициям, в которых плохо работает перебор и важно понимание. Что может и не увеличит сферическую силу Лилы в вакууме, но способно кардинально повысить результаты Лилы против переборных движков. В этом весь смысл.

Mustitz · 20 сен 2018

Undying пишет: ↑

Просто опыт Гугла для го показал, что самообучение эффективнее, чем обучение на человеческих партиях.
Нажмите, чтобы раскрыть...

Ну... в шахматах ситуацич может быть другой —- игра современных программ тоже на пару голов превосходит человека.

Undying · 20 сен 2018

Mustitz пишет: ↑

Ну... в шахматах ситуацич может быть другой —- игра современных программ тоже на пару голов превосходит человека.
Нажмите, чтобы раскрыть...

В го у нейронных движков нет конкурентов. Поэтому обучаться нейронка может только играя сама с собой. Других вариантов нет. В шахматах переборные движки конкурентоспособны, поэтому нейронка может обучаться играя с ними. Насколько это будет эффективно опыт покажет. Но идея выглядит очень перспективно.

svoitsl · 20 сен 2018

Undying пишет: ↑

Но идея выглядит очень перспективно.
Нажмите, чтобы раскрыть...

Все же есть опасения, что учась на этих играх она не превзойдет переборные движки, а может и кое что упустит

Undying пишет: ↑

Насколько это будет эффективно опыт покажет
Нажмите, чтобы раскрыть...

Жаль, что этот опыт не набирается на небольших сетях, времени бы потребовалось бы меньше

Undying · 20 сен 2018

svoitsl пишет: ↑

Все же есть опасения, что учась на этих играх она не превзойдет переборные движки, а может и кое что упустит
Нажмите, чтобы раскрыть...

Непонятны опасения. Наоборот, чтобы ничего не упустить, нужно учиться на партиях с разными соперниками. А играя только сам с собой как раз рискуешь многое упустить.

Mustitz · 20 сен 2018

Undying пишет: ↑

Но идея выглядит очень перспективно.
Нажмите, чтобы раскрыть...

Ещё перспективнее с начала использовать Syzygy — зачем тратить ресурсы нейросети на то, что уже посчитано со 100% точностью? Соответственно увеличится сила игры в окончаниях в наигрывании, отсюда вырастет сила игры в окончаниях.

—- добавлено: 20 сен 2018, опубликовано: 20 сен 2018 —-

svoitsl пишет: ↑

Все же есть опасения, что учась на этих играх она не превзойдет переборные движки, а может и кое что упустит
Нажмите, чтобы раскрыть...

Ну... основная идея в том, чтобы получить метод, которые был бы применим к разным играм, не только к шахматам. Но, как показывает практика, всё равно приходится добавлять чисто шахматные эвристики — оценку позиции, и т. п...

Опять де, AlphaGo превзошда человека, хотя училась на его партиях. Так что непонятно, чем вызвано такое опасение... Для обучения нужна статистика «позиция — начальные вероятности ходов для MCTS». Возможно лучше возвращать не только вероятности, но и начальное количество симуляций (как критерий хода, который может оказаться лучшим). И эта статистика должна быть лучшего качества. Ну а опасность попасть в локальный экстремум есть при любом подходе, тут прыгать надо.

WinPooh · 20 сен 2018

Mustitz пишет: ↑

Undying пишет: ↑

Но идея выглядит очень перспективно.
Нажмите, чтобы раскрыть...

Ещё перспективнее с начала использовать Syzygy — зачем тратить ресурсы нейросети на то, что уже посчитано со 100% точностью? Соответственно увеличится сила игры в окончаниях в наигрывании, отсюда вырастет сила игры в окончаниях.
Нажмите, чтобы раскрыть...

Это зависит от поставленных целей. Лила начиналась как исследовательский проект, с идеей выжать максимум из игры с самой собой без привлечения каких-то сторонних источников.

Mustitz · 20 сен 2018

WinPooh пишет: ↑

Mustitz пишет: ↑

Это зависит от поставленных целей. Лила начиналась как исследовательский проект, с целью выжать максимум из игры с самой собой без привлечения каких-то сторонних источников.
Нажмите, чтобы раскрыть...

Это понятно, просто я рассуждаю с точки зрения построения наиболее сильной программы, а не академических исследований
Нажмите, чтобы раскрыть...

Undying · 20 сен 2018

Mustitz пишет: ↑

Ещё перспективнее с начала использовать Syzygy — зачем тратить ресурсы нейросети на то, что уже посчитано со 100% точностью? Соответственно увеличится сила игры в окончаниях в наигрывании, отсюда вырастет сила игры в окончаниях.
Нажмите, чтобы раскрыть...

Syzygy только проблему с простыми окончаниями решит. Которая может и не особо критична. Не часто Лила упускает выигрыш переходом в простое ничейное окончание.

Самая интересная идея в плане практической силы игры это выявить те типы позиций, в которых переборные движки играют относительно слабо и добиться, чтобы нейронка целенаправленно шла на такие позиции. Для этого и нужно обучение на играх с переборными движками.

Mustitz · 20 сен 2018

Undying пишет: ↑

Syzygy только проблему с простыми окончаниями решит. Которая может и не особо критична. Не часто Лила упускает выигрыш переходом в простое ничейное окончание.
Нажмите, чтобы раскрыть...

Судя по моим шашкам, это эчень сильно помогает MCTS. Во-первых, увеличивается точность оценки при доигрывании. Во-вторых, перебирается больше вариантов.

Undying · 21 сен 2018

Да, простые окончания реально проблема для Лилы. Так раскатать Стокфиш, чтобы затем перейти в мертвоничейное окончание... Это эпик фейл.

Вообще такое непонимание простых окончаний удивительно. Нейронку на них вообще не обучали что ли.

WinPooh · 21 сен 2018

Undying пишет: ↑

Да, простые окончания реально проблема для Лилы. Так раскатать Стокфиш, чтобы затем перейти в мертвоничейное окончание... Это эпик фейл.

Вообще такое непонимание простых окончаний удивительно. Нейронку на них вообще не обучали что ли.
Нажмите, чтобы раскрыть...

А главное, в табличном окончании она всё ещё рисует себе +10. Значит, по статистике умудряется его за белых у самой себя выигрывать.
Как говорится, это всё, что вам нужно знать об MCTS-поиске.

Undying · 21 сен 2018

WinPooh пишет: ↑

А главное, в табличном окончании она всё ещё рисует себе +10. Значит, по статистике умудряется его за белых у самой себя выигрывать.
Как говорится, это всё, что вам нужно знать о MCTS-поиске.
Нажмите, чтобы раскрыть...

MCTS здесь ни причем. Явно бага какая-то. Скорей всего при обучении таблицы Налимова были подключены. Из-за этого все и проблемы. Лила в первый раз в жизни подобные окончания видит. И оценивает их соответственно с позиции многофигурного эндшпиля, в котором две лишних связанные пешки это гарантированная победа.

WinPooh · 21 сен 2018

Undying пишет: ↑

WinPooh пишет: ↑

А главное, в табличном окончании она всё ещё рисует себе +10. Значит, по статистике умудряется его за белых у самой себя выигрывать.
Как говорится, это всё, что вам нужно знать о MCTS-поиске.
Нажмите, чтобы раскрыть...

MCTS здесь ни причем. Явно бага какая-то. Скорей всего при обучении таблицы Налимова были подключены. Из-за этого все и проблемы. Лила в первый раз в жизни подобные окончания видит. И оценивает их соответственно с позиции многофигурного эндшпиля, в котором две лишних связанные пешки это гарантированная победа.
Нажмите, чтобы раскрыть...

Это ещё и цена отказа от ролл-аутов до конца партии, когда вся оценка отдана на откуп глюкавой нейросети.

Undying · 21 сен 2018

WinPooh пишет: ↑

[
Это ещё и цена отказа от ролл-аутов до конца партии, когда вся оценка отдана на откуп глюкавой нейросети.
Нажмите, чтобы раскрыть...

Отказ от ролл-аутов полностью оправдан. Ролл-ауты это крайне нерациональное использование ресурсов. А глюки поправить надо и проблема решится. Просто болезнь роста.

Походу закат переборных движков не за горами. Ежели с такими багами Лила на равных с топами играет, то что будет когда ее доведут до ума.

WinPooh · 21 сен 2018

Нейросети - тот же самый переборный брут-форс, только в профиль (и ты, Брут...)
Будущее за гибридными схемами.

Undying · 21 сен 2018

WinPooh пишет: ↑

Нейросети - тот же самый переборный брут-форс, только в профиль (и ты, Брут...)
Будущее за гибридными схемами.
Нажмите, чтобы раскрыть...

А что гибридность может дать? Кому верить при расхождении переборной и нейронной оценки?

WinPooh · 21 сен 2018

Undying пишет: ↑

WinPooh пишет: ↑

Нейросети - тот же самый переборный брут-форс, только в профиль (и ты, Брут...)
Будущее за гибридными схемами.
Нажмите, чтобы раскрыть...

А что гибридность может дать? Кому верить при расхождении переборной и нейронной оценки?
Нажмите, чтобы раскрыть...

Тому, на кого покажет арбитр - отдельная нейросеть, натасканная на различение типов позиции.

Undying · 21 сен 2018

KEV81 пишет: ↑

Что вы все заладились " переборный движок"? Лила тоже переборная.
Нажмите, чтобы раскрыть...

Согласен. Лучше термин "алгоритмический движок" использовать.

Sergey1983 · 21 сен 2018

А как тренировать арбитра?Тут даже человек не скажет где какой тип позиции(ИМХО), а вы хотите нейросеть натренировать.Кроме того использование двух нейросетей может существенно замедлить движок.

Kesandr · 21 сен 2018

Undying пишет: ↑

WinPooh пишет: ↑

[
Это ещё и цена отказа от ролл-аутов до конца партии, когда вся оценка отдана на откуп глюкавой нейросети.
Нажмите, чтобы раскрыть...

Отказ от ролл-аутов полностью оправдан. Ролл-ауты это крайне нерациональное использование ресурсов. А глюки поправить надо и проблема решится. Просто болезнь роста.

Походу закат переборных движков не за горами. Ежели с такими багами Лила на равных с топами играет, то что будет когда ее доведут до ума.
Нажмите, чтобы раскрыть...

Напоминает ситуацию когда первая рыбка имела много багов в ендшпиле но громила все топовие движки своего времени.

Rom · 21 сен 2018

Undying пишет: ↑

WinPooh пишет: ↑

Это ещё и цена отказа от ролл-аутов до конца партии, когда вся оценка отдана на откуп глюкавой нейросети.
Нажмите, чтобы раскрыть...

Отказ от ролл-аутов полностью оправдан. Ролл-ауты это крайне нерациональное использование ресурсов. А глюки поправить надо и проблема решится. Просто болезнь роста.
Нажмите, чтобы раскрыть...

Роллауты можно попробовать заменить на ФВ (QS). Кстати, если кого интересуют гибридные проекты, то стоит присмотреться к проекту Scorpio:
https://sites.google.com/site/dshawul/
https://github.com/dshawul/Scorpio/releases

Mustitz · 21 сен 2018

Undying пишет: ↑

Согласен. Лучше термин "алгоритмический движок" использовать.
Нажмите, чтобы раскрыть...

Лучше «движок, основанный на Alpha-Beta переборе». В отличие от «движок, основанный на MCTS переборе»

Undying · 21 сен 2018

Mustitz пишет: ↑

Undying пишет: ↑

Согласен. Лучше термин "алгоритмический движок" использовать.
Нажмите, чтобы раскрыть...

Лучше «движок, основанный на Alpha-Beta переборе». В отличие от «движок, основанный на MCTS переборе»
Нажмите, чтобы раскрыть...

Речь о различии нейронного и алгоритмического подхода. Причем здесь Альфа-Бета и MCTS? Это ортогональные вещи.

Mustitz · 21 сен 2018

Sergey1983 пишет: ↑

Кроме того использование двух нейросетей может существенно замедлить движок.
Нажмите, чтобы раскрыть...

Дык сейчас вроде используются две нейросети? Одна выбирает ходы-кандидаты, другая возвращает оценку позиции

—- добавлено: 21 сен 2018 —-

Undying пишет: ↑

Речь о различии нейронного и алгоритмического подхода. Причем здесь Альфа-Бета и MCTS? Это ортогональные вещи.
Нажмите, чтобы раскрыть...

Ну... субъективно по стилю Komodo MCTS близок по стилю к Leela: та же агрессивная игра без большой привязки к материалу.

—- добавлено: 21 сен 2018, опубликовано: 21 сен 2018 —-

Undying пишет: ↑

А что гибридность может дать? Кому верить при расхождении переборной и нейронной оценки?
Нажмите, чтобы раскрыть...

Нейросеть может просто использовать информацию от переборного движка и сама решать. Либо использовать некоторые эвристики из Alpha-Beta для принудительного включения веток. И т. д. и т. п. Вариаинтов решения проблемм масса.

—- добавлено: 21 сен 2018 —-

Sergey1983 пишет: ↑

А как тренировать арбитра?
Нажмите, чтобы раскрыть...

Элементарно — пробуем оба варианта в данной позиции, наигрываем партии и смотрим, что сработало лучше. Эти данные используем для обучения.

Sergey1983 · 21 сен 2018

Одна игра это десятки позиций разыграть каждую это десятки игр в каждой опять же десятки позиций....
Это дерево с почти бесконечным числом вариантов, кроме того где гарантия что арбитр будет качественно оценивать позиции, а не повторится история с текущей LCZero.

Rom · 21 сен 2018

Mustitz пишет: ↑

Дык сейчас вроде используются две нейросети? Одна выбирает ходы-кандидаты, другая возвращает оценку позиции
Нажмите, чтобы раскрыть...

Используется одна нейросеть, которая работает на два выхода - оценку и ходы.

WinPooh · 21 сен 2018

Kesandr пишет: ↑

Напоминает ситуацию когда первая рыбка имела много багов в ендшпиле но громила все топовие движки своего времени.
Нажмите, чтобы раскрыть...

Ну, эта не громит. Эта с топами ничьи штампует, одну за другой.

Войти или зарегистрироваться

AlphaZero. Нейронная сеть играет в шахматы

Undying Учаcтник

sovaz1997 Учаcтник

Sergey1983 Учаcтник

Sergey1983 Учаcтник

WinPooh В.М.

sovaz1997 Учаcтник

WinPooh В.М.

Undying Учаcтник

Mustitz Заслуженный

Undying Учаcтник

svoitsl Учаcтник

Undying Учаcтник

Mustitz Заслуженный

WinPooh В.М.

Mustitz Заслуженный

Undying Учаcтник

Mustitz Заслуженный

Undying Учаcтник

WinPooh В.М.

Undying Учаcтник

WinPooh В.М.

Undying Учаcтник

WinPooh В.М.

Undying Учаcтник

WinPooh В.М.

Undying Учаcтник

Sergey1983 Учаcтник

Kesandr Учаcтник

Rom Старожил

Mustitz Заслуженный

Undying Учаcтник

Mustitz Заслуженный

Sergey1983 Учаcтник

Rom Старожил

WinPooh В.М.

Поделиться этой страницей