AlphaZero. Нейронная сеть играет в шахматы

Undying · 19 Sep 2018

Sergey1983 said: ↑

В играх с переборными движками LCzero научиться лишь тому что умеют они об этом уже писалось.
Click to expand...

Это глупость какая-то. При обучении нейронная сеть учиться не ходы копировать, а выигрывать. А если бы ваша логика работала, то и люди были бы не способны превзойти своего учителя.

И речь не о том, чтобы с нуля обучать нейронку на играх с переборными движками. Предлагается взять допустим нынешнюю версию Лилы и дообучить ее на играх со Стокфишем и другими топовыми движками.

sovaz1997 · 19 Sep 2018

Кстати, LCZero будет играть лучше во 2-м этапе CCCC, т. к. отключили Ponder и не будет усиления движков в игре против Lc0 из-за Hyperthreading. До этого движки имели больший NPS при игре против LC0, сейчас все одинаково. Так что и 3-е, и 2-е место Lc0 может занять

Sergey1983 · 19 Sep 2018

Undying, я говорю лишь о том что читал насколько я помню примерно это писал один из разработчиков, или вернее то-что нейронка обученная переборным движком будет ограничена его пониманием игры.

P.S. Насколько я понял обучение нейронки идёт за счёт того что с одной стороны идёт движком не глядящем вперёд и глядящем на несколько ходов вперёд(с той-же нейронкой) таким образом новая нейронка как бы глядит вперёд без анализа на несколько ходов вперёд движком.Если тренировать по вашей методике то когда нейронка достигнет уровня переборного движка её придётся тренировать по старой вот только она к этому времени может попасть в какой нибудь локальный экстремум(из-за неправильной тренировки или возникнет другая проблема) из которого её будет вытянуть довольно сложно. ИМХО

Sergey1983 · 19 Sep 2018

И ещё как я понял сеть именно запоминает выигрышные приёмы в разных позициях и потом интерполирует/экстраполирует эти приёмы на другие подобные позиции так что если её обучать переборным движком она начнёт использовать приёмы Stockfish/Houdini/Komodo, хотя вроде разработчикам также интересна чистота эксперимента, научить движок на играх с самим собой.

WinPooh · 19 Sep 2018

sovaz1997 said: ↑

Кстати, LCZero будет играть лучше во 2-м этапе CCCC, т. к. отключили Ponder и не будет усиления движков в игре против Lc0 из-за Hyperthreading. До этого движки имели больший NPS при игре против LC0, сейчас все одинаково. Так что и 3-е, и 2-е место Lc0 может занять
Click to expand...

Второе - не сможет. Для этого надо обыграть кого-то из первой тройки. А имеющаяся статистика - 12 ничьих подряд - говорит за то, что Лила на это не способна.

sovaz1997 · 19 Sep 2018

WinPooh, выборка очень маленькая. А так, Lc0 добилась выигранной позиции против SF и получила небольшой перевес против H черными

WinPooh · 19 Sep 2018

sovaz1997 said: ↑

WinPooh, выборка очень маленькая. А так, Lc0 добилась выигранной позиции против SF и получила небольшой перевес против H черными
Click to expand...

Вернёмся к этой теме через пару-тройку кругов.

Undying · 20 Sep 2018

Sergey1983 said: ↑

Undying, я говорю лишь о том что читал насколько я помню примерно это писал один из разработчиков, или вернее то-что нейронка обученная переборным движком будет ограничена его пониманием игры.
Click to expand...

Скорей всего разработчик имел в виду, что если обучать нейронку на партиях переборных движков, то нейронка научится только тому, что умеют переборные движки. Но речь не об этом. Смысл в том, чтобы Лила обучалась на своих партиях, но играя не сама с собой, а с переборными движками.

Sergey1983 said: ↑

хотя вроде разработчикам также интересна чистота эксперимента, научить движок на играх с самим собой.
Click to expand...

Нет такого интереса. Просто опыт Гугла для го показал, что самообучение эффективнее, чем обучение на человеческих партиях.

—- добавлено: 20 Sep 2018, опубликовано: 20 Sep 2018 —-

Sergey1983 said: ↑

Если тренировать по вашей методике то когда нейронка достигнет уровня переборного движка её придётся тренировать по старой
Click to expand...

Проблема возникнет только когда нейронка станет на голову сильнее переборных движков. Тогда возникнет ситуация аналогичная тому, что мастеру для повышения своей силы бессмысленно играть с перворазрядниками. Но до этого еще очень далеко.

Sergey1983 said: ↑

вот только она к этому времени может попасть в какой нибудь локальный экстремум(из-за неправильной тренировки или возникнет другая проблема) из которого её будет вытянуть довольно сложно. ИМХО
Click to expand...

Естественно при обучении на играх с переборными движками нейронка уйдет в локальный экстремум, стремясь к тем позициям, в которых плохо работает перебор и важно понимание. Что может и не увеличит сферическую силу Лилы в вакууме, но способно кардинально повысить результаты Лилы против переборных движков. В этом весь смысл.

Mustitz · 20 Sep 2018

Undying said: ↑

Просто опыт Гугла для го показал, что самообучение эффективнее, чем обучение на человеческих партиях.
Click to expand...

Ну... в шахматах ситуацич может быть другой —- игра современных программ тоже на пару голов превосходит человека.

Undying · 20 Sep 2018

Mustitz said: ↑

Ну... в шахматах ситуацич может быть другой —- игра современных программ тоже на пару голов превосходит человека.
Click to expand...

В го у нейронных движков нет конкурентов. Поэтому обучаться нейронка может только играя сама с собой. Других вариантов нет. В шахматах переборные движки конкурентоспособны, поэтому нейронка может обучаться играя с ними. Насколько это будет эффективно опыт покажет. Но идея выглядит очень перспективно.

svoitsl · 20 Sep 2018

Undying said: ↑

Но идея выглядит очень перспективно.
Click to expand...

Все же есть опасения, что учась на этих играх она не превзойдет переборные движки, а может и кое что упустит

Undying said: ↑

Насколько это будет эффективно опыт покажет
Click to expand...

Жаль, что этот опыт не набирается на небольших сетях, времени бы потребовалось бы меньше

Undying · 20 Sep 2018

svoitsl said: ↑

Все же есть опасения, что учась на этих играх она не превзойдет переборные движки, а может и кое что упустит
Click to expand...

Непонятны опасения. Наоборот, чтобы ничего не упустить, нужно учиться на партиях с разными соперниками. А играя только сам с собой как раз рискуешь многое упустить.

Mustitz · 20 Sep 2018

Undying said: ↑

Но идея выглядит очень перспективно.
Click to expand...

Ещё перспективнее с начала использовать Syzygy — зачем тратить ресурсы нейросети на то, что уже посчитано со 100% точностью? Соответственно увеличится сила игры в окончаниях в наигрывании, отсюда вырастет сила игры в окончаниях.

—- добавлено: 20 Sep 2018, опубликовано: 20 Sep 2018 —-

svoitsl said: ↑

Все же есть опасения, что учась на этих играх она не превзойдет переборные движки, а может и кое что упустит
Click to expand...

Ну... основная идея в том, чтобы получить метод, которые был бы применим к разным играм, не только к шахматам. Но, как показывает практика, всё равно приходится добавлять чисто шахматные эвристики — оценку позиции, и т. п...

Опять де, AlphaGo превзошда человека, хотя училась на его партиях. Так что непонятно, чем вызвано такое опасение... Для обучения нужна статистика «позиция — начальные вероятности ходов для MCTS». Возможно лучше возвращать не только вероятности, но и начальное количество симуляций (как критерий хода, который может оказаться лучшим). И эта статистика должна быть лучшего качества. Ну а опасность попасть в локальный экстремум есть при любом подходе, тут прыгать надо.

WinPooh · 20 Sep 2018

Mustitz said: ↑

Undying said: ↑

Но идея выглядит очень перспективно.
Click to expand...

Ещё перспективнее с начала использовать Syzygy — зачем тратить ресурсы нейросети на то, что уже посчитано со 100% точностью? Соответственно увеличится сила игры в окончаниях в наигрывании, отсюда вырастет сила игры в окончаниях.
Click to expand...

Это зависит от поставленных целей. Лила начиналась как исследовательский проект, с идеей выжать максимум из игры с самой собой без привлечения каких-то сторонних источников.

Mustitz · 20 Sep 2018

WinPooh said: ↑

Mustitz said: ↑

Это зависит от поставленных целей. Лила начиналась как исследовательский проект, с целью выжать максимум из игры с самой собой без привлечения каких-то сторонних источников.
Click to expand...

Это понятно, просто я рассуждаю с точки зрения построения наиболее сильной программы, а не академических исследований
Click to expand...

Undying · 20 Sep 2018

Mustitz said: ↑

Ещё перспективнее с начала использовать Syzygy — зачем тратить ресурсы нейросети на то, что уже посчитано со 100% точностью? Соответственно увеличится сила игры в окончаниях в наигрывании, отсюда вырастет сила игры в окончаниях.
Click to expand...

Syzygy только проблему с простыми окончаниями решит. Которая может и не особо критична. Не часто Лила упускает выигрыш переходом в простое ничейное окончание.

Самая интересная идея в плане практической силы игры это выявить те типы позиций, в которых переборные движки играют относительно слабо и добиться, чтобы нейронка целенаправленно шла на такие позиции. Для этого и нужно обучение на играх с переборными движками.

Mustitz · 20 Sep 2018

Undying said: ↑

Syzygy только проблему с простыми окончаниями решит. Которая может и не особо критична. Не часто Лила упускает выигрыш переходом в простое ничейное окончание.
Click to expand...

Судя по моим шашкам, это эчень сильно помогает MCTS. Во-первых, увеличивается точность оценки при доигрывании. Во-вторых, перебирается больше вариантов.

Undying · 21 Sep 2018

Да, простые окончания реально проблема для Лилы. Так раскатать Стокфиш, чтобы затем перейти в мертвоничейное окончание... Это эпик фейл.

Вообще такое непонимание простых окончаний удивительно. Нейронку на них вообще не обучали что ли.

WinPooh · 21 Sep 2018

Undying said: ↑

Да, простые окончания реально проблема для Лилы. Так раскатать Стокфиш, чтобы затем перейти в мертвоничейное окончание... Это эпик фейл.

Вообще такое непонимание простых окончаний удивительно. Нейронку на них вообще не обучали что ли.
Click to expand...

А главное, в табличном окончании она всё ещё рисует себе +10. Значит, по статистике умудряется его за белых у самой себя выигрывать.
Как говорится, это всё, что вам нужно знать об MCTS-поиске.

Undying · 21 Sep 2018

WinPooh said: ↑

А главное, в табличном окончании она всё ещё рисует себе +10. Значит, по статистике умудряется его за белых у самой себя выигрывать.
Как говорится, это всё, что вам нужно знать о MCTS-поиске.
Click to expand...

MCTS здесь ни причем. Явно бага какая-то. Скорей всего при обучении таблицы Налимова были подключены. Из-за этого все и проблемы. Лила в первый раз в жизни подобные окончания видит. И оценивает их соответственно с позиции многофигурного эндшпиля, в котором две лишних связанные пешки это гарантированная победа.

WinPooh · 21 Sep 2018

Undying said: ↑

WinPooh said: ↑

А главное, в табличном окончании она всё ещё рисует себе +10. Значит, по статистике умудряется его за белых у самой себя выигрывать.
Как говорится, это всё, что вам нужно знать о MCTS-поиске.
Click to expand...

MCTS здесь ни причем. Явно бага какая-то. Скорей всего при обучении таблицы Налимова были подключены. Из-за этого все и проблемы. Лила в первый раз в жизни подобные окончания видит. И оценивает их соответственно с позиции многофигурного эндшпиля, в котором две лишних связанные пешки это гарантированная победа.
Click to expand...

Это ещё и цена отказа от ролл-аутов до конца партии, когда вся оценка отдана на откуп глюкавой нейросети.

Undying · 21 Sep 2018

WinPooh said: ↑

[
Это ещё и цена отказа от ролл-аутов до конца партии, когда вся оценка отдана на откуп глюкавой нейросети.
Click to expand...

Отказ от ролл-аутов полностью оправдан. Ролл-ауты это крайне нерациональное использование ресурсов. А глюки поправить надо и проблема решится. Просто болезнь роста.

Походу закат переборных движков не за горами. Ежели с такими багами Лила на равных с топами играет, то что будет когда ее доведут до ума.

WinPooh · 21 Sep 2018

Нейросети - тот же самый переборный брут-форс, только в профиль (и ты, Брут...)
Будущее за гибридными схемами.

Undying · 21 Sep 2018

WinPooh said: ↑

Нейросети - тот же самый переборный брут-форс, только в профиль (и ты, Брут...)
Будущее за гибридными схемами.
Click to expand...

А что гибридность может дать? Кому верить при расхождении переборной и нейронной оценки?

WinPooh · 21 Sep 2018

Undying said: ↑

WinPooh said: ↑

Нейросети - тот же самый переборный брут-форс, только в профиль (и ты, Брут...)
Будущее за гибридными схемами.
Click to expand...

А что гибридность может дать? Кому верить при расхождении переборной и нейронной оценки?
Click to expand...

Тому, на кого покажет арбитр - отдельная нейросеть, натасканная на различение типов позиции.

Undying · 21 Sep 2018

KEV81 said: ↑

Что вы все заладились " переборный движок"? Лила тоже переборная.
Click to expand...

Согласен. Лучше термин "алгоритмический движок" использовать.

Sergey1983 · 21 Sep 2018

А как тренировать арбитра?Тут даже человек не скажет где какой тип позиции(ИМХО), а вы хотите нейросеть натренировать.Кроме того использование двух нейросетей может существенно замедлить движок.

Kesandr · 21 Sep 2018

Undying said: ↑

WinPooh said: ↑

[
Это ещё и цена отказа от ролл-аутов до конца партии, когда вся оценка отдана на откуп глюкавой нейросети.
Click to expand...

Отказ от ролл-аутов полностью оправдан. Ролл-ауты это крайне нерациональное использование ресурсов. А глюки поправить надо и проблема решится. Просто болезнь роста.

Походу закат переборных движков не за горами. Ежели с такими багами Лила на равных с топами играет, то что будет когда ее доведут до ума.
Click to expand...

Напоминает ситуацию когда первая рыбка имела много багов в ендшпиле но громила все топовие движки своего времени.

Rom · 21 Sep 2018

Undying said: ↑

WinPooh said: ↑

Это ещё и цена отказа от ролл-аутов до конца партии, когда вся оценка отдана на откуп глюкавой нейросети.
Click to expand...

Отказ от ролл-аутов полностью оправдан. Ролл-ауты это крайне нерациональное использование ресурсов. А глюки поправить надо и проблема решится. Просто болезнь роста.
Click to expand...

Роллауты можно попробовать заменить на ФВ (QS). Кстати, если кого интересуют гибридные проекты, то стоит присмотреться к проекту Scorpio:
https://sites.google.com/site/dshawul/
https://github.com/dshawul/Scorpio/releases

Mustitz · 21 Sep 2018

Undying said: ↑

Согласен. Лучше термин "алгоритмический движок" использовать.
Click to expand...

Лучше «движок, основанный на Alpha-Beta переборе». В отличие от «движок, основанный на MCTS переборе»

Undying · 21 Sep 2018

Mustitz said: ↑

Undying said: ↑

Согласен. Лучше термин "алгоритмический движок" использовать.
Click to expand...

Лучше «движок, основанный на Alpha-Beta переборе». В отличие от «движок, основанный на MCTS переборе»
Click to expand...

Речь о различии нейронного и алгоритмического подхода. Причем здесь Альфа-Бета и MCTS? Это ортогональные вещи.

Mustitz · 21 Sep 2018

Sergey1983 said: ↑

Кроме того использование двух нейросетей может существенно замедлить движок.
Click to expand...

Дык сейчас вроде используются две нейросети? Одна выбирает ходы-кандидаты, другая возвращает оценку позиции

—- добавлено: 21 Sep 2018 —-

Undying said: ↑

Речь о различии нейронного и алгоритмического подхода. Причем здесь Альфа-Бета и MCTS? Это ортогональные вещи.
Click to expand...

Ну... субъективно по стилю Komodo MCTS близок по стилю к Leela: та же агрессивная игра без большой привязки к материалу.

—- добавлено: 21 Sep 2018, опубликовано: 21 Sep 2018 —-

Undying said: ↑

А что гибридность может дать? Кому верить при расхождении переборной и нейронной оценки?
Click to expand...

Нейросеть может просто использовать информацию от переборного движка и сама решать. Либо использовать некоторые эвристики из Alpha-Beta для принудительного включения веток. И т. д. и т. п. Вариаинтов решения проблемм масса.

—- добавлено: 21 Sep 2018 —-

Sergey1983 said: ↑

А как тренировать арбитра?
Click to expand...

Элементарно — пробуем оба варианта в данной позиции, наигрываем партии и смотрим, что сработало лучше. Эти данные используем для обучения.

Sergey1983 · 21 Sep 2018

Одна игра это десятки позиций разыграть каждую это десятки игр в каждой опять же десятки позиций....
Это дерево с почти бесконечным числом вариантов, кроме того где гарантия что арбитр будет качественно оценивать позиции, а не повторится история с текущей LCZero.

Rom · 21 Sep 2018

Mustitz said: ↑

Дык сейчас вроде используются две нейросети? Одна выбирает ходы-кандидаты, другая возвращает оценку позиции
Click to expand...

Используется одна нейросеть, которая работает на два выхода - оценку и ходы.

WinPooh · 21 Sep 2018

Kesandr said: ↑

Напоминает ситуацию когда первая рыбка имела много багов в ендшпиле но громила все топовие движки своего времени.
Click to expand...

Ну, эта не громит. Эта с топами ничьи штампует, одну за другой.

Log in or Sign up

AlphaZero. Нейронная сеть играет в шахматы

Undying Учаcтник

sovaz1997 Учаcтник

Sergey1983 Учаcтник

Sergey1983 Учаcтник

WinPooh В.М.

sovaz1997 Учаcтник

WinPooh В.М.

Undying Учаcтник

Mustitz Заслуженный

Undying Учаcтник

svoitsl Учаcтник

Undying Учаcтник

Mustitz Заслуженный

WinPooh В.М.

Mustitz Заслуженный

Undying Учаcтник

Mustitz Заслуженный

Undying Учаcтник

WinPooh В.М.

Undying Учаcтник

WinPooh В.М.

Undying Учаcтник

WinPooh В.М.

Undying Учаcтник

WinPooh В.М.

Undying Учаcтник

Sergey1983 Учаcтник

Kesandr Учаcтник

Rom Старожил

Mustitz Заслуженный

Undying Учаcтник

Mustitz Заслуженный

Sergey1983 Учаcтник

Rom Старожил

WinPooh В.М.

Share This Page