AlphaZero. Нейронная сеть играет в шахматы

Launder · 6 ноя 2018

Mustitz пишет: ↑

Polarity пишет: ↑

Обученная версия не будет уметь доигрывать до мата без таблиц, но это вроде бы и не проблема вовсе.
Нажмите, чтобы раскрыть...

Если это важно, можно доигрывать партию по таблицам и использовать её для обучения.
Нажмите, чтобы раскрыть...

Однозначно нужно нейросеть натравить на таблицы, по-идее, если сделать это умно, она найдёт очень много интересных закономерностей, которые будут общими для шахмат. Другое дело, что различать это общее/частное, достаточно сложно, и однозначного вывода из простой позиции, как нужно играть в сложной, просто нет. Поэтому нужно как-то так натравливать, чтоб она свои обобщающие предположения, потом, вероятно, проверяла в позициях с добавлением материала. А какого материала и сколько и кто это будет определять - большой вопрос. Но наверняка, сеть сначала должна пройти базовое обучение, типа игр сама с собой, как в гугл, а потом уже натравливать на таблицы и проверять свои же вывоводы для ЭТИХ позиций. Ну а потом полученные выводы должны проверяться на свою универсальность.

Undying · 7 ноя 2018

KEV81 пишет: ↑

эндшпили слишком конкретные для нейросети, слишком...
Нажмите, чтобы раскрыть...

Особых проблем нет. Последняя версия Лилы нормально эндшпили играет. А ведь еще можно для эндшпилей отдельную нейросеть натренировать.

Launder · 7 ноя 2018

KEV81 пишет: ↑

эндшпили слишком конкретные для нейросети, слишком...
Нажмите, чтобы раскрыть...

Ну не знаю, в первом приближении, АльфаЗироу именно эндшпили играла очень интуитивно точно при филигранной технике
Вообще хочется вот такой аспект отметить. Нейросеть, выявляет общие "сходимости", закономерности, в той или иной задаче и делает это на основе статистики. Человек действует не так. Он смотрит в конкретной позиции, ЗА СЧЁТ ЧЕГО достигается решение, и понимая принцип, и овладевая принципами, учится видеть их в других ситуациях. На статистике так не сделаешь. Похожесть позиции по "внешним признакам", не означает схожую внутреннюю динамику. А именно на исследование последней, направлено человеческое сознание, пусть и возможности для её изучения у нас довольно скромные. При этом, наш счёт основан именно на понимании, мы в стартовой позиции не рассматриваем ходы типа h4, как раз потому, что мы ИТАК ПОНИМАЕМ, что они в этой позиции, особого смысла не имеют.
Вопрос в различии человеческого мышления, и нейросети, В ЗАКРЫТОЙ ЗАДАЧЕ, довольно тонкий и лично для меня, не такой уж ясный момент... То есть, общий контур выслеживается просто: "нейросеть не понимает, что она понимает", но как это сказывается на качестве решения самой задачи, по-моему, не так очевидно. А сказаться это может, например так, по мере усложнения задачи, нейросеть выявив основные "сходимости", будет проходить мимо сходимостей новых, именно потому, что она не будет улавливать новизны в позициях, а ей будет казаться, что задача сводится в уже выявленным закономерностям, и она может пройти мимо нового принципиального момента. Ей, в этой ситуации, довольно сложно отделить "шум", от полезной информации, а если она примет первое за второе, то сила её игры уменьшится, собирать же бесконечную статистику не хватит ни каких вычислительных ресурсов...
Полагаю, что то, что мы видели с АльфаЗироу, это не полностью обученная нейросеть... Это нейросеть прошедшая БАЗОВОЕ обучение. Её дальше можно обучать, она уже знает очень много, чтоб отсеивать откровенный шум(и обыгрывать, практически, любого), но возможно, ей сложно выявить из этого шума то, что шумом не является, а является принципиальным уточнением. Поэтому если ей грамотно скармливать, ну, например, теже базы, она, сможет находить в подобной пище, новые принципы, которые, определённым образом переработав, сможет с пользой применить и в других позициях...

Undying · 7 ноя 2018

Launder пишет: ↑

Ей, в этой ситуации, довольно сложно отделить "шум", от полезной информации, а если она примет первое за второе, то сила её игры уменьшится, собирать же бесконечную статистику не хватит ни каких вычислительных ресурсов...
Нажмите, чтобы раскрыть...

Проблема не вычислительных ресурсах, а в конечной емкости нейронной сети. У Альфа Зеро насколько помню на 40 миллионах тренировочных партий прогресс остановился. Дальнейшее обучение не давало эффекта.

Launder пишет: ↑

Полагаю, что то, что мы видели с АльфаЗироу, это не полностью обученная нейросеть... Это нейросеть прошедшая БАЗОВОЕ обучение. Её дальше можно обучать, она уже знает очень много, чтоб отсеивать откровенный шум(и обыгрывать, практически, любого), но возможно, ей сложно выявить из этого шума то, что шумом не является, а является принципиальным уточнением. Поэтому если ей грамотно скармливать, ну, например, теже базы, она, сможет находить в подобной пище, новые принципы, которые, определённым образом переработав, сможет с пользой применить и в других позициях...
Нажмите, чтобы раскрыть...

Вот это мысль интересная. Вообще ключевой вопрос насколько самообучение эффективно. Интуитивно кажется, что не особо эффективно. Вывод об эффективности самообучения был сделан на том основании, что Альфа Го обученная на человеческих партиях играла намного слабее, чем самообученная Альфа Зеро Го. Но вероятно это ложный вывод. Просто люди очень плохо играют в сравнении с нейронным движком. Понятно, что, если человека со способностям гроссмейстера обучать на партиях третьеразрядников, полностью раскрыть свой талант он не сможет. Но из этого же не следует, что человеку в принципе вредно обучаться на чужом опыте. А для нейронных сетей сделали именно такой вывод.

WinPooh · 8 ноя 2018

Undying пишет: ↑

Проблема не вычислительных ресурсах, а в конечной емкости нейронной сети. У Альфа Зеро насколько помню на 40 миллионах тренировочных партий прогресс остановился. Дальнейшее обучение не давало эффекта.
Нажмите, чтобы раскрыть...

Напротив, они сказали, что насыщения так и не достигли, сила продолжала и продолжала расти. Им надоело, и эксперимент решили прекратить. Возможно, правда, это говорилось про Го.

Undying · 8 ноя 2018

WinPooh пишет: ↑

Напротив, они сказали, что насыщения так и не достигли, сила продолжала и продолжала расти. Им надоело, и эксперимент решили прекратить. Возможно, правда, это говорилось про Го.
Нажмите, чтобы раскрыть...

По-моему вы что-то путаете. Там даже был график зависимости силы игры от количества тренировочных партий. И где-то на 44 миллионах партий он стал горизонтальным. И всего 4 часов тренировки на суперкомпьютере хватило Альфа Зеро, чтобы достигнуть максимума силы.

Launder · 10 ноя 2018

Undying пишет: ↑

Вот это мысль интересная. Вообще ключевой вопрос насколько самообучение эффективно. Интуитивно кажется, что не особо эффективно. Вывод об эффективности самообучения был сделан на том основании, что Альфа Го обученная на человеческих партиях играла намного слабее, чем самообученная Альфа Зеро Го. Но вероятно это ложный вывод. Просто люди очень плохо играют в сравнении с нейронным движком. Понятно, что, если человека со способностям гроссмейстера обучать на партиях третьеразрядников, полностью раскрыть свой талант он не сможет. Но из этого же не следует, что человеку в принципе вредно обучаться на чужом опыте. А для нейронных сетей сделали именно такой вывод.
Нажмите, чтобы раскрыть...

Вот об этом и речь. Нейросети, прозванивают некую цепь(в нашем случае, шахматы), находя в ней огромное количество всевозможных закономерностей, что вообще, от чего зависит. Но, скорее всего, сколько их не находи, всё равно будут находится новые. Но, на каком-то этапе, вероятно, происходит некое насыщение. То есть, всё что можно было ей найти, она нашла, а дальше ей либо нужно, буквально, перебирать всё, что, понятное дело, не реально, либо пользоваться своей же эвристикой, для отсечения. При этом эвристика, основанная на статистике, не делает содержательных выводов, а делает вывод по "внешним контурам", то есть, раз в подобных позициях так, то и в этой так. К примеру, важны эти пешки, в данной позции или не важны, вывод делается на основании обобщённых данных, в которых, ключевой момент именно такой расстановки, может быть не учтён. На самом деле, как мы с Вами ищем эти ключевые особенности, тоже не совсем понятно, и, возможно, лучше это понимая, мы сами, многое бы для себя смогли бы открыть... Это вопрос, наверное, отдельного разговора, но думая о том, чем работа ИИ, отличается от работы человеческого сознания в ЗАКРЫТЫХ СИСТЕМАХ, наводит на эти мысли... Всё-таки стиль игры субъективно воспринимается, как намного более интуитивный, чем игра "классических" движков, он буд-то понимает, к чему, в той или иной позиции стоит стремиться... И то, что его атаки так красиво подтверждают наши интуитивные догадки, конечно, впечетляет! Но всё ли он понимает, в этих своих атаках? Или его рассчёт искупает его не полное понимание? А что из нашего понимания и вИдения мы можем привнести в столь высокую точность оценки позиции? Хочется верить, что что-то можем...
Имея в своём распоряжении таблицу ответов, нейросеть может сравнить свои оценки этих позиций с правильной, далее, например, изучить свою линию и посмотреть в каком месте и насколько она отклоняется от правильной, ну а там уже и до правок близко. Кстати теоретическое осмысление эндшпильных позиций, на мой взгляд, важно и для шахматистов. Другое дело, как и все данные, которых много, не всегда понятно, с какой стороны их лучше изучать
Также, думаю, имеет право на жизнь, вот какая идея, которую, вероятно, имело бы смысл провести уже после таблиц, когда нейросеть работала бы уже прям как часы и сбить её с толку не так просто: взять относительно небольшой список избранных гроссмейстерских партий, за все времена, и дать нейросети их проанализировать, найти в них не точности, показать более интересные линии и мотивы... Так вот, если, при этом, ей бы оставили возможность обучаться и делать для себя какие-то "пометки на полях своих слоёв", она, возможно, пусть и в этих, изобилирующих ошибками человеческих партиях, нашла бы для себя, какие-то интересные идеи, которые смогла бы реализовать более точно, и которые, при этом, расширили бы и её поле содержательных возможностей.

SkipperNorton · 13 ноя 2018

Давно не интересовался темой..
Скажите, чтобы много не перечитывать, как дела обстоят сейчас - если взять 1) Гудини, 2) Комодо, 3) Стокфиш , и 4) Лилу - первые три самых продвинутых, сильных версий (Лила думаю, только одна есть),
и провести матч-турнир между ними. Первые три - на обычном домашнем персональном компьютере , процессор i7, памяти 16 ГБ, короче компьютер нынешнего поколения.
Лила - не знаю на каком компьютере играть будет .
Время на партию - классические 2 часа на каждые 40 ходов.

Кто победит в матче, кто займёт 2-е, 3-е, 4-е места?
Просто хочу понять расстановку сил - какая программа сильнее всего играет?
Чтобы и понять, какую себе искать и установить..

Спасибо.

WinPooh · 13 ноя 2018

SkipperNorton пишет: ↑

Давно не интересовался темой..
Скажите, чтобы много не перечитывать, как дела обстоят сейчас - если взять 1) Гудини, 2) Комодо, 3) Стокфиш , и 4) Лилу - первые три самых продвинутых, сильных версий (Лила думаю, только одна есть),
и провести матч-турнир между ними. Первые три - на обычном домашнем персональном компьютере , процессор i7, памяти 16 ГБ, короче компьютер нынешнего поколения.
Лила - не знаю на каком компьютере играть будет .
Время на партию - классические 2 часа на каждые 40 ходов.

Кто победит в матче, кто займёт 2-е, 3-е, 4-е места?
Просто хочу понять расстановку сил - какая программа сильнее всего играет?
Чтобы и понять, какую себе искать и установить..

Спасибо.
Нажмите, чтобы раскрыть...

Первым будет Стокфиш, а дальше возможны варианты.
Примерную расстановку сил можно оценить здесь: https://www.chess.com/computer-chess-championship
Правда, это блиц.
С другой стороны, в ближайшем будущем Лила может резко усилиться.

Vladruss · 13 ноя 2018

SkipperNorton пишет: ↑

Давно не интересовался темой..
Скажите, чтобы много не перечитывать, как дела обстоят сейчас - если взять 1) Гудини, 2) Комодо, 3) Стокфиш , и 4) Лилу - первые три самых продвинутых, сильных версий (Лила думаю, только одна есть),
и провести матч-турнир между ними. Первые три - на обычном домашнем персональном компьютере , процессор i7, памяти 16 ГБ, короче компьютер нынешнего поколения.
Лила - не знаю на каком компьютере играть будет .
Время на партию - классические 2 часа на каждые 40 ходов.

Кто победит в матче, кто займёт 2-е, 3-е, 4-е места?
Просто хочу понять расстановку сил - какая программа сильнее всего играет?
Чтобы и понять, какую себе искать и установить..

Спасибо.
Нажмите, чтобы раскрыть...

Вы действительно считаете, что кто-то знает ответы на эти ваши вопросы?

sovaz1997 · 13 ноя 2018

SkipperNorton, на данный момент сильнейшей будет Stockfish. Причем последняя версия уже сильнее, чем Stockfish 9 на 50 пунктов, а Stockfish 9 всё ещё сильнее, чем Houdini 6.0.3 и Komodo 12.2.2. Но Lc0 в перспективе может обогнать по чистой силе игры.

Sergey1983 · 14 ноя 2018

WinPooh, а в связи с чем ожидается усиление и когда оно должно появиться?

svoitsl · 14 ноя 2018

sovaz1997 пишет: ↑

Но Lc0 в перспективе может обогнать по чистой силе игры.
Нажмите, чтобы раскрыть...

Перспектива все более отдаляется, сеть 20 получилась менее удачной чем сеть 10 (скорее - совсем не удачной)
на обычном "железе" даже обычного геймера (GTX 1050-1060) перспектива обыграть обычные движки на

SkipperNorton пишет: ↑

процессор i7, памяти 16 ГБ
Нажмите, чтобы раскрыть...

вряд ли реальна.

sovaz1997 · 14 ноя 2018

svoitsl пишет: ↑

sovaz1997 пишет: ↑

Но Lc0 в перспективе может обогнать по чистой силе игры.
Нажмите, чтобы раскрыть...

Перспектива все более отдаляется, сеть 20 получилась менее удачной чем сеть 10 (скорее - совсем не удачной)
на обычном "железе" даже обычного геймера (GTX 1050-1060) перспектива обыграть обычные движки на

SkipperNorton пишет: ↑

процессор i7, памяти 16 ГБ
Нажмите, чтобы раскрыть...

вряд ли реальна.
Нажмите, чтобы раскрыть...

Посмотрите на результаты 30-й сети. До обгона 10-й рукой подать (около 150 пунктов, как я слышал). Да и партий ещё очень мало сыграно, сеть быстро растет. Про 20-ю сеть можно забыть.

WinPooh · 14 ноя 2018

KEV81 пишет: ↑

Sergey1983 пишет: ↑

WinPooh, а в связи с чем ожидается усиление и когда оно должно появиться?
Нажмите, чтобы раскрыть...

В связи с тем что все всегда улучшается рано или поздно.
Нажмите, чтобы раскрыть...

Ещё и с тем, что в Лиле более-менее понятно, что можно улучшать: наигрывать больше партий, увеличивать и оптимизировать архитектуру сети и т. п. Тот же эндшпиль подтягивать. А в традиционных программах всё за десятилетия уже испытано, верхний слой собран, улучшения можно искать только какие-то микроскопические.

Mustitz · 14 ноя 2018

WinPooh пишет: ↑

Ещё и с тем, что в Лиле более-менее понятно, что можно улучшать: наигрывать больше партий
Нажмите, чтобы раскрыть...

Скорее всего это будет уже не Leela. Вот я нашёл утверждение о том, что Leela плохо играет окончания с разнопольными слонами. Одна из проблем, которые могут быть, состоит в том, что определение цвета шахматного поля это операция XOR, а эта операция очень трудно реализуется средствами матричного умножения. Очень может быть, что оценка позиции будет примерно средним между однопольными и разнопольным случаем. Просто добавить на вход нейросети пару признаков (слоны одноцветные/разноцветные/два слона) и уже сила игры может вырасти. Но это идёт в разрез с генеральной политикой партии команды — никаких чисто шахматных сведений на вход

WinPooh · 14 ноя 2018

Mustitz пишет: ↑

Просто добавить на вход нейросети пару признаков (слоны одноцветные/разноцветные/два слона) и уже сила игры может вырасти. Но это идёт в разрез с генеральной политикой партии команды — никаких чисто шахматных сведений на вход
Нажмите, чтобы раскрыть...

То есть проблема в том, что признак одноцвета/разноцвета слонов не генерируется самой сетью?
Может быть, подавать на вход не цвета полей слонов, а просто ещё одну плоскость, заполненную шахматной клеткой. Есть же у них на входе плоскости из всех нулей и всех единиц. Нулевой принцип таким образом не нарушается, клетки на доске игрок и так видит.

Mustitz · 14 ноя 2018

WinPooh пишет: ↑

То есть проблема в том, что признак одноцвета/разноцвета слонов не генерируется самой сетью?
Нажмите, чтобы раскрыть...

Теоретически такой признак может быть сгенерирован, но это может быть некоторое приближение, тысячи весовых коэфициентов. По сути у нейросети нет другого способа, как для каждой пары полей запоминать, они одного цвета или нет. Вот типичный пример того, какое приближение строит нейросеть для простого XOR двух битовых аргументов:

Так что если человек знает, что это важный фактор оценки, то куда проще просто завести его на вход нейросети. В любом случае вычисление этих факторов наносекунды для проца, и тысячи если не миллионы операций нейросети, которые лучше потратить с бо́льшей пользой.

SkipperNorton · 14 ноя 2018

Вот что интересно. Есть два подхода, к построению программы на нейросети.
1) первый - нейросеть относительно небольшая, зато быстрее оценивает позиции, может за одну секунду допустим, оценить 1000 позиций, и за год - развиться на 100 млн партиях,
сыгранных между собой.
2) второй подход - нейросеть большая, так что за одну секунду допустим, оценивает только 10 позиций, т.е. по позиции выдаст за 0,1 секунды свою оценку.
Таким образом допустим, на хороших компьютерах, за год мы обучим нейросеть только на 1 миллионе партий, сыгранных между собой.

Выходит что, второй случай с одной строны - хуже, т.к. нейросеть будет намного медленнее развиваться, с другой стороны - если её развивать на супер-компьютерах, или
потратить намного больше времени - то потенциал у неё лучше! Т.е. вторая нейросеть сможет развиться до рейтинга, недостижимого для первой нейросети.

Верно? Ну и какой здесь лучший подход?
1) сколько оптимально надо иметь блоков в программе - аналогов нейронов, или сколько по времени оптимально нужно - чтобы нейросеть тратила на оценку позиции
(0,1 секунды? 0,0001 секунды?) - чтобы к примеру, через 2 года, используя несколько мощных домашних компьютеров - лучше всего эта нейросеть научилась играть?

WinPooh · 14 ноя 2018

Mustitz пишет: ↑

WinPooh пишет: ↑

То есть проблема в том, что признак одноцвета/разноцвета слонов не генерируется самой сетью?
Нажмите, чтобы раскрыть...

Теоретически такой признак может быть сгенерирован, но это может быть некоторое приближение, тысячи весовых коэфициентов.
Нажмите, чтобы раскрыть...

Да ладно, в каждой же книжке про нейросети пишут, что классический перцептрон реализовать XOR не может, а вот сеть с одним скрытым слоем из двух нейронов - уже может. Какие тысячи коэффициентов?

Mustitz · 14 ноя 2018

WinPooh пишет: ↑

Да ладно, в каждой же книжке про нейросети пишут, что классический перцептрон реализовать XOR не может, а вот сеть с одним скрытым слоем из двух нейронов - уже может.
Нажмите, чтобы раскрыть...

Ну это классический XOR 2x2, а шахматная доска это 8x8. А вообще каждое поле поступает на вход нейросети независимо, поэтому в общем случае нам надо 64 * 64 = 4096 коэффициентов чтобы каждой паре сопоставить 0 или 1 Более того, ещё нужно научить выделать этот признак для всех пар полей.

Куда лучше сделать чёрнопольных слонов и белопольных разными фигурами

WinPooh · 14 ноя 2018

Mustitz пишет: ↑

Куда лучше сделать чёрнопольных слонов и белопольных разными фигурами
Нажмите, чтобы раскрыть...

Кажется, так в Рыбке было сделано.

Undying · 14 ноя 2018

Mustitz пишет: ↑

Выходит что, второй случай с одной строны - хуже, т.к. нейросеть будет намного медленнее развиваться, с другой стороны - если её развивать на супер-компьютерах, или потратить намного больше времени - то потенциал у неё лучше! Т.е. вторая нейросеть сможет развиться до рейтинга, недостижимого для первой нейросети.
Нажмите, чтобы раскрыть...

Главная проблема не с обучением, а с тем, что чем больше нейросеть, тем меньше вариантов во время партии рассчитывается. И на сколько лучшая оценка позиции компенсирует уменьшение глубины счета это вопрос.

Насколько понимаю Комодо MCTS это тоже нейросеть. Вот она работает очень медленно. Если Лила считает порядка 30 тысяч позиций в секунду, то Комодо порядка 700 позиций. Возможно это из-за того, что там используется нейросеть большего размера. Играет Комодо намного слабее Лилы.

Mustitz · 14 ноя 2018

Undying пишет: ↑

Насколько понимаю Комодо MCTS это тоже нейросеть.
Нажмите, чтобы раскрыть...

Не думаю, по описаниям похоже на чистый MCTS с эвристиками выбора хода. Про нейросеть никто не говорит.

SkipperNorton · 14 ноя 2018

Главная проблема не с обучением, а с тем, что чем больше нейросеть, тем меньше вариантов во время партии рассчитывается. И на сколько лучшая оценка позиции компенсирует уменьшение глубины счета это вопрос.
Нажмите, чтобы раскрыть...

А человек гроссмейстер и вовсе перед ходом рассчитывает не 30 тысяч позиций в секунду , а может быть, в среднем 50 позиций (и не в секунду, а всего) на разных глубинах,
что не мешает достичь силы игры с рейтингом 2800 .
Так что теоретически думаю, важнее всё таки не количество и глубина, а важнее - лучшая оценка позиции, т.е. чтобы нейросеть была более "массивной" и состояла из бОльшего
количества персептронов и слоёв. Но это - теоретически, для достижения потолка - более сильной игры в итоге.
Другое дело - как практически достаточно быстро (пусть за год-два) - обучить такую "массивную" нейросеть, если она к примеру, рассчитывает всего лишь 50 позиций в секунду,
и за год успеет самообучиться только на 1 миллионе партий, в то время как Лила - допустим, на 100 миллионах партий.

Тут задача сводится к тому, чтобы добиться более быстрого и эффективного обучения для такой "массивной" нейросети. (при мЕньшем количестве сыгранных партий).
И у меня мечта - именно такую и написать. (я программист).

Если ли шансы, при таком подходе, чтобы нейросеть заиграла в силу гроссмейстера ?
Если же человека взять, например, Каспарова, так он за всю жизнь и близко к миллиону партий не наиграл. Может быть до 5000 партий . Играешь каждый день по серьёзной партии, и только через 15 лет, наиграешь их 5000. А рейтинг 2850. Получается, мозг таки имеет некий способ, намного быстее самообучаться, чем все искусственные нейросети?

Undying · 14 ноя 2018

Mustitz пишет: ↑

Не думаю, по описаниям похоже на чистый MCTS с эвристиками выбора хода. Про нейросеть никто не говорит.
Нажмите, чтобы раскрыть...

А как тогда объяснить сверхнизкую скорость перебора вариантов? Сейчас на TCEC этот движок играет. Скорость у него 7 кнод/с.

SkipperNorton · 14 ноя 2018

Насколько понимаю Комодо MCTS это тоже нейросеть. Вот она работает очень медленно. Если Лила считает порядка 30 тысяч позиций в секунду, то Комодо порядка 700 позиций. Возможно это из-за того, что там используется нейросеть большего размера. Играет Комодо намного слабее Лилы.
Нажмите, чтобы раскрыть...

Если там нейросеть бОльшего размера, то потому он и слабее Лилы играет 1) что на меньшем количестве партий самообучился.
2) а способов более быстрого самообучения нейросетей пока не изобрели (чтобы приблизиться к скорости обучения как у мозга человека).

Но теоретически значит, не может нейросеть большего размера иметь потолок игры такой же как у сети меньшего размера.
Т.е. в таком случае - далеко в будущем, такой Комодо MCTS - заиграет лучше Лилы. Когда больше самообучится. Верно я понимаю?

PS Кстати, спасибо за информацию. Осталось выяснить, что в Комодо MCTS действительно используется нейросеть большего размера . Если это подтвердят, то это будет и подтверждением того, что нейросети бОльшего размера тоже можно эффективно создавать и использовать (при расчёте 700 позиций в секунду), в чём у меня пока сомнения. (т.е. не сомнения в их потолке игры, а в том что они заиграют в силу гроссмейстера, если обучатся всего лишь на 1 миллионе партий, или и того меньше. Хочется увидеть прогресс достаточно быстро, а не ждать до пенсии).

Undying · 14 ноя 2018

SkipperNorton пишет: ↑

Если там нейросеть бОльшего размера, то потому он и слабее Лилы играет 1) что на меньшем количестве партий самообучился.
2) а способов более быстрого самообучения нейросетей пока не изобрели (чтобы приблизиться к скорости обучения как у мозга человека).
Нажмите, чтобы раскрыть...

Обучение это принципиально не проблема. Насыщение нейросети быстро происходит. Альфа Зеро пика силы достиг на 44 миллионах тренировочных партиях после всего 4 часов обучения на суперкомпьютере.

SkipperNorton пишет: ↑

Но теоретически значит, не может нейросеть большего размера иметь потолок игры такой же как у сети меньшего размера.
Т.е. в таком случае - далеко в будущем, такой Комодо MCTS - заиграет лучше Лилы. Когда больше самообучится. Верно я понимаю?
Нажмите, чтобы раскрыть...

Не факт. Скорее есть какой-то оптимальный размер нейросети. Возможно у Альфа Зеро и соответственно Лилы размер нейросети близок к оптимальному. Так как вероятно Гугл этот вопрос слегка исследовал.

sovaz1997 · 14 ноя 2018

В Komodo MCTS нет нейросети

SkipperNorton · 14 ноя 2018

Обучение это принципиально не проблема. Насыщение нейросети быстро происходит. Альфа Зеро пика силы достиг на 44 миллионах тренировочных партиях после всего 4 часов обучения на суперкомпьютере.
Нажмите, чтобы раскрыть...

Понятие "суперкомпьютер" - оно такое.. Это 4 часа ничего не значат, т.к. могут быть эквивалентны 1 году обучения на моём домашнем персональном компьютере.
А может и больше.
Но информация о том что "Обучение это принципиально не проблема" - тоже важно. Интересует - если самообучиться только на 1 миллионе партий - этого может быть достаточно
для гроссмейстерского уровня?

Скорее есть какой-то оптимальный размер нейросети. Возможно у Альфа Зеро и соответственно Лилы размер нейросети близок к оптимальному. Так как вероятно Гугл этот вопрос слегка исследовал.
Нажмите, чтобы раскрыть...

А про "большие нейросети" я сказал, потому что вижу - что мозг человека и вовсе по 50 позиций перед ходом анализирует, что не мешает достичь уровня гроссмейстера.
Так что этот "оптимальный" размер нейросети, возможно заточен конкретно под способы и функции гугла, который её создавал.
А при других вариантах обучения, вполне возможно, лучше будет нейросеть бОльшего размера (и что восхищает в данной ситуации - именно она будет по своей функциональной
структуре, как бы "ближе" к возможностям мозга).

Т.е. 1) если нейросеть гугла считает 50000 позиций перед каждым ходом, и играет в силу гроссмейстера,
2) новая нейросеть предположим, считает только 500 позиций перед каждым ходом (а потому количество такое, что нейросеть более "массивная"), и ТОЖЕ - играет в силу гроссмейстера,

то согласятся, что вторая нейросеть всё таки более привлекательна? Ведь возможностей у неё больше - к дальнейшему обучению и достижению потолка по силе игры,
а к тому же, такие подходы к обучению приведут к тому что такие нейросети смогут решать более серьёзные задачи (не только шахматы) , чем малые нейросети.

Undying · 14 ноя 2018

sovaz1997 пишет: ↑

В Komodo MCTS нет нейросети
Нажмите, чтобы раскрыть...

А из-за чего он так медленно считает и за счет чего удивительно сильно играет для такой низкой скорости счета?

Рекламируют его по крайней мере как Комодо с технологией Альфа Зеро. Это тоже говорит о том, что нейросеть там все-таки используется. Хотя возможно каким-то извращенным способом.

Kesandr · 14 ноя 2018

Нет там вместо альфа бета мінімах используется алгоритм поиска монте карло. Но єто не нейро сеть.

Метод Монте-Карло это алгоритм принятия решений, часто используемый в играх в качестве основы искусственного интеллекта. Сильное влияние он оказал на программы для игры в Го, хотя находит свое применение и в других играх, как настольных, так и обычных компьютерных (например Total War: Rome II). Так же, стоит отметить, что метод Монте-Карло используется в нашумевшей программе AlphaGo, победившей го-профессионала 9-го дана Ли Седоля в серии из 5 игр.

svoitsl · 14 ноя 2018

SkipperNorton пишет: ↑

Интересует - если самообучиться только на 1 миллионе позиций - этого может быть достаточно
для гроссмейстерского уровня?
Нажмите, чтобы раскрыть...

Так наверное можно ещё найти сети 6х64, как раз обученные на не очень большом числе игр и просто проверить их уровень, не знаю точно, но думаю что до 2400 Эло они могут дотянуть

Пример неплохой (хотя и без нулевого принципа) сети может быть например DeusX, сеть размера всего 10х128, а уровень игры наверное 2900 Эло (точно не помню)

SkipperNorton пишет: ↑

Так что этот "оптимальный" размер нейросети, возможно заточен конкретно под способы и функции гугла
Нажмите, чтобы раскрыть...

В общем то пока ставится задача просто воспроизвести A0, ну может слегка её обойти. И даже на это уйдет год.

Undying · 14 ноя 2018

Kesandr пишет: ↑

Нет там вместо альфа бета мінімах используется алгоритм поиска монте карло. Но єто не нейро сеть.
Нажмите, чтобы раскрыть...

Так из-за чего Комодо MCTS так медленно перебирает варианты?

—- добавлено: 14 ноя 2018 —-

svoitsl пишет: ↑

Пример неплохой (хотя и без нулевого принципа) сети может быть например DeusX, сеть размера всего 10х128, а уровень игры наверное 2900 Эло (точно не помню)
Нажмите, чтобы раскрыть...

У Деуса размер нейросети должен быть такой же как у Лилы. Скорость у них в TCEC примерно одинаковая была. И сила у него 3100-3150.

sovaz1997 · 15 ноя 2018

Как я понимаю, вместо оценки нейросети Komodo симулирует игры и оценивает по проценту очков позицию, что тоже занимает время. Поэтому и число узлов маленькая.

Войти или зарегистрироваться

AlphaZero. Нейронная сеть играет в шахматы

Launder Новичок

Undying Учаcтник

Launder Новичок

Undying Учаcтник

WinPooh В.М.

Undying Учаcтник

Launder Новичок

SkipperNorton Новичок

WinPooh В.М.

Vladruss НедоКМС, победитель второразрядников.

sovaz1997 Учаcтник

Sergey1983 Учаcтник

svoitsl Учаcтник

sovaz1997 Учаcтник

WinPooh В.М.

Mustitz Заслуженный

WinPooh В.М.

Mustitz Заслуженный

SkipperNorton Новичок

WinPooh В.М.

Mustitz Заслуженный

WinPooh В.М.

Undying Учаcтник

Mustitz Заслуженный

SkipperNorton Новичок

Undying Учаcтник

SkipperNorton Новичок

Undying Учаcтник

sovaz1997 Учаcтник

SkipperNorton Новичок

Undying Учаcтник

Kesandr Учаcтник

svoitsl Учаcтник

Undying Учаcтник

sovaz1997 Учаcтник

Поделиться этой страницей