AlphaZero. Нейронная сеть играет в шахматы

Alhimik88 · 18 дек 2018

Mustitz пишет: ↑

WinPooh пишет: ↑

http://www.lczero.org/networks/
Нажмите, чтобы раскрыть...

ELO 9518.58 это круто
Нажмите, чтобы раскрыть...

Не удивляйтесь большим числам. Они представляют из себя реальное ELO + сумму ELO ошибок. В каждом матче проводится в среднем 500 игр, результат матча получается с погрешностью +-25 ELO. И какое-то количество погрешности идет в рейтинг Lc0. Если бы матчи проходили по 40к игр, то ELO Leela был близок к реальному, но такой подход непрактичен для обучения нейронки.

WinPooh · 18 дек 2018

Alhimik88 пишет: ↑

Не удивляйтесь большим числам. Они представляют из себя реальное ELO + сумму ELO ошибок.
Нажмите, чтобы раскрыть...

Насколько я помню теорию эксперимента, погрешности складываются по квадратичному закону, т.е.
Err = SQRT(Err1 ** 2 + Err2 ** 2 + ... + ErrN ** 2)
Но, видимо, действительно, набежало здорово. До такой степени, что встаёт вопрос, а где там измеряемая величина, за этой стеной из погрешностей?

sovaz1997 · 18 дек 2018

Alhimik88 пишет: ↑

Mustitz пишет: ↑

WinPooh пишет: ↑

http://www.lczero.org/networks/
Нажмите, чтобы раскрыть...

ELO 9518.58 это круто
Нажмите, чтобы раскрыть...

Не удивляйтесь большим числам. Они представляют из себя реальное ELO + сумму ELO ошибок. В каждом матче проводится в среднем 500 игр, результат матча получается с погрешностью +-25 ELO. И какое-то количество погрешности идет в рейтинг Lc0. Если бы матчи проходили по 40к игр, то ELO Leela был близок к реальному, но такой подход непрактичен для обучения нейронки.
Нажмите, чтобы раскрыть...

Рейтинг уточняется. Если приглядеться, то учитываются абсолютно все игры (45 миллионов их там сейчас). Соответственно, погрешности там, конечно, есть, но не очень большие.

Попробуете так считать рейтинг SF (суммировать патчи), будет то же самое, если не хуже.

WinPooh · 18 дек 2018

Alhimik88 пишет: ↑

Если бы матчи проходили по 40к игр, то ELO Leela был близок к реальному, но такой подход непрактичен для обучения нейронки.
Нажмите, чтобы раскрыть...

Зато с "практичным" подходом они уже почти полгода более сильную сеть, чем 10x, родить не могут.

Alhimik88 · 18 дек 2018

WinPooh пишет: ↑

Alhimik88 пишет: ↑

Если бы матчи проходили по 40к игр, то ELO Leela был близок к реальному, но такой подход непрактичен для обучения нейронки.
Нажмите, чтобы раскрыть...

Зато с "практичным" подходом они уже почти полгода более сильную сеть, чем 10x, родить не могут.
Нажмите, чтобы раскрыть...

Насколько я понимаю, они учат нейронку по документам Deep Mind. Возможно те доки не полностью раскрывают весь алгоритм, но тот факт, что Leela уже уверенно входит в топ 4 движков говорит, что подход, скорее всего, близок к правильному.
И еще один момент, 10х наиграла более 52M игр, а 30х сейчас на отметке 46M, и 30х сеть не так уж сильно уступает в силе 11248. Так что тут еще стоит подождать, прежде чем делать выводы

Undying · 18 дек 2018

Alhimik88 пишет: ↑

Не удивляйтесь большим числам. Они представляют из себя реальное ELO + сумму ELO ошибок. В каждом матче проводится в среднем 500 игр, результат матча получается с погрешностью +-25 ELO. И какое-то количество погрешности идет в рейтинг Lc0. Если бы матчи проходили по 40к игр, то ELO Leela был близок к реальному, но такой подход непрактичен для обучения нейронки.
Нажмите, чтобы раскрыть...

А в чем тогда смысл играть с предыдущей версией? Играли бы лучше с эталонной версией, которая в официальных чемпионатах участвует, тогда бы рейтинг был наглядным и полезным инструментом.

Alhimik88 · 18 дек 2018

Undying пишет: ↑

Alhimik88 пишет: ↑

Не удивляйтесь большим числам. Они представляют из себя реальное ELO + сумму ELO ошибок. В каждом матче проводится в среднем 500 игр, результат матча получается с погрешностью +-25 ELO. И какое-то количество погрешности идет в рейтинг Lc0. Если бы матчи проходили по 40к игр, то ELO Leela был близок к реальному, но такой подход непрактичен для обучения нейронки.
Нажмите, чтобы раскрыть...

А в чем тогда смысл играть с предыдущей версией? Играли бы лучше с эталонной версией, которая в официальных чемпионатах участвует, тогда бы рейтинг был наглядным и полезным инструментом.
Нажмите, чтобы раскрыть...

А вы детально понимаете процесс обучения, чтобы делать выводы о его неэффективности? Я вот нет, и поэтому судить не берусь. К примеру, если нейронка обучается по принципу эксплоита предыдущей версии, и так до бесконечности, как сказал WinPooh выше, то текущий подход обучения Lc0 более чем логичен.

WinPooh · 18 дек 2018

По идее, от камня-ножниц-бумаги должна вылечивать тестовая игра с ДВУМЯ предыдущими версиями. А от ящерицы и Спока - с ЧЕТЫРЬМЯ. Или с одной случайно выбранной из нескольких последних.

Polarity · 18 дек 2018

Роллауты - это случайное доигрывание партии до конца. Раньше использовали такой подход чтобы для конечных узлов в дереве получить какую-то оценку. У роллаутов обычно несмещённая оценка, но гигантская дисперсия. Сейчас роллауты ушли в прошлое, потому что их заменили одним выходом нейронки. Но появилось сильное смещение. Смещение - наверное одна из причин, почему лила иногда выдаёт слишком оптимистичные прогнозы.

Mustitz · 18 дек 2018

Undying пишет: ↑

А в чем тогда смысл играть с предыдущей версией? Играли бы лучше с эталонной версией, которая в официальных чемпионатах участвует, тогда бы рейтинг был наглядным и полезным инструментом.
Нажмите, чтобы раскрыть...

Ещё лучше со Stockfish и/или любым движком, который никак не зависит от обучения Lc0.

—- добавлено: 18 дек 2018 —-

Polarity пишет: ↑

У роллаутов обычно несмещённая оценка, но гигантская дисперсия.
Нажмите, чтобы раскрыть...

Дисперсия зависит от силы игры роллаута, делай роллаут при помощи Stockfish и дисперсия будет в разы меньше

—- добавлено: 18 дек 2018, опубликовано: 18 дек 2018 —-

sovaz1997 пишет: ↑

Попробуете так считать рейтинг SF (суммировать патчи), будет то же самое, если не хуже.
Нажмите, чтобы раскрыть...

Хороший ответ на вопрос, почему так считать рейтинг не надо Реатинг SF считается по играм с другими движками в том числе.

redhelicopter · 18 дек 2018

Так в итоге-то сетка с рейтингом овер-9000 играет лучше, чем с рейтингом 4000? Или не факт?

Undying · 18 дек 2018

Alhimik88 пишет: ↑

А вы детально понимаете процесс обучения, чтобы делать выводы о его неэффективности? Я вот нет, и поэтому судить не берусь. К примеру, если нейронка обучается по принципу эксплоита предыдущей версии, и так до бесконечности, как сказал WinPooh выше, то текущий подход обучения Lc0 более чем логичен.
Нажмите, чтобы раскрыть...

Насколько понимаю игра с предыдущей версией не имеет никакого отношения к обучению. Лила обучается, играя сама с собой. А с предыдущей версией играет, чтобы видно было есть ли прогресс в силе игры. Но игра с эталонной версией для этого была бы намного показательнее.

Alhimik88 · 18 дек 2018

Undying пишет: ↑

Насколько понимаю игра с предыдущей версией не имеет никакого отношения к обучению. Лила обучается, играя сама с собой. А с предыдущей версией играет, чтобы видно было есть ли прогресс в силе игры. Но игра с эталонной версией для этого была бы намного показательнее.
Нажмите, чтобы раскрыть...

А как понять какая версия является эталонной?

WinPooh · 18 дек 2018

В случае Го игра с прошлой версией нужна для квалификации новой версии, она должна набрать 55% очков, и после этого становится основной для наигрывания новых игр. Как в шахматной Лиле, не знаю.

Rom · 19 дек 2018

WinPooh пишет: ↑

В случае Го игра с прошлой версией нужна для квалификации новой версии, она должна набрать 55% очков, и после этого становится основной для наигрывания новых игр. Как в шахматной Лиле, не знаю.
Нажмите, чтобы раскрыть...

У Лилы, так же как и у шахматной Альфа Зеро, квалификация не используется. Сеть на клиентских машинах заменяется автоматически. Единственное, насколько я помню, раньше использовали условие, что если новая сеть сильно провалилась в тесте, ну скажем пунктов на 200, то она всё же не используется. Этакая защита от багов. Но как сейчас, не знаю.

Crest · 19 дек 2018

redhelicopter пишет: ↑

Так обученная нейронная сеть и выполняет роль оценочной функции. Именно в том и суть нейросетевого подхода к шахматам: сделать интеллектуальную оценочную функцию. Которая работает непойми как, но дает хороший результат
Нажмите, чтобы раскрыть...

А у меня есть такое подозрение, что Альфа получила с раздачи недурную оценочную функцию - и в этом суть шулерства ДипМайнда.
А потом уже стала совершентвоваться.

Undying · 19 дек 2018

Alhimik88 пишет: ↑

А как понять какая версия является эталонной?
Нажмите, чтобы раскрыть...

Которая проверена в официальных чемпионатах компьютерных движков.

Launder · 19 дек 2018

Undying пишет: ↑

А вот доработать механизм выбора хода в условиях действия правила 50 ходов достаточно просто.
Нажмите, чтобы раскрыть...

ещё есть мнение, что само правило, несколько устарело и нуждается в модернизации

Crest · 19 дек 2018

KEV81 пишет: ↑

Не надо спрашивать как это работает, надо скорее-быстрее писать ролики.
Нажмите, чтобы раскрыть...

Вы еще похамите мне, похамите...
Тогда мы быстрее придём к общему знаменателю.
Я уже много Ваших хамских постов проигнорировал, но сейчас пришёл к выводу, что это не вылечит.
Что ж, придётся действовать иначе.

Crest · 19 дек 2018

KEV81 пишет: ↑

По моему тут бродит вирус Шипова, заражаясь которым ,люди начинают с видом специалиста рассуждать о вещах которых не понимают.
Нажмите, чтобы раскрыть...

Ок, договорились. Пока.
Что касается "вида специалиста", то я ни разу и нигде не утверждал, что я спец в компьютерных шахматах.
Я спец просто в шахматах. А о программах рассуждаю с позиции обычного пользователя.
Имею на то полное право.
А вы, настоящие спецы, имеете еще более полное право спорить, опровергать и просвещать шахматный народ. Милости просим!
А вот хамить, уж извините, никак нельзя.

Undying · 19 дек 2018

WinPooh пишет: ↑

Alhimik88 пишет: ↑

Если бы матчи проходили по 40к игр, то ELO Leela был близок к реальному, но такой подход непрактичен для обучения нейронки.
Нажмите, чтобы раскрыть...

Зато с "практичным" подходом они уже почти полгода более сильную сеть, чем 10x, родить не могут.
Нажмите, чтобы раскрыть...

На мой взгляд такой кривой рейтинг это серьезная проблема. Разработчики Лилы ведь пробуют при обучении различные идеи и им надо видеть какой эффект эти идеи дают. А с настолько оторванным от реальности рейтингом ничего понять невозможно.

tiger · 19 дек 2018

Crest пишет: ↑

redhelicopter пишет: ↑

Так обученная нейронная сеть и выполняет роль оценочной функции. Именно в том и суть нейросетевого подхода к шахматам: сделать интеллектуальную оценочную функцию. Которая работает непойми как, но дает хороший результат
Нажмите, чтобы раскрыть...

А у меня есть такое подозрение, что Альфа получила с раздачи недурную оценочную функцию - и в этом суть шулерства ДипМайнда.
А потом уже стала совершентвоваться.
Нажмите, чтобы раскрыть...

Это может быть. Если у их функции N свободных параметров (весов), они могли взять N позиций с оценкой Стокфиша, и подогнать начальные значения весов чтобы оценки совпадали на этих N позициях.
Все равно начальные веса надо как-то определить, так почему бы не определить их так?

Alhimik88 · 19 дек 2018

Undying пишет: ↑

На мой взгляд такой кривой рейтинг это серьезная проблема. Разработчики Лилы ведь пробуют при обучении различные идеи и им надо видеть какой эффект эти идеи дают. А с настолько оторванным от реальности рейтингом ничего понять невозможно.
Нажмите, чтобы раскрыть...

Лично я не вижу проблемы с кривым рейтингом. Он в общем-то бесполезен, так как нет способа сделать его действительно точным. Реальная сила игры Leela проверяется в матчах против обычных движков на турнирах CCC, TCEC и путем тестирования пользователями. Таким образом можно получить куда более адекватный рейтинг, и к тому же проверить на серьезные проблемы в игре.

KEV81 пишет: ↑

Что такое ELO?
Что такое реальное ELO?
Нажмите, чтобы раскрыть...

Уж простите, не получилось придумать более точную формулировку. Поясняю, что имел ввиду. "Реальное ELO" - гипотетическое значение - величина рейтинга Leela, установленная после продолжительного матча с движком, рейтинг которого взят за эталон.
По самому определению слова ELO это Вам в википедию.
В теме я хотел показать, что текущий показатель рейтинга Leela некорректен ввиду огромного числа накопленных ошибок в более чем 2000 матчах по 500 игр. И получился он ввиду сложения ELO delta и реального/фактического/корректного ELO рейтинга Leela. По квадратичной формуле, или алгебраически, или еще как-то вычисляется ELO delta я не знаю.

redhelicopter · 19 дек 2018

Crest пишет: ↑

Альфа получила с раздачи недурную оценочную функцию
Нажмите, чтобы раскрыть...

Вопрос только где взять эти "недурные" оценочные функции? Движковые оценочные функции, мягко скажем, слабоваты, в этом легко убедиться играя с движком на минимальной глубине счета.

WinPooh · 19 дек 2018

Crest пишет:

А у меня есть такое подозрение, что Альфа получила с раздачи недурную оценочную функцию - и в этом суть шулерства ДипМайнда.
А потом уже стала совершентвоваться.
Нажмите, чтобы раскрыть...

Так проверено же экспериментально, что с нуля можно раскрутиться сильнее, чем с какой-то заданной принудительно функции. Двумя независимыми группами проверено, в шахматах и в Го - проекты Leela Zero. А практика у нас - критерий истины.

WinPooh · 19 дек 2018

Alhimik88 пишет: ↑

KEV81 пишет: ↑

Что такое ELO?
Что такое реальное ELO?
Нажмите, чтобы раскрыть...

Уж простите, не получилось придумать более точную формулировку. Поясняю, что имел ввиду. "Реальное ELO" - гипотетическое значение - величина рейтинга Leela, установленная после продолжительного матча с движком, рейтинг которого взят за эталон.
По самому определению слова ELO это Вам в википедию.
В теме я хотел показать, что текущий показатель рейтинга Leela некорректен ввиду огромного числа накопленных ошибок в более чем 2000 матчах по 500 игр. И получился он ввиду сложения ELO delta и реального/фактического/корректного ELO рейтинга Leela. По квадратичной формуле, или алгебраически, или еще как-то вычисляется ELO delta я не знаю.
Нажмите, чтобы раскрыть...

Эло. Арпад Эло. "Фамилие такое".
А ELO - это Electric Light Orchestra. Группа электронной музыки, неплохая весьма.

Нестор · 19 дек 2018

WinPooh пишет: ↑

Crest пишет:

А у меня есть такое подозрение, что Альфа получила с раздачи недурную оценочную функцию - и в этом суть шулерства ДипМайнда.
А потом уже стала совершентвоваться.
Нажмите, чтобы раскрыть...

Так проверено же экспериментально, что с нуля можно раскрутиться сильнее, чем с какой-то заданной принудительно функции. Двумя независимыми группами проверено, в шахматах и в Го - проекты Leela Zero. А практика у нас - критерий истины.
Нажмите, чтобы раскрыть...

@WinPooh, вот мне интересно, вы с СЮ уже много лет в хороших дружеских отношениях, насколько я знаю.
Вы неплохой программист, в том числе и шахматного движка, Шипов неплохой шахматист.
Вы или кто-нибудь ещё можете доходчиво "на пальцах" объяснить Шипову и другим любителям шахмат, как работает алгоритм движка на основе нейронной сети вроде Альфа Зеро или Лиллы?
Или вам самим это до конца не ясно?

crem · 19 дек 2018

Нестор пишет: ↑

Вы или кто-нибудь ещё можете доходчиво "на пальцах" объяснить Шипову и другим любителям шахмат, как работает алгоритм движка на основе нейронной сети вроде Альфа Зеро или Лиллы?
Нажмите, чтобы раскрыть...

Я готов объяснить, хоть вкратце, хоть подробно. Вопрос только, захочет ли Шипов слушать.

redhelicopter · 19 дек 2018

crem пишет: ↑

Я готов объяснить, хоть вкратце, хоть подробно. Вопрос только, захочет ли Шипов слушать.
Нажмите, чтобы раскрыть...

Вроде выше обещал захотеть.
В любом случае, слушает не только он

Нестор · 19 дек 2018

crem пишет: ↑

Нестор пишет: ↑

Вы или кто-нибудь ещё можете доходчиво "на пальцах" объяснить Шипову и другим любителям шахмат, как работает алгоритм движка на основе нейронной сети вроде Альфа Зеро или Лиллы?
Нажмите, чтобы раскрыть...

Я готов объяснить, хоть вкратце, хоть подробно. Вопрос только, захочет ли Шипов слушать.
Нажмите, чтобы раскрыть...

Объясните хотя бы вкратце, пожалуйста, если что-то будет не понятно, мы зададим дополнительные вопросы.
А Шипов обязательно это прочтёт, я в этом уверен.

WinPooh · 19 дек 2018

Чем играть в испорченный телефон, я ещё год назад решил отсылать всех интересующихся к двум очень толковым статьям на Хабре:

AlphaGo на пальцах
AlphaGo Zero совсем на пальцах

Они про Го-версию, но, как все, надеюсь, понимают, отличия от шахмат здесь не принципиальны.

Crest · 19 дек 2018

WinPooh пишет: ↑

Так проверено же экспериментально, что с нуля можно раскрутиться сильнее, чем с какой-то заданной принудительно функции. Двумя независимыми группами проверено, в шахматах и в Го - проекты Leela Zero. А практика у нас - критерий истины.
Нажмите, чтобы раскрыть...

Звучит парадоксально.
Мол, достигнуть академика легче с нуля, чем с уровня 10-го класса.
Двумя группами? Два - не статистика. В следующих 10-ти, при более грамотных начальных данных могут получиться иные результаты.

Crest · 19 дек 2018

redhelicopter пишет: ↑

Вопрос только где взять эти "недурные" оценочные функции? Движковые оценочные функции, мягко скажем, слабоваты, в этом легко убедиться играя с движком на минимальной глубине счета.
Нажмите, чтобы раскрыть...

И этот тезис тоже удивляет.
Значит, работали тысячи программистов над оценочными функциями в течении сорока лет - а в итоге ничего толкового не смогли сделать? Не смогли на-астолько, что лучше начинать с нулевой оценочной функции, чем с какой-то иной базовой.
Невероятно! Я-то думал, что эти программисты добились колоссального прогресса. По моим шахматным наблюдениям, современные движки, начиная с Рыбки, вполне адекватно оценивают подавляющее большинство позиций.
Полагаю, что и в открытом коде есть немало оценочных функций, которые разработчики Альфы могли использовать в своей работе. Или напрямую, или с некоторыми отсечениями - чтобы взять только бесспорную базу, без творческих примочек.

Так или иначе, с учетом возможности самосовершенствования, самообучения Альфы, она вполне может дальше развивать чужую оценочную функцию, в том числе и исправляя незметные миру недостатки.

WinPooh · 19 дек 2018

Crest пишет: ↑

WinPooh пишет: ↑

Так проверено же экспериментально, что с нуля можно раскрутиться сильнее, чем с какой-то заданной принудительно функции. Двумя независимыми группами проверено, в шахматах и в Го - проекты Leela Zero. А практика у нас - критерий истины.
Нажмите, чтобы раскрыть...

Звучит парадоксально.
Мол, достигнуть академика легче с нуля, чем с уровня 10-го класса.
Двумя группами? Два - не статистика. В следующих 10-ти, при более грамотных начальных данных могут получиться иные результаты.
Нажмите, чтобы раскрыть...

Меня вполне убеждает счёт 100 : 0, с которым версия Alpha Go Zero (обучавшаяся с нуля) выиграла тестовый матч у Alpha Go Lee (победившей Ли Седоля).
Да и в моих игрушечных опытах GreKo стабильно обучается со случайной оценки до уровня 2700 на собственных партиях с глубиной 3 полухода. А в ней даже нейросети нет
Эксперименты, конечно, проводятся разные. В Го пробуют обучать на смешанных данных, например, 30% игр людей + 70% собственных игр программы. Получаются интересные гибриды. В шахматах в прошлом сезоне TCEC выступала программа DeusEx - это Лила, обученная на партиях гроссмейстеров-людей. Но и там, и там "нулевые" версии пока играют лучше.

Кроме академика и десятиклассника, можно ещё вспомнить такую аналогию: иногда проще обучить чему-то совсем новичка, чем любителя, который поднахватался каких-то полузнаний и приобрёл трудно искоренимые вредные привычки. Как говорят почти в любом ВУЗе первокурсникам - "а теперь забудьте всё, чему вас учили в школе!"

Crest · 19 дек 2018

WinPooh пишет: ↑

Кроме академика и десятиклассника, можно ещё вспомнить такую аналогию: иногда проще обучить чему-то совсем новичка, чем любителя, который поднахватался каких-то полузнаний и приобрёл трудно искоренимые вредные привычки. Как говорят почти в любом ВУЗе первокурсникам - "а теперь забудьте всё, чему вас учили в школе!"
Нажмите, чтобы раскрыть...

Да, да, и я о том же. Выясняется, что программисты, так долго работавшие над оценочными функциями движков, фактически ничего не сделали. Ничего такого, что реально ценно и полезно для развития нового движка. Верно?
Ну, а про "забудьте, чему вас учили в школе" - это ведь просто бодрящая красивая фраза. Афоризмус.

Войти или зарегистрироваться

AlphaZero. Нейронная сеть играет в шахматы

Alhimik88 Новичок

WinPooh В.М.

sovaz1997 Учаcтник

WinPooh В.М.

Alhimik88 Новичок

Undying Учаcтник

Alhimik88 Новичок

WinPooh В.М.

Polarity Новичок

Mustitz Заслуженный

redhelicopter Старожил

Undying Учаcтник

Alhimik88 Новичок

WinPooh В.М.

Rom Старожил

Crest Админ, МГ

Undying Учаcтник

Launder Новичок

Crest Админ, МГ

Crest Админ, МГ

Undying Учаcтник

tiger Новичок

Alhimik88 Новичок

redhelicopter Старожил

WinPooh В.М.

WinPooh В.М.

Нестор консультант_ специалист по черной магии

crem Учаcтник

redhelicopter Старожил

Нестор консультант_ специалист по черной магии

WinPooh В.М.

Crest Админ, МГ

Crest Админ, МГ

WinPooh В.М.

Crest Админ, МГ

Поделиться этой страницей