AlphaZero. Нейронная сеть играет в шахматы

tiger · 3 янв 2019

просроченый_кмс пишет: ↑

Знаете, у меня ощущение что америкосы уже давно используют нейросеть в политике экономике управлении массами через сми, ну и дальше просчёт войны, и все наши реакции на их политику как 1 разряд против гросса.
Слишком глобально действуют и всё им сходит с рук, не могут люди так.
Нажмите, чтобы раскрыть...

В Америке просто чуть меньше бардака - скорее это третий разряд против пятого.

roman57 · 3 янв 2019

просроченый_кмс пишет: ↑

Знаете, у меня ощущение что америкосы уже давно используют нейросеть в политике экономике управлении массами через сми
Нажмите, чтобы раскрыть...

Вне всяких сомнений ГОСДЕП - политические ЧИТЕРЫ ...

svoitsl · 3 янв 2019

Интересно, если DeepMind решит увеличить сеть в два раза (например) , то есть до 40х512, то как быстро она это сможет сделать и какого результата достичь?
По моему мнению она это сможет сделать за 8 раз больше времени (тут возможно я не точен), то есть за не более чем 3-е суток, и даст это порядка 200-300 Эло.
А ваше мнение?

Комсюк · 4 янв 2019

svoitsl пишет: ↑

По моему мнению она это сможет сделать за 8 раз больше времени (тут возможно я не точен), то есть за не более чем 3-е суток, и даст это порядка 200-300 Эло.
А ваше мнение?
Нажмите, чтобы раскрыть...

по времени не знаю, да в принципе точность и не важна, а откуда 200 Эло?

svoitsl · 4 янв 2019

Комсюк пишет: ↑

да в принципе точность и не важна
Нажмите, чтобы раскрыть...

ну хотя бы порядок, вряд ли они будут тренировать в течение 3-х мес подряд, а про 200 Эло высосано из пальца (хотя допускаю, что и взято с потолка)

Комсюк · 4 янв 2019

про сроки не спорю, про Эло ответом удовлетворён

Undying · 4 янв 2019

svoitsl пишет: ↑

Интересно, если DeepMind решит увеличить сеть в два раза (например) , то есть до 40х512, то как быстро она это сможет сделать и какого результата достичь?
По моему мнению она это сможет сделать за 8 раз больше времени (тут возможно я не точен), то есть за не более чем 3-е суток, и даст это порядка 200-300 Эло.
А ваше мнение?
Нажмите, чтобы раскрыть...

Результат не гарантирован. Сила игры может и снизиться. Очевидно, что есть некий пороговый размер, при превышении которого рост понимания не будет компенсировать падение количества перебираемых вариантов. Насколько нынешний размер нейронной сети отличается от оптимального это вопрос. Хотя по идее в DeepMind должны были слегка его исследовать. Вряд ли нынешний размер выбран от балды, но не исключено что размер подбирали для го, а не для шахмат.

svoitsl · 4 янв 2019

Undying пишет: ↑

не будет компенсировать падение количества перебираемых вариантов
Нажмите, чтобы раскрыть...

у них об этом можно не волноваться, если уж 4 TPU выделили на игру, то могут и 16 без особых для себя потерь.
Ну а размер выбран из простого, меньше не показательно (у SF8 не выиграет), а больше нет смысла, и так очевидно что А0 сильнее всех...

Mustitz · 4 янв 2019

svoitsl пишет: ↑

у них об этом можно не волноваться, если уж 4 TPU выделили на игру, то могут и 16 без особых для себя потерь.
Нажмите, чтобы раскрыть...

Вопрос больше в том, какая сеть будет играть сильнее при одинаковом количестве TPU?

svoitsl · 4 янв 2019

Mustitz пишет: ↑

Вопрос больше в том,
Нажмите, чтобы раскрыть...

В этом вопрос больше у Лилы, а вот у A0 он меньше, если он вообще у них в этом есть.

Polarity · 16 янв 2019

Lc0 де-факто вышла в суперфинал TCEC против последней версии Stockfish. Можно сказать топ2 в рейтинге движков официально уже сейчас.

svoitsl · 17 янв 2019

Polarity пишет: ↑

Можно сказать топ2
Нажмите, чтобы раскрыть...

Так то оно так, официально, но все же знают, что с одной стороны партий не много и велик элемент случайности, а с другой все таки Lc0 по уровню игры гораздо ближе к Гудини и Комодо, чем к Стокфишу.

sovaz1997 · 17 янв 2019

svoitsl пишет: ↑

Polarity пишет: ↑

Можно сказать топ2
Нажмите, чтобы раскрыть...

Так то оно так, официально, но все же знают, что с одной стороны партий не много и велик элемент случайности, а с другой все таки Lc0 по уровню игры гораздо ближе к Гудини и Комодо, чем к Стокфишу.
Нажмите, чтобы раскрыть...

Сейчас скорее к Stockfish, чем к H/K и это показывают различные тесты.

Polarity · 18 янв 2019

Тем временем Lc0 громит Stockfish 8: https://tcec.chessdom.com/
Вроде бы первые 5 партий Lc0 играла не в полную силу, из-за каких-то проблем с охлаждением, так что первый проигрыш наверное можно не засчитывать
Также в discord написали, что практически во всех партиях, проигранных Lc0, был допущен зевок, который находили достаточно легко A/B движки. Так что будущее видимо всё-таки за гибридными движками. Гибрид из Lc0 и SF-dev может стать настоящим непобедимым монстром-мутантом.

svoitsl · 18 янв 2019

Polarity пишет: ↑

Так что будущее видимо всё-таки за гибридными движками.
Нажмите, чтобы раскрыть...

И в рамках NN не все сделано, вот что crem писал

у нас отличается архитектура сети от AlphaZero в Policy Head: у нас просто плоский вектор из 1860 возможных ходов на выходе, а у A0 матрица 8x8x76, поэтому у A0 сеть лучше понимает сходные ходы из разных частей доски (и я дуамаю, что это должно очень сильно помочь с тактикой).

В статье DeepMind говорили что они пробовали и плоский вектор тоже, и так оно работает не сильно хуже. Я подозреваю, что их "не сильно хуже" — это и есть уровень Lc0. На этой неделе народ потестировал тренировку с новым policy head, и графики многообещающи!
Нажмите, чтобы раскрыть...

Так что для тест50 уже есть некоторые идеи и некоторый задел.
Кроме того, наверняка часть параметров можно было бы и улучшить, пока они в основном взяты от A0

Undying · 18 янв 2019

Polarity пишет: ↑

Также в discord написали, что практически во всех партиях, проигранных Lc0, был допущен зевок, который находили достаточно легко A/B движки. Так что будущее видимо всё-таки за гибридными движками. Гибрид из Lc0 и SF-dev может стать настоящим непобедимым монстром-мутантом.
Нажмите, чтобы раскрыть...

Так и A/B движки зевают. Вот пример:

На 11 ходу Стокфиш радостно забрал пешку и считал что у него все хорошо. Пока Лила не сделала три нуля, тут Стокфиш что-то начал подозревать. В миттельшпиле непонятно как женить АБ движок и нейронный. Есть свои сильные и слабые стороны, как определить кто прав? Вот в эндшпилях (особенно не многофигурных) может быть гибрид имеет смысл, потому что там АБ немного сильнее играют и намного адекватнее оценивают.

KEV81 · 18 янв 2019

Polarity пишет: ↑

Тем временем Lc0 громит Stockfish 8: .
Нажмите, чтобы раскрыть...

почему не Стокфиш 6?

—- добавлено: 18 янв 2019 —-

Undying пишет: ↑

Так и A/B движки зевают.
Нажмите, чтобы раскрыть...

что за движки такие?

Polarity · 18 янв 2019

Undying пишет: ↑

В миттельшпиле непонятно как женить АБ движок и нейронный. Есть свои сильные и слабые стороны, как определить кто прав? Вот в эндшпилях (особенно не многофигурных) может быть гибрид имеет смысл, потому что там АБ немного сильнее играют и намного адекватнее оценивают.
Нажмите, чтобы раскрыть...

У меня сложилось впечатление, что люди, которые вглядываются в графики оценок SF и Lc0 могут хорошо предсказывать исход матча.
Самое простое решение, которое напрашивается, может быть например таким. SF хорошо видит тактику. Пусть Lc0 предлагает ходы, и если SF не видит тактических просчётов, то этот ход и выбирать. Есс-но можно накрутить более сложные эвристики.

sovaz1997 · 18 янв 2019

KEV81 пишет: ↑

Polarity пишет: ↑

Тем временем Lc0 громит Stockfish 8: .
Нажмите, чтобы раскрыть...

почему не Стокфиш 6?

—- добавлено: 18 янв 2019 —-

Undying пишет: ↑

Так и A/B движки зевают.
Нажмите, чтобы раскрыть...

что за движки такие?
Нажмите, чтобы раскрыть...

Потому, что это приближение к симуляции матча DeepMind. Против SF Dev будет Lc0 в финале играть.

WinPooh · 18 янв 2019

Polarity пишет: ↑

Самое простое решение, которое напрашивается, может быть например таким. SF хорошо видит тактику. Пусть Lc0 предлагает ходы, и если SF не видит тактических просчётов, то этот ход и выбирать. Есс-но можно накрутить более сложные эвристики.
Нажмите, чтобы раскрыть...

Не поможет в случаях, когда Лила хочет перейти в ничейный эндшпиль. Например, в разноцвете оценка запросто может быть +1.0, а на доске стоять битая ничья. Размен последней пары тяжёлых фигур Стокфиш тактическим просчётом считать не будет...

Undying · 18 янв 2019

Polarity пишет: ↑

У меня сложилось впечатление, что люди, которые вглядываются в графики оценок SF и Lc0 могут хорошо предсказывать исход матча.
Нажмите, чтобы раскрыть...

Люди не только на оценку смотрят, но и на позицию. Например, если позиция открытая или немногофигурный эндшпиль, а Стокфиш рисует нули, будет ничья. Чтобы там Лила по этому поводу не думала. А если сложная стратегическая позиция, то наоборот нули Стокфиша мало что значат.

Polarity · 18 янв 2019

WinPooh пишет: ↑

Не поможет в случаях, когда Лила хочет перейти в ничейный эндшпиль. Например, в разноцвете оценка запросто может быть +1.0, а на доске стоять битая ничья. Размен последней пары тяжёлых фигур Стокфиш тактическим просчётом считать не будет...
Нажмите, чтобы раскрыть...

Задача я как понимаю, проигрывать меньше. Если Стокфиш считает, что Лила проигрывает из-за какого-то хода, то можно просто запретить этот ход. А во всех остальных случаях безоговорочно доверять Лиле.
Конечно это не идеальное правило, но кмк даст значительное усиление.

sovaz1997 · 18 янв 2019

Надо проверять тогда уж так: если оценка ab-движка >= +5, включать его, если <= -5 после хода Lc0, то отменять ход Lc0 и делать ход самостоятельно, если таковой есть. Но мне кажется, что уже скоро и это не поможет, т. к. Lc0 может стать сильнее и в тактике в том числе.

KEV81 · 18 янв 2019

sovaz1997 пишет: ↑

Надо проверять тогда уж так: если оценка ab-движка >= +5, включать его, если <= -5 после хода Lc0, то отменять ход Lc0 и делать ход самостоятельно, если таковой есть. Но мне кажется, что уже скоро и это не поможет, т. к. Lc0 может стать сильнее и в тактике в том числе.
Нажмите, чтобы раскрыть...

надо просто подробнее исследовать ходы-кандидаты обоих подходов к поиску.

WinPooh · 18 янв 2019

Конечно, идейно правильным подходом будет воспитать ещё одну сеть, которая будет глядеть на позицию и говорить, кому её отдать: Стоку или lc0. Непонятно только, как размечать данные для её обучения.

sovaz1997 · 18 янв 2019

Думаю, когда сеть обгонит SF пунктов на 100, можно будет выявить ее слабые места (уверен, такие будут). Но таких мест может стать намного меньше, чем сейчас. Например, вряд ли реализацию преимущества с +10 Lc0 будет делать лучше, чем SF. И здесь уже в дело действительно вступает скорость перебора. Хоть и у Lc0 самое точное дерево поиска в мире, пускай и MCTS

В чем проблема гибрида Stockfish и Lc0: если его использовать в финале TCEC против Stockfish, то это будет выглядеть не совсем честно)
Да и я уверен, что SF сам станет "гибридом" не в плане совмещения с Lc0, а в плане собственных идей.

KEV81 · 18 янв 2019

WinPooh пишет: ↑

Конечно, идейно правильным подходом будет воспитать ещё одну сеть, которая будет глядеть на позицию и говорить, кому её отдать: Стоку или lc0. Непонятно только, как размечать данные для её обучения.
Нажмите, чтобы раскрыть...

Типа лобных долей в мозге которые контролируют действия лимбической системы?

Комсюк · 25 янв 2019

похоже на биржевую сводку от Любителя_ (найдите, не пожалеете)

WinPooh · 26 янв 2019

Тестирую сейчас на своём компьютере CPU-only версию Лилы с дистиллированной сеткой 11258-112x9se. Рейтинг получается в районе 2900, при калибровке Fruit 2.1 = 2700.
Очень даже неплохо, летом прошлого года версии без GPU у меня играли не сильнее 2400-2500.

KEV81 · 26 янв 2019

WinPooh пишет: ↑

Тестирую сейчас на своём компьютере CPU-only версию Лилы с дистиллированной сеткой 11258-112x9se. Рейтинг получается в районе 2900, при калибровке Fruit 2.1 = 2700.
Очень даже неплохо, летом прошлого года версии без GPU у меня играли не сильнее 2400-2500.
Нажмите, чтобы раскрыть...

Мне кажется рано для тестов, кривая еще не стала прямой.

nn · 13 мар 2019

Kingcrusher, который прокомментировал многие партии Лилы, совместно с авторами книги об Alpha Zero разбирает одну из игр AZ.

—- добавлено: 13 мар 2019 —-

Кстати, несколько недель назад была новость, что DeepMind "решила" задачу сворачивания белков. Решила в смысле, что выступила в конкурсе по предсказанию получающейся структуры значительно лучше, чем научные коллективы ведущих университетов мира.

Комсюк · 4 май 2019

Canny AI is an early stage startup in Tel-Aviv, Israel. The company’s two founders are both ex-Israeli Army members. Canny AI is launching their VDR™(Video Dialogue Replacement) process to replace the dialogue in any footage. To demonstrate the approach, they released the video above which shows world leaders singing to John Lennon's ‘Imagine’. No copyright infringement intended. Video is solely for the purposes of artistic expression and entertainment only.
Нажмите, чтобы раскрыть...

http://kasparovchess.crestbook.com/threads/7122/page-10#post-879769

tiger · 24 май 2019

Недавно обнаружил статью про DeepChess. Она в свое время затмилась очередным бульдозером от гугла (AlphaZero), а там интересная идея. Не переводить позицию в число вообще. Вместо этого тренировать сиамскую сеть на паре позиций, и в альфа бета поиске держать сами позиции для сравнения, а не числа. По-моему хорошая идея так как число не отражает сути все равно, и плюс к тому лишь путает шахматистов.

WinPooh · 24 май 2019

tiger пишет: ↑

Недавно обнаружил статью про DeepChess. Она в свое время затмилась очередным бульдозером от гугла (AlphaZero), а там интересная идея. Не переводить позицию в число вообще. Вместо этого тренировать сиамскую сеть на паре позиций, и в альфа бета поиске держать сами позиции для сравнения, а не числа. По-моему хорошая идея так как число не отражает сути все равно, и плюс к тому лишь путает шахматистов.
Нажмите, чтобы раскрыть...

Каждое отдельное слово, и даже большинство их сочетаний в вашем предложении мне вполне понятны. А вот общий смысл уловить никак не могу.
Не поясните алгоритм подробнее, пожалуйста? Лучше всего на каком-нибудь простом примере..

tiger · 24 май 2019

WinPooh пишет: ↑

tiger пишет: ↑

Недавно обнаружил статью про DeepChess. Она в свое время затмилась очередным бульдозером от гугла (AlphaZero), а там интересная идея. Не переводить позицию в число вообще. Вместо этого тренировать сиамскую сеть на паре позиций, и в альфа бета поиске держать сами позиции для сравнения, а не числа. По-моему хорошая идея так как число не отражает сути все равно, и плюс к тому лишь путает шахматистов.
Нажмите, чтобы раскрыть...

Каждое отдельное слово, и даже большинство их сочетаний в вашем предложении мне вполне понятны. А вот общий смысл уловить никак не могу.
Не поясните алгоритм подробнее, пожалуйста? Лучше всего на каком-нибудь простом примере..
Нажмите, чтобы раскрыть...

Ок, вот мое (субъективное) понимание:

Сама сеть такова. На вход подается упорядоченная пара позиций (p, q), где мы знаем, что "p" лучше "q" или "q" лучше "p". На выходе сети пара неотрицательных чисел в сумме, дающих 1. Сеть тренируется давать на выходе упорядоченную пару (1, 0), если "p" лучше "q" и (0, 1), если "q" лучше "p".

Надо еще сказать, что значит "мы знаем какая позиция лучше". Они взяли пары позиций из компьютерной базы, так что в партии откуда взята лучшая из двух белые выиграли,
a откуда худшая из двух - белые проиграли. Это конечно грубо, зато быстро можно наплодить много пар.

Во время поиска там где раньше были числа альфа и бета теперь запоминается пара позиций "p1" (альфа) и "p2" (бета).
В каждый момент когда классический алгоритм альфа бета сравнивает два числа теперь он подает в уже натренированную сеть саму пару позиций. Например, если текущая
позиция "q" при сравнении с "p1", то есть пара (p1, q), дает на выходе сети пару (0.51, 0.49), то происходит отсечение снизу по той же логике, что и в классическом альфа бета. Аналогично, если (p2, q) дает (0.49, 0.51), то отсечение сверху. Сравнения листьев дерева идет по той же схеме: например, если есть три листа, сравниваем 1ый и 2ой, а третий с победителем этой пары.

Главная разница - ни в какой момент не нужно знать числовую оценку одной позиции.

Войти или зарегистрироваться

AlphaZero. Нейронная сеть играет в шахматы

tiger Новичок

roman57 Учаcтник

svoitsl Учаcтник

Комсюк народный модератор

svoitsl Учаcтник

Комсюк народный модератор

Undying Учаcтник

svoitsl Учаcтник

Mustitz Заслуженный

svoitsl Учаcтник

Polarity Новичок

svoitsl Учаcтник

sovaz1997 Учаcтник

Polarity Новичок

svoitsl Учаcтник

Undying Учаcтник

KEV81 Учаcтник

Polarity Новичок

sovaz1997 Учаcтник

WinPooh В.М.

Undying Учаcтник

Polarity Новичок

sovaz1997 Учаcтник

KEV81 Учаcтник

WinPooh В.М.

sovaz1997 Учаcтник

KEV81 Учаcтник

Комсюк народный модератор

WinPooh В.М.

KEV81 Учаcтник

nn Старожил

Комсюк народный модератор

tiger Новичок

WinPooh В.М.

tiger Новичок

Поделиться этой страницей