AlphaZero. Нейронная сеть играет в шахматы

nn · 28 ноя 2018

Комсюк пишет: ↑

redhelicopter пишет: ↑

Что, правда А0 не видит выигрыш с Bh4 в 6-й партии?
Нажмите, чтобы раскрыть...

Что она там видит за минуту, неизвестно, но в комментариях об Сh4 ни гу-гу
Нажмите, чтобы раскрыть...

Видимо, весьма похоже на Лилу, в эндшпиле не очень играет. Здесь есть еще несколько позиций со сравнением со Стокфиш.

Но они еще продолжают работать. Наверно, будет новая версия и статья. Думаю, сегодняшняя Стокфиш даже в условиях того матча А0-СФ8 уже на уровне той А0, так что интересно, что они достигнут. И будет ли тестирование теперь при нормальных условиях.

Вот интервью Хассабиса

sovaz1997 · 28 ноя 2018

Это будет очень интересно. Я действительно верб, что DeepMind способны в честных условиях победить последнюю версию SFю Просто тогда у них такой цели не было. Сейчас же у них был еще один год, за который они могли не только улучшить сеть, но и придумать что-то еще, возможно. AB-движки далеко не идеальны и они слабы на длинные последовательности тихих ходов. На самом деле, все AB-движки имеют с этим проблемы (тихие ходы и стратегия). И нейронные сети могут решить и уже успешно решают эти проблемы.

Polarity · 30 ноя 2018

Rom пишет: ↑

И, чтобы уж не скатываться совсем в оффтоп. Демис Хассабис развил определенную активность в последнее время, кажется что-то наклевывается в отношении Альфа Зеро.
Нажмите, чтобы раскрыть...

Вполне возможно. 3 декабря начинается конференция NIPS, главная конференция по машинному обучению. Alpha Zero был представлен именно на ней ровно год назад.

FlashNeo · 30 ноя 2018

Долго смотрел в турнирах на Лилу. Разочаровался.
К сожалению, в ближайшее время нейродвижки неспособны в примерно равных условиях победить стокфиш (я думал, что способны, и уже к зиме будут наравне), их удел - второе-четвертое место с комодо и гудини.

Ну а прошлый матч А0 со стоком всерьез воспринимать нельзя. Дай Лиле такое же железо и обрежь стоку возможности до такого уровня - результат будет примерно то же. В районе +22 -3 = 75 в пользу Лилы.
И то даже в таких условиях сток несколько раз дернул А0 в сицилианке. И будет бить и бить в этом дебюте - он плох для нейродвижков.

Undying · 30 ноя 2018

FlashNeo пишет: ↑

Долго смотрел в турнирах на Лилу. Разочаровался.
К сожалению, в ближайшее время нейродвижки неспособны в примерно равных условиях победить стокфиш (я думал, что способны, и уже к зиме будут наравне), их удел - второе-четвертое место с комодо и гудини.
Нажмите, чтобы раскрыть...

Так всю осень одна и та же версия Лилы играла. Если изменения и были, то косметические. Вот натренируют новую сетку, тогда будет видно, есть прогресс или нет.

FlashNeo · 30 ноя 2018

Undying пишет: ↑

Так всю осень одна и та же версия Лилы играла. Если изменения и были, то косметические. Вот натренируют новую сетку, тогда будет видно, есть прогресс или нет.
Нажмите, чтобы раскрыть...

Ну во-первых не одна версия, сети совершенно разные были (размер один).
Они сейчас увеличивают размер сети, но пока результаты неутешительные. Прирост рейтинга при пересчете на фидешные ЭЛО (а не внутренние) при играх со старыми сетями не выходит за статистическую погрешность.

Boroda · 30 ноя 2018

FlashNeo пишет: ↑

К сожалению, в ближайшее время нейродвижки неспособны в примерно равных условиях победить стокфиш (я думал, что способны, и уже к зиме будут наравне), их удел - второе-четвертое место с комодо и гудини.
Нажмите, чтобы раскрыть...

Ну вроде Хасабис говорит, что А02, уже сильнее нынешнего стока и играет примерно 3600Эло. Это конечно если верить на слово. Какое там правдо железе неизвестно.

FlashNeo · 30 ноя 2018

Boroda пишет: ↑

Ну вроде Хасабис говорит, что А02, уже сильнее нынешнего стока и играет примерно 3600Эло. Это конечно если верить на слово. Какое там правдо железе неизвестно.
Нажмите, чтобы раскрыть...

Говорить он может что угодно, но они дали ублюдочные условия Стоку в прошлый раз, и выдали это за великий прорыв.
Если посадить сток на домашний комп, а какому-нибудь Васпу, Лазеру или чему-то там еще дать мощности суперкомпа, то Сток тоже будет слабее.
Так и здесь...

Boroda · 30 ноя 2018

FlashNeo пишет: ↑

Они сейчас увеличивают размер сети, но пока результаты неутешительные.
Нажмите, чтобы раскрыть...

Где про это можно прочитать?

FlashNeo · 30 ноя 2018

Boroda пишет: ↑

FlashNeo пишет: ↑

Они сейчас увеличивают размер сети, но пока результаты неутешительные.
Нажмите, чтобы раскрыть...

Где про это можно прочитать?
Нажмите, чтобы раскрыть...

http://lczero.org/ - сайт

Дискорд с обсуждениями
https://discordapp.com/invite/pKujYxD

Тема на форчессе (раньше там можно было выловить разраба crem, ща вроде уже нет: он и тут бывал, впрочем)

http://forchess.ru/showthread.php?t=906
Последние страниц 10 можно почитать - стагнация в развитии, увы.

Ну и в первом сообщении ссылки на буржуйские форумы с обсуждением лейлы.

Undying · 30 ноя 2018

FlashNeo пишет: ↑

Ну во-первых не одна версия, сети совершенно разные были (размер один).
Они сейчас увеличивают размер сети, но пока результаты неутешительные. Прирост рейтинга при пересчете на фидешные ЭЛО (а не внутренние) при играх со старыми сетями не выходит за статистическую погрешность.
Нажмите, чтобы раскрыть...

Насколько я слышал играет до сих пор первая версия. Они запускали с нуля обучение второй версии, но та особого прогресса не показала. После этого они с нуля запустили обучение третьей версии и у нее в начале обучения был заметный прогресс.

Увеличение сети не факт, что хорошая идея. Во-первых, для обучения потребуется намного больше партий. А у Лилы с ресурсами для обучения проблема. А во-вторых, скорость перебора вариантов во время игры упадет. И не факт, что лучшее понимание окупит замедление перебора.

WinPooh · 30 ноя 2018

FlashNeo пишет: ↑

http://forchess.ru/showthread.php?t=906
Последние страниц 10 можно почитать - стагнация в развитии, увы.
Нажмите, чтобы раскрыть...

Интересно, что разработчики гошной Лилы тоже жалуются на стагнацию. Хотя рейтинг, вроде бы, растёт...

Mustitz · 30 ноя 2018

Ну... все жалуются на стагнацию, это глобальное свойство нейрсетей. До какого-то предела всё хорошо, а дальше стагнация. Повышает размерность — переобучение.

svoitsl · 30 ноя 2018

FlashNeo пишет: ↑

Ну во-первых не одна версия, сети совершенно разные были (размер один).
Нажмите, чтобы раскрыть...

Ну на настоящее время есть только две сети,это 11248 и 11258, других вроде нет, но и движок был 0.18 стал 0.19, что тоже чуток Эло добавило

FlashNeo пишет: ↑

Они сейчас увеличивают размер сети, но пока результаты неутешительные
Нажмите, чтобы раскрыть...

Вроде бы эти эксперименты если и были то результат не обнародован. Всё таки сеть например 40х384 довольно не просто довести до нормального уровня. Да и смысла нет никакого,до сих пор нет внятного способа обучить сети и поменьше с заранее предсказуемым результатом.
Насчет стагнации, то есть ещё козырь у сети 3х в снижении LR и ещё можно 15-20 млн игр для обучения использовать, но все равно нет уверенности в заранее предсказуемом результате

crem · 30 ноя 2018

FlashNeo пишет: ↑

Undying пишет: ↑

Так всю осень одна и та же версия Лилы играла. Если изменения и были, то косметические. Вот натренируют новую сетку, тогда будет видно, есть прогресс или нет.
Нажмите, чтобы раскрыть...

Ну во-первых не одна версия, сети совершенно разные были (размер один).
Они сейчас увеличивают размер сети, но пока результаты неутешительные. Прирост рейтинга при пересчете на фидешные ЭЛО (а не внутренние) при играх со старыми сетями не выходит за статистическую погрешность.
Нажмите, чтобы раскрыть...

Во всех CCC играла (и до сих пор играет) одна и та же сеть 11248, натренированная аж 30 августа. Во всех играх TCEC после этой даты тоже играет эта сеть.
После этого тренировалась test20, которая оказалась хуже.
Сейчас test30 подаёт неплохие надежды. Там в частности используется policy sharpening, который казался свежей идеей, но три дня назад внезапно обнаружилось, что deepmind его тоже использовал (вроде бы, если мы интерпретируем статью правильно). Короче, продолжают находиться детали, которые у нас не так как у AlphaZero, и это хорошо.

В версии v0.20 будут изменения, которые позволят поддерживать разные варианты архитектуры нейросети. Ожидается, что из-за этого следующая попытка (скорее всего test40, но может оказаться что и test50) будет сильнее. Главным образом из-за SE сети, которая говорят хорошо себя показала в тестах.
Ну и ещё возможно добавим несколько константных плоскостей на вход нейросети: координатные (чтоб нейросеть лучше "видела" где относительно краёв доски находятся фигуры) и "шашечную" с разными значениями для чёрных и белых клеток (чтобы легче было различать разноцветных слонов).
И ещё попробуем добавить отдельную вероятность победы/поражения/ничьи на выходе из нейросети, но это наверняка не в test40.

Все сети (test10, test20, test30 и планирующаяся test40) одного и того же размера.

Polarity · 1 дек 2018

Mustitz пишет: ↑

Ну... все жалуются на стагнацию, это глобальное свойство нейрсетей. До какого-то предела всё хорошо, а дальше стагнация. Повышает размерность — переобучение.
Нажмите, чтобы раскрыть...

Переобучение возникает когда данных мало. Лила может генерировать новые данные хоть целую вечность, только дай ресурсов.

Undying · 1 дек 2018

crem пишет: ↑

Сейчас test30 подаёт неплохие надежды. Там в частности используется policy sharpening, который казался свежей идеей, но три дня назад внезапно обнаружилось, что deepmind его тоже использовал (вроде бы, если мы интерпретируем статью правильно). Короче, продолжают находиться детали, которые у нас не так как у AlphaZero, и это хорошо.
Нажмите, чтобы раскрыть...

А можно расшифровать, что такое "policy sharpening"? Гугл тут бессилен.

Mustitz · 1 дек 2018

Polarity пишет: ↑

Лила может генерировать новые данные хоть целую вечность, только дай ресурсов.
Нажмите, чтобы раскрыть...

А где гарантия, что данные будут оптимальны для обучения? Какие-то классы позиций могут остаться за бортом, могут быть перекосы в данных, когда один тип будет превуалировать, ... Эффект переобучения проявляется даже в распознавании изображений, когда мы можем генерировать примеры бесконечно (растянул, сжал, повернул, ...)

Polarity · 1 дек 2018

Mustitz пишет: ↑

Polarity пишет: ↑

Лила может генерировать новые данные хоть целую вечность, только дай ресурсов.
Нажмите, чтобы раскрыть...

А где гарантия, что данные будут оптимальны для обучения? Какие-то классы позиций могут остаться за бортом, могут быть перекосы в данных, когда один тип будет превуалировать, ... Эффект переобучения проявляется даже в распознавании изображений, когда мы можем генерировать примеры бесконечно (растянул, сжал, повернул, ...)
Нажмите, чтобы раскрыть...

Лила учится играть на своих играх и поэтому постоянно улучшает генератор данных, на которых она учится.
Если бы был хороший генератор картинок с кошками, то это означало бы бесконечное количество данных и отсутствие переобучения в распознавании котиков. Однако это очень сложная задача, гораздо проще обучить обычный классификатор. Хотя даже очень плохой генератор (растяжения, сжатия, повороты) обычно немного улучшает классификатор, за счёт роста эффективного размера выборки.

Sergey1983 · 5 дек 2018

Вовсе не факт.Что если при обучении будет слишком низкая случайность хода?Лила будет пробовать лишь ходы слабо отличающиеся от лучшего на данный момент и это станет её слабостью.
Одним словом важны ещё правильные параметры обучения

Polarity · 6 дек 2018

Значит будет долгая сходимость. Переобучение - это вполне конкретная штука, а не просто ситуация, когда модель работает плохо.

WinPooh · 6 дек 2018

WinPooh пишет: ↑

FlashNeo пишет: ↑

http://forchess.ru/showthread.php?t=906
Последние страниц 10 можно почитать - стагнация в развитии, увы.
Нажмите, чтобы раскрыть...

Интересно, что разработчики гошной Лилы тоже жалуются на стагнацию. Хотя рейтинг, вроде бы, растёт...
Нажмите, чтобы раскрыть...

Собственно, вот:
so basically leela zero has made 0 progress in the last 4months since the last 15 block 157 net

Mustitz · 7 дек 2018

Подоспел новый матч против Stockfish 10 (правда снова по правилам DeepMind). Перевес теперь уже +155 -6 =839
https://www.chess.com/news/view/updated-alphazero-crushes-stockfish-in-new-1-000-game-match

Ну и с книгой я не разобрался. Вроде у Stockfish была сильная книга, но в то же время упоминается и TCEC 2016 книжка...

—- добавлено: 7 дек 2018 —-

svoitsl · 7 дек 2018

Mustitz пишет: ↑

Подоспел новый матч против Stockfish 10
Нажмите, чтобы раскрыть...

Интересно было бы прочитать статью,вам я вижу, это пока не удалось
1 Матч вроде игрался с SF8 в начале года
2 контроль был 3 час +15" на ход
3 у SF была какая то книжка

sovaz1997 · 7 дек 2018

Это, кстати не матч против Stockfish 10. Это матч против древнего Stockfish 8! Опять! 52 пункта перевес всего лишь над SF 8. Хотя, да, здесь нет линейности ЭЛО в матчах с NN движками, но все же. Почему не против, хотя бы, SF 9?

svoitsl · 7 дек 2018

svoitsl пишет: ↑

3 у SF была какая то книжка
Нажмите, чтобы раскрыть...

да, вроде книжка была (в тех случаях когда она была) не "какая то", а та что на TCEC 2016 была (а может и сейчас есть), то есть движки видимо играли позицию не сначала, а после окончания заданного дебюта,если это так, то это для A0 тоже не простой случай , и это отчасти объяснят низкий результат

sovaz1997 · 7 дек 2018

Здесь намного больше игр AZ: https://deepmind.com/research/alphago/alphazero-resources/

sovaz1997 · 7 дек 2018

Результаты с книгой и без книги.

Код:

Program                          Elo    +   -   Games   Score   Av.Op.  Draws

1 AlphaZero                     : 2416   35  33   100    54.5 %   2384   75.0 %
2 Stockfish 8                   : 2384   33  35   100    45.5 %   2416   75.0 %

+ 17,= 75,- 8. Это с дебютами TCEC. Против SF 8, ага.

А это без дебютов!

Код:

Program                           Elo    +   -   Games   Score   Av.Op.  Draws

1 AlphaZero                      : 2452   38  35   110    64.5 %   2348   65.5 %
2 Stockfish 8                    : 2348   35  38   110    35.5 %   2452   65.5 %

+ 35,= 72,- 3

Комсюк · 7 дек 2018

Vizvezdenec на Форе пишет:

И вообще, какое железо SF давали-то?
Если Гугл не может достать ничего сильнее того самого сервера с 70 mnps, пусть попросят у noobpwnftw машину в 384 потока, он вряд ли для такого дела её зажмёт. А то мало ли, у дипмайнда денег нет, всегда есть владелец датацентра китайского.
Нажмите, чтобы раскрыть...

Вяленый форева

FlashNeo · 7 дек 2018

svoitsl пишет: ↑

Интересно было бы прочитать статью,вам я вижу, это пока не удалось
1 Матч вроде игрался с SF8 в начале года
2 контроль был 3 час +15" на ход
3 у SF была какая то книжка
Нажмите, чтобы раскрыть...

Великий прогресс, даже куцый и обрезанный сток 8 в отдельных партиях бьет AZ.
Видимо, результаты встречи с нормальный десятым стоком показывать просто стыдно - он устраивает великому техническому прорыву показательную порку.

Кстати, Сток 10 бьет Комодо и Гудини с гораааздо большим отрывом, чем их хвастливый "crush". 57% набранных очков - ну можно было бы взять сток 7 и получить побольше

WinPooh · 7 дек 2018

Matthew Lai пишет:

Unfortunately we weren't able to get our time machine up and running before we finished writing the paper in order to test against engines that hadn't been released yet. But don't worry, we are working hard on that!
Нажмите, чтобы раскрыть...

http://talkchess.com/forum3/viewtopic.php?f=2&t=69175&start=10

sovaz1997 · 7 дек 2018

В Январе уже были явные намеки на скорый выход SF 9 и я не знаю, почему они не хотели использовать Dev-версию. Скорее всего, результат бы просто не вышел за пределы погрешности за разумное время))

crem · 7 дек 2018

sovaz1997 пишет: ↑

В Январе уже были явные намеки на скорый выход SF 9 и я не знаю, почему они не хотели использовать Dev-версию. Скорее всего, результат бы просто не вышел за пределы погрешности за разумное время))
Нажмите, чтобы раскрыть...

Они использовали dev версию по состоянию на 13 января.
Вдобавок к stockfish 8. Там отдельная (очень похожая на sf8) статистика упоминается.

FlashNeo · 7 дек 2018

crem пишет: ↑

Они использовали dev версию по состоянию на 13 января.
Вдобавок к stockfish 8. Там отдельная (очень похожая на sf8) статистика упоминается.
Нажмите, чтобы раскрыть...

Статистика очень похожая, "уверенно выиграл" но мы ее вам не покажем!
Какой результат?
Сколько партий?
Какие цифры?
Какие еще матчи сыграны?
Неужели сложно написать 3 цифры?

Может там что-то вроде +13 -12 = 175, это технически тоже победа!

Цифр нет, зато красивые столбики. А на деле - пшик, который схавали на реддите, но крайне скептично восприняли на чесскоме.

WinPooh · 7 дек 2018

FlashNeo пишет: ↑

Цифр нет, зато красивые столбики. А на деле - пшик, который схавали на реддите, но крайне скептично восприняли на чесскоме.
Нажмите, чтобы раскрыть...

Да неважно, какие там цифры. Ценность работы ДипМайнд не в этом, они не в написании движков для TCEC соревнуются.
Если бы не прошлогодний "пшик", например - где была бы нынешняя хайповая Лила, содравшая алгоритмы AZ чуть менее, чем полностью? Да не было бы её, от слова вообще.

Войти или зарегистрироваться

AlphaZero. Нейронная сеть играет в шахматы

nn Старожил

sovaz1997 Учаcтник

Polarity Новичок

FlashNeo Учаcтник

Undying Учаcтник

FlashNeo Учаcтник

Boroda Новичок

FlashNeo Учаcтник

Boroda Новичок

FlashNeo Учаcтник

Undying Учаcтник

WinPooh В.М.

Mustitz Заслуженный

svoitsl Учаcтник

crem Учаcтник

Polarity Новичок

Undying Учаcтник

Mustitz Заслуженный

Polarity Новичок

Sergey1983 Учаcтник

Polarity Новичок

WinPooh В.М.

Mustitz Заслуженный

svoitsl Учаcтник

sovaz1997 Учаcтник

svoitsl Учаcтник

sovaz1997 Учаcтник

sovaz1997 Учаcтник

Комсюк народный модератор

FlashNeo Учаcтник

WinPooh В.М.

sovaz1997 Учаcтник

crem Учаcтник

FlashNeo Учаcтник

WinPooh В.М.

Поделиться этой страницей