AlphaZero. Нейронная сеть играет в шахматы

Тема в разделе "Машинное отделение", создана пользователем grizly, 6 дек 2017.

  1. Rom Учаcтник

    • Участник
    Рег.:
    12.02.2012
    Сообщения:
    538
    Симпатии:
    197
    Репутация:
    21
    Оффлайн
    Теперь я понимаю, почему авторы Альфа Зеро старались не использовать стандартные контроли времени.

    106. f4??


  2. pavelgttfj8 Учаcтник

    • Участник
    Рег.:
    07.12.2017
    Сообщения:
    140
    Симпатии:
    47
    Репутация:
    2
    Оффлайн
    Им наверное вообще лень было писать тайм-менеджер, они же не для турниров создавали А0. А в Лиле очевидно он не идеален
  3. Rom Учаcтник

    • Участник
    Рег.:
    12.02.2012
    Сообщения:
    538
    Симпатии:
    197
    Репутация:
    21
    Оффлайн
    Идеален-не идеален, а в затянувшихся окончаниях всё равно придётся играть на добавлении. У обычных движков в TCEC (не топов), кстати, такие проколы тоже случались, но гораздо реже.

    P.S. Не зря народ в чате вспоминал известную партию Накамуры против Рыбы на сервере ICC. В той партии Накамура, играя в блиц без добавления времени, и используя pre-move, сначала заставил Рыбку играть на микросекундах, чем низвёл её до уровня третьеразрядника, а затем легко обыграл.
  4. Mustitz Заслуженный

    • Заслуженный
    • Участник
    Рег.:
    30.09.2006
    Сообщения:
    2.917
    Симпатии:
    361
    Репутация:
    21
    Адрес:
    Киев
    Оффлайн
    Ну... стиль игры программы, имхо, в большей степени характеризуется алгоритмом MCTS, чем нейросетью. Мой опыт применения MCTS в шашках даёт достаточно человечную (имхо) игру при полном рандоме в роллауте.

    Опять же, не вижу необходимости в том, чтобы правильный ответ был наилучшим. В целом для каждого хода нам надо иметь достаточно болшой набор позиций, где бы этот ход был заслуживающим внимания.
  5. Polarity Новичок

    • Новичок
    Рег.:
    23.04.2018
    Сообщения:
    77
    Симпатии:
    17
    Репутация:
    0
    Оффлайн
    Как мне кажется, на практике можно условно сказать либо "вот это программа сильная, надо предсказывать нейронкой её ходы", либо "вот эта программа оценивает хорошо, поэтому учим оценивать так же хорошо, а из оценки можно вывести наилучший ход".

    Я не умею чётко объяснять, почему плохие игры без какого-то достаточно хорошего сигнала не годятся. По сути, самое толковое что можно извлечь из таких игр - это результат. Но я сомневаюсь, что этой информации достаточно, для того чтобы выучилось что-то приличное.

    Гораздо вероятней выглядит гипотеза, что ASilver просто скачал последние игры Lc0, и запустил скрипты для обучения маленькой нейросети. Что кстати уже проделывали некоторые энтузиасты в дискорде и до него.
  6. Mustitz Заслуженный

    • Заслуженный
    • Участник
    Рег.:
    30.09.2006
    Сообщения:
    2.917
    Симпатии:
    361
    Репутация:
    21
    Адрес:
    Киев
    Оффлайн
    Ну... ИМХО, задача нейросети выдавать не сколько чтобы выдавать лучший ход, а в том, чтобы не отсекать заслуживающие внимания. Потому как за нейросетью стоит MCTS, который при помощи перебора сам разберёться, какой ход хороший а какой плохой в данных конкретных обстоятельтсвах. Предположим, что есть некоторая позиция
    Screenshot from 2018-08-06 11-14-34.png
    Является ли тут ход 10... Bxh2+ наилучшим? Для нейросети ответить на этот вопрос без крайне сложно (даже невозможно), но ей это и не нужно — главное включить этот ход в список ходов-кандидатов.
  7. Polarity Новичок

    • Новичок
    Рег.:
    23.04.2018
    Сообщения:
    77
    Симпатии:
    17
    Репутация:
    0
    Оффлайн
    Думаю, качество игры будет от этого заметно страдать. Как говорится, мусор на входе - мусор на выходе.
    Ах да, если брать этот подход с кандидатами, то ещё для lc0 нужно откуда-то взять Value Head, чтобы оценить позицию после MCTS симуляций.
    Как ни крути, вопросов больше чем ответов. Причём попытки что-нибудь разъяснить, как правило, порождают ещё больше вопросов :)
  8. Polarity Новичок

    • Новичок
    Рег.:
    23.04.2018
    Сообщения:
    77
    Симпатии:
    17
    Репутация:
    0
    Оффлайн
    Интересный матч

  9. pavelgttfj8 Учаcтник

    • Участник
    Рег.:
    07.12.2017
    Сообщения:
    140
    Симпатии:
    47
    Репутация:
    2
    Оффлайн
    Нормально так DeusX Wasp раскатал


    Интересна оценка обоих движков по ходу игры.

    [​IMG]

    [Event "TCEC Season 13 - Division 4"]
    [Date "2018.08.07"]
    [Round "17.1"]
    [White "DeusX 1.0"]
    [Black "Wasp 3.2"]
    [Result "1-0"]
    [BlackElo "2964"]
    [ECO "C11"]
    [GameDuration "01:10:46"]
    [GameEndTime "2018-08-07T07:00:23.047 W. Europe Standard Time"]
    [GameStartTime "2018-08-07T05:49:36.921 W. Europe Standard Time"]
    [Opening "French"]
    [PlyCount "122"]
    [Termination "adjudication"]
    [TerminationDetails "TCEC win rule"]
    [TimeControl "1800+10"]
    [Variation "Steinitz, Boleslavsky variation"]
    [WhiteElo "3200"]

    1.e4 e6 2.d4 d5 3.Nc3 Nf6 4.e5 Nfd7 5.f4 c5 6.Nf3 Nc6 7.Be3 Be7 8.Qd2 a6 9.dxc5 Bxc5 10.Bxc5 Nxc5 11.a3 O-O 12.b4 Nd7 13.Bd3 Qc7 14.O-O Nb6 15.Qf2 h6 16.Rae1 Bd7 17.g4 Ne7 18.Ne2 Nc4 19.Qh4 Bb5 20.a4 Bxa4 21.Ned4 Nb2 22.f5 Nxd3 23.cxd3 Bb5 24.Re3 exf5 25.gxf5 f6 26.Kh1 Bxd3 27.Rxd3 fxe5 28.Ne6 Nxf5 29.Qe1 Qc4 30.Rc3 Qe4 31.Nxf8 Rxf8 32.Rg1 Qxe1 33.Rxe1 e4 34.Ne5 Re8 35.Ng6 d4 36.Rc5 Ne3 37.Re5 Kf7 38.Rxe8 Kxe8 39.Nh4 Kd7 40.Ng2 Ng4 41.Kg1 Nf6 42.Rd1 d3 43.Ne3 Kc6 44.Kf2 b6 45.Ke1 a5 46.bxa5 bxa5 47.Kd2 Kc5 48.Rc1+ Kb5 49.Rc7 Ne8 50.Rd7 a4 51.Kc3 a3 52.Ra7 Nd6 53.Rxa3 Kc5 54.Ra5+ Nb5+ 55.Kd2 Kb4 56.Ra8 Na3 57.Re8 Nb1+ 58.Kc1 Nc3 59.Nd1 Nd5 60.Rxe4+ Kc5 61.Kd2 Kd6 {White wins by adjudication: TCEC win rule}
    1-0

    [​IMG]
    [​IMG]
  10. Jadn Заслуженный

    • Заслуженный
    • Участник
    Рег.:
    10.05.2006
    Сообщения:
    3.002
    Симпатии:
    862
    Репутация:
    33
    Оффлайн
    Очень хорошо чувствует закрытые позиции. Можно еще посмотреть победу против Айвенго в этом же варианте.

  11. Polarity Новичок

    • Новичок
    Рег.:
    23.04.2018
    Сообщения:
    77
    Симпатии:
    17
    Репутация:
    0
    Оффлайн
    На текущий момент самая быстрая победа в дивизионе против одного из лидеров: https://lichess.org/Nqz6uYKV
  12. pavelgttfj8 Учаcтник

    • Участник
    Рег.:
    07.12.2017
    Сообщения:
    140
    Симпатии:
    47
    Репутация:
    2
    Оффлайн
    15. .. f5
    Wasp обезумел
  13. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    8.872
    Симпатии:
    2.061
    Репутация:
    84
    Адрес:
    Москва
    Оффлайн
    Есть сильное подозрение, что DeusX не разрешат играть в третьем дивизионе, даже если он займет одно из первых двух мест:
    https://blog.lczero.org/2018/08/07/mistake/
  14. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    547
    Симпатии:
    78
    Репутация:
    3
    Оффлайн
    Мне кажется, что если только в следующем сезоне
  15. Mustitz Заслуженный

    • Заслуженный
    • Участник
    Рег.:
    30.09.2006
    Сообщения:
    2.917
    Симпатии:
    361
    Репутация:
    21
    Адрес:
    Киев
    Оффлайн
    Вопрос скорее в том, насколько DeusX отличается от Leela? Структура сети, количество симуляций, количество совпадающих ходов?
  16. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    547
    Симпатии:
    78
    Репутация:
    3
    Оффлайн
    Например, Leela, которая будет играть в следующем дивизионе, будет очень сильно отличаться от той, которая играет сейчас. Также и Deus X отличается - размером сети и весами.
  17. Polarity Новичок

    • Новичок
    Рег.:
    23.04.2018
    Сообщения:
    77
    Симпатии:
    17
    Репутация:
    0
    Оффлайн
    Он наверняка не менял структуру сети, т. к. пришлось бы сильно переписывать код. Да и не факт, что другая структура сети будет хоть как-то сносно учиться.
    За симуляции во время игры отвичает движок Lc0. А во время обучения он не мог запускать симуляции, у него не хватило бы просто ресурсов.
    Вот интересно было бы посмотреть на совпадающие ходы, я вроде бы уже предлагал идею, не знаю кто-либо проверял или нет. У меня к сожалению нет в данный момент мощных GPU под рукой, чтобы это сделать самостоятельно.
    Я до сих пор считаю, что он скачал партии с сайта Лилы и запустил уже написанные скрипты за него, чтобы натренировать сеть меньшего размера.
    sovaz1997 нравится это.
  18. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    547
    Симпатии:
    78
    Репутация:
    3
    Оффлайн
    В последней партии и Deus X, и последние версии LCZero в равном эндшпиле давали себе большой перевес.
  19. Neo94 Заблокирован

    • Участник
    • Заблокирован
    Рег.:
    15.11.2014
    Сообщения:
    434
    Симпатии:
    143
    Репутация:
    -10
    Нарушения:
    31
    Оффлайн
    Результаты партий у деуса и лейлы с одними и теми же соперниками весьма и весьма разные - http://tcec.chessdom.com/season13/live.php
    Вряд ли там так уж много совпадает, хотя может, что если смотреть сами встречи, то выйдет и ближе к вашей версии.
  20. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    8.872
    Симпатии:
    2.061
    Репутация:
    84
    Адрес:
    Москва
    Оффлайн
    Да, вот это немного раздражает в нейросетевых программах. Играют чрезвычайно сильно, но оценка зачастую к действительности не имеет никакого отношения. Для анализа их пока использовать трудно.
  21. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    547
    Симпатии:
    78
    Репутация:
    3
    Оффлайн
    Neo94, результаты были бы разными, даже если вместо DeusX играла бы 2-я копия LCZero 10168
  22. Neo94 Заблокирован

    • Участник
    • Заблокирован
    Рег.:
    15.11.2014
    Сообщения:
    434
    Симпатии:
    143
    Репутация:
    -10
    Нарушения:
    31
    Оффлайн
    Безусловно, но, думаю, какие-то тенденции были бы общими - ну там 3 ничьи против одного из слабых движков или там совместный погром сильного. Пока что там вообще со всеми движками совпадает один результат из 3...

    Во всяком случае, будь выборка партий общей, можно было бы ожидать примерно такого. А так минимум выборка отличается.

    Кстати, у Лейлы впереди две черные партии с Деусом и Васпом, обоим она уже проигрывала по разу (кстати, проигрывала белыми). Так что, несмотря на перевес в полтора очка над Деусом и на два над Васпом, за 4 тура до конца ей еще первое место не обеспечено.
  23. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    547
    Симпатии:
    78
    Репутация:
    3
    Оффлайн
    Невозможно определить совпадение одного движка с другим. Хотя бы потому, что дебюты разве.
    --- добавлено: 8 авг 2018 ---
    Chess.com анонсирует новый турнир https://www.chess.com/news/view/announcing-the-new-computer-chess-championship-1151 . Похоже, LCZero будет играть на слабеньком 96-ядерном процессоре, а не на GPU.
    --- добавлено: 8 авг 2018, опубликовано: 8 авг 2018 ---
    И он начался: https://www.chess.com/computer-chess-championship (либо пока какой-то тест). Даты анонса нет.
  24. Neo94 Заблокирован

    • Участник
    • Заблокирован
    Рег.:
    15.11.2014
    Сообщения:
    434
    Симпатии:
    143
    Репутация:
    -10
    Нарушения:
    31
    Оффлайн
  25. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    547
    Симпатии:
    78
    Репутация:
    3
    Оффлайн
    Там играет версия v0.10 (не 0.16), старая версия сети, нет GPU (это-то уже ладно), оптимизация сайта ужасная. Я не знаю, на что они рассчитывают. Может, это пока тест реально.

    ----

    Это, похоже, случайно слили статью, она должна быть опубликована позже. Пока просто тесты.
  26. pavelgttfj8 Учаcтник

    • Участник
    Рег.:
    07.12.2017
    Сообщения:
    140
    Симпатии:
    47
    Репутация:
    2
    Оффлайн
    Думаю что это просто копия лилы, может немного другая сеть чем та, которой играет лила и всё.
    Автор очевидно врет, говоря что сеть натренировали на партиях людей. Потому что тогда бы DeusX не играл в силу 3200 на практически равном уровне с лилой. Да и изначально тоже было вранье - заявление о том что deus играет на уровне стокфиша или в топ-3

    P.S. Так же считаю что tcec 13 это организаторский провал т.к. Ivanhoe играет на одном ядре вместо 43 а в лидерах играют 2 копии одной программы.
  27. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    8.872
    Симпатии:
    2.061
    Репутация:
    84
    Адрес:
    Москва
    Оффлайн
    Да, с этой точки зрения главный пострадавший - это автор программы Wasp.
    Насчёт примерно одинаковой силы Деуса и Лилы - может быть, обе программы просто подошли к одному и тому же пределу насыщения, только разными путями?
    Важно ещё, что у Деуса сеть по ёмкости в два раза меньше, чем у Лилы.
  28. Neo94 Заблокирован

    • Участник
    • Заблокирован
    Рег.:
    15.11.2014
    Сообщения:
    434
    Симпатии:
    143
    Репутация:
    -10
    Нарушения:
    31
    Оффлайн
    Провал - это иванхой, который, похоже, виноват в этом сам.
    А какие еще лидеры в этом сезоне в 4 дивизионе должны быть? Все в принципе ждали, что в 3 дивизион выйдет Лейла и кто-то еще. Пока что шансы есть и у Деуса, и у Васпа (Лейла выходит с 99, 9% вероятностью).

    Ну а с Деусом вышла ошибка, но кто же знал. Даже сами разрабы Лейлы разобрались что к чему только через 10 дней после публикации...

    ИМХО как участник Деус пусть играет, но вот всегда и везде пусть указывает, что это лейла чесс. Т.е пусть так и пишут в названии программы DeusX 1.0 (LCZero NN)

    И вообще это бы относительно правильным - в принципе теоретически каждый может взять нейросеть лейлы и натренировать по своему желанию и вкусу. Но указывать это обязательно нужно.

    P.S а сам "автор" Деуса решил похайпить и присвоить себе часть чужой работы, безусловно. Но нейросеть получилась вполне себе ничего, пусть и автор поступил совершенно нечестно.
    --- добавлено: 9 авг 2018, опубликовано: 9 авг 2018 ---
    У Васпа еще есть шансы выйти даже без дисквалификаций. Сейчас же ситуация
    Name Pts G SB
    LCZero 18.5 26 218.50
    Wasp 3.2 17.5 27 210.25
    DeusX 1.0 17.0 26 198.25

    Впереди

    Rodent III 0.258 DeusX 1.0
    LCZero 16.10161 Ivanhoe 999946h
    Wasp 3.2 LCZero 16.10161
    DeusX 1.0 Senpai 2.0

    Судьба деуса исключительно в его руках, если он выигрывает две партии против 5 и 8 команды, то он выходит в следующий дивизион. Но если он делает хотя бы одну ничью, то Васп может пройти, при победе над лейлой.
    Хотя шансы, безусловно, невелики. Уже сегодня ночью все результаты будут.
  29. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    8.872
    Симпатии:
    2.061
    Репутация:
    84
    Адрес:
    Москва
    Оффлайн
    В го сейчас похожая ситуация: Фейсбук выложила в открытый доступ свою программу Эльф, играющую сильнее LZ. Разработчики LZ сконвертировали его файл с весами, и теперь его запускают под Лилой. Но никто при этом не говорит, что это играет модифицированная Лила, все говорят - Эльф. Видимо, влияет та маленькая разница, что существует и основной движок/фреймворк от Фейсбука.

    А в шахматах похожая ситуация была лет 10-15 назад с Чессмастером, когда только ленивый не придумывал для него свой набор настроек. В рейтинге CCRL для 10-й версии их 9 штук, для 11-й - 6. Не вижу принципиальной разницы с весами для нейросети, только количество настроек больше.
  30. Neo94 Заблокирован

    • Участник
    • Заблокирован
    Рег.:
    15.11.2014
    Сообщения:
    434
    Симпатии:
    143
    Репутация:
    -10
    Нарушения:
    31
    Оффлайн
    У Деуса лишняя пешка в разноцвете при ладьях, при этом есть отдаленная проходная и дальние перспективы создания второй (f7-f6, e6-e5-e4).
    Наверное, он дожмет партию.

    [​IMG]


    При этом чрезвычайно многое зависит и от партии Васп-Лейла. Васпу крайне желательно пробивать белый цвет, но...
  31. Neo94 Заблокирован

    • Участник
    • Заблокирован
    Рег.:
    15.11.2014
    Сообщения:
    434
    Симпатии:
    143
    Репутация:
    -10
    Нарушения:
    31
    Оффлайн
    Я указал план, создать вторую проходную путем f7-f6 и e6-e5-e4. Разумеется, при этом черные могут потерять пешку, но две отдаленные - это две отдаленные.

    Разумеется, Деус переоценивает позу, но вообще у белых крайне неприятная ситуация со всех сторон. Только компьютерная стойка единственными ходами, запаса прочности я особо не вижу.
    Кстати, чистый разноцвет должен быть выигран почти всегда, так что за ладьи надо держаться. А это тоже вполне минус...
  32. Neo94 Заблокирован

    • Участник
    • Заблокирован
    Рег.:
    15.11.2014
    Сообщения:
    434
    Симпатии:
    143
    Репутация:
    -10
    Нарушения:
    31
    Оффлайн
    Я тоже болею против Деуса, так шо хочется ничьей.
    А ведь классная концовочка получается, очень вероятна победа по кэфам.
    У деуса вообще нет времени, у родента еще 3 минуты.
    Так что все вероятно.
  33. Neo94 Заблокирован

    • Участник
    • Заблокирован
    Рег.:
    15.11.2014
    Сообщения:
    434
    Симпатии:
    143
    Репутация:
    -10
    Нарушения:
    31
    Оффлайн
    Лейла - народный движок!
  34. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    547
    Симпатии:
    78
    Репутация:
    3
    Оффлайн
    Турнир перезапущен. Здесь, конечно, сильное железо: 2xTitanV против 31 ядра. Но результаты очень хорошие. Играет версия LCZero 10547 против Stockfish 9.
    --- добавлено: 9 авг 2018 ---
    Кстати, сеть DeusX не будет обновлена в следующем дивизионе
  35. Neo94 Заблокирован

    • Участник
    • Заблокирован
    Рег.:
    15.11.2014
    Сообщения:
    434
    Симпатии:
    143
    Репутация:
    -10
    Нарушения:
    31
    Оффлайн
    Еще немного - и белые могут начать играть на победу... Там уже все по сути

    http://tcec.chessdom.com/season13/live.php - крашится и работает на последнем издыхании. Только твич трансляция...

Поделиться этой страницей