AlphaZero. Нейронная сеть играет в шахматы

Тема в разделе "Машинное отделение", создана пользователем grizly, 6 дек 2017.

  1. Boroda Новичок

    • Новичок
    Рег.:
    12.01.2018
    Сообщения:
    62
    Симпатии:
    8
    Репутация:
    0
    Оффлайн
    Вечером было 3000, утром стало 2600, вообщем ни чо не понятно!
  2. svoitsl Учаcтник

    • Участник
    Рег.:
    05.01.2018
    Сообщения:
    168
    Симпатии:
    29
    Репутация:
    1
    Оффлайн
    Это наверное очередная калибровка прошла и уточнение каких нибудь коэффициентов,
    Но особого эффекта от устранение последнего бага что то не очень заметно.
    А вот саморейтинг при 6х64 даже снизился


    .
    Boroda нравится это.
  3. Boroda Новичок

    • Новичок
    Рег.:
    12.01.2018
    Сообщения:
    62
    Симпатии:
    8
    Репутация:
    0
    Оффлайн
    Вообщем ни какого избиения Стокфиша, в этом году ждать не приходится, максимум на что можно надеяться, так это на выход в 3 дивизион на ТСЕС, или, если быть совсем отъявленным оптимистом, то на выход во второй! И то если там разрешат играть на GPU. Хотя, что говорить это всё равно будет круто!
    Но учтите, господа разработчики, в 2019г, мы ждём от вас убедительно превосходства Лилы над всеми грандами компьютерных шахмат!
  4. xmuzaax Начинающий

    • Начинающий
    Рег.:
    12.06.2018
    Сообщения:
    1
    Симпатии:
    0
    Репутация:
    0
    Оффлайн
    а вот объясните мне, непонимающему, как в MCTS работает этап симуляции (выиграшная позиция или нет):
    если в альфазеро (ну или в более простом варианте) нейросеть определяет качество текущей позиции играя партию до конца, то почему не использовать этот метод для всей партии и тогда вообще зачем MCTS? Почему тогда играя партию до конца не запоминаются эти позиции в деверо с соответсвующим результатом?
  5. Polarity Новичок

    • Новичок
    Рег.:
    23.04.2018
    Сообщения:
    77
    Симпатии:
    17
    Репутация:
    0
    Оффлайн
    Партии до конца не играются. Доигрывание узла дерева до конца называется роллаутом. Так делали раньше. Минус такого подхода - большая дисперсия оценки и она может быть сильно смещена.
    С MCTS всё очень просто. Это алгоритм поиска. Он улучшает оценку нейросети, т. к. она очевидно работает не идеально.
    Что делать в конце, если доигрывания нет? Просто берётся выход нейросети, отвечающий за качество позиции и всё.
  6. Сергей63 Новичок

    • Новичок
    Рег.:
    17.06.2018
    Сообщения:
    24
    Симпатии:
    4
    Репутация:
    0
    Оффлайн
    А где Стиль?
  7. Boroda Новичок

    • Новичок
    Рег.:
    12.01.2018
    Сообщения:
    62
    Симпатии:
    8
    Репутация:
    0
    Оффлайн
    Что то как то тихо в лесу... Кто нить знает, когда окончательно перезапустят обучение? Неужели не все баги еще исправили?
  8. Sergey1983 Учаcтник

    • Участник
    Рег.:
    03.04.2018
    Сообщения:
    126
    Симпатии:
    14
    Репутация:
    1
    Оффлайн
    Мне это тоже интересно.
  9. Sergey1983 Учаcтник

    • Участник
    Рег.:
    03.04.2018
    Сообщения:
    126
    Симпатии:
    14
    Репутация:
    1
    Оффлайн
    LcZero(вроде Cuda версия) сыграла две ничьи со Stockfish 9

  10. Polarity Новичок

    • Новичок
    Рег.:
    23.04.2018
    Сообщения:
    77
    Симпатии:
    17
    Репутация:
    0
    Оффлайн
    Пытались долгое время повторить результат самого первого теста.
    Недавно нашли баг, который мог сильно повлиять на все тесты со 2 по 7.
    В 8 тесте выбрали не совсем удачную стратегию понижения LR, поэтому она видимо скатилась в локальный минимум, из которого уже не смогла выбраться.
    А вот тест 9 уже вышел сравнимым по силе с тестом 1, так что дальше прогресс я думаю пойдёт намного быстрее. Судя по тому, как в последнее время всё движется, мне кажется, что стоит ожидать относительно скоро выхода 20x256 сети в основной пайплайн.

    Ну и ничья со стокфишем - это давно уже пройденный этап.
    Вот примеры ничейных результатов разных версий Leela с dev версией стокфиша на 20 ядрах:
    https://lichess.org/P2GRf7Y3
    https://lichess.org/Lxh7LwcD
    https://lichess.org/JhlZDEBx
    https://lichess.org/zrGroCM5
  11. Sergey1983 Учаcтник

    • Участник
    Рег.:
    03.04.2018
    Сообщения:
    126
    Симпатии:
    14
    Репутация:
    1
    Оффлайн
    Как сеть 20x256, они же собирались перезапускать обучение?
  12. Polarity Новичок

    • Новичок
    Рег.:
    23.04.2018
    Сообщения:
    77
    Симпатии:
    17
    Репутация:
    0
    Оффлайн
    Ещё рано говорить о перезапуске, нужно отладить параметры и убедиться что всё работает хорошо. Но полноценный перезапуск уже не за горами.
    Совсем недавно перезапустили тест, теперь там 20x256 сеть. Отслеживать прогресс можно тут:http://testserver.lczero.org/
  13. svoitsl Учаcтник

    • Участник
    Рег.:
    05.01.2018
    Сообщения:
    168
    Симпатии:
    29
    Репутация:
    1
    Оффлайн
    Пока только известно что не на этой ни на следующей недели его не будет

    отслеживать придется долго, из за большой сети скорость наигрывания существенно упала
    (всего 2 с небольшим тысячи игр в сутки,то есть на 3 порядка, кажется )
  14. Boroda Новичок

    • Новичок
    Рег.:
    12.01.2018
    Сообщения:
    62
    Симпатии:
    8
    Репутация:
    0
    Оффлайн
    Как это две тысячи, если сегодня только уже 40000 с лишним тысяч наиграли?
  15. pavelgttfj8 Учаcтник

    • Участник
    Рег.:
    07.12.2017
    Сообщения:
    179
    Симпатии:
    61
    Репутация:
    2
    Оффлайн
    21.Bc4 Норм
    https://www.youtube.com/watch?v=2m5oXlZ_e_A

    Zayats нравится это.
  16. Sergey1983 Учаcтник

    • Участник
    Рег.:
    03.04.2018
    Сообщения:
    126
    Симпатии:
    14
    Репутация:
    1
    Оффлайн
    Здесь в 6 пункте http://blog.lczero.org/2018/07/02/project-update/
    пишется что осуществляется переход на 16 битную арифметику, но поддержка будет только на видеокартах Titan, это что же все владельцы видеокарт GTX остаются за "бортом", или же для них будет какая-то альтернатива на GPU?
  17. Rom Учаcтник

    • Участник
    Рег.:
    12.02.2012
    Сообщения:
    550
    Симпатии:
    203
    Репутация:
    21
    Онлайн
    Просто у владельцев Титанов скорость стала в два раза выше. Остальных это не коснулось. Сравнить скорости до и после можно здесь:
    https://docs.google.com/spreadsheet...7Vul4DpRNfn6K8oeCjBILe6uA/edit#gid=1508569046

    P.S. Насколько я знаю 1080 Ti поддерживает int8, так что и для владельцев таких карт ещё не всё потеряно.
  18. Sergey1983 Учаcтник

    • Участник
    Рег.:
    03.04.2018
    Сообщения:
    126
    Симпатии:
    14
    Репутация:
    1
    Оффлайн
    То есть, будут сетки и в старой арифметике? Если так, то хорошо.
  19. Rom Учаcтник

    • Участник
    Рег.:
    12.02.2012
    Сообщения:
    550
    Симпатии:
    203
    Репутация:
    21
    Онлайн
    Не исключено, что они все будут в старой арифметике, просто на Титанах будет производится округление. Впрочем, деталей я не знаю.
    Sergey1983 нравится это.
  20. Boroda Новичок

    • Новичок
    Рег.:
    12.01.2018
    Сообщения:
    62
    Симпатии:
    8
    Репутация:
    0
    Оффлайн
    Народ подскажите, а можно в арене задать условия турнира, чтобы движок,
    (например Лила) играла с несколькими противниками, а они между собой не играли? А то решил протестировать Лилу с разными движками, но неохота каждый раз создавать новый турнир.
  21. Vladruss НедоКМС, победитель второразрядников.

    • Заслуженный
    • Ветеран
    • Заблокирован
    Рег.:
    30.12.2009
    Сообщения:
    11.400
    Симпатии:
    4.548
    Репутация:
    415
    Нарушения:
    35
    Оффлайн
    Видимо, надо делать так:


    [​IMG]

    Хотя я не люблю Арену и тоже в ней плохо разбираюсь.
    Boroda нравится это.
  22. Boroda Новичок

    • Новичок
    Рег.:
    12.01.2018
    Сообщения:
    62
    Симпатии:
    8
    Репутация:
    0
    Оффлайн
    Спасибо попробую!
  23. Sergey1983 Учаcтник

    • Участник
    Рег.:
    03.04.2018
    Сообщения:
    126
    Симпатии:
    14
    Репутация:
    1
    Оффлайн
  24. Sergey1983 Учаcтник

    • Участник
    Рег.:
    03.04.2018
    Сообщения:
    126
    Симпатии:
    14
    Репутация:
    1
    Оффлайн
    Crem, а нельзя ли после перезапуска сервера добавить поддержку шахмат Фишера?
  25. Mustitz Заслуженный

    • Заслуженный
    • Участник
    Рег.:
    30.09.2006
    Сообщения:
    2.982
    Симпатии:
    417
    Репутация:
    22
    Адрес:
    Киев
    Оффлайн
    А кто будет тренировать нейросеть?
  26. Sergey1983 Учаcтник

    • Участник
    Рег.:
    03.04.2018
    Сообщения:
    126
    Симпатии:
    14
    Репутация:
    1
    Оффлайн
    Её хоть так хоть так тренируют(и я в том числе), а шахматы фишера это лишь новые позиции которые улучшат понимание шахмат LcZero.
    подобная идея уже была https://groups.google.com/forum/#!topic/lczero/C2PY8Lm8GMA
  27. Boroda Новичок

    • Новичок
    Рег.:
    12.01.2018
    Сообщения:
    62
    Симпатии:
    8
    Репутация:
    0
    Оффлайн
    На основном сервере, новым сетям наконец то удалось обыграть 390 сеть, для этого понадбилось почти 100 поколений сети!
    Sergey1983 и Rom нравится это.
  28. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    8.996
    Симпатии:
    2.214
    Репутация:
    86
    Адрес:
    Москва
    Оффлайн
    Ещё и другие ходы - рокировки нетривиального вида. Насколько они хорошо лягут на существующую архитектуру сети?
  29. Sergey1983 Учаcтник

    • Участник
    Рег.:
    03.04.2018
    Сообщения:
    126
    Симпатии:
    14
    Репутация:
    1
    Оффлайн
    Но, если ляжет почему бы не сделать?По ссылке выше писали что позиции во многом похожие поэтому замедление обучения не должно быть таким уж большим, кроме того я в том числе спрашиваю мнение других хотя окончательно прояснит ситуацию пожалуй лишь Crem.
  30. Polarity Новичок

    • Новичок
    Рег.:
    23.04.2018
    Сообщения:
    77
    Симпатии:
    17
    Репутация:
    0
    Оффлайн
    Я согласен, что для анализа позиций это может быть полезным. Но для игры - скорее всего, нет, т. к. это уменьшает capacity нейронной сети для ходов из реальной игры.
  31. Mustitz Заслуженный

    • Заслуженный
    • Участник
    Рег.:
    30.09.2006
    Сообщения:
    2.982
    Симпатии:
    417
    Репутация:
    22
    Адрес:
    Киев
    Оффлайн
    В любом случае для анализа позиций куда более полезны позиции из классических шахмат. Если у нас король с b8 может рокировать на g8, то эта особенность может быть надо будет учитывать в шахматах Фишера, но для классических шахмат она более чем бесполезна.

    Я просто не сильно владею на тему того, как именно используются тестовые партии в обучении. И насколько велика вероятность, что сеть будет стремится к тому, чтобы глубоко знать небольшое количество дебютов. А это вполне себе локальный максимум, который использует большинство белковых шахматистов — иметь свой дебютный репертуар. В принципе, чтобы проверить это, надо просто посмотреть на статистику по дебютам в тестовых партиях. Если дебюты однообразны — сеть будет настроена на узкий дебютный репертуар.

    Но этого вполне можно избежать, если наигрывание тестовых партий реализовывать как большой MCTS где в UCT увеличить коэффициент исследования. Тогда в тестовых партиях будут разыгрываться самые разные дебюты, сеть будет учиться на большом количестве разнообразных позиций.
  32. Rom Учаcтник

    • Участник
    Рег.:
    12.02.2012
    Сообщения:
    550
    Симпатии:
    203
    Репутация:
    21
    Онлайн
    С одной стороны специализация на одной начальной расстановке должна дать результаты "глубже", чем необходимость разбрасываться по разным расстановкам шахмат Фишера, невозможным в реальной партии. С другой стороны, не возникает ли в классической расстановке некоторый аналог переобучения нейросети, из-за ограниченного количества позиций в начальной стадии партии, что в итоге даже снизит общую силу игры. (Вопросы рокировки в шахматах Фишера при обучении можно как-нибудь решить.)
    —- добавлено: 12 июл 2018, опубликовано: 12 июл 2018 —-
    Кстати, к вопросу о вариативности. Уж коли мы не можем раздавать некоторым не столь продвинутым видеокартам данные для самоигры в половинной точности (см. обсуждение на предыдущей странице), и поскольку половинная точность не слишком сказывается на качестве игры, то нельзя ли раздавать таким видеокартам для самоигры нейросетки с рандомными значениями последних значащих цифр? А мастер-сеть хранить только на сервере для обучения? Не знаю правда, не трудно ли это с точки зрения реализации и даст ли необходимую вариативность?
  33. Polarity Новичок

    • Новичок
    Рег.:
    23.04.2018
    Сообщения:
    77
    Симпатии:
    17
    Репутация:
    0
    Оффлайн
    Переобучение возникает, когда данных недостаточно. Тут данные можно генерировать бесконечно.
  34. Rom Учаcтник

    • Участник
    Рег.:
    12.02.2012
    Сообщения:
    550
    Симпатии:
    203
    Репутация:
    21
    Онлайн
    В начале партии количество позиций ограничено. То есть дебютные позиции нейросеть по сути запоминает, вместо того, чтобы заниматься обобщением.
  35. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    8.996
    Симпатии:
    2.214
    Репутация:
    86
    Адрес:
    Москва
    Оффлайн
    Так против запоминания есть всякие специальные техники, типа дропаута, добавления случайного шума и т.д.

Поделиться этой страницей