AlphaZero. Нейронная сеть играет в шахматы

Тема в разделе "Машинное отделение", создана пользователем grizly, 6 дек 2017.

  1. Boroda
    Оффлайн

    Boroda Новичок

    Репутация:
    0
    Вечером было 3000, утром стало 2600, вообщем ни чо не понятно!
     
  2. svoitsl
    Оффлайн

    svoitsl Учаcтник

    Репутация:
    7
    Это наверное очередная калибровка прошла и уточнение каких нибудь коэффициентов,
    Но особого эффекта от устранение последнего бага что то не очень заметно.
    А вот саморейтинг при 6х64 даже снизился


    .
     
    Последнее редактирование: 11 июн 2018
    Boroda нравится это.
  3. Boroda
    Оффлайн

    Boroda Новичок

    Репутация:
    0
    Вообщем ни какого избиения Стокфиша, в этом году ждать не приходится, максимум на что можно надеяться, так это на выход в 3 дивизион на ТСЕС, или, если быть совсем отъявленным оптимистом, то на выход во второй! И то если там разрешат играть на GPU. Хотя, что говорить это всё равно будет круто!
    Но учтите, господа разработчики, в 2019г, мы ждём от вас убедительно превосходства Лилы над всеми грандами компьютерных шахмат!
     
  4. xmuzaax
    Оффлайн

    xmuzaax Начинающий

    Репутация:
    0
    а вот объясните мне, непонимающему, как в MCTS работает этап симуляции (выиграшная позиция или нет):
    если в альфазеро (ну или в более простом варианте) нейросеть определяет качество текущей позиции играя партию до конца, то почему не использовать этот метод для всей партии и тогда вообще зачем MCTS? Почему тогда играя партию до конца не запоминаются эти позиции в деверо с соответсвующим результатом?
     
  5. Polarity
    Оффлайн

    Polarity Новичок

    Репутация:
    0
    Партии до конца не играются. Доигрывание узла дерева до конца называется роллаутом. Так делали раньше. Минус такого подхода - большая дисперсия оценки и она может быть сильно смещена.
    С MCTS всё очень просто. Это алгоритм поиска. Он улучшает оценку нейросети, т. к. она очевидно работает не идеально.
    Что делать в конце, если доигрывания нет? Просто берётся выход нейросети, отвечающий за качество позиции и всё.
     
  6. Сергей63
    Оффлайн

    Сергей63 Новичок

    Репутация:
    0
    А где Стиль?
     
  7. Boroda
    Оффлайн

    Boroda Новичок

    Репутация:
    0
    Что то как то тихо в лесу... Кто нить знает, когда окончательно перезапустят обучение? Неужели не все баги еще исправили?
     
  8. Sergey1983
    Оффлайн

    Sergey1983 Учаcтник

    Репутация:
    1
    Мне это тоже интересно.
     
  9. Sergey1983
    Оффлайн

    Sergey1983 Учаcтник

    Репутация:
    1
    LcZero(вроде Cuda версия) сыграла две ничьи со Stockfish 9

     
  10. Polarity
    Оффлайн

    Polarity Новичок

    Репутация:
    0
    Пытались долгое время повторить результат самого первого теста.
    Недавно нашли баг, который мог сильно повлиять на все тесты со 2 по 7.
    В 8 тесте выбрали не совсем удачную стратегию понижения LR, поэтому она видимо скатилась в локальный минимум, из которого уже не смогла выбраться.
    А вот тест 9 уже вышел сравнимым по силе с тестом 1, так что дальше прогресс я думаю пойдёт намного быстрее. Судя по тому, как в последнее время всё движется, мне кажется, что стоит ожидать относительно скоро выхода 20x256 сети в основной пайплайн.

    Ну и ничья со стокфишем - это давно уже пройденный этап.
    Вот примеры ничейных результатов разных версий Leela с dev версией стокфиша на 20 ядрах:
    https://lichess.org/P2GRf7Y3
    https://lichess.org/Lxh7LwcD
    https://lichess.org/JhlZDEBx
    https://lichess.org/zrGroCM5
     
    Последнее редактирование: 25 июн 2018
  11. Sergey1983
    Оффлайн

    Sergey1983 Учаcтник

    Репутация:
    1
    Как сеть 20x256, они же собирались перезапускать обучение?
     
  12. Polarity
    Оффлайн

    Polarity Новичок

    Репутация:
    0
    Ещё рано говорить о перезапуске, нужно отладить параметры и убедиться что всё работает хорошо. Но полноценный перезапуск уже не за горами.
    Совсем недавно перезапустили тест, теперь там 20x256 сеть. Отслеживать прогресс можно тут:http://testserver.lczero.org/
     
  13. svoitsl
    Оффлайн

    svoitsl Учаcтник

    Репутация:
    7
    Пока только известно что не на этой ни на следующей недели его не будет

    отслеживать придется долго, из за большой сети скорость наигрывания существенно упала
    (всего 2 с небольшим тысячи игр в сутки,то есть на 3 порядка, кажется )
     
  14. Boroda
    Оффлайн

    Boroda Новичок

    Репутация:
    0
    Как это две тысячи, если сегодня только уже 40000 с лишним тысяч наиграли?
     
  15. pavelgttfj8
    Оффлайн

    pavelgttfj8 Учаcтник

    Репутация:
    3
    21.Bc4 Норм
    https://www.youtube.com/watch?v=2m5oXlZ_e_A

     
    Zayats нравится это.
  16. Sergey1983
    Оффлайн

    Sergey1983 Учаcтник

    Репутация:
    1
    Здесь в 6 пункте http://blog.lczero.org/2018/07/02/project-update/
    пишется что осуществляется переход на 16 битную арифметику, но поддержка будет только на видеокартах Titan, это что же все владельцы видеокарт GTX остаются за "бортом", или же для них будет какая-то альтернатива на GPU?
     
  17. Rom
    Оффлайн

    Rom Старожил

    Репутация:
    28
    Просто у владельцев Титанов скорость стала в два раза выше. Остальных это не коснулось. Сравнить скорости до и после можно здесь:
    https://docs.google.com/spreadsheet...7Vul4DpRNfn6K8oeCjBILe6uA/edit#gid=1508569046

    P.S. Насколько я знаю 1080 Ti поддерживает int8, так что и для владельцев таких карт ещё не всё потеряно.
     
    Последнее редактирование: 7 июл 2018
  18. Sergey1983
    Оффлайн

    Sergey1983 Учаcтник

    Репутация:
    1
    То есть, будут сетки и в старой арифметике? Если так, то хорошо.
     
  19. Rom
    Оффлайн

    Rom Старожил

    Репутация:
    28
    Не исключено, что они все будут в старой арифметике, просто на Титанах будет производится округление. Впрочем, деталей я не знаю.
     
    Sergey1983 нравится это.
  20. Boroda
    Оффлайн

    Boroda Новичок

    Репутация:
    0
    Народ подскажите, а можно в арене задать условия турнира, чтобы движок,
    (например Лила) играла с несколькими противниками, а они между собой не играли? А то решил протестировать Лилу с разными движками, но неохота каждый раз создавать новый турнир.
     
  21. Vladruss
    Оффлайн

    Vladruss НедоКМС, победитель второразрядников. баннер

    Репутация:
    530
    Видимо, надо делать так:


    [​IMG]

    Хотя я не люблю Арену и тоже в ней плохо разбираюсь.
     
    Boroda нравится это.
  22. Boroda
    Оффлайн

    Boroda Новичок

    Репутация:
    0
    Спасибо попробую!
     
  23. Sergey1983
    Оффлайн

    Sergey1983 Учаcтник

    Репутация:
    1
  24. Sergey1983
    Оффлайн

    Sergey1983 Учаcтник

    Репутация:
    1
    Crem, а нельзя ли после перезапуска сервера добавить поддержку шахмат Фишера?
     
  25. Mustitz
    Оффлайн

    Mustitz баннер

    Репутация:
    37
    А кто будет тренировать нейросеть?
     
  26. Sergey1983
    Оффлайн

    Sergey1983 Учаcтник

    Репутация:
    1
    Её хоть так хоть так тренируют(и я в том числе), а шахматы фишера это лишь новые позиции которые улучшат понимание шахмат LcZero.
    подобная идея уже была https://groups.google.com/forum/#!topic/lczero/C2PY8Lm8GMA
     
  27. Boroda
    Оффлайн

    Boroda Новичок

    Репутация:
    0
    На основном сервере, новым сетям наконец то удалось обыграть 390 сеть, для этого понадбилось почти 100 поколений сети!
     
    Sergey1983 и Rom нравится это.
  28. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    Ещё и другие ходы - рокировки нетривиального вида. Насколько они хорошо лягут на существующую архитектуру сети?
     
  29. Sergey1983
    Оффлайн

    Sergey1983 Учаcтник

    Репутация:
    1
    Но, если ляжет почему бы не сделать?По ссылке выше писали что позиции во многом похожие поэтому замедление обучения не должно быть таким уж большим, кроме того я в том числе спрашиваю мнение других хотя окончательно прояснит ситуацию пожалуй лишь Crem.
     
  30. Polarity
    Оффлайн

    Polarity Новичок

    Репутация:
    0
    Я согласен, что для анализа позиций это может быть полезным. Но для игры - скорее всего, нет, т. к. это уменьшает capacity нейронной сети для ходов из реальной игры.
     
  31. Mustitz
    Оффлайн

    Mustitz баннер

    Репутация:
    37
    В любом случае для анализа позиций куда более полезны позиции из классических шахмат. Если у нас король с b8 может рокировать на g8, то эта особенность может быть надо будет учитывать в шахматах Фишера, но для классических шахмат она более чем бесполезна.

    Я просто не сильно владею на тему того, как именно используются тестовые партии в обучении. И насколько велика вероятность, что сеть будет стремится к тому, чтобы глубоко знать небольшое количество дебютов. А это вполне себе локальный максимум, который использует большинство белковых шахматистов — иметь свой дебютный репертуар. В принципе, чтобы проверить это, надо просто посмотреть на статистику по дебютам в тестовых партиях. Если дебюты однообразны — сеть будет настроена на узкий дебютный репертуар.

    Но этого вполне можно избежать, если наигрывание тестовых партий реализовывать как большой MCTS где в UCT увеличить коэффициент исследования. Тогда в тестовых партиях будут разыгрываться самые разные дебюты, сеть будет учиться на большом количестве разнообразных позиций.
     
  32. Rom
    Оффлайн

    Rom Старожил

    Репутация:
    28
    С одной стороны специализация на одной начальной расстановке должна дать результаты "глубже", чем необходимость разбрасываться по разным расстановкам шахмат Фишера, невозможным в реальной партии. С другой стороны, не возникает ли в классической расстановке некоторый аналог переобучения нейросети, из-за ограниченного количества позиций в начальной стадии партии, что в итоге даже снизит общую силу игры. (Вопросы рокировки в шахматах Фишера при обучении можно как-нибудь решить.)
    —- добавлено: 12 июл 2018, опубликовано: 12 июл 2018 —-
    Кстати, к вопросу о вариативности. Уж коли мы не можем раздавать некоторым не столь продвинутым видеокартам данные для самоигры в половинной точности (см. обсуждение на предыдущей странице), и поскольку половинная точность не слишком сказывается на качестве игры, то нельзя ли раздавать таким видеокартам для самоигры нейросетки с рандомными значениями последних значащих цифр? А мастер-сеть хранить только на сервере для обучения? Не знаю правда, не трудно ли это с точки зрения реализации и даст ли необходимую вариативность?
     
    Последнее редактирование: 12 июл 2018
  33. Polarity
    Оффлайн

    Polarity Новичок

    Репутация:
    0
    Переобучение возникает, когда данных недостаточно. Тут данные можно генерировать бесконечно.
     
  34. Rom
    Оффлайн

    Rom Старожил

    Репутация:
    28
    В начале партии количество позиций ограничено. То есть дебютные позиции нейросеть по сути запоминает, вместо того, чтобы заниматься обобщением.
     
  35. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    Так против запоминания есть всякие специальные техники, типа дропаута, добавления случайного шума и т.д.