AlphaZero. Нейронная сеть играет в шахматы

Discussion in 'Машинное отделение' started by grizly, 6 Dec 2017.

  1. Boroda Новичок

    • Новичок
    Member Since:
    12.01.2018
    Message Count:
    62
    Likes Received:
    8
    Репутация:
    0
    Оффлайн
    Вечером было 3000, утром стало 2600, вообщем ни чо не понятно!
  2. svoitsl Учаcтник

    • Участник
    Member Since:
    06.01.2018
    Message Count:
    374
    Likes Received:
    91
    Репутация:
    7
    Оффлайн
    Это наверное очередная калибровка прошла и уточнение каких нибудь коэффициентов,
    Но особого эффекта от устранение последнего бага что то не очень заметно.
    А вот саморейтинг при 6х64 даже снизился


    .
    Boroda likes this.
  3. Boroda Новичок

    • Новичок
    Member Since:
    12.01.2018
    Message Count:
    62
    Likes Received:
    8
    Репутация:
    0
    Оффлайн
    Вообщем ни какого избиения Стокфиша, в этом году ждать не приходится, максимум на что можно надеяться, так это на выход в 3 дивизион на ТСЕС, или, если быть совсем отъявленным оптимистом, то на выход во второй! И то если там разрешат играть на GPU. Хотя, что говорить это всё равно будет круто!
    Но учтите, господа разработчики, в 2019г, мы ждём от вас убедительно превосходства Лилы над всеми грандами компьютерных шахмат!
  4. xmuzaax Начинающий

    • Начинающий
    Member Since:
    12.06.2018
    Message Count:
    1
    Likes Received:
    0
    Репутация:
    0
    Оффлайн
    а вот объясните мне, непонимающему, как в MCTS работает этап симуляции (выиграшная позиция или нет):
    если в альфазеро (ну или в более простом варианте) нейросеть определяет качество текущей позиции играя партию до конца, то почему не использовать этот метод для всей партии и тогда вообще зачем MCTS? Почему тогда играя партию до конца не запоминаются эти позиции в деверо с соответсвующим результатом?
  5. Polarity Новичок

    • Новичок
    Member Since:
    24.04.2018
    Message Count:
    77
    Likes Received:
    17
    Репутация:
    0
    Оффлайн
    Партии до конца не играются. Доигрывание узла дерева до конца называется роллаутом. Так делали раньше. Минус такого подхода - большая дисперсия оценки и она может быть сильно смещена.
    С MCTS всё очень просто. Это алгоритм поиска. Он улучшает оценку нейросети, т. к. она очевидно работает не идеально.
    Что делать в конце, если доигрывания нет? Просто берётся выход нейросети, отвечающий за качество позиции и всё.
  6. Сергей63 Новичок

    • Новичок
    Member Since:
    17.06.2018
    Message Count:
    24
    Likes Received:
    4
    Репутация:
    0
    Оффлайн
    А где Стиль?
  7. Boroda Новичок

    • Новичок
    Member Since:
    12.01.2018
    Message Count:
    62
    Likes Received:
    8
    Репутация:
    0
    Оффлайн
    Что то как то тихо в лесу... Кто нить знает, когда окончательно перезапустят обучение? Неужели не все баги еще исправили?
  8. Sergey1983 Учаcтник

    • Участник
    Member Since:
    03.04.2018
    Message Count:
    126
    Likes Received:
    14
    Репутация:
    1
    Оффлайн
    Мне это тоже интересно.
  9. Sergey1983 Учаcтник

    • Участник
    Member Since:
    03.04.2018
    Message Count:
    126
    Likes Received:
    14
    Репутация:
    1
    Оффлайн
    LcZero(вроде Cuda версия) сыграла две ничьи со Stockfish 9

  10. Polarity Новичок

    • Новичок
    Member Since:
    24.04.2018
    Message Count:
    77
    Likes Received:
    17
    Репутация:
    0
    Оффлайн
    Пытались долгое время повторить результат самого первого теста.
    Недавно нашли баг, который мог сильно повлиять на все тесты со 2 по 7.
    В 8 тесте выбрали не совсем удачную стратегию понижения LR, поэтому она видимо скатилась в локальный минимум, из которого уже не смогла выбраться.
    А вот тест 9 уже вышел сравнимым по силе с тестом 1, так что дальше прогресс я думаю пойдёт намного быстрее. Судя по тому, как в последнее время всё движется, мне кажется, что стоит ожидать относительно скоро выхода 20x256 сети в основной пайплайн.

    Ну и ничья со стокфишем - это давно уже пройденный этап.
    Вот примеры ничейных результатов разных версий Leela с dev версией стокфиша на 20 ядрах:
    https://lichess.org/P2GRf7Y3
    https://lichess.org/Lxh7LwcD
    https://lichess.org/JhlZDEBx
    https://lichess.org/zrGroCM5
  11. Sergey1983 Учаcтник

    • Участник
    Member Since:
    03.04.2018
    Message Count:
    126
    Likes Received:
    14
    Репутация:
    1
    Оффлайн
    Как сеть 20x256, они же собирались перезапускать обучение?
  12. Polarity Новичок

    • Новичок
    Member Since:
    24.04.2018
    Message Count:
    77
    Likes Received:
    17
    Репутация:
    0
    Оффлайн
    Ещё рано говорить о перезапуске, нужно отладить параметры и убедиться что всё работает хорошо. Но полноценный перезапуск уже не за горами.
    Совсем недавно перезапустили тест, теперь там 20x256 сеть. Отслеживать прогресс можно тут:http://testserver.lczero.org/
  13. svoitsl Учаcтник

    • Участник
    Member Since:
    06.01.2018
    Message Count:
    374
    Likes Received:
    91
    Репутация:
    7
    Оффлайн
    Пока только известно что не на этой ни на следующей недели его не будет

    отслеживать придется долго, из за большой сети скорость наигрывания существенно упала
    (всего 2 с небольшим тысячи игр в сутки,то есть на 3 порядка, кажется )
  14. Boroda Новичок

    • Новичок
    Member Since:
    12.01.2018
    Message Count:
    62
    Likes Received:
    8
    Репутация:
    0
    Оффлайн
    Как это две тысячи, если сегодня только уже 40000 с лишним тысяч наиграли?
  15. pavelgttfj8 Учаcтник

    • Участник
    Member Since:
    07.12.2017
    Message Count:
    290
    Likes Received:
    90
    Репутация:
    3
    Оффлайн
    21.Bc4 Норм
    https://www.youtube.com/watch?v=2m5oXlZ_e_A

    Zayats likes this.
  16. Sergey1983 Учаcтник

    • Участник
    Member Since:
    03.04.2018
    Message Count:
    126
    Likes Received:
    14
    Репутация:
    1
    Оффлайн
    Здесь в 6 пункте http://blog.lczero.org/2018/07/02/project-update/
    пишется что осуществляется переход на 16 битную арифметику, но поддержка будет только на видеокартах Titan, это что же все владельцы видеокарт GTX остаются за "бортом", или же для них будет какая-то альтернатива на GPU?
  17. Rom Старожил

    • Участник
    • Старожил
    Member Since:
    12.02.2012
    Message Count:
    645
    Likes Received:
    276
    Репутация:
    28
    Оффлайн
    Просто у владельцев Титанов скорость стала в два раза выше. Остальных это не коснулось. Сравнить скорости до и после можно здесь:
    https://docs.google.com/spreadsheet...7Vul4DpRNfn6K8oeCjBILe6uA/edit#gid=1508569046

    P.S. Насколько я знаю 1080 Ti поддерживает int8, так что и для владельцев таких карт ещё не всё потеряно.
  18. Sergey1983 Учаcтник

    • Участник
    Member Since:
    03.04.2018
    Message Count:
    126
    Likes Received:
    14
    Репутация:
    1
    Оффлайн
    То есть, будут сетки и в старой арифметике? Если так, то хорошо.
  19. Rom Старожил

    • Участник
    • Старожил
    Member Since:
    12.02.2012
    Message Count:
    645
    Likes Received:
    276
    Репутация:
    28
    Оффлайн
    Не исключено, что они все будут в старой арифметике, просто на Титанах будет производится округление. Впрочем, деталей я не знаю.
    Sergey1983 likes this.
  20. Boroda Новичок

    • Новичок
    Member Since:
    12.01.2018
    Message Count:
    62
    Likes Received:
    8
    Репутация:
    0
    Оффлайн
    Народ подскажите, а можно в арене задать условия турнира, чтобы движок,
    (например Лила) играла с несколькими противниками, а они между собой не играли? А то решил протестировать Лилу с разными движками, но неохота каждый раз создавать новый турнир.
  21. Vladruss НедоКМС, победитель второразрядников.

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Member Since:
    30.12.2009
    Message Count:
    16.477
    Likes Received:
    8.522
    Репутация:
    530
    Нарушения:
    31
    Оффлайн
    Видимо, надо делать так:


    [​IMG]

    Хотя я не люблю Арену и тоже в ней плохо разбираюсь.
    Boroda likes this.
  22. Boroda Новичок

    • Новичок
    Member Since:
    12.01.2018
    Message Count:
    62
    Likes Received:
    8
    Репутация:
    0
    Оффлайн
    Спасибо попробую!
  23. Sergey1983 Учаcтник

    • Участник
    Member Since:
    03.04.2018
    Message Count:
    126
    Likes Received:
    14
    Репутация:
    1
    Оффлайн
  24. Sergey1983 Учаcтник

    • Участник
    Member Since:
    03.04.2018
    Message Count:
    126
    Likes Received:
    14
    Репутация:
    1
    Оффлайн
    Crem, а нельзя ли после перезапуска сервера добавить поддержку шахмат Фишера?
  25. Mustitz Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    30.09.2006
    Message Count:
    3.546
    Likes Received:
    1.265
    Репутация:
    36
    Location:
    Киев
    Оффлайн
    А кто будет тренировать нейросеть?
  26. Sergey1983 Учаcтник

    • Участник
    Member Since:
    03.04.2018
    Message Count:
    126
    Likes Received:
    14
    Репутация:
    1
    Оффлайн
    Её хоть так хоть так тренируют(и я в том числе), а шахматы фишера это лишь новые позиции которые улучшат понимание шахмат LcZero.
    подобная идея уже была https://groups.google.com/forum/#!topic/lczero/C2PY8Lm8GMA
  27. Boroda Новичок

    • Новичок
    Member Since:
    12.01.2018
    Message Count:
    62
    Likes Received:
    8
    Репутация:
    0
    Оффлайн
    На основном сервере, новым сетям наконец то удалось обыграть 390 сеть, для этого понадбилось почти 100 поколений сети!
    Sergey1983 and Rom like this.
  28. WinPooh В.М.

    • Команда форума
    Member Since:
    13.02.2006
    Message Count:
    9.491
    Likes Received:
    3.118
    Репутация:
    95
    Location:
    Москва
    Оффлайн
    Ещё и другие ходы - рокировки нетривиального вида. Насколько они хорошо лягут на существующую архитектуру сети?
  29. Sergey1983 Учаcтник

    • Участник
    Member Since:
    03.04.2018
    Message Count:
    126
    Likes Received:
    14
    Репутация:
    1
    Оффлайн
    Но, если ляжет почему бы не сделать?По ссылке выше писали что позиции во многом похожие поэтому замедление обучения не должно быть таким уж большим, кроме того я в том числе спрашиваю мнение других хотя окончательно прояснит ситуацию пожалуй лишь Crem.
  30. Polarity Новичок

    • Новичок
    Member Since:
    24.04.2018
    Message Count:
    77
    Likes Received:
    17
    Репутация:
    0
    Оффлайн
    Я согласен, что для анализа позиций это может быть полезным. Но для игры - скорее всего, нет, т. к. это уменьшает capacity нейронной сети для ходов из реальной игры.
  31. Mustitz Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    30.09.2006
    Message Count:
    3.546
    Likes Received:
    1.265
    Репутация:
    36
    Location:
    Киев
    Оффлайн
    В любом случае для анализа позиций куда более полезны позиции из классических шахмат. Если у нас король с b8 может рокировать на g8, то эта особенность может быть надо будет учитывать в шахматах Фишера, но для классических шахмат она более чем бесполезна.

    Я просто не сильно владею на тему того, как именно используются тестовые партии в обучении. И насколько велика вероятность, что сеть будет стремится к тому, чтобы глубоко знать небольшое количество дебютов. А это вполне себе локальный максимум, который использует большинство белковых шахматистов — иметь свой дебютный репертуар. В принципе, чтобы проверить это, надо просто посмотреть на статистику по дебютам в тестовых партиях. Если дебюты однообразны — сеть будет настроена на узкий дебютный репертуар.

    Но этого вполне можно избежать, если наигрывание тестовых партий реализовывать как большой MCTS где в UCT увеличить коэффициент исследования. Тогда в тестовых партиях будут разыгрываться самые разные дебюты, сеть будет учиться на большом количестве разнообразных позиций.
  32. Rom Старожил

    • Участник
    • Старожил
    Member Since:
    12.02.2012
    Message Count:
    645
    Likes Received:
    276
    Репутация:
    28
    Оффлайн
    С одной стороны специализация на одной начальной расстановке должна дать результаты "глубже", чем необходимость разбрасываться по разным расстановкам шахмат Фишера, невозможным в реальной партии. С другой стороны, не возникает ли в классической расстановке некоторый аналог переобучения нейросети, из-за ограниченного количества позиций в начальной стадии партии, что в итоге даже снизит общую силу игры. (Вопросы рокировки в шахматах Фишера при обучении можно как-нибудь решить.)
    —- добавлено: 12 Jul 2018, опубликовано: 12 Jul 2018 —-
    Кстати, к вопросу о вариативности. Уж коли мы не можем раздавать некоторым не столь продвинутым видеокартам данные для самоигры в половинной точности (см. обсуждение на предыдущей странице), и поскольку половинная точность не слишком сказывается на качестве игры, то нельзя ли раздавать таким видеокартам для самоигры нейросетки с рандомными значениями последних значащих цифр? А мастер-сеть хранить только на сервере для обучения? Не знаю правда, не трудно ли это с точки зрения реализации и даст ли необходимую вариативность?
  33. Polarity Новичок

    • Новичок
    Member Since:
    24.04.2018
    Message Count:
    77
    Likes Received:
    17
    Репутация:
    0
    Оффлайн
    Переобучение возникает, когда данных недостаточно. Тут данные можно генерировать бесконечно.
  34. Rom Старожил

    • Участник
    • Старожил
    Member Since:
    12.02.2012
    Message Count:
    645
    Likes Received:
    276
    Репутация:
    28
    Оффлайн
    В начале партии количество позиций ограничено. То есть дебютные позиции нейросеть по сути запоминает, вместо того, чтобы заниматься обобщением.
  35. WinPooh В.М.

    • Команда форума
    Member Since:
    13.02.2006
    Message Count:
    9.491
    Likes Received:
    3.118
    Репутация:
    95
    Location:
    Москва
    Оффлайн
    Так против запоминания есть всякие специальные техники, типа дропаута, добавления случайного шума и т.д.

Share This Page