AlphaZero. Нейронная сеть играет в шахматы

Тема в разделе "Машинное отделение", создана пользователем grizly, 6 дек 2017.

  1. svoitsl Учаcтник

    • Участник
    Рег.:
    05.01.2018
    Сообщения:
    110
    Симпатии:
    14
    Репутация:
    0
    Оффлайн
    В обучение сети 6х64 первый раз ушло 4 млн игр, при повторном её обучении , если в сутки будет 180 тыс игр, то это займет как раз до конца июня (22 дня),но возможно ,что игр будет в два раза больше (как было раньше) и уйдет не 4 а может 3 млн игр,тогда это займет около недели
  2. Boroda Новичок

    • Новичок
    Рег.:
    12.01.2018
    Сообщения:
    52
    Симпатии:
    7
    Репутация:
    0
    Оффлайн
    А если сделать сеть еще больше чем у A0 (сколько там было 20х156?), это по идее должно сделать нейронку еще умнее? Или такую большую сеть замучаешься тренировать?
  3. svoitsl Учаcтник

    • Участник
    Рег.:
    05.01.2018
    Сообщения:
    110
    Симпатии:
    14
    Репутация:
    0
    Оффлайн
    Потенциал сети 20х256 (как у A0) известен, он в общем то Гуглом весь исчерпан, то есть для уверенного обыгрывания сегодняшнего SF его не хватит, в наших условиях скорость наигрывания партий для такой сети вряд ли превысит 3 млн/ мес, а для ещё большей сети - 1-1.5 млн/мес, и это ещё без учета того, что часть помощников может перестать помогать, как только увидят что рейтинг растет не более чем 10-20 Эло в месяц.
    Boroda нравится это.
  4. crem Новичок

    • Новичок
    Рег.:
    24.11.2016
    Сообщения:
    91
    Симпатии:
    86
    Репутация:
    4
    Оффлайн
    Перезапущенная тренировка сети сумела одни сутки (200000 игр, 6 поколений сети) набрать 2200 Эло настоящего рейтинга!
    Удивлены все!

    Но дебюты пока играет очень "творческие" (был вот 1. Nh3, 2. Ng1 3. a3, 4. a4, 5. a5).
    Саморейтинг тут: http://testserver.lczero.org/ на этот раз отстаёт от реального рейтинга.
    sovaz1997, Sergey1983, Rom и ещё 1-му нравится это.
  5. Sergey1983 Учаcтник

    • Участник
    Рег.:
    03.04.2018
    Сообщения:
    125
    Симпатии:
    14
    Репутация:
    1
    Оффлайн
    Crem, как я понимаю это форк старого проекта? Если да то когда можно будет присоединиться к тренировке?
  6. crem Новичок

    • Новичок
    Рег.:
    24.11.2016
    Сообщения:
    91
    Симпатии:
    86
    Репутация:
    4
    Оффлайн
    Это не форк, это тестирование перед тем как переключить главную тренировку на lc0 и (скорее всего) начать сначала.

    Если очень хочется, можно поучаствовать в тренировке тестового сервера, скомпилировав этот файл: https://github.com/LeelaChessZero/lczero-client/blob/release/lc0_main.go

    Но это пока только тест, и после того как известные баги исправят, всё опять начнётся с нуля, но уже на основном сервере.
  7. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    8.572
    Симпатии:
    1.851
    Репутация:
    78
    Адрес:
    Москва
    Онлайн
    Сколько сейчас пунктов по шкале CCRL?
  8. Sergey1983 Учаcтник

    • Участник
    Рег.:
    03.04.2018
    Сообщения:
    125
    Симпатии:
    14
    Репутация:
    1
    Оффлайн
    Crem, а уже наигранные партии будут использоваться в обучении или всё пойдёт действительно с нуля?
  9. crem Новичок

    • Новичок
    Рег.:
    24.11.2016
    Сообщения:
    91
    Симпатии:
    86
    Репутация:
    4
    Оффлайн
    Скорее всего, всё будет совсем с нуля, но ещё обсуждается.

    Интересно, что в чате совсем мало людей, которые считают что надо продолжать тянуть текущую сеть.
    Казалось, что бОльшему числу людей не понравится идея выбросить 3 месяца сгенерированных игр.

    Ещё некоторые считают, что надо поднапрячь текущую сеть для ближайших TCEC и WCCC а уже потом начинать заново, но большинство опять же считает, что не надо подстраиваться под TCEC и WCCC.
  10. Sergey1983 Учаcтник

    • Участник
    Рег.:
    03.04.2018
    Сообщения:
    125
    Симпатии:
    14
    Репутация:
    1
    Оффлайн
    Если уж начинать с нуля то чем раньше тем лучше, будет меньше потеряно времени.
  11. svoitsl Учаcтник

    • Участник
    Рег.:
    05.01.2018
    Сообщения:
    110
    Симпатии:
    14
    Репутация:
    0
    Оффлайн
    А вот если бы стоял выбор выбросить 3 мес или выбросить например год (когда станет ясно, что сеть содержит ошибки из-за наигранный партий с использованием плохой сети).
    Что бы они решили? Под напрячься ещё годок или забросить проект?
    Sergey1983 нравится это.
  12. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    365
    Симпатии:
    44
    Репутация:
    3
    Оффлайн
    Даже если мы выбросим игры, это будет не зря, т. к. за счёт этих игр были найдены ошибки LCZero. Последняя тестовая сеть имеет 2327 пунктов ЭЛО (а реальных, возможно, и больше). Это намного более быстрое развитие, чем 3 месяца назад.
    Sergey1983 нравится это.
  13. nn В предбаннике

    • Участник
    Рег.:
    25.03.2007
    Сообщения:
    624
    Симпатии:
    1.208
    Репутация:
    83
    Нарушения:
    23
    Оффлайн
    А где результаты тестов что 2200 эло? Матчи выглядят на уровне начинающего или ниже.
    Это своих эло. Прошлый раз смотрю 12-я сеть была 2700. Примерно то же самое.
  14. Rom Учаcтник

    • Участник
    Рег.:
    12.02.2012
    Сообщения:
    485
    Симпатии:
    173
    Репутация:
    21
    Оффлайн
    Есть тесты c фиксированным количеством позиций на ход, против Стокфиша 9:
    https://docs.google.com/spreadsheets/d/1zcXqNzLNBT8RjTHO_AppL6WN0j8TGmOIh6osLPmaB6E/edit#gid=0

    Результаты последней экспериментальной сети находятся в строке 406. Пока у неё лучший результат среди сетей размерностью 64х6. То есть даже выше чем у сети 122 - лучшей сети с такой размерностью.
  15. Rom Учаcтник

    • Участник
    Рег.:
    12.02.2012
    Сообщения:
    485
    Симпатии:
    173
    Репутация:
    21
    Оффлайн
    Непростой вопрос :). От 2600 до 3100 в зависимости от того, используется видеокарта или нет. Это у основной сети. На экспериментальную ссылка в предыдущем сообщении.
  16. nn В предбаннике

    • Участник
    Рег.:
    25.03.2007
    Сообщения:
    624
    Симпатии:
    1.208
    Репутация:
    83
    Нарушения:
    23
    Оффлайн
    Кажется, эти измерения должны показывать качество наиболее вероятного хода в policy head. Если сравнивать с предыдущей сетью, то показывает улучшается или нет.
    Но с новым тестом, где нет предыдущих bugs, но может быть есть какие-то свои новые - неясно. И как эти измерения соответствуют реальному рейтингу при игре не понятно. Матч 122 со 121 был значительно более разумным.
  17. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    8.572
    Симпатии:
    1.851
    Репутация:
    78
    Адрес:
    Москва
    Онлайн
    Гошная Лила чисто на нейросети, безо всякого перебора (--visits = 1) умеет играть на уровне высокого любительского дана, если не про. А шахматная так сможет?
  18. Rom Учаcтник

    • Участник
    Рег.:
    12.02.2012
    Сообщения:
    485
    Симпатии:
    173
    Репутация:
    21
    Оффлайн
    С высокой долей погрешности, рискну предположить, что на хороший 1-й разряд. Скажем, 2000.
  19. crem Новичок

    • Новичок
    Рег.:
    24.11.2016
    Сообщения:
    91
    Симпатии:
    86
    Репутация:
    4
    Оффлайн
    На play.lczero.org easy mode это именно это.
  20. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    8.572
    Симпатии:
    1.851
    Репутация:
    78
    Адрес:
    Москва
    Онлайн
    Месяц или два назад я на этом сайте сыграл с уровнем Easy своей программой, установленной на глубину 1. Не впечатлило. 2000 там точно нет.
    Опять же, в Го рейтинг 2000 - это всего лишь первый кю...
  21. Polarity Новичок

    • Новичок
    Рег.:
    24.04.2018
    Сообщения:
    50
    Симпатии:
    8
    Репутация:
    0
    Оффлайн
    Вы можете поиграть с последней версией тестовой ID здесь: https://lichess.org/@/youngleela
    Сейчас там например ID 14, которая по моим (субъективным конечно же) ощущениям играет примерно на 2500. Если что, я управляю этим ботом :)

    А вот тоже мой бот для любителей по-жёстче: https://lichess.org/@/superleela
  22. svoitsl Учаcтник

    • Участник
    Рег.:
    05.01.2018
    Сообщения:
    110
    Симпатии:
    14
    Репутация:
    0
    Оффлайн
    Провел небольшой турнирчик на 30 игр (19:11), так оказалось, что Lc0 с 12 сетью на 92 Эло слабее Ruffian 1.0.5 (2608 Эло) то есть e Lc0 рейтинг 2516 Эло, что чуть больше рейтинга в самоигре

    Найти и исправить баги будет очевидно основной и самой трудной задачей, которую не удалось решить в прошлый раз
    Как оказалось наиграть 1 млн партий совсем не проблемм,уже через пару дней они будут, а больше для тестовой сети и не нужно, а вот как найти баги?
  23. Boroda Новичок

    • Новичок
    Рег.:
    12.01.2018
    Сообщения:
    52
    Симпатии:
    7
    Репутация:
    0
    Оффлайн
    Я что то ни как не вьеду. Раньше рейтинг самоигры был примерно завышен в 2 раза, по сравнению с реальным, а сейчас получается он стал даже чуть ниже реального? У 12 сети рейтинг 2330, а по вашему тесту он равен 2516? Я правильно понял?
    Не внимательно прочел пост CREMа 1789, теперь всё понял)
  24. svoitsl Учаcтник

    • Участник
    Рег.:
    05.01.2018
    Сообщения:
    110
    Симпатии:
    14
    Репутация:
    0
    Оффлайн
    Да, об этом уже раньше писал crem, но точность 30 партий для оценки рейтинга все же не так велика, к тому же и есть методическая ошибка, за рейтинг Руфиана взят CCRL, рассчитанный при других условиях, чем у меня (у меня блиц 1'+1"). Наверное правильно писать, что реальный рейтинг слегка выше саморейтинга или примерно ему соответствует.
    Но судя по картинке сеть уже наигралась и больше уже вроде особо не растет, и пора выявлять и исправлять баги и проводить оптимизацию кода.
  25. Polarity Новичок

    • Новичок
    Рег.:
    24.04.2018
    Сообщения:
    50
    Симпатии:
    8
    Репутация:
    0
    Оффлайн
    Люди пока еще не уверены, что она наигралась. Графики функции потерь идут вниз, точность пока ещё растёт. Думаю, дальше будет понижение шага скорости обучения, что сразу же даст еще заметный прирост.
  26. svoitsl Учаcтник

    • Участник
    Рег.:
    05.01.2018
    Сообщения:
    110
    Симпатии:
    14
    Репутация:
    0
    Оффлайн
    Они ещё не видели картинки, как увидят сразу уверятся....
    Выше 2600 уже не забирается....
  27. Rom Учаcтник

    • Участник
    Рег.:
    12.02.2012
    Сообщения:
    485
    Симпатии:
    173
    Репутация:
    21
    Оффлайн
    Очередное снижение learning rate будет с 25-й сети. Оно уже третье, но наверняка не последнее. Так что шансы на определенное усиление ещё приличные.
  28. Polarity Новичок

    • Новичок
    Рег.:
    24.04.2018
    Сообщения:
    50
    Симпатии:
    8
    Репутация:
    0
    Оффлайн
    Ну вот и забралось.
  29. crem Новичок

    • Новичок
    Рег.:
    24.11.2016
    Сообщения:
    91
    Симпатии:
    86
    Репутация:
    4
    Оффлайн
    В матчах был баг, температура 1 всю игру (как в тренировочных играх).
  30. Boroda Новичок

    • Новичок
    Рег.:
    12.01.2018
    Сообщения:
    52
    Симпатии:
    7
    Репутация:
    0
    Оффлайн
    А почему так рейтинг рухнул?
  31. svoitsl Учаcтник

    • Участник
    Рег.:
    05.01.2018
    Сообщения:
    110
    Симпатии:
    14
    Репутация:
    0
    Оффлайн
    Может решили тест снова перезапустить?
    ну после исправления бага всегда нужно...
  32. Polarity Новичок

    • Новичок
    Рег.:
    24.04.2018
    Сообщения:
    50
    Симпатии:
    8
    Репутация:
    0
    Оффлайн
    Да, решили всё перезапустить. Накопились некоторые изменения (не только этот баг).
    При перезапуске всё сломалось, но кажется проблема найдена. Скоро будет всё испрвалено, и начнётся полноценный второй круг тестирования
  33. svoitsl Учаcтник

    • Участник
    Рег.:
    05.01.2018
    Сообщения:
    110
    Симпатии:
    14
    Репутация:
    0
    Оффлайн
    Да уж, это было видно....
    Второй круг ведь тоже тестовый?
    И главная задача та же- нахождение багов? А обучение сети как побочный эффект?
  34. Polarity Новичок

    • Новичок
    Рег.:
    24.04.2018
    Сообщения:
    50
    Симпатии:
    8
    Репутация:
    0
    Оффлайн
    Ещё и поиск оптимальных параметров для обучения.
    Судя по всему, еще параллельно будет учиться сеть 128x10 на тех же самых играх.
  35. svoitsl Учаcтник

    • Участник
    Рег.:
    05.01.2018
    Сообщения:
    110
    Симпатии:
    14
    Репутация:
    0
    Оффлайн
    В результате рейтинг сети стал даже отрицательным,она что, в поддавки играла?

Поделиться этой страницей