AlphaZero. Нейронная сеть играет в шахматы

Discussion in 'Машинное отделение' started by grizly, 6 Dec 2017.

  1. crem
    Оффлайн

    crem Учаcтник

    Репутация:
    14
    Скорее всего, всё будет совсем с нуля, но ещё обсуждается.

    Интересно, что в чате совсем мало людей, которые считают что надо продолжать тянуть текущую сеть.
    Казалось, что бОльшему числу людей не понравится идея выбросить 3 месяца сгенерированных игр.

    Ещё некоторые считают, что надо поднапрячь текущую сеть для ближайших TCEC и WCCC а уже потом начинать заново, но большинство опять же считает, что не надо подстраиваться под TCEC и WCCC.
     
  2. Sergey1983
    Оффлайн

    Sergey1983 Учаcтник

    Репутация:
    1
    Если уж начинать с нуля то чем раньше тем лучше, будет меньше потеряно времени.
     
  3. svoitsl
    Оффлайн

    svoitsl Учаcтник

    Репутация:
    7
    А вот если бы стоял выбор выбросить 3 мес или выбросить например год (когда станет ясно, что сеть содержит ошибки из-за наигранный партий с использованием плохой сети).
    Что бы они решили? Под напрячься ещё годок или забросить проект?
     
    Sergey1983 likes this.
  4. sovaz1997
    Оффлайн

    sovaz1997 Учаcтник

    Репутация:
    3
    Даже если мы выбросим игры, это будет не зря, т. к. за счёт этих игр были найдены ошибки LCZero. Последняя тестовая сеть имеет 2327 пунктов ЭЛО (а реальных, возможно, и больше). Это намного более быстрое развитие, чем 3 месяца назад.
     
    Sergey1983 likes this.
  5. nn
    Оффлайн

    nn Заблокирован

    Репутация:
    124
    А где результаты тестов что 2200 эло? Матчи выглядят на уровне начинающего или ниже.
    Это своих эло. Прошлый раз смотрю 12-я сеть была 2700. Примерно то же самое.
     
  6. Rom
    Оффлайн

    Rom Старожил

    Репутация:
    28
    Есть тесты c фиксированным количеством позиций на ход, против Стокфиша 9:
    https://docs.google.com/spreadsheets/d/1zcXqNzLNBT8RjTHO_AppL6WN0j8TGmOIh6osLPmaB6E/edit#gid=0

    Результаты последней экспериментальной сети находятся в строке 406. Пока у неё лучший результат среди сетей размерностью 64х6. То есть даже выше чем у сети 122 - лучшей сети с такой размерностью.
     
    Last edited: 7 Jun 2018
  7. Rom
    Оффлайн

    Rom Старожил

    Репутация:
    28
    Непростой вопрос :). От 2600 до 3100 в зависимости от того, используется видеокарта или нет. Это у основной сети. На экспериментальную ссылка в предыдущем сообщении.
     
  8. nn
    Оффлайн

    nn Заблокирован

    Репутация:
    124
    Кажется, эти измерения должны показывать качество наиболее вероятного хода в policy head. Если сравнивать с предыдущей сетью, то показывает улучшается или нет.
    Но с новым тестом, где нет предыдущих bugs, но может быть есть какие-то свои новые - неясно. И как эти измерения соответствуют реальному рейтингу при игре не понятно. Матч 122 со 121 был значительно более разумным.
     
  9. WinPooh
    Оффлайн

    WinPooh В.М. Staff Member

    Репутация:
    95
    Гошная Лила чисто на нейросети, безо всякого перебора (--visits = 1) умеет играть на уровне высокого любительского дана, если не про. А шахматная так сможет?
     
  10. Rom
    Оффлайн

    Rom Старожил

    Репутация:
    28
    С высокой долей погрешности, рискну предположить, что на хороший 1-й разряд. Скажем, 2000.
     
    Last edited: 7 Jun 2018
  11. crem
    Оффлайн

    crem Учаcтник

    Репутация:
    14
    На play.lczero.org easy mode это именно это.
     
  12. WinPooh
    Оффлайн

    WinPooh В.М. Staff Member

    Репутация:
    95
    Месяц или два назад я на этом сайте сыграл с уровнем Easy своей программой, установленной на глубину 1. Не впечатлило. 2000 там точно нет.
    Опять же, в Го рейтинг 2000 - это всего лишь первый кю...
     
  13. Polarity
    Оффлайн

    Polarity Новичок

    Репутация:
    0
    Вы можете поиграть с последней версией тестовой ID здесь: https://lichess.org/@/youngleela
    Сейчас там например ID 14, которая по моим (субъективным конечно же) ощущениям играет примерно на 2500. Если что, я управляю этим ботом :)

    А вот тоже мой бот для любителей по-жёстче: https://lichess.org/@/superleela
     
    Last edited: 8 Jun 2018
  14. svoitsl
    Оффлайн

    svoitsl Учаcтник

    Репутация:
    7
    Провел небольшой турнирчик на 30 игр (19:11), так оказалось, что Lc0 с 12 сетью на 92 Эло слабее Ruffian 1.0.5 (2608 Эло) то есть e Lc0 рейтинг 2516 Эло, что чуть больше рейтинга в самоигре

    Найти и исправить баги будет очевидно основной и самой трудной задачей, которую не удалось решить в прошлый раз
    Как оказалось наиграть 1 млн партий совсем не проблемм,уже через пару дней они будут, а больше для тестовой сети и не нужно, а вот как найти баги?
     
    Last edited: 8 Jun 2018
  15. Boroda
    Оффлайн

    Boroda Новичок

    Репутация:
    0
    Я что то ни как не вьеду. Раньше рейтинг самоигры был примерно завышен в 2 раза, по сравнению с реальным, а сейчас получается он стал даже чуть ниже реального? У 12 сети рейтинг 2330, а по вашему тесту он равен 2516? Я правильно понял?
    Не внимательно прочел пост CREMа 1789, теперь всё понял)
     
  16. svoitsl
    Оффлайн

    svoitsl Учаcтник

    Репутация:
    7
    Да, об этом уже раньше писал crem, но точность 30 партий для оценки рейтинга все же не так велика, к тому же и есть методическая ошибка, за рейтинг Руфиана взят CCRL, рассчитанный при других условиях, чем у меня (у меня блиц 1'+1"). Наверное правильно писать, что реальный рейтинг слегка выше саморейтинга или примерно ему соответствует.
    Но судя по картинке сеть уже наигралась и больше уже вроде особо не растет, и пора выявлять и исправлять баги и проводить оптимизацию кода.
     
  17. Polarity
    Оффлайн

    Polarity Новичок

    Репутация:
    0
    Люди пока еще не уверены, что она наигралась. Графики функции потерь идут вниз, точность пока ещё растёт. Думаю, дальше будет понижение шага скорости обучения, что сразу же даст еще заметный прирост.
     
  18. svoitsl
    Оффлайн

    svoitsl Учаcтник

    Репутация:
    7
    Они ещё не видели картинки, как увидят сразу уверятся....
    Выше 2600 уже не забирается....
     
  19. Rom
    Оффлайн

    Rom Старожил

    Репутация:
    28
    Очередное снижение learning rate будет с 25-й сети. Оно уже третье, но наверняка не последнее. Так что шансы на определенное усиление ещё приличные.
     
  20. Polarity
    Оффлайн

    Polarity Новичок

    Репутация:
    0
    Ну вот и забралось.
     
  21. crem
    Оффлайн

    crem Учаcтник

    Репутация:
    14
    В матчах был баг, температура 1 всю игру (как в тренировочных играх).
     
  22. Boroda
    Оффлайн

    Boroda Новичок

    Репутация:
    0
    А почему так рейтинг рухнул?
     
  23. svoitsl
    Оффлайн

    svoitsl Учаcтник

    Репутация:
    7
    Может решили тест снова перезапустить?
    ну после исправления бага всегда нужно...
     
  24. Polarity
    Оффлайн

    Polarity Новичок

    Репутация:
    0
    Да, решили всё перезапустить. Накопились некоторые изменения (не только этот баг).
    При перезапуске всё сломалось, но кажется проблема найдена. Скоро будет всё испрвалено, и начнётся полноценный второй круг тестирования
     
  25. svoitsl
    Оффлайн

    svoitsl Учаcтник

    Репутация:
    7
    Да уж, это было видно....
    Второй круг ведь тоже тестовый?
    И главная задача та же- нахождение багов? А обучение сети как побочный эффект?
     
  26. Polarity
    Оффлайн

    Polarity Новичок

    Репутация:
    0
    Ещё и поиск оптимальных параметров для обучения.
    Судя по всему, еще параллельно будет учиться сеть 128x10 на тех же самых играх.
     
  27. svoitsl
    Оффлайн

    svoitsl Учаcтник

    Репутация:
    7
    В результате рейтинг сети стал даже отрицательным,она что, в поддавки играла?
     
  28. svoitsl
    Оффлайн

    svoitsl Учаcтник

    Репутация:
    7
    Если не брать в расчет почти 200к партий, когда все сломалось, то рост второй тестовой сети проходит быстрее чем первой, за 200к игр в первой сети она добралась до 1650 Эло, а во второй до 2000 Эло. осталось только проверить вторую сеть что это за Эло :)
     
  29. Polarity
    Оффлайн

    Polarity Новичок

    Репутация:
    0
    Этому рейтингу ELO не стоит особо доверять, от запуска к запуску он ведёт себя немного по-разному. Провели тест с id7, и оказалась, что старая всё-таки сильнее.
     
  30. sovaz1997
    Оффлайн

    sovaz1997 Учаcтник

    Репутация:
    3
    Старая не оказалась сильнее (посмотрите на счёт). Этот тест не шел в копилку просто.
     
  31. Polarity
    Оффлайн

    Polarity Новичок

    Репутация:
    0
    Старая оказалась сильнее, примерно на 86 ELO. В реальных ELO скорее даже больше. Вроде бы внимательно всё рассмотрел :)
     
    sovaz1997 likes this.
  32. sovaz1997
    Оффлайн

    sovaz1997 Учаcтник

    Репутация:
    3
    А, не туда посмотрел. Да, действительно старая сильнее. Извините :)
     
  33. svoitsl
    Оффлайн

    svoitsl Учаcтник

    Репутация:
    7
    Скорее всего имелся в виду обычный Эло
     
  34. Boroda
    Оффлайн

    Boroda Новичок

    Репутация:
    0
    Вот сейчас последняя версия показывает 3003 Эло, это примерно сколько реальных?
     
  35. svoitsl
    Оффлайн

    svoitsl Учаcтник

    Репутация:
    7
    ну вот когда кто нибудь где нибудь проведет тест - вот тогда и узнаем
    Я сейчас такой возможности не имею
    Кстати она побольше стала 10х128