AlphaZero. Нейронная сеть играет в шахматы

crem · 7 Jun 2018

Sergey1983 said: ↑

Crem, а уже наигранные партии будут использоваться в обучении или всё пойдёт действительно с нуля?
Click to expand...

Скорее всего, всё будет совсем с нуля, но ещё обсуждается.

Интересно, что в чате совсем мало людей, которые считают что надо продолжать тянуть текущую сеть.
Казалось, что бОльшему числу людей не понравится идея выбросить 3 месяца сгенерированных игр.

Ещё некоторые считают, что надо поднапрячь текущую сеть для ближайших TCEC и WCCC а уже потом начинать заново, но большинство опять же считает, что не надо подстраиваться под TCEC и WCCC.

Sergey1983 · 7 Jun 2018

Если уж начинать с нуля то чем раньше тем лучше, будет меньше потеряно времени.

svoitsl · 7 Jun 2018

crem said: ↑

Казалось, что бОльшему числу людей не понравится идея выбросить 3 месяца сгенерированных игр.
Click to expand...

А вот если бы стоял выбор выбросить 3 мес или выбросить например год (когда станет ясно, что сеть содержит ошибки из-за наигранный партий с использованием плохой сети).
Что бы они решили? Под напрячься ещё годок или забросить проект?

sovaz1997 · 7 Jun 2018

Даже если мы выбросим игры, это будет не зря, т. к. за счёт этих игр были найдены ошибки LCZero. Последняя тестовая сеть имеет 2327 пунктов ЭЛО (а реальных, возможно, и больше). Это намного более быстрое развитие, чем 3 месяца назад.

nn · 7 Jun 2018

crem said: ↑

Перезапущенная тренировка сети сумела одни сутки (200000 игр, 6 поколений сети) набрать 2200 Эло настоящего рейтинга!
Удивлены все!
Click to expand...

А где результаты тестов что 2200 эло? Матчи выглядят на уровне начинающего или ниже.

sovaz1997 said: ↑

Даже если мы выбросим игры, это будет не зря, т. к. за счёт этих игр были найдены ошибки LCZero. Последняя тестовая сеть имеет 2327 пунктов ЭЛО (а реальных, возможно, и больше). Это намного более быстрое развитие, чем 3 месяца назад.
Click to expand...

Это своих эло. Прошлый раз смотрю 12-я сеть была 2700. Примерно то же самое.

Rom · 7 Jun 2018

Есть тесты c фиксированным количеством позиций на ход, против Стокфиша 9:
https://docs.google.com/spreadsheets/d/1zcXqNzLNBT8RjTHO_AppL6WN0j8TGmOIh6osLPmaB6E/edit#gid=0

Результаты последней экспериментальной сети находятся в строке 406. Пока у неё лучший результат среди сетей размерностью 64х6. То есть даже выше чем у сети 122 - лучшей сети с такой размерностью.

Rom · 7 Jun 2018

WinPooh said: ↑

Сколько сейчас пунктов по шкале CCRL?
Click to expand...

Непростой вопрос . От 2600 до 3100 в зависимости от того, используется видеокарта или нет. Это у основной сети. На экспериментальную ссылка в предыдущем сообщении.

nn · 7 Jun 2018

Кажется, эти измерения должны показывать качество наиболее вероятного хода в policy head. Если сравнивать с предыдущей сетью, то показывает улучшается или нет.
Но с новым тестом, где нет предыдущих bugs, но может быть есть какие-то свои новые - неясно. И как эти измерения соответствуют реальному рейтингу при игре не понятно. Матч 122 со 121 был значительно более разумным.

WinPooh · 7 Jun 2018

Rom said: ↑

WinPooh said: ↑

Сколько сейчас пунктов по шкале CCRL?
Click to expand...

Непростой вопрос . От 2600 до 3100 в зависимости от того, используется видеокарта или нет. Это у основной сети. На экспериментальную ссылка в предыдущем сообщении.
Click to expand...

Гошная Лила чисто на нейросети, безо всякого перебора (--visits = 1) умеет играть на уровне высокого любительского дана, если не про. А шахматная так сможет?

Rom · 7 Jun 2018

WinPooh said: ↑

Гошная Лила чисто на нейросети, безо всякого перебора (--visits = 1) умеет играть на уровне высокого любительского дана, если не про. А шахматная так сможет?
Click to expand...

С высокой долей погрешности, рискну предположить, что на хороший 1-й разряд. Скажем, 2000.

crem · 7 Jun 2018

WinPooh said: ↑

Гошная Лила чисто на нейросети, безо всякого перебора (--visits = 1) умеет играть на уровне высокого любительского дана, если не про. А шахматная так сможет?
Click to expand...

На play.lczero.org easy mode это именно это.

WinPooh · 7 Jun 2018

crem said: ↑

WinPooh said: ↑

Гошная Лила чисто на нейросети, безо всякого перебора (--visits = 1) умеет играть на уровне высокого любительского дана, если не про. А шахматная так сможет?
Click to expand...

На play.lczero.org easy mode это именно это.
Click to expand...

Месяц или два назад я на этом сайте сыграл с уровнем Easy своей программой, установленной на глубину 1. Не впечатлило. 2000 там точно нет.
Опять же, в Го рейтинг 2000 - это всего лишь первый кю...

Polarity · 8 Jun 2018

Вы можете поиграть с последней версией тестовой ID здесь: https://lichess.org/@/youngleela
Сейчас там например ID 14, которая по моим (субъективным конечно же) ощущениям играет примерно на 2500. Если что, я управляю этим ботом

А вот тоже мой бот для любителей по-жёстче: https://lichess.org/@/superleela

svoitsl · 8 Jun 2018

nn said: ↑

А где результаты тестов что 2200 эло?
Click to expand...

Провел небольшой турнирчик на 30 игр (19:11), так оказалось, что Lc0 с 12 сетью на 92 Эло слабее Ruffian 1.0.5 (2608 Эло) то есть e Lc0 рейтинг 2516 Эло, что чуть больше рейтинга в самоигре

crem said: ↑

Но это пока только тест, и после того как известные баги исправят, всё опять начнётся с нуля, но уже на основном сервере.
Click to expand...

Найти и исправить баги будет очевидно основной и самой трудной задачей, которую не удалось решить в прошлый раз
Как оказалось наиграть 1 млн партий совсем не проблемм,уже через пару дней они будут, а больше для тестовой сети и не нужно, а вот как найти баги?

Boroda · 8 Jun 2018

svoitsl said: ↑

Провел небольшой турнирчик на 30 игр (19:11), так оказалось, что Lc0 с 12 сетью на 92 Эло слабее Ruffian 1.0.5 (2608 Эло) то есть e Lc0 рейтинг 2516 Эло, что чуть больше рейтинга в самоигре
Click to expand...

Я что то ни как не вьеду. Раньше рейтинг самоигры был примерно завышен в 2 раза, по сравнению с реальным, а сейчас получается он стал даже чуть ниже реального? У 12 сети рейтинг 2330, а по вашему тесту он равен 2516? Я правильно понял?
Не внимательно прочел пост CREMа 1789, теперь всё понял)

svoitsl · 8 Jun 2018

Boroda said: ↑

Я правильно понял?
Click to expand...

Да, об этом уже раньше писал crem, но точность 30 партий для оценки рейтинга все же не так велика, к тому же и есть методическая ошибка, за рейтинг Руфиана взят CCRL, рассчитанный при других условиях, чем у меня (у меня блиц 1'+1"). Наверное правильно писать, что реальный рейтинг слегка выше саморейтинга или примерно ему соответствует.
Но судя по картинке сеть уже наигралась и больше уже вроде особо не растет, и пора выявлять и исправлять баги и проводить оптимизацию кода.

Polarity · 8 Jun 2018

Люди пока еще не уверены, что она наигралась. Графики функции потерь идут вниз, точность пока ещё растёт. Думаю, дальше будет понижение шага скорости обучения, что сразу же даст еще заметный прирост.

svoitsl · 8 Jun 2018

Polarity said: ↑

Люди пока еще не уверены, что она наигралась
Click to expand...

Они ещё не видели картинки, как увидят сразу уверятся....
Выше 2600 уже не забирается....

Rom · 8 Jun 2018

Очередное снижение learning rate будет с 25-й сети. Оно уже третье, но наверняка не последнее. Так что шансы на определенное усиление ещё приличные.

Polarity · 8 Jun 2018

Ну вот и забралось.

crem · 8 Jun 2018

nn said: ↑

crem said: ↑

Перезапущенная тренировка сети сумела одни сутки (200000 игр, 6 поколений сети) набрать 2200 Эло настоящего рейтинга!
Удивлены все!
Click to expand...

А где результаты тестов что 2200 эло? Матчи выглядят на уровне начинающего или ниже.
Click to expand...

В матчах был баг, температура 1 всю игру (как в тренировочных играх).

Boroda · 8 Jun 2018

А почему так рейтинг рухнул?

svoitsl · 8 Jun 2018

Может решили тест снова перезапустить?
ну после исправления бага всегда нужно...

Polarity · 9 Jun 2018

Да, решили всё перезапустить. Накопились некоторые изменения (не только этот баг).
При перезапуске всё сломалось, но кажется проблема найдена. Скоро будет всё испрвалено, и начнётся полноценный второй круг тестирования

svoitsl · 9 Jun 2018

Polarity said: ↑

При перезапуске всё сломалось
Click to expand...

Да уж, это было видно....
Второй круг ведь тоже тестовый?
И главная задача та же- нахождение багов? А обучение сети как побочный эффект?

Polarity · 9 Jun 2018

Ещё и поиск оптимальных параметров для обучения.
Судя по всему, еще параллельно будет учиться сеть 128x10 на тех же самых играх.

svoitsl · 9 Jun 2018

Polarity said: ↑

Ещё и поиск оптимальных параметров для обучения.
Click to expand...

В результате рейтинг сети стал даже отрицательным,она что, в поддавки играла?

svoitsl · 10 Jun 2018

Если не брать в расчет почти 200к партий, когда все сломалось, то рост второй тестовой сети проходит быстрее чем первой, за 200к игр в первой сети она добралась до 1650 Эло, а во второй до 2000 Эло. осталось только проверить вторую сеть что это за Эло

Polarity · 10 Jun 2018

Этому рейтингу ELO не стоит особо доверять, от запуска к запуску он ведёт себя немного по-разному. Провели тест с id7, и оказалась, что старая всё-таки сильнее.

sovaz1997 · 10 Jun 2018

Polarity said: ↑

Этому рейтингу ELO не стоит особо доверять, от запуска к запуску он ведёт себя немного по-разному. Провели тест с id7, и оказалась, что старая всё-таки сильнее.
Click to expand...

Старая не оказалась сильнее (посмотрите на счёт). Этот тест не шел в копилку просто.

Polarity · 10 Jun 2018

Старая оказалась сильнее, примерно на 86 ELO. В реальных ELO скорее даже больше. Вроде бы внимательно всё рассмотрел

sovaz1997 · 10 Jun 2018

А, не туда посмотрел. Да, действительно старая сильнее. Извините

svoitsl · 10 Jun 2018

Скорее всего имелся в виду обычный Эло

Boroda · 11 Jun 2018

Вот сейчас последняя версия показывает 3003 Эло, это примерно сколько реальных?

svoitsl · 11 Jun 2018

ну вот когда кто нибудь где нибудь проведет тест - вот тогда и узнаем
Я сейчас такой возможности не имею
Кстати она побольше стала 10х128

Log in or Sign up

AlphaZero. Нейронная сеть играет в шахматы

crem Учаcтник

Sergey1983 Учаcтник

svoitsl Учаcтник

sovaz1997 Учаcтник

nn Заблокирован

Rom Старожил

Rom Старожил

nn Заблокирован

WinPooh В.М. Staff Member

Rom Старожил

crem Учаcтник

WinPooh В.М. Staff Member

Polarity Новичок

svoitsl Учаcтник

Boroda Новичок

svoitsl Учаcтник

Polarity Новичок

svoitsl Учаcтник

Rom Старожил

Polarity Новичок

crem Учаcтник

Boroda Новичок

svoitsl Учаcтник

Polarity Новичок

svoitsl Учаcтник

Polarity Новичок

svoitsl Учаcтник

svoitsl Учаcтник

Polarity Новичок

sovaz1997 Учаcтник

Polarity Новичок

sovaz1997 Учаcтник

svoitsl Учаcтник

Boroda Новичок

svoitsl Учаcтник