AlphaZero. Нейронная сеть играет в шахматы

Тема в разделе "Машинное отделение", создана пользователем grizly, 6 дек 2017.

  1. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    Рег.:
    17.07.2011
    Сообщения:
    10.749
    Симпатии:
    10.306
    Репутация:
    577
    Нарушения:
    49
    Оффлайн
    Нисколько не жаль!
    Адванс хоть немного поживёт... если Нефёдов не прикупит себе такую "дуру" :)
  2. svoitsl Новичок

    • Новичок
    Рег.:
    05.01.2018
    Сообщения:
    88
    Симпатии:
    12
    Репутация:
    0
    Оффлайн
    Что то мне кажется, что заняться движком на новом алгоритме вполне мог бы Васик Райлих.
    Свою Рыбку он забросил, к Фрицу наверное душа не лежит, а вот новое направление довольно перспективное для него.
    Как и для его конторы, где он сейчас творит.
    К тому же в деньгах она особо не стеснена....
    Судя по краткому описанию А0- с точки зрения програмиста не очень уж и сложная штука, наработанные (при обучении) данные вполне можно прикупить у гугла.... Ну а дальше - дело техники и бизнеса
  3. nn Учаcтник

    • Участник
    Рег.:
    25.03.2007
    Сообщения:
    523
    Симпатии:
    1.086
    Репутация:
    75
    Оффлайн
    А где он работает? И чем занимается?
  4. Нестор консультант_ специалист по черной магии

    • Заслуженный
    • Участник
    Рег.:
    10.04.2006
    Сообщения:
    2.291
    Симпатии:
    1.226
    Репутация:
    134
    Адрес:
    Москва
    Оффлайн
    Кстати, да! Где Васик в это тяжелое время?
  5. N1mTzo Учаcтник

    • Участник
    Рег.:
    16.04.2008
    Сообщения:
    318
    Симпатии:
    30
    Репутация:
    1
    Оффлайн
    Работает на ChessBase, создает новые версии Fritz'а (движка).
  6. roman57 Учаcтник

    • Участник
    Рег.:
    23.09.2017
    Сообщения:
    110
    Симпатии:
    12
    Репутация:
    1
    Оффлайн
    Не люблю Фриц , доступная версия только 14 , но она мне завешивает машину при поражении , забавно что когда он ведёт игру , то всё в порядке - шутка программистов наверно ^_^
  7. N1mTzo Учаcтник

    • Участник
    Рег.:
    16.04.2008
    Сообщения:
    318
    Симпатии:
    30
    Репутация:
    1
    Оффлайн
    К 14-му Фрицу Васик не имеет отношение.
  8. zeroalphazero Учаcтник

    • Участник
    Рег.:
    14.12.2017
    Сообщения:
    133
    Симпатии:
    69
    Репутация:
    4
    Оффлайн
    Дебютная теория не стоит на месте!
    Определенное влияние матча заметно и по обновленным книгам движков — см., например, новогоднюю Hiarcs14yBook.
    Продолжают толкать, корректируя, теорию вперед и люди:
    [Event "Sitges Sunway op"]
    [Site "Sitges"]
    [Date "2017.12.19"]
    [Round "5"]
    [White "Gascon del Nogal, Jose Rafael"]
    [Black "Kucuksari, Kaan"]
    [Result "1/2-1/2"]
    [ECO "E17"]
    [WhiteElo "2479"]
    [BlackElo "2290"]
    [PlyCount "81"]
    [EventDate "2017.12.15"]
    [EventType "swiss"]
    [EventRounds "9"]
    [EventCountry "ESP"]
    [SourceTitle "Mega2018 Update 10"]
    [Source "Chessbase"]
    [SourceDate "2017.12.28"]
    [SourceVersion "1"]
    [SourceVersionDate "2017.12.28"]
    [SourceQuality "1"]

    1. Nf3 Nf6 2. c4 b6 3. g3 e6 4. Bg2 Bb7 5. d4 Be7 6. O-O O-O 7. d5 exd5 8. Nh4
    c6 9. cxd5 Nxd5 10. Nf5 Nc7 11. e4 d5 12. exd5 Nxd5 13. Nc3 Nxc3 14. Qg4 Bf6
    15. bxc3 Bc8 16. Ba3 Bxf5 17. Qxf5 Qc8 18. Qf3 Rd8 19. Rad1 a5 20. Rd6 h6 21.
    Rxf6 gxf6 22. Qxf6 Re8 23. Qxh6 Qe6 24. Qh4 Ra7 25. c4 f6 26. Bb2 Rh7 27. Qxf6
    Qxf6 28. Bxf6 Re2 29. a4 Rc2 30. Be4 Rxc4 31. Bxh7+ Kxh7 32. Bd8 Rb4 33. Rd1
    Kg6 34. Rd6+ Kf5 35. h4 Ke5 36. Rg6 Rxa4 37. h5 Nd7 38. h6 Nf8 39. Rf6 Nh7 40.
    Rf7 Rd4 41. Bc7+ 1/2-1/2
  9. KEV81 В предбаннике

    • Участник
    Рег.:
    06.03.2017
    Сообщения:
    432
    Симпатии:
    107
    Репутация:
    -2
    Нарушения:
    13
    Оффлайн
    Не понимаю, зачем использовать другие движки если есть стокфиш?
  10. zeroalphazero Учаcтник

    • Участник
    Рег.:
    14.12.2017
    Сообщения:
    133
    Симпатии:
    69
    Репутация:
    4
    Оффлайн
    Ага, и малювальникам дать приказ: зимой и летом — одним цветом!
    Осталось @z выбрать правильный для этой темы ответ:
    • елка;
    • заяц;
    • доллар/деньги;
    • негр;
    • крокодил;
    • небо;
    • солнце;
    • машина.
  11. zeroalphazero Учаcтник

    • Участник
    Рег.:
    14.12.2017
    Сообщения:
    133
    Симпатии:
    69
    Репутация:
    4
    Оффлайн
    Надо ли добавлять?
    Подошли, допустим, к "краю" трех-четырех(?)-мерной Вселенной. Увидели (якобы) тень Бога.
    Иди знай — то ли это действительно Его тень, то ли это всего лишь какая-то голографическая проекция пяти-шести(?!)-мерной?
    P.S. Мехмат'овцы вряд ли ответят...
  12. Jadn Заслуженный

    • Заслуженный
    • Участник
    Рег.:
    10.05.2006
    Сообщения:
    2.943
    Симпатии:
    662
    Репутация:
    27
    Оффлайн
    У меня ощущение, что эта нейросеть пытается нам что-то сказать, но пока получается не очень.
    zeroalphazero, Комсюк и Camon14 нравится это.
  13. Camon14 магистр

    • Заслуженный
    • Ветеран
    Рег.:
    28.05.2012
    Сообщения:
    14.038
    Симпатии:
    6.180
    Репутация:
    429
    Нарушения:
    10
    Оффлайн
    Обучите ее грамоте.
  14. Алексанлр Учаcтник

    • Участник
    Рег.:
    16.03.2014
    Сообщения:
    141
    Симпатии:
    164
    Репутация:
    17
    Оффлайн

  15. ШахматыЭтоДиагноз Учаcтник

    • Участник
    Рег.:
    31.03.2017
    Сообщения:
    674
    Симпатии:
    456
    Репутация:
    36
    Оффлайн
    Она пытается сказать: "Или вы меня считаете за миробля, или вы сами миробли".
    zeroalphazero нравится это.
  16. zeroalphazero Учаcтник

    • Участник
    Рег.:
    14.12.2017
    Сообщения:
    133
    Симпатии:
    69
    Репутация:
    4
    Оффлайн
    Все очень просто? Сказки — обман?;)
  17. Rom Учаcтник

    • Участник
    Рег.:
    12.02.2012
    Сообщения:
    439
    Симпатии:
    144
    Репутация:
    21
    Оффлайн
    Вести с полей:

    glinscott commented 5 hours ago

    Have made quite a bit more progress on this, I've got it to the stage I was able to generate good self-play games, and then run the training script to generate a new network. The new network was then 100 ELO stronger than the random mover (after only 160 games!). So, hopefully not too many bugs introduced in the port over :).

    Great work on the OpenCL validation @gcp, I ported that over, and it saved me big-time when I had made a mistake in the OpenCL batch-norm implementation.

    Also, interestingly the CPU implementation with a 5x64 network for chess is competitive with GPUs, except for very beefy new GPUs. That's great for generating training data though! No GPU required :).

    I have noticed that the scaling isn't quite linear per core like I would expect, but haven't dug too deeply into it yet.
    https://github.com/gcp/leela-zero/issues/369
    https://github.com/glinscott/leela-chess
    N1mTzo и nn нравится это.
  18. nn Учаcтник

    • Участник
    Рег.:
    25.03.2007
    Сообщения:
    523
    Симпатии:
    1.086
    Репутация:
    75
    Оффлайн
    Добавлю ссылку
    --- добавлено: 10 янв 2018 ---
    В го учится с нуля чрезвычайно медленно. Leela-Zero еще наверно месяца полтора-два нужно чтобы дойти до уровня полученного от supervised learning
    Наверно, для шахмат тоже не скоро на нормальной уровень выйдет.
    Rom нравится это.
  19. Rom Учаcтник

    • Участник
    Рег.:
    12.02.2012
    Сообщения:
    439
    Симпатии:
    144
    Репутация:
    21
    Оффлайн
    Сетка supervised learning примерно в 5 раз больше чем текущая (6х128 против 5х64). А текущая нейросеть потому и стала обучаться медленнее, что подходит к пределу для своей размерности. Так что текущая сеть может быть никогда и не обгонит сеть supervised learning. Она предназначена только для отработки методов тренировки. Сейчас ещё разок понизят learning rate, доведут текущую сеть до предела и перейдут к тренировке сети нормальной размерности.

    Сейчас главный вопрос - можно ли качественно натренировать новую нейросеть на партиях сыгранных предыдущей нейросетью. Поскольку наигрывание партий как раз наиболее ресурсоёмкий процесс, то прояснение этого вопроса может многое решить. Если получится, то можно будет не начинать тренировку новой нейросети с нуля, а постепенно увеличивать её размерность.
    nn нравится это.
  20. zeroalphazero Учаcтник

    • Участник
    Рег.:
    14.12.2017
    Сообщения:
    133
    Симпатии:
    69
    Репутация:
    4
    Оффлайн
    "Спокойствие, только спокойствие!"
    Вы уж там не переусердствуйте, please, со всякого рода ЕЁ размерностями, ok?:dash:
  21. N1mTzo Учаcтник

    • Участник
    Рег.:
    16.04.2008
    Сообщения:
    318
    Симпатии:
    30
    Репутация:
    1
    Оффлайн
    Кстати, вот тут Интел представила (для широкой публики, так-то анонс был в прошлом году) на CES штуковину под названием Intel Loihi. По виду как обычный проц в исполнении LGA115x (140Вт tdp), то есть это уже гораздо ближе к простому человеку, чем колоссальные нейросети за млн. долларов, доступные только компаниям уровня Гугл.
  22. Rom Учаcтник

    • Участник
    Рег.:
    12.02.2012
    Сообщения:
    439
    Симпатии:
    144
    Репутация:
    21
    Оффлайн
    Интересно отметить, что Gary Linscott получил скорость всего 2 000 позиций в секунду на топовой видеокарте. В то время как у Гугла скорость 80 000 позиций в секунду на 4-х TPU. Неужели топовая видеокарта настолько слабее одного TPU (в 10 раз)? Можно конечно сказать что код ещё толком не оптимизирован, но с другой стороны Gary использовал очень лёгкую нейросеть, а значит впоследствии скорость может снизиться ещё в несколько раз.
  23. Mustitz Заслуженный

    • Заслуженный
    • Участник
    Рег.:
    30.09.2006
    Сообщения:
    2.716
    Симпатии:
    209
    Репутация:
    12
    Адрес:
    Киев
    Оффлайн
    Получается разница в 10 раз. И в случае перемножения матриц да, слабее. На TPU это один такт, на GPU много.
  24. Rom Учаcтник

    • Участник
    Рег.:
    12.02.2012
    Сообщения:
    439
    Симпатии:
    144
    Репутация:
    21
    Оффлайн
  25. algoflip Начинающий

    • Начинающий
    Рег.:
    11.01.2018
    Сообщения:
    3
    Симпатии:
    0
    Репутация:
    0
    Оффлайн
    Я извиняюсь, что не читал все страницы этой темы, наверное эти очевидные вещи для специалистов были сказаны, но я всё равно напишу.
    Сергей Шипов и Пётр Свидлер удивлялись по-поводу Новоиндийской защиты. Дело, скорее всего, в следующем.
    Обучение нейронной сети с учителем может быть таким - заставить алгоритм всегда правильно трактовать некоторые позиции или целые варианты.
    ( PS. В итоге такого обучения получается "формула", которую движок будет применять уже ко всем позициям шахматной партии)
    Возможно, разработчики включили этот вариант Новоиндийской защиты как обязательный к обучению, т.е. Alpha Zero не может сыграть этот вариант по-другому.

    Бесспорно, эта "формула" (если дело так) - только часть алгоритма Alpha Zero, который является революционной научно-инженерной разработкой.
  26. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Разница не в 10 раз, так как сети разные.
  27. Crest Админ, МГ

    • Команда форума
    Рег.:
    05.02.2006
    Сообщения:
    48.123
    Симпатии:
    8.560
    Репутация:
    355
    Адрес:
    Москва, Россия
    Оффлайн
    Та-ак... И это называется "изучение шахмат с нуля"? Это действительно АльфаЗеро?
    Легенда рушится на глазах. :)
  28. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    Рег.:
    17.07.2011
    Сообщения:
    10.749
    Симпатии:
    10.306
    Репутация:
    577
    Нарушения:
    49
    Оффлайн
    Crest, это гипотеза новичка
    crem нравится это.
  29. Crest Админ, МГ

    • Команда форума
    Рег.:
    05.02.2006
    Сообщения:
    48.123
    Симпатии:
    8.560
    Репутация:
    355
    Адрес:
    Москва, Россия
    Оффлайн
    А что скажут старички по поводу такого выбора АльфаЗеро в дебюте?
    Как мог шахматный Зеро придти к спорному и рискованному варианту с жертвой пешки на d5 в новоиндийской защите без подсказок и теоретических костылей - в то время как есть миллион более надежных вариантов с плюсиком у белых? Это воистину непостижимо - о чём мы, собственно, и говорили с Петром в своём ролике.
  30. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    Рег.:
    17.07.2011
    Сообщения:
    10.749
    Симпатии:
    10.306
    Репутация:
    577
    Нарушения:
    49
    Оффлайн
    после кучи тестовых партий он казался Альфе не рискованным, а перспективным
  31. Mustitz Заслуженный

    • Заслуженный
    • Участник
    Рег.:
    30.09.2006
    Сообщения:
    2.716
    Симпатии:
    209
    Репутация:
    12
    Адрес:
    Киев
    Оффлайн
    Статистика варианта лучше :) У AlphaZero нету понятия "маленький плюс", он оперирует статистикой сыгранных партий. Вот и получается, что маленький плюс легко нейтрализовать и получить много ничейных результатов. А в случае более сложного варианта шансы допустить ошибку выше, и статы лучше.

    А какая дебютная книга получена в результате многих игр Stockfish между собой? Интересно посмотреть на статистику в этом варианте :)
  32. nn Учаcтник

    • Участник
    Рег.:
    25.03.2007
    Сообщения:
    523
    Симпатии:
    1.086
    Репутация:
    75
    Оффлайн
    Сыграл одну партию нетренированной Leela-chess-Zero. Через четыре года здесь будет город-сад часа тренировки, она будет обыгрывать всех и вся.

    Последние данные очков репутации:
    Camon14: 1 12 янв 2018
    Camon14 нравится это.
  33. Boroda Новичок

    • Новичок
    Рег.:
    12.01.2018
    Сообщения:
    43
    Симпатии:
    7
    Репутация:
    0
    Оффлайн
    А что заставляет Лилу повторять ходы?
  34. Mustitz Заслуженный

    • Заслуженный
    • Участник
    Рег.:
    30.09.2006
    Сообщения:
    2.716
    Симпатии:
    209
    Репутация:
    12
    Адрес:
    Киев
    Оффлайн
    Если соперник вынужден повторять ходы, то такое повторение может только увеличить вероятность победы (например, соперник допутит ошибку и не пойдет на повторение).
  35. KEV81 В предбаннике

    • Участник
    Рег.:
    06.03.2017
    Сообщения:
    432
    Симпатии:
    107
    Репутация:
    -2
    Нарушения:
    13
    Оффлайн
    скорее наоборот, повторение ходов дает шанс на ничью

Поделиться этой страницей