AlphaZero. Нейронная сеть играет в шахматы

Тема в разделе "Машинное отделение", создана пользователем grizly, 6 дек 2017.

  1. TopicStarter Overlay

    grizly Учаcтник

    • Участник
    Рег.:
    10.05.2015
    Сообщения:
    398
    Симпатии:
    623
    Репутация:
    21
    Оффлайн
    Заодно AlphaZero научили играть в шахматы. Тестовый матч при контроле 1 мин/ход 4TPU ALphaZero против 64core Stockfish AlphaZero выиграла W-D-L 28-72-0
    https://arxiv.org/pdf/1712.01815.pdf
    pavelgttfj8, sovaz1997, Michael-13 и ещё 1-му нравится это.
  2. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    19.203
    Симпатии:
    23.417
    Репутация:
    1.261
    Оффлайн
    grizly, а как партии скачать?
  3. TopicStarter Overlay

    grizly Учаcтник

    • Участник
    Рег.:
    10.05.2015
    Сообщения:
    398
    Симпатии:
    623
    Репутация:
    21
    Оффлайн
    Здесь их выкладывают, наверно, те которые в статье.

    И еще та же AlphaZero выиграла у AlphaGo Zero 60-40 в го, естественно
    Комсюк нравится это.
  4. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    19.203
    Симпатии:
    23.417
    Репутация:
    1.261
    Оффлайн
    забавно...

    MS, Camon14, Michael-13 и 2 другим нравится это.
  5. TopicStarter Overlay

    grizly Учаcтник

    • Участник
    Рег.:
    10.05.2015
    Сообщения:
    398
    Симпатии:
    623
    Репутация:
    21
    Оффлайн
    Немного намухлевали, конечно. Контроль выбрали удобным для AlphaZero, для которого Стокфиш не оптимизирована, и он не дает возможности разрешить fail low, а также потратить больше времени где нужно, и версия TCEC 2016. Наверно, если бы новая версия была с общепринятым контролем, они бы были очень близко.
    Challenger Spy нравится это.
  6. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    19.203
    Симпатии:
    23.417
    Репутация:
    1.261
    Оффлайн
    нет, разница в сотню Эло, а вяленый с тех пор прибавил только 40
  7. nn Старожил

    • Участник
    • Старожил
    Рег.:
    25.03.2007
    Сообщения:
    1.458
    Симпатии:
    3.109
    Репутация:
    124
    Оффлайн
    Мне кажется, что если стокфиш дать не 1 мин/ход, а 40мин/40 ходов, то это еще 20-30 ело
  8. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    19.203
    Симпатии:
    23.417
    Репутация:
    1.261
    Оффлайн
    nn, посчитайте разницу рейтов, пожалуйста

  9. nn Старожил

    • Участник
    • Старожил
    Рег.:
    25.03.2007
    Сообщения:
    1.458
    Симпатии:
    3.109
    Репутация:
    124
    Оффлайн
    примерно было бы вместо 98 в лучшем варианте 98 - 43 - 30 = 25

    Вычислительные мощности еще непонятно как сравнить. Это, конечно, все равно огромное достижение. Они тренировали всего лишь день, и удовлетворились таким результатом с таким контролем. Потренировали бы дольше, играла бы сильнее.

    Но главное достижение это то, что одна и та же сеть решает широкий круг задач на ранее недостижимом уровне.
    MS, Gridnev, Michael-13 и ещё 1-му нравится это.
  10. 4547 Учаcтник

    • Участник
    Рег.:
    15.11.2016
    Сообщения:
    1.804
    Симпатии:
    1.808
    Репутация:
    138
    Оффлайн
    Они играли в "Шахматы с друзьями" вконтакте? :)
  11. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    19.203
    Симпатии:
    23.417
    Репутация:
    1.261
    Оффлайн
    не поленился, завёл результаты такого матча во Фритц
    оболочка выдала ровно 100 пунктов разницы

    UPD. поправил предыдущий пост
  12. nn Старожил

    • Участник
    • Старожил
    Рег.:
    25.03.2007
    Сообщения:
    1.458
    Симпатии:
    3.109
    Репутация:
    124
    Оффлайн
    Из разложения Тейлора приблизительная формула 28/2 * 7 :)
    Michael-13, Комсюк и Нестор нравится это.
  13. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    19.203
    Симпатии:
    23.417
    Репутация:
    1.261
    Оффлайн
    вы меня переоцениваете :oops:
  14. 4547 Учаcтник

    • Участник
    Рег.:
    15.11.2016
    Сообщения:
    1.804
    Симпатии:
    1.808
    Репутация:
    138
    Оффлайн
    Объясните чем эта АльфаЗеро принципиально отличается? Почему ее ходы более "человечные"?
  15. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    19.203
    Симпатии:
    23.417
    Репутация:
    1.261
    Оффлайн
    дайте телефончик этик кадров... мне в адванс надо пару партий посмотреть :)
    Заодно и Альфу потренируем!
    —- добавлено: 6 дек 2017, опубликовано: 6 дек 2017 —-
  16. Rom Старожил

    • Участник
    • Старожил
    Рег.:
    12.02.2012
    Сообщения:
    644
    Симпатии:
    275
    Репутация:
    27
    Оффлайн
    Внутри у ней нейронка.
  17. nn Старожил

    • Участник
    • Старожил
    Рег.:
    25.03.2007
    Сообщения:
    1.458
    Симпатии:
    3.109
    Репутация:
    124
    Оффлайн
    Телефон не знаю :), можно наверно найти, если постараться. Возглавляет Demis Hassabis
    https://twitter.com/demishassabis
    https://ratings.fide.com/card.phtml?event=401307
    Комсюк нравится это.
  18. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    19.203
    Симпатии:
    23.417
    Репутация:
    1.261
    Оффлайн
    зарегался на arXiv'е
    ну, гады-сопернички, держитесь! :diablo:
  19. nn Старожил

    • Участник
    • Старожил
    Рег.:
    25.03.2007
    Сообщения:
    1.458
    Симпатии:
    3.109
    Репутация:
    124
    Оффлайн
  20. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    19.203
    Симпатии:
    23.417
    Репутация:
    1.261
    Оффлайн
    :)
  21. 4547 Учаcтник

    • Участник
    Рег.:
    15.11.2016
    Сообщения:
    1.804
    Симпатии:
    1.808
    Репутация:
    138
    Оффлайн
    что-то лажа какая-то или это какой-то урезанный сток. он даже на личесс показывает более сильные ходы..
  22. Scaramuccia Старожил

    • Участник
    • Старожил
    Рег.:
    13.01.2012
    Сообщения:
    3.169
    Симпатии:
    2.083
    Репутация:
    61
    Оффлайн
    Скучные компьютерные шахматы.
  23. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    19.203
    Симпатии:
    23.417
    Репутация:
    1.261
    Оффлайн
    лажа у тебя с восприятием :)
    в матче играл 64-ядерный (с минутой на ход) а на Личессе?
    —- добавлено: 6 дек 2017 —-
    счёт нескучный
  24. Scaramuccia Старожил

    • Участник
    • Старожил
    Рег.:
    13.01.2012
    Сообщения:
    3.169
    Симпатии:
    2.083
    Репутация:
    61
    Оффлайн
    САРКАЗМ надо теперь большими буквами писать? Вон в лондоне супер-элита вроде бы не сыграла ни одной хотя бы приблизительно близкой по интересу партии.
    Комсюк нравится это.
  25. Michael-13 Господин

    • Участник
    • Старожил
    Рег.:
    18.11.2011
    Сообщения:
    3.068
    Симпатии:
    1.098
    Репутация:
    29
    Оффлайн
    Жесть, будущее здесь. Даже не верится:pray::)
    Впрочем, даже частные любительские нейронные сети вроде Giraffe играли на уровне международного мастера:https://geektimes.ru/post/262612/
  26. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    19.203
    Симпатии:
    23.417
    Репутация:
    1.261
    Оффлайн


    36-ой ход Стока очень сомнителен :idntknow:
    Нет в статье про контемпт?
  27. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    Комсюк, ход нормальный. Нет, здесь, очевидно, AlphaZero переигрывает, но все это происходит на другой архитектуре процессора и на другом алгоритме, что не реализуемо на x86 на данный момент. Не совсем честное сравнение, получается. Но думаю, этот проект еще будет долго развиваться и вполне может изменить шахматные движки в ближайшем будущем.

    Код:
    info depth 38 seldepth 68 multipv 1 score cp 83 nodes 403692131 nps 9375107 hashfull 874 tbhits 0 time 43060 pv c2c1 d7d8 h6e3 g8h8 e3a3 f7f8 a3f8 h8f8 c1g1 b7c8 g1g6 c8d7 g6g7 d7e8 d2e3 f8h8 f6f7 e8f7 g7f7 h8h4 f7b7 h4h3 e3f4 h3h4 f4g5 h4d4 g5f6 d4a4 b7b6 a4b4 f6e6 d5d4 e6f6 d4d3 b6d6 d8c7 d6d3 b4f4 f6g5 f4b4 e5e6 b4b5 g5f6 b5b1 e6e7 b1f1 f6e6 f1e1 e6f7 a5a4 e7e8q e1e8 f7e8 c7c6 d3d4 c6b5 e8d7 a4a3
    Rom и Котэ нравится это.
  28. Котэ Восьмикратный чемпион подъезда

    • Участник
    • Старожил
    Рег.:
    30.04.2010
    Сообщения:
    987
    Симпатии:
    393
    Репутация:
    12
    Оффлайн
    Предложение модераторам: может создать отдельную тему для обсуждения AlphaZero и перенести последние посты из этой темы в нее?
    sovaz1997 нравится это.
  29. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    19.203
    Симпатии:
    23.417
    Репутация:
    1.261
    Оффлайн
    тогда 30.Сg6 гениальный ход и у белых выиграно?
  30. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    Комсюк, и 30-й - тоже ход Stockfish-а. Но его делает AlphaZero:

    Код:
    info depth 40 seldepth 61 multipv 1 score cp 127 nodes 1512979939 nps 8762465 hashfull 945 tbhits 0 time 172666 pv d3g6 e7g5 g4g5 f7g6 f4f5 h8g8 g5h6 e8f7 f5f6 d7d8 e3d2 b7c8 c2c6 c8d7 c6b6 d8c7 b6d6 c7b8 d2c3 d7c8 c3b2 g6g5 h4g5 g8g6 h6h8 g6g8 h8h4 f7g6 d6c6 g6g5 h4g5 g8g5 b2c3 g5g2 c3d3 b8b7 d3e3 g2g3 e3f4 g3g8 c6a6 b7c7 a6d6 c8d7 f4e3 g8h8 d6a6 d7c8 a6d6 h8h1 e3f3
  31. Crest Админ, МГ

    • Команда форума
    Рег.:
    05.02.2006
    Сообщения:
    57.221
    Симпатии:
    21.092
    Репутация:
    621
    Адрес:
    Москва, Россия
    Оффлайн
    По виду, это был чисто рекламный матч!
    Против АльфаЗеро играл какой-то кастрат на слабом железе, которого назвали громким именем Стокфиш.
    Выглядит как явная подстава.
    Думаю, обычный Стокфиш на моём домашнем стационаре наберёт против этого нового распиаренного монстра намного больше очков, чем тот самый кастрат.
    Regulus, Spy, Semion13 и ещё 1-му нравится это.
  32. JackPuffon Новичок

    • Новичок
    Рег.:
    12.09.2017
    Сообщения:
    17
    Симпатии:
    15
    Репутация:
    0
    Оффлайн
    Сергей Юрьевич, то что железо и формат встречи был не в пользу стока - это понятно, но, тем не менее, не кажется ли вам что сам факт того, что нейронные сети играют сильнее движков, не имея чисто шахматных алгоритмов, и еще способны к самообучению говорит о скорой революции и переоценке ценностей в компьюетрных шахматах и компьютерной подготовке гроссов?
  33. Michael-13 Господин

    • Участник
    • Старожил
    Рег.:
    18.11.2011
    Сообщения:
    3.068
    Симпатии:
    1.098
    Репутация:
    29
    Оффлайн
    Вот статья на английском про программу в вики.
    https://en.wikipedia.org/wiki/AlphaGo_Zero
    Т.е. "AlphaGo Zero" - это новая версия "AlphaGo" выученная для игры именно в го.
    А собственно нужная нам "AlphaZero" - универсальная программа, не заточенная под конкретную игру (шахматы, го , сеги), а способная играть в в любую игру - го, шахматы и сеги. Т.е., видимо, при желании ее можно аналогично дольше (не 1 день, а месяц) учить каждой игре (шахматы) по очереди, что еще значительно ее усилит.
    Впрочем, увидим, как она играет в другие игры - фишера, крезихаус (шведки, bughouse), шашки... и тогда посмотрим, настолько ли она универсальна и сильна, как нам хотелось бы:)
    И конечно ждем как минимум еще 2 независимых групп исследователей вроде CCRL и TCEC, чтобы оценить ее в эло (пока что предполагается что играет на 100 пунктов сильнее, чем стокфиш), т.е. ожидается около 3525.
  34. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    19.203
    Симпатии:
    23.417
    Репутация:
    1.261
    Оффлайн
    ещё от гроссов
    —- добавлено: 7 дек 2017 —-
    а вот Спай про своего инсайдера молчит :)
    Любитель_, MS, mikola7 и 3 другим нравится это.
  35. Crest Админ, МГ

    • Команда форума
    Рег.:
    05.02.2006
    Сообщения:
    57.221
    Симпатии:
    21.092
    Репутация:
    621
    Адрес:
    Москва, Россия
    Оффлайн
    Простите, но я не понимаю этого "но".
    Устроили избиения младенца, лишённого ресурсов - и радуются!
    При неравенстве железа даже слабые шахматные программы могут обыграть заметно более сильные. И что же из этого следует?
    Да ничего. Просто для корректного сравнения "мозгов" нужны мало-мальски равные условия.

    Да, нейронные сети - это сила. Да, сопоставления N сыгранных партий заметно сильнее, чем попытка сыграть одну-единственную.
    Но это вполне понятная разница между кардинально разными возможностями.
    Не сюрприз.
    Semion13 и sovaz1997 нравится это.

Поделиться этой страницей