AlphaZero. Нейронная сеть играет в шахматы

Тема в разделе "Машинное отделение", создана пользователем grizly, 6 дек 2017.

  1. TopicStarter Overlay

    grizly Новичок

    • Новичок
    Рег.:
    10.05.2015
    Сообщения:
    20
    Симпатии:
    15
    Репутация:
    1
    Оффлайн
    Заодно AlphaZero научили играть в шахматы. Тестовый матч при контроле 1 мин/ход 4TPU ALphaZero против 64core Stockfish AlphaZero выиграла W-D-L 28-72-0
    https://arxiv.org/pdf/1712.01815.pdf
    sovaz1997, Michael-13 и Rom нравится это.
  2. Комсюк народный модератор

    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    9.925
    Симпатии:
    9.035
    Репутация:
    488
    Нарушения:
    22
    Оффлайн
    grizly, а как партии скачать?
  3. TopicStarter Overlay

    grizly Новичок

    • Новичок
    Рег.:
    10.05.2015
    Сообщения:
    20
    Симпатии:
    15
    Репутация:
    1
    Оффлайн
    Здесь их выкладывают, наверно, те которые в статье.

    И еще та же AlphaZero выиграла у AlphaGo Zero 60-40 в го, естественно
    Комсюк нравится это.
  4. Комсюк народный модератор

    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    9.925
    Симпатии:
    9.035
    Репутация:
    488
    Нарушения:
    22
    Оффлайн
    забавно...

    MS, Camon14, Michael-13 и 2 другим нравится это.
  5. TopicStarter Overlay

    grizly Новичок

    • Новичок
    Рег.:
    10.05.2015
    Сообщения:
    20
    Симпатии:
    15
    Репутация:
    1
    Оффлайн
    Немного намухлевали, конечно. Контроль выбрали удобным для AlphaZero, для которого Стокфиш не оптимизирована, и он не дает возможности разрешить fail low, а также потратить больше времени где нужно, и версия TCEC 2016. Наверно, если бы новая версия была с общепринятым контролем, они бы были очень близко.
    Challenger Spy нравится это.
  6. Комсюк народный модератор

    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    9.925
    Симпатии:
    9.035
    Репутация:
    488
    Нарушения:
    22
    Оффлайн
    нет, разница в сотню Эло, а вяленый с тех пор прибавил только 40
  7. nn В предбаннике

    • Участник
    Рег.:
    25.03.2007
    Сообщения:
    390
    Симпатии:
    967
    Репутация:
    59
    Нарушения:
    10
    Оффлайн
    Мне кажется, что если стокфиш дать не 1 мин/ход, а 40мин/40 ходов, то это еще 20-30 ело
  8. Комсюк народный модератор

    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    9.925
    Симпатии:
    9.035
    Репутация:
    488
    Нарушения:
    22
    Оффлайн
    nn, посчитайте разницу рейтов, пожалуйста

  9. nn В предбаннике

    • Участник
    Рег.:
    25.03.2007
    Сообщения:
    390
    Симпатии:
    967
    Репутация:
    59
    Нарушения:
    10
    Оффлайн
    примерно было бы вместо 98 в лучшем варианте 98 - 43 - 30 = 25

    Вычислительные мощности еще непонятно как сравнить. Это, конечно, все равно огромное достижение. Они тренировали всего лишь день, и удовлетворились таким результатом с таким контролем. Потренировали бы дольше, играла бы сильнее.

    Но главное достижение это то, что одна и та же сеть решает широкий круг задач на ранее недостижимом уровне.
    MS, Gridnev, Michael-13 и ещё 1-му нравится это.
  10. 4547 народный художник

    • Участник
    Рег.:
    15.11.2016
    Сообщения:
    646
    Симпатии:
    387
    Репутация:
    41
    Оффлайн
    Они играли в "Шахматы с друзьями" вконтакте? :)
  11. Комсюк народный модератор

    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    9.925
    Симпатии:
    9.035
    Репутация:
    488
    Нарушения:
    22
    Оффлайн
    не поленился, завёл результаты такого матча во Фритц
    оболочка выдала ровно 100 пунктов разницы

    UPD. поправил предыдущий пост
  12. nn В предбаннике

    • Участник
    Рег.:
    25.03.2007
    Сообщения:
    390
    Симпатии:
    967
    Репутация:
    59
    Нарушения:
    10
    Оффлайн
    Из разложения Тейлора приблизительная формула 28/2 * 7 :)
    Michael-13, Комсюк и Нестор нравится это.
  13. Комсюк народный модератор

    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    9.925
    Симпатии:
    9.035
    Репутация:
    488
    Нарушения:
    22
    Оффлайн
    вы меня переоцениваете :oops:
  14. 4547 народный художник

    • Участник
    Рег.:
    15.11.2016
    Сообщения:
    646
    Симпатии:
    387
    Репутация:
    41
    Оффлайн
    Объясните чем эта АльфаЗеро принципиально отличается? Почему ее ходы более "человечные"?
  15. Комсюк народный модератор

    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    9.925
    Симпатии:
    9.035
    Репутация:
    488
    Нарушения:
    22
    Оффлайн
    дайте телефончик этик кадров... мне в адванс надо пару партий посмотреть :)
    Заодно и Альфу потренируем!
    --- добавлено: 6 дек 2017, опубликовано: 6 дек 2017 ---
  16. Rom Учаcтник

    • Участник
    Рег.:
    12.02.2012
    Сообщения:
    341
    Симпатии:
    128
    Репутация:
    19
    Оффлайн
    Внутри у ней нейронка.
  17. nn В предбаннике

    • Участник
    Рег.:
    25.03.2007
    Сообщения:
    390
    Симпатии:
    967
    Репутация:
    59
    Нарушения:
    10
    Оффлайн
    Телефон не знаю :), можно наверно найти, если постараться. Возглавляет Demis Hassabis
    https://twitter.com/demishassabis
    https://ratings.fide.com/card.phtml?event=401307
    Комсюк нравится это.
  18. Комсюк народный модератор

    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    9.925
    Симпатии:
    9.035
    Репутация:
    488
    Нарушения:
    22
    Оффлайн
    зарегался на arXiv'е
    ну, гады-сопернички, держитесь! :diablo:
  19. nn В предбаннике

    • Участник
    Рег.:
    25.03.2007
    Сообщения:
    390
    Симпатии:
    967
    Репутация:
    59
    Нарушения:
    10
    Оффлайн
  20. Комсюк народный модератор

    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    9.925
    Симпатии:
    9.035
    Репутация:
    488
    Нарушения:
    22
    Оффлайн
    :)
  21. 4547 народный художник

    • Участник
    Рег.:
    15.11.2016
    Сообщения:
    646
    Симпатии:
    387
    Репутация:
    41
    Оффлайн
    что-то лажа какая-то или это какой-то урезанный сток. он даже на личесс показывает более сильные ходы..
  22. Scaramuccia Учаcтник

    • Участник
    Рег.:
    12.01.2012
    Сообщения:
    1.572
    Симпатии:
    489
    Репутация:
    21
    Оффлайн
    Скучные компьютерные шахматы.
  23. Комсюк народный модератор

    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    9.925
    Симпатии:
    9.035
    Репутация:
    488
    Нарушения:
    22
    Оффлайн
    лажа у тебя с восприятием :)
    в матче играл 64-ядерный (с минутой на ход) а на Личессе?
    --- добавлено: 6 дек 2017 ---
    счёт нескучный
  24. Scaramuccia Учаcтник

    • Участник
    Рег.:
    12.01.2012
    Сообщения:
    1.572
    Симпатии:
    489
    Репутация:
    21
    Оффлайн
    САРКАЗМ надо теперь большими буквами писать? Вон в лондоне супер-элита вроде бы не сыграла ни одной хотя бы приблизительно близкой по интересу партии.
    Комсюк нравится это.
  25. Michael-13 Господин

    • Участник
    Рег.:
    18.11.2011
    Сообщения:
    2.008
    Симпатии:
    534
    Репутация:
    30
    Оффлайн
    Жесть, будущее здесь. Даже не верится:pray::)
    Впрочем, даже частные любительские нейронные сети вроде Giraffe играли на уровне международного мастера:https://geektimes.ru/post/262612/
  26. Комсюк народный модератор

    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    9.925
    Симпатии:
    9.035
    Репутация:
    488
    Нарушения:
    22
    Оффлайн


    36-ой ход Стока очень сомнителен :idntknow:
    Нет в статье про контемпт?
  27. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    160
    Симпатии:
    15
    Репутация:
    0
    Оффлайн
    Комсюк, ход нормальный. Нет, здесь, очевидно, AlphaZero переигрывает, но все это происходит на другой архитектуре процессора и на другом алгоритме, что не реализуемо на x86 на данный момент. Не совсем честное сравнение, получается. Но думаю, этот проект еще будет долго развиваться и вполне может изменить шахматные движки в ближайшем будущем.

    Код:
    info depth 38 seldepth 68 multipv 1 score cp 83 nodes 403692131 nps 9375107 hashfull 874 tbhits 0 time 43060 pv c2c1 d7d8 h6e3 g8h8 e3a3 f7f8 a3f8 h8f8 c1g1 b7c8 g1g6 c8d7 g6g7 d7e8 d2e3 f8h8 f6f7 e8f7 g7f7 h8h4 f7b7 h4h3 e3f4 h3h4 f4g5 h4d4 g5f6 d4a4 b7b6 a4b4 f6e6 d5d4 e6f6 d4d3 b6d6 d8c7 d6d3 b4f4 f6g5 f4b4 e5e6 b4b5 g5f6 b5b1 e6e7 b1f1 f6e6 f1e1 e6f7 a5a4 e7e8q e1e8 f7e8 c7c6 d3d4 c6b5 e8d7 a4a3
    Rom и Котэ нравится это.
  28. Котэ Учаcтник

    • Участник
    Рег.:
    29.04.2010
    Сообщения:
    711
    Симпатии:
    81
    Репутация:
    2
    Оффлайн
    Предложение модераторам: может создать отдельную тему для обсуждения AlphaZero и перенести последние посты из этой темы в нее?
    sovaz1997 нравится это.
  29. Комсюк народный модератор

    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    9.925
    Симпатии:
    9.035
    Репутация:
    488
    Нарушения:
    22
    Оффлайн
    тогда 30.Сg6 гениальный ход и у белых выиграно?
  30. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    160
    Симпатии:
    15
    Репутация:
    0
    Оффлайн
    Комсюк, и 30-й - тоже ход Stockfish-а. Но его делает AlphaZero:

    Код:
    info depth 40 seldepth 61 multipv 1 score cp 127 nodes 1512979939 nps 8762465 hashfull 945 tbhits 0 time 172666 pv d3g6 e7g5 g4g5 f7g6 f4f5 h8g8 g5h6 e8f7 f5f6 d7d8 e3d2 b7c8 c2c6 c8d7 c6b6 d8c7 b6d6 c7b8 d2c3 d7c8 c3b2 g6g5 h4g5 g8g6 h6h8 g6g8 h8h4 f7g6 d6c6 g6g5 h4g5 g8g5 b2c3 g5g2 c3d3 b8b7 d3e3 g2g3 e3f4 g3g8 c6a6 b7c7 a6d6 c8d7 f4e3 g8h8 d6a6 d7c8 a6d6 h8h1 e3f3
  31. Crest Админ, МГ

    • Команда форума
    Рег.:
    05.02.2006
    Сообщения:
    46.412
    Симпатии:
    7.534
    Репутация:
    292
    Адрес:
    Москва, Россия
    Оффлайн
    По виду, это был чисто рекламный матч!
    Против АльфаЗеро играл какой-то кастрат на слабом железе, которого назвали громким именем Стокфиш.
    Выглядит как явная подстава.
    Думаю, обычный Стокфиш на моём домашнем стационаре наберёт против этого нового распиаренного монстра намного больше очков, чем тот самый кастрат.
    Regulus, Spy, Semion13 и ещё 1-му нравится это.
  32. JackPuffon Новичок

    • Новичок
    Рег.:
    12.09.2017
    Сообщения:
    17
    Симпатии:
    15
    Репутация:
    0
    Оффлайн
    Сергей Юрьевич, то что железо и формат встречи был не в пользу стока - это понятно, но, тем не менее, не кажется ли вам что сам факт того, что нейронные сети играют сильнее движков, не имея чисто шахматных алгоритмов, и еще способны к самообучению говорит о скорой революции и переоценке ценностей в компьюетрных шахматах и компьютерной подготовке гроссов?
  33. Michael-13 Господин

    • Участник
    Рег.:
    18.11.2011
    Сообщения:
    2.008
    Симпатии:
    534
    Репутация:
    30
    Оффлайн
    Вот статья на английском про программу в вики.
    https://en.wikipedia.org/wiki/AlphaGo_Zero
    Т.е. "AlphaGo Zero" - это новая версия "AlphaGo" выученная для игры именно в го.
    А собственно нужная нам "AlphaZero" - универсальная программа, не заточенная под конкретную игру (шахматы, го , сеги), а способная играть в в любую игру - го, шахматы и сеги. Т.е., видимо, при желании ее можно аналогично дольше (не 1 день, а месяц) учить каждой игре (шахматы) по очереди, что еще значительно ее усилит.
    Впрочем, увидим, как она играет в другие игры - фишера, крезихаус (шведки, bughouse), шашки... и тогда посмотрим, настолько ли она универсальна и сильна, как нам хотелось бы:)
    И конечно ждем как минимум еще 2 независимых групп исследователей вроде CCRL и TCEC, чтобы оценить ее в эло (пока что предполагается что играет на 100 пунктов сильнее, чем стокфиш), т.е. ожидается около 3525.
  34. Комсюк народный модератор

    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    9.925
    Симпатии:
    9.035
    Репутация:
    488
    Нарушения:
    22
    Оффлайн
    ещё от гроссов
    --- добавлено: 7 дек 2017 ---
    а вот Спай про своего инсайдера молчит :)
    Любитель_, MS, mikola7 и 3 другим нравится это.
  35. Crest Админ, МГ

    • Команда форума
    Рег.:
    05.02.2006
    Сообщения:
    46.412
    Симпатии:
    7.534
    Репутация:
    292
    Адрес:
    Москва, Россия
    Оффлайн
    Простите, но я не понимаю этого "но".
    Устроили избиения младенца, лишённого ресурсов - и радуются!
    При неравенстве железа даже слабые шахматные программы могут обыграть заметно более сильные. И что же из этого следует?
    Да ничего. Просто для корректного сравнения "мозгов" нужны мало-мальски равные условия.

    Да, нейронные сети - это сила. Да, сопоставления N сыгранных партий заметно сильнее, чем попытка сыграть одну-единственную.
    Но это вполне понятная разница между кардинально разными возможностями.
    Не сюрприз.
    Semion13 и sovaz1997 нравится это.

Поделиться этой страницей