AlphaZero. Нейронная сеть играет в шахматы

Тема в разделе "Машинное отделение", создана пользователем grizly, 6 дек 2017.

  1. Комсюк
    Оффлайн

    Комсюк народный модератор баннер

    Репутация:
    1.266
    как я понял, тут краплёные фишки просто решают партию :cool:
     
  2. N1mTzo
    Оффлайн

    N1mTzo Учаcтник

    Репутация:
    1
    Ну да, "64 CPU threads" очень слабое железо для Вяленого. Даже на TCEC, который тут часто приводят в пример в финале юзают максимум 44 ядра (22 на первом этапе).
    И в чем смысл подобного матча? В том, чтобы ИИ играл против книги и эндшпильных таблиц?
    На архиве статьи по ИИ (Artificial Intelligence) пачками выходят, только за сегодня 15 штук опубликовали, их только специалисты читают. И та статья (препринт) под названием "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm" вышла 5 декабря, а первые отклики в СМИ появились только 6 декабря, а топовые СМИ (типа американских или британских газет) и вовсе 7-8 числа об этом написали. При этом ни в твиттере DeepMind, ни у Хассабиса вообще никакой информации не было, только 8-го Демис отписался, что более подробная информация будет скоро. Не вижу тут спланированной PR-кампании, скорее похоже на то, что DeepMind не ожидали подобной шумихи из-за рядовой статьи.
     
    Undying и dom1n1k нравится это.
  3. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Не совсем понятно, почему Альфа - ИИ, а Стокфиш не ИИ?
    ОФ на нейронной сети более ИИшная, чем классическая ОФ?
    Или алгоритмы обучения нейронной сети (настройки весов ОФ на нейронной сети) более ИИшные чем алгоритмы подбора весов в Стокфише?
    Или mcts более ИИшный чем альфа-бета?

    Например в википедии, в статье про нейронные сети, ИИ содержательно упоминается только один раз, в цитате
    "А с точки зрения искусственного интеллекта, ИНС является основой философского течения коннективизма и основным направлением в структурном подходе по изучению возможности построения (моделирования) естественного интеллекта с помощью компьютерных алгоритмов."
    https://ru.wikipedia.org/wiki/Искусственная_нейронная_сеть
     
    Любитель_, Нестор и Challenger Spy нравится это.
  4. Baron
    Оффлайн

    Baron Учаcтник

    Репутация:
    11
    Эльвест в 2007-08 годах проиграл "минус 3" Рыбке с форой в пешку два матча. Десять лет назад. Учитывая разницу между тогдашней Рыбкой и сегодняшним Стокфишем. Альфазеро радикально отличается от этих движков тем, что против людей она (или он?) научится играть в анти-человеческие шахматы. Будет уклоняться от разменов, максимально насыщая позицию тактикой, изучив больше игр людей, выявит даже типы комбинаций, которые люди чаще всего зевают и другие тонкости, которые сами шахматисты не знают. Структуру, которую иногда получают люди против машин, будет исключена (только если ИИ не решит что он форсированно выигрывает - тогда пожалуйста). Полагаю, что против такого хитрого соперника лишний конь может и не помочь (причем нейросети по большому счету без разницы против кого играть, Эльвеста или обычного кмс - оба одинаково слабы в плане тактики). В этом смысле против Альфы играть даже труднее, чем против 32-фигурной таблицы Налимова - потому что она может умышленно ухудшать свою позицию, лишь бы навредить людям.
     
    Последнее редактирование: 12 дек 2017
    Undying нравится это.
  5. West55
    Оффлайн

    West55 Начинающий

    Репутация:
    0
    А не будет, как у людей? Заплатил ты за А0, за ее обучение. А она двоишником оказалась - играет на 3 разряд:D
     
    Challenger Spy нравится это.
  6. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    Policy network даёт на выходе именно что ходы-кандидаты. В смысле, распределение вероятностей для них оказаться лучшим ходом.
    В первоначальной Alpha Go Fan эта сетка была отдельной, начиная с Alpha Go Master сетки value и policy объединили в одну, но ходы-кандидаты для MCTS она по-прежнему возвращает.
     
    thenewone, Любитель_, N1mTzo и 2 другим нравится это.
  7. Mustitz
    Оффлайн

    Mustitz баннер

    Репутация:
    37
    Научится точно находить момент, когда надо включать Stockfish :)
     
    Любитель_, sovaz1997 и Challenger Spy нравится это.
  8. FIBM
    Оффлайн

    FIBM Учаcтник

    Репутация:
    7
    Это называется "Адиабатический Квантовый Компьютер". У меня для вас его пока нет:).
     
  9. sovaz1997
    Оффлайн

    sovaz1997 Учаcтник

    Репутация:
    3
  10. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Так вероятность же вторична. Сначала оценка (или матожидание результата как оценка), а потом исходя из оценки и статистики - вероятность. Или нет?
     
  11. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    Вроде бы в первом варианте программы там вероятности из сетки и из симуляций складывались с определёнными весами (чуть ли не 0.5 на 0.5). В какой-то из тестировавшихся версий был и вариант 1 на 0, т.е. только policy network, если я ничего не путаю.

    Про AG Fan была хорошая статья на Хабре: https://habrahabr.ru/post/279071/
    А вот про AG Zero: https://habrahabr.ru/post/343590/
     
    N1mTzo нравится это.
  12. Undying
    Оффлайн

    Undying Учаcтник

    Репутация:
    15
    Стокфиш это тоже ИИ, но тот который Искусственный Идиот. А у Альфа Зеро уже проблески интеллекта есть, как минимум шахматного.
     
    thenewone нравится это.
  13. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Из первой статьи следует что сеть выдает два значения - вероятность хода (массив 19x19), и вероятность победы из позиции (оценка).
    То есть и то и то.
    Вот тут сразу появляется ответ на вопрос - почему не альфа-бета. Если у нас есть вероятности ходов, то MCTS лучше может их использовать.
    —- добавлено: 12 дек 2017, опубликовано: 12 дек 2017 —-
    Даже обрезанная версия стока сыграла всего на 80 пунктов эло слабее Альфы. 80 пунктов это разница между идиотом и проблесками интеллекта?
    Возникает желание вычесть 80 пунктов из рейтинга Карлсена :)
     
    Любитель_, MS, Нестор и ещё 1-му нравится это.
  14. Neo94
    Оффлайн

    Neo94 Учаcтник

    Репутация:
    -10
    Если сравнивают алгоритмы, то совершенно верно убрали все дебютные и эндшпильные базы.
    Какой смысл давать их стокфишу (а значит приделывать похожие костыли и альфазеро), если идет сравнение исключительно двух подходов? Это просто вырезание куска партии, пусть обе проги вручную доходят до того или иного результата.
     
    thenewone и Undying нравится это.
  15. Комсюк
    Оффлайн

    Комсюк народный модератор баннер

    Репутация:
    1.266
    Как раз Альфа дебют выдрочила при обучении
     
    Challenger Spy нравится это.
  16. Diamond
    Оффлайн

    Diamond Старожил

    Репутация:
    76
    если сравнивали алгоритмы, то вполне логично также не давать время на учебу, а обучаться в процессе бояVotTak
     
    Challenger Spy нравится это.
  17. Нестор
    Оффлайн

    Нестор консультант_ специалист по черной магии баннер

    Репутация:
    331
    NS, привет, Сергей!
    Как дела? :)
     
  18. FIBM
    Оффлайн

    FIBM Учаcтник

    Репутация:
    7
    Не "выдрочила" а объяснила "себе" и "глупой железяке", что такое хорошие и плохие дебютные варианты. :)
     
    Undying нравится это.
  19. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Если движок изначально рассчитан на эндшпильные базы, то это его неделимая часть. Зачем прописывать эндшпильные малофигурные ньюансы в ОФ и переборных алгоритмах, если и так есть ЭБ?
    То же самое и с дебютами. Нейросеть вообще-то научили дебютам, так как для дебютных позиций у неё как раз набралась статистика по (лучшим) ходам, которую она использовала в матче.
    По-честному было как раз дать дебютную стоку.
    —- добавлено: 12 дек 2017 —-
    Привет! Всё отлично.
     
    thenewone, sovaz1997 и Нестор нравится это.
  20. Undying
    Оффлайн

    Undying Учаcтник

    Репутация:
    15
    Причем здесь сила игры? Неужели калькулятор умнее вас, потому что лучше перемножает числа?

    Речь о понимании шахмат. У Стокфиша понимание шахмат на уровне плинтуса, сильно играет он исключительно за счет глубины счета. А вот у Альфа Зеро понимание шахмат уже есть.
     
  21. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Альфу научили дебютам. Почему не дали стоку посчитанную дебютную книгу? Хотя-бы монтекарловскую.
    —- добавлено: 12 дек 2017, опубликовано: 12 дек 2017 —-
    Разница в понимании шахмат - у них ровно на 80 пунктов Эло. И тот и другой - обычные калькуляторы. Альфа это тот-же калькулятор "вид сбоку". Играет так-же за счет счета.
     
    thenewone, Любитель_, Mustitz и 6 другим нравится это.
  22. crem
    Оффлайн

    crem Учаcтник

    Репутация:
    14
    У alphazero нету "дебютной книги" в общепризнаном понимании. Она играет хорошо с первых же ходов, но это не значит, что у неё есть таблица для поиска следующего хода по предыдущим. Как и все остальные ходы, дебют альфа играет "по общим соображениям", примерно как "в дебюте X, Y лучше сделать до того как сделано Z" (упрощённый пример). Это не таблица, которой стокфиш смог бы воспользоваться.

    Ну и я уверен, что если бы альфазеро не дали подумать на первых ходах минуту, ходы были бы слабее. А если есть дебютная книга, думать не надо.
     
    Последнее редактирование модератором: 12 дек 2017
  23. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Есть. Если нейросеть для каждого хода в позиции выдает вероятность того что он является лучшим, и если она для каждой позиции выдает матожидание результата - то это и есть дебютная книга в общепризнанном понимании. И когда она в процессе обучения наигрывает партии - как раз чем ближе к начальной позиции, тем лучше настраиваются оценки и вероятности ходов.

    Наиграв партий с определенных позиций - она по сути в том числе наиграла дебютные книги с этих позиций.
    И по-честному нужно было дать и стоку дебютную книгу, например монтекарловскую, наигранную им с тех же позиций, что наигрывала альфа. Ему даже такой не дали.
     
    N1mTzo нравится это.
  24. Jadn
    Оффлайн

    Jadn баннер

    Репутация:
    52
    Я жаловался на слабое железо? Я написал, что условия неравные, мне в ответ сказали, что это ОК, и создавать равные условия не входило в задачу эксперимента. Вот я и предложил еще усовершенствовать условия.
     
    N1mTzo нравится это.
  25. Gridnev
    Оффлайн

    Gridnev Старожил

    Репутация:
    151
    Она себе создала дебютную книгу. В 700000 партий чаще всего (700000 раз) встречалась именно начальная позиция и в ней А0 больше всего прокачала "интуицию". Надо было их на тестовых позициях сравнивать.
     
  26. dom1n1k
    Оффлайн

    dom1n1k Учаcтник

    Репутация:
    3
    А еще A0, в дополнение к дебютной, создала себе миттельшпильную книгу! Она ж тоже матоожидание результата для каждой позиции там видело. Так что по-честному было бы SF ещё и миттельшпильные таблицы дать, чо уж там.
     
    thenewone, Любитель_, Undying и 4 другим нравится это.
  27. crem
    Оффлайн

    crem Учаcтник

    Репутация:
    14
    Кстати, вчера deepmind запустил анализатор 6000 самых популярных дебютов для Go.
    https://alphagoteach.deepmind.com/
     
    N1mTzo нравится это.
  28. FIBM
    Оффлайн

    FIBM Учаcтник

    Репутация:
    7
    А может ему ("брутфорсу") еще и бесплатных пироженых? Пусть свою базу ("брутфорсовскую") наработает, а потом приходит. А на чужую базу зарится не надо:).
     
  29. longinean
    Оффлайн

    longinean Учаcтник

    Репутация:
    130
    Можно подключить дебютную книгу, обученную на 700.000 партий, плюс заработанные брутфорсом таблицы Сизиги :)
     
  30. Camon14
    Оффлайн

    Camon14 Хранитель традиций баннер

    Репутация:
    688
    https://ru.m.wikipedia.org/wiki/Аримаа :(
     
  31. Vladruss
    Оффлайн

    Vladruss НедоКМС, победитель второразрядников. баннер

    Репутация:
    530
    Этого мало. Надо сразу 32-х фигурные таблицы Налимова.
     
  32. nn
    Оффлайн

    nn Заблокирован

    Репутация:
    124
    Смысл в том, что AlphaZero тренировалась хоть и на большом массиве данных (более триллиона позиций), но далеко не охватывающем все шахматы. В data science и машинном обучении есть такая проблема как overfitting, когда результаты на in-sample data оказываются прекрасными, в то время как на out-of-sample может быть что угодно. Если мы рассматриваем AlphaZero как умеющую играть в шахматы, а не в набор позиций на котором она тренировалась, логично начинать игру с позиций которые ей не попадались или попадались не часто; книга на 2-хода как у Stockfish была бы нормальной.
     
  33. Vertu
    Оффлайн

    Vertu Старожил

    Репутация:
    4
    А основные текущие базы Стокфиша чем, по-вашему, наработаны? С неба свалились? И причем тут "брутфорс"?
     
    Diamond нравится это.
  34. like
    Оффлайн

    like Начинающий

    Репутация:
    0
    откуда расценки, можете дать ссылку?
     
  35. FIBM
    Оффлайн

    FIBM Учаcтник

    Репутация:
    7
    Вы что играете на первых ходах? е4....нет нет, так нечестно, давайте заставим вас играть с4! А, что очень логично.
     
    thenewone нравится это.