AlphaZero. Нейронная сеть играет в шахматы

Discussion in 'Машинное отделение' started by grizly, 6 Dec 2017.

  1. Комсюк
    Оффлайн

    Комсюк народный модератор баннер

    Репутация:
    1.266
  2. N1mTzo
    Оффлайн

    N1mTzo Учаcтник

    Репутация:
    1
    Ну да, "64 CPU threads" очень слабое железо для Вяленого. Даже на TCEC, который тут часто приводят в пример в финале юзают максимум 44 ядра (22 на первом этапе).
    И в чем смысл подобного матча? В том, чтобы ИИ играл против книги и эндшпильных таблиц?
    На архиве статьи по ИИ (Artificial Intelligence) пачками выходят, только за сегодня 15 штук опубликовали, их только специалисты читают. И та статья (препринт) под названием "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm" вышла 5 декабря, а первые отклики в СМИ появились только 6 декабря, а топовые СМИ (типа американских или британских газет) и вовсе 7-8 числа об этом написали. При этом ни в твиттере DeepMind, ни у Хассабиса вообще никакой информации не было, только 8-го Демис отписался, что более подробная информация будет скоро. Не вижу тут спланированной PR-кампании, скорее похоже на то, что DeepMind не ожидали подобной шумихи из-за рядовой статьи.
     
    Undying and dom1n1k like this.
  3. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Не совсем понятно, почему Альфа - ИИ, а Стокфиш не ИИ?
    ОФ на нейронной сети более ИИшная, чем классическая ОФ?
    Или алгоритмы обучения нейронной сети (настройки весов ОФ на нейронной сети) более ИИшные чем алгоритмы подбора весов в Стокфише?
    Или mcts более ИИшный чем альфа-бета?

    Например в википедии, в статье про нейронные сети, ИИ содержательно упоминается только один раз, в цитате
    "А с точки зрения искусственного интеллекта, ИНС является основой философского течения коннективизма и основным направлением в структурном подходе по изучению возможности построения (моделирования) естественного интеллекта с помощью компьютерных алгоритмов."
    https://ru.wikipedia.org/wiki/Искусственная_нейронная_сеть
     
  4. Baron
    Оффлайн

    Baron Учаcтник

    Репутация:
    11
    Эльвест в 2007-08 годах проиграл "минус 3" Рыбке с форой в пешку два матча. Десять лет назад. Учитывая разницу между тогдашней Рыбкой и сегодняшним Стокфишем. Альфазеро радикально отличается от этих движков тем, что против людей она (или он?) научится играть в анти-человеческие шахматы. Будет уклоняться от разменов, максимально насыщая позицию тактикой, изучив больше игр людей, выявит даже типы комбинаций, которые люди чаще всего зевают и другие тонкости, которые сами шахматисты не знают. Структуру, которую иногда получают люди против машин, будет исключена (только если ИИ не решит что он форсированно выигрывает - тогда пожалуйста). Полагаю, что против такого хитрого соперника лишний конь может и не помочь (причем нейросети по большому счету без разницы против кого играть, Эльвеста или обычного кмс - оба одинаково слабы в плане тактики). В этом смысле против Альфы играть даже труднее, чем против 32-фигурной таблицы Налимова - потому что она может умышленно ухудшать свою позицию, лишь бы навредить людям.
     
    Last edited: 12 Dec 2017
    Undying likes this.
  5. West55
    Оффлайн

    West55 Начинающий

    Репутация:
    0
    А не будет, как у людей? Заплатил ты за А0, за ее обучение. А она двоишником оказалась - играет на 3 разряд:D
     
    Challenger Spy likes this.
  6. WinPooh
    Оффлайн

    WinPooh В.М. Staff Member

    Репутация:
    95
    Policy network даёт на выходе именно что ходы-кандидаты. В смысле, распределение вероятностей для них оказаться лучшим ходом.
    В первоначальной Alpha Go Fan эта сетка была отдельной, начиная с Alpha Go Master сетки value и policy объединили в одну, но ходы-кандидаты для MCTS она по-прежнему возвращает.
     
  7. Mustitz
    Оффлайн

    Mustitz баннер

    Репутация:
    37
    Научится точно находить момент, когда надо включать Stockfish :)
     
  8. FIBM
    Онлайн

    FIBM Учаcтник

    Репутация:
    7
    Это называется "Адиабатический Квантовый Компьютер". У меня для вас его пока нет:).
     
  9. sovaz1997
    Оффлайн

    sovaz1997 Учаcтник

    Репутация:
    3
  10. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Так вероятность же вторична. Сначала оценка (или матожидание результата как оценка), а потом исходя из оценки и статистики - вероятность. Или нет?
     
  11. WinPooh
    Оффлайн

    WinPooh В.М. Staff Member

    Репутация:
    95
    Вроде бы в первом варианте программы там вероятности из сетки и из симуляций складывались с определёнными весами (чуть ли не 0.5 на 0.5). В какой-то из тестировавшихся версий был и вариант 1 на 0, т.е. только policy network, если я ничего не путаю.

    Про AG Fan была хорошая статья на Хабре: https://habrahabr.ru/post/279071/
    А вот про AG Zero: https://habrahabr.ru/post/343590/
     
    N1mTzo likes this.
  12. Undying
    Оффлайн

    Undying Учаcтник

    Репутация:
    15
    Стокфиш это тоже ИИ, но тот который Искусственный Идиот. А у Альфа Зеро уже проблески интеллекта есть, как минимум шахматного.
     
    thenewone likes this.
  13. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Из первой статьи следует что сеть выдает два значения - вероятность хода (массив 19x19), и вероятность победы из позиции (оценка).
    То есть и то и то.
    Вот тут сразу появляется ответ на вопрос - почему не альфа-бета. Если у нас есть вероятности ходов, то MCTS лучше может их использовать.
    —- добавлено: 12 Dec 2017, опубликовано: 12 Dec 2017 —-
    Даже обрезанная версия стока сыграла всего на 80 пунктов эло слабее Альфы. 80 пунктов это разница между идиотом и проблесками интеллекта?
    Возникает желание вычесть 80 пунктов из рейтинга Карлсена :)
     
  14. Neo94
    Оффлайн

    Neo94 Учаcтник

    Репутация:
    -10
    Если сравнивают алгоритмы, то совершенно верно убрали все дебютные и эндшпильные базы.
    Какой смысл давать их стокфишу (а значит приделывать похожие костыли и альфазеро), если идет сравнение исключительно двух подходов? Это просто вырезание куска партии, пусть обе проги вручную доходят до того или иного результата.
     
    thenewone and Undying like this.
  15. Комсюк
    Оффлайн

    Комсюк народный модератор баннер

    Репутация:
    1.266
    Как раз Альфа дебют выдрочила при обучении
     
    Challenger Spy likes this.
  16. Diamond
    Оффлайн

    Diamond Старожил

    Репутация:
    76
    если сравнивали алгоритмы, то вполне логично также не давать время на учебу, а обучаться в процессе бояVotTak
     
    Challenger Spy likes this.
  17. Нестор
    Оффлайн

    Нестор консультант_ специалист по черной магии баннер

    Репутация:
    331
    NS, привет, Сергей!
    Как дела? :)
     
  18. FIBM
    Онлайн

    FIBM Учаcтник

    Репутация:
    7
    Не "выдрочила" а объяснила "себе" и "глупой железяке", что такое хорошие и плохие дебютные варианты. :)
     
    Undying likes this.
  19. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Если движок изначально рассчитан на эндшпильные базы, то это его неделимая часть. Зачем прописывать эндшпильные малофигурные ньюансы в ОФ и переборных алгоритмах, если и так есть ЭБ?
    То же самое и с дебютами. Нейросеть вообще-то научили дебютам, так как для дебютных позиций у неё как раз набралась статистика по (лучшим) ходам, которую она использовала в матче.
    По-честному было как раз дать дебютную стоку.
    —- добавлено: 12 Dec 2017 —-
    Привет! Всё отлично.
     
    thenewone, sovaz1997 and Нестор like this.
  20. Undying
    Оффлайн

    Undying Учаcтник

    Репутация:
    15
    Причем здесь сила игры? Неужели калькулятор умнее вас, потому что лучше перемножает числа?

    Речь о понимании шахмат. У Стокфиша понимание шахмат на уровне плинтуса, сильно играет он исключительно за счет глубины счета. А вот у Альфа Зеро понимание шахмат уже есть.
     
  21. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Альфу научили дебютам. Почему не дали стоку посчитанную дебютную книгу? Хотя-бы монтекарловскую.
    —- добавлено: 12 Dec 2017, опубликовано: 12 Dec 2017 —-
    Разница в понимании шахмат - у них ровно на 80 пунктов Эло. И тот и другой - обычные калькуляторы. Альфа это тот-же калькулятор "вид сбоку". Играет так-же за счет счета.
     
  22. crem
    Оффлайн

    crem Учаcтник

    Репутация:
    14
    У alphazero нету "дебютной книги" в общепризнаном понимании. Она играет хорошо с первых же ходов, но это не значит, что у неё есть таблица для поиска следующего хода по предыдущим. Как и все остальные ходы, дебют альфа играет "по общим соображениям", примерно как "в дебюте X, Y лучше сделать до того как сделано Z" (упрощённый пример). Это не таблица, которой стокфиш смог бы воспользоваться.

    Ну и я уверен, что если бы альфазеро не дали подумать на первых ходах минуту, ходы были бы слабее. А если есть дебютная книга, думать не надо.
     
    Last edited by a moderator: 12 Dec 2017
  23. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Есть. Если нейросеть для каждого хода в позиции выдает вероятность того что он является лучшим, и если она для каждой позиции выдает матожидание результата - то это и есть дебютная книга в общепризнанном понимании. И когда она в процессе обучения наигрывает партии - как раз чем ближе к начальной позиции, тем лучше настраиваются оценки и вероятности ходов.

    Наиграв партий с определенных позиций - она по сути в том числе наиграла дебютные книги с этих позиций.
    И по-честному нужно было дать и стоку дебютную книгу, например монтекарловскую, наигранную им с тех же позиций, что наигрывала альфа. Ему даже такой не дали.
     
    N1mTzo likes this.
  24. Jadn
    Оффлайн

    Jadn баннер

    Репутация:
    52
    Я жаловался на слабое железо? Я написал, что условия неравные, мне в ответ сказали, что это ОК, и создавать равные условия не входило в задачу эксперимента. Вот я и предложил еще усовершенствовать условия.
     
    N1mTzo likes this.
  25. Gridnev
    Оффлайн

    Gridnev Старожил

    Репутация:
    151
    Она себе создала дебютную книгу. В 700000 партий чаще всего (700000 раз) встречалась именно начальная позиция и в ней А0 больше всего прокачала "интуицию". Надо было их на тестовых позициях сравнивать.
     
  26. dom1n1k
    Оффлайн

    dom1n1k Учаcтник

    Репутация:
    3
    А еще A0, в дополнение к дебютной, создала себе миттельшпильную книгу! Она ж тоже матоожидание результата для каждой позиции там видело. Так что по-честному было бы SF ещё и миттельшпильные таблицы дать, чо уж там.
     
  27. crem
    Оффлайн

    crem Учаcтник

    Репутация:
    14
    Кстати, вчера deepmind запустил анализатор 6000 самых популярных дебютов для Go.
    https://alphagoteach.deepmind.com/
     
    N1mTzo likes this.
  28. FIBM
    Онлайн

    FIBM Учаcтник

    Репутация:
    7
    А может ему ("брутфорсу") еще и бесплатных пироженых? Пусть свою базу ("брутфорсовскую") наработает, а потом приходит. А на чужую базу зарится не надо:).
     
  29. longinean
    Оффлайн

    longinean Учаcтник

    Репутация:
    130
    Можно подключить дебютную книгу, обученную на 700.000 партий, плюс заработанные брутфорсом таблицы Сизиги :)
     
  30. Camon14
    Оффлайн

    Camon14 Хранитель традиций баннер

    Репутация:
    688
    https://ru.m.wikipedia.org/wiki/Аримаа :(
     
  31. Vladruss
    Оффлайн

    Vladruss НедоКМС, победитель второразрядников. баннер

    Репутация:
    530
    Этого мало. Надо сразу 32-х фигурные таблицы Налимова.
     
  32. nn
    Оффлайн

    nn Заблокирован

    Репутация:
    124
    Смысл в том, что AlphaZero тренировалась хоть и на большом массиве данных (более триллиона позиций), но далеко не охватывающем все шахматы. В data science и машинном обучении есть такая проблема как overfitting, когда результаты на in-sample data оказываются прекрасными, в то время как на out-of-sample может быть что угодно. Если мы рассматриваем AlphaZero как умеющую играть в шахматы, а не в набор позиций на котором она тренировалась, логично начинать игру с позиций которые ей не попадались или попадались не часто; книга на 2-хода как у Stockfish была бы нормальной.
     
  33. Vertu
    Оффлайн

    Vertu Старожил

    Репутация:
    4
    А основные текущие базы Стокфиша чем, по-вашему, наработаны? С неба свалились? И причем тут "брутфорс"?
     
    Diamond likes this.
  34. like
    Оффлайн

    like Начинающий

    Репутация:
    0
    откуда расценки, можете дать ссылку?
     
  35. FIBM
    Онлайн

    FIBM Учаcтник

    Репутация:
    7
    Вы что играете на первых ходах? е4....нет нет, так нечестно, давайте заставим вас играть с4! А, что очень логично.
     
    thenewone likes this.