AlphaZero. Нейронная сеть играет в шахматы

Тема в разделе "Машинное отделение", создана пользователем grizly, 6 дек 2017.

  1. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    16.567
    Симпатии:
    19.673
    Репутация:
    1.126
    Нарушения:
    25
    Оффлайн
    как я понял, тут краплёные фишки просто решают партию :cool:
  2. N1mTzo Учаcтник

    • Участник
    Рег.:
    16.04.2008
    Сообщения:
    318
    Симпатии:
    30
    Репутация:
    1
    Оффлайн
    Ну да, "64 CPU threads" очень слабое железо для Вяленого. Даже на TCEC, который тут часто приводят в пример в финале юзают максимум 44 ядра (22 на первом этапе).
    И в чем смысл подобного матча? В том, чтобы ИИ играл против книги и эндшпильных таблиц?
    На архиве статьи по ИИ (Artificial Intelligence) пачками выходят, только за сегодня 15 штук опубликовали, их только специалисты читают. И та статья (препринт) под названием "Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm" вышла 5 декабря, а первые отклики в СМИ появились только 6 декабря, а топовые СМИ (типа американских или британских газет) и вовсе 7-8 числа об этом написали. При этом ни в твиттере DeepMind, ни у Хассабиса вообще никакой информации не было, только 8-го Демис отписался, что более подробная информация будет скоро. Не вижу тут спланированной PR-кампании, скорее похоже на то, что DeepMind не ожидали подобной шумихи из-за рядовой статьи.
    Undying и dom1n1k нравится это.
  3. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Не совсем понятно, почему Альфа - ИИ, а Стокфиш не ИИ?
    ОФ на нейронной сети более ИИшная, чем классическая ОФ?
    Или алгоритмы обучения нейронной сети (настройки весов ОФ на нейронной сети) более ИИшные чем алгоритмы подбора весов в Стокфише?
    Или mcts более ИИшный чем альфа-бета?

    Например в википедии, в статье про нейронные сети, ИИ содержательно упоминается только один раз, в цитате
    "А с точки зрения искусственного интеллекта, ИНС является основой философского течения коннективизма и основным направлением в структурном подходе по изучению возможности построения (моделирования) естественного интеллекта с помощью компьютерных алгоритмов."
    https://ru.wikipedia.org/wiki/Искусственная_нейронная_сеть
    Любитель_, Нестор и Challenger Spy нравится это.
  4. Baron Учаcтник

    • Участник
    Рег.:
    08.02.2008
    Сообщения:
    2.351
    Симпатии:
    235
    Репутация:
    11
    Оффлайн
    Эльвест в 2007-08 годах проиграл "минус 3" Рыбке с форой в пешку два матча. Десять лет назад. Учитывая разницу между тогдашней Рыбкой и сегодняшним Стокфишем. Альфазеро радикально отличается от этих движков тем, что против людей она (или он?) научится играть в анти-человеческие шахматы. Будет уклоняться от разменов, максимально насыщая позицию тактикой, изучив больше игр людей, выявит даже типы комбинаций, которые люди чаще всего зевают и другие тонкости, которые сами шахматисты не знают. Структуру, которую иногда получают люди против машин, будет исключена (только если ИИ не решит что он форсированно выигрывает - тогда пожалуйста). Полагаю, что против такого хитрого соперника лишний конь может и не помочь (причем нейросети по большому счету без разницы против кого играть, Эльвеста или обычного кмс - оба одинаково слабы в плане тактики). В этом смысле против Альфы играть даже труднее, чем против 32-фигурной таблицы Налимова - потому что она может умышленно ухудшать свою позицию, лишь бы навредить людям.
    Undying нравится это.
  5. West55 Начинающий

    • Начинающий
    Рег.:
    09.12.2017
    Сообщения:
    4
    Симпатии:
    2
    Репутация:
    0
    Оффлайн
    А не будет, как у людей? Заплатил ты за А0, за ее обучение. А она двоишником оказалась - играет на 3 разряд:D
    Challenger Spy нравится это.
  6. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.382
    Симпатии:
    2.850
    Репутация:
    91
    Адрес:
    Москва
    Оффлайн
    Policy network даёт на выходе именно что ходы-кандидаты. В смысле, распределение вероятностей для них оказаться лучшим ходом.
    В первоначальной Alpha Go Fan эта сетка была отдельной, начиная с Alpha Go Master сетки value и policy объединили в одну, но ходы-кандидаты для MCTS она по-прежнему возвращает.
    thenewone, Любитель_, N1mTzo и 2 другим нравится это.
  7. Mustitz Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    30.09.2006
    Сообщения:
    3.414
    Симпатии:
    945
    Репутация:
    26
    Адрес:
    Киев
    Оффлайн
    Научится точно находить момент, когда надо включать Stockfish :)
    Любитель_, sovaz1997 и Challenger Spy нравится это.
  8. FIBM Учаcтник

    • Участник
    Рег.:
    27.05.2011
    Сообщения:
    382
    Симпатии:
    278
    Репутация:
    6
    Оффлайн
    Это называется "Адиабатический Квантовый Компьютер". У меня для вас его пока нет:).
  9. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
  10. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Так вероятность же вторична. Сначала оценка (или матожидание результата как оценка), а потом исходя из оценки и статистики - вероятность. Или нет?
  11. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.382
    Симпатии:
    2.850
    Репутация:
    91
    Адрес:
    Москва
    Оффлайн
    Вроде бы в первом варианте программы там вероятности из сетки и из симуляций складывались с определёнными весами (чуть ли не 0.5 на 0.5). В какой-то из тестировавшихся версий был и вариант 1 на 0, т.е. только policy network, если я ничего не путаю.

    Про AG Fan была хорошая статья на Хабре: https://habrahabr.ru/post/279071/
    А вот про AG Zero: https://habrahabr.ru/post/343590/
    N1mTzo нравится это.
  12. Undying Учаcтник

    • Участник
    Рег.:
    31.08.2016
    Сообщения:
    1.316
    Симпатии:
    560
    Репутация:
    15
    Оффлайн
    Стокфиш это тоже ИИ, но тот который Искусственный Идиот. А у Альфа Зеро уже проблески интеллекта есть, как минимум шахматного.
    thenewone нравится это.
  13. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Из первой статьи следует что сеть выдает два значения - вероятность хода (массив 19x19), и вероятность победы из позиции (оценка).
    То есть и то и то.
    Вот тут сразу появляется ответ на вопрос - почему не альфа-бета. Если у нас есть вероятности ходов, то MCTS лучше может их использовать.
    —- добавлено: 12 дек 2017, опубликовано: 12 дек 2017 —-
    Даже обрезанная версия стока сыграла всего на 80 пунктов эло слабее Альфы. 80 пунктов это разница между идиотом и проблесками интеллекта?
    Возникает желание вычесть 80 пунктов из рейтинга Карлсена :)
    Любитель_, MS, Нестор и ещё 1-му нравится это.
  14. Neo94 Заблокирован

    • Участник
    • Заблокирован
    Рег.:
    15.11.2014
    Сообщения:
    434
    Симпатии:
    144
    Репутация:
    -10
    Нарушения:
    31
    Оффлайн
    Если сравнивают алгоритмы, то совершенно верно убрали все дебютные и эндшпильные базы.
    Какой смысл давать их стокфишу (а значит приделывать похожие костыли и альфазеро), если идет сравнение исключительно двух подходов? Это просто вырезание куска партии, пусть обе проги вручную доходят до того или иного результата.
    thenewone и Undying нравится это.
  15. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    Рег.:
    17.07.2011
    Сообщения:
    16.567
    Симпатии:
    19.673
    Репутация:
    1.126
    Нарушения:
    25
    Оффлайн
    Как раз Альфа дебют выдрочила при обучении
    Challenger Spy нравится это.
  16. Diamond Ветеран

    • Ветеран
    Рег.:
    26.08.2010
    Сообщения:
    5.545
    Симпатии:
    1.274
    Репутация:
    76
    Оффлайн
    если сравнивали алгоритмы, то вполне логично также не давать время на учебу, а обучаться в процессе бояVotTak
    Challenger Spy нравится это.
  17. Нестор консультант_ специалист по черной магии

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    10.04.2006
    Сообщения:
    2.955
    Симпатии:
    3.311
    Репутация:
    331
    Адрес:
    Москва
    Оффлайн
    NS, привет, Сергей!
    Как дела? :)
  18. FIBM Учаcтник

    • Участник
    Рег.:
    27.05.2011
    Сообщения:
    382
    Симпатии:
    278
    Репутация:
    6
    Оффлайн
    Не "выдрочила" а объяснила "себе" и "глупой железяке", что такое хорошие и плохие дебютные варианты. :)
    Undying нравится это.
  19. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Если движок изначально рассчитан на эндшпильные базы, то это его неделимая часть. Зачем прописывать эндшпильные малофигурные ньюансы в ОФ и переборных алгоритмах, если и так есть ЭБ?
    То же самое и с дебютами. Нейросеть вообще-то научили дебютам, так как для дебютных позиций у неё как раз набралась статистика по (лучшим) ходам, которую она использовала в матче.
    По-честному было как раз дать дебютную стоку.
    —- добавлено: 12 дек 2017 —-
    Привет! Всё отлично.
    thenewone, sovaz1997 и Нестор нравится это.
  20. Undying Учаcтник

    • Участник
    Рег.:
    31.08.2016
    Сообщения:
    1.316
    Симпатии:
    560
    Репутация:
    15
    Оффлайн
    Причем здесь сила игры? Неужели калькулятор умнее вас, потому что лучше перемножает числа?

    Речь о понимании шахмат. У Стокфиша понимание шахмат на уровне плинтуса, сильно играет он исключительно за счет глубины счета. А вот у Альфа Зеро понимание шахмат уже есть.
  21. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Альфу научили дебютам. Почему не дали стоку посчитанную дебютную книгу? Хотя-бы монтекарловскую.
    —- добавлено: 12 дек 2017, опубликовано: 12 дек 2017 —-
    Разница в понимании шахмат - у них ровно на 80 пунктов Эло. И тот и другой - обычные калькуляторы. Альфа это тот-же калькулятор "вид сбоку". Играет так-же за счет счета.
    thenewone, Любитель_, Mustitz и 6 другим нравится это.
  22. crem Учаcтник

    • Участник
    Рег.:
    24.11.2016
    Сообщения:
    140
    Симпатии:
    203
    Репутация:
    14
    Оффлайн
    У alphazero нету "дебютной книги" в общепризнаном понимании. Она играет хорошо с первых же ходов, но это не значит, что у неё есть таблица для поиска следующего хода по предыдущим. Как и все остальные ходы, дебют альфа играет "по общим соображениям", примерно как "в дебюте X, Y лучше сделать до того как сделано Z" (упрощённый пример). Это не таблица, которой стокфиш смог бы воспользоваться.

    Ну и я уверен, что если бы альфазеро не дали подумать на первых ходах минуту, ходы были бы слабее. А если есть дебютная книга, думать не надо.
  23. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Есть. Если нейросеть для каждого хода в позиции выдает вероятность того что он является лучшим, и если она для каждой позиции выдает матожидание результата - то это и есть дебютная книга в общепризнанном понимании. И когда она в процессе обучения наигрывает партии - как раз чем ближе к начальной позиции, тем лучше настраиваются оценки и вероятности ходов.

    Наиграв партий с определенных позиций - она по сути в том числе наиграла дебютные книги с этих позиций.
    И по-честному нужно было дать и стоку дебютную книгу, например монтекарловскую, наигранную им с тех же позиций, что наигрывала альфа. Ему даже такой не дали.
    N1mTzo нравится это.
  24. Jadn Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    10.05.2006
    Сообщения:
    3.620
    Симпатии:
    2.518
    Репутация:
    52
    Оффлайн
    Я жаловался на слабое железо? Я написал, что условия неравные, мне в ответ сказали, что это ОК, и создавать равные условия не входило в задачу эксперимента. Вот я и предложил еще усовершенствовать условия.
    N1mTzo нравится это.
  25. Gridnev Учаcтник

    • Участник
    Рег.:
    01.06.2012
    Сообщения:
    513
    Симпатии:
    2.973
    Репутация:
    140
    Оффлайн
    Она себе создала дебютную книгу. В 700000 партий чаще всего (700000 раз) встречалась именно начальная позиция и в ней А0 больше всего прокачала "интуицию". Надо было их на тестовых позициях сравнивать.
  26. dom1n1k Учаcтник

    • Участник
    Рег.:
    18.11.2016
    Сообщения:
    187
    Симпатии:
    155
    Репутация:
    3
    Оффлайн
    А еще A0, в дополнение к дебютной, создала себе миттельшпильную книгу! Она ж тоже матоожидание результата для каждой позиции там видело. Так что по-честному было бы SF ещё и миттельшпильные таблицы дать, чо уж там.
    thenewone, Любитель_, Undying и 4 другим нравится это.
  27. crem Учаcтник

    • Участник
    Рег.:
    24.11.2016
    Сообщения:
    140
    Симпатии:
    203
    Репутация:
    14
    Оффлайн
    Кстати, вчера deepmind запустил анализатор 6000 самых популярных дебютов для Go.
    https://alphagoteach.deepmind.com/
    N1mTzo нравится это.
  28. FIBM Учаcтник

    • Участник
    Рег.:
    27.05.2011
    Сообщения:
    382
    Симпатии:
    278
    Репутация:
    6
    Оффлайн
    А может ему ("брутфорсу") еще и бесплатных пироженых? Пусть свою базу ("брутфорсовскую") наработает, а потом приходит. А на чужую базу зарится не надо:).
  29. longinean Учаcтник

    • Участник
    Рег.:
    12.04.2015
    Сообщения:
    2.539
    Симпатии:
    7.905
    Репутация:
    123
    Оффлайн
    Можно подключить дебютную книгу, обученную на 700.000 партий, плюс заработанные брутфорсом таблицы Сизиги :)
  30. Camon14 Хранитель традиций

    • Заслуженный
    • Ветеран
    Рег.:
    28.05.2012
    Сообщения:
    18.112
    Симпатии:
    10.456
    Репутация:
    664
    Оффлайн
    https://ru.m.wikipedia.org/wiki/Аримаа :(
  31. Vladruss НедоКМС, победитель второразрядников.

    • Заслуженный
    • Ветеран
    • Заблокирован
    Рег.:
    30.12.2009
    Сообщения:
    13.901
    Симпатии:
    6.656
    Репутация:
    481
    Нарушения:
    41
    Оффлайн
    Этого мало. Надо сразу 32-х фигурные таблицы Налимова.
  32. nn Старожил

    • Участник
    • Старожил
    Рег.:
    25.03.2007
    Сообщения:
    1.248
    Симпатии:
    3.004
    Репутация:
    116
    Нарушения:
    15
    Оффлайн
    Смысл в том, что AlphaZero тренировалась хоть и на большом массиве данных (более триллиона позиций), но далеко не охватывающем все шахматы. В data science и машинном обучении есть такая проблема как overfitting, когда результаты на in-sample data оказываются прекрасными, в то время как на out-of-sample может быть что угодно. Если мы рассматриваем AlphaZero как умеющую играть в шахматы, а не в набор позиций на котором она тренировалась, логично начинать игру с позиций которые ей не попадались или попадались не часто; книга на 2-хода как у Stockfish была бы нормальной.
  33. Vertu Старожил

    • Участник
    • Старожил
    Рег.:
    22.12.2006
    Сообщения:
    945
    Симпатии:
    24
    Репутация:
    3
    Оффлайн
    А основные текущие базы Стокфиша чем, по-вашему, наработаны? С неба свалились? И причем тут "брутфорс"?
    Diamond нравится это.
  34. like Начинающий

    • Начинающий
    Рег.:
    09.12.2017
    Сообщения:
    4
    Симпатии:
    3
    Репутация:
    0
    Оффлайн
    откуда расценки, можете дать ссылку?
  35. FIBM Учаcтник

    • Участник
    Рег.:
    27.05.2011
    Сообщения:
    382
    Симпатии:
    278
    Репутация:
    6
    Оффлайн
    Вы что играете на первых ходах? е4....нет нет, так нечестно, давайте заставим вас играть с4! А, что очень логично.
    thenewone нравится это.

Поделиться этой страницей