AlphaZero. Нейронная сеть играет в шахматы

Тема в разделе "Машинное отделение", создана пользователем grizly, 6 дек 2017.

  1. Комсюк народный модератор

    • Заблокирован
    Рег.:
    17.07.2011
    Сообщения:
    19.148
    Симпатии:
    23.331
    Репутация:
    1.258
    Нарушения:
    31
    Оффлайн
    В прошедшем матче ничего не доказала
    Mustitz и nh2008 нравится это.
  2. Оптик Старожил

    • Участник
    • Старожил
    Рег.:
    09.04.2013
    Сообщения:
    1.418
    Симпатии:
    1.092
    Репутация:
    49
    Оффлайн
    Вы же разверните мысль . Что было не так в матче ?
  3. Комсюк народный модератор

    • Заблокирован
    Рег.:
    17.07.2011
    Сообщения:
    19.148
    Симпатии:
    23.331
    Репутация:
    1.258
    Нарушения:
    31
    Оффлайн
    отсюда начинать
  4. svoitsl Учаcтник

    • Участник
    Рег.:
    06.01.2018
    Сообщения:
    374
    Симпатии:
    91
    Репутация:
    7
    Оффлайн
    ну наверное не стоит так уж категорично....
    Кое что все таки доказала, например то , что во многом другой алгоритм тоже имеет право на существование, полностью автоматическое обучение не требует эвристики, зато требует специфических команд процессора для перемножения матриц.Потраченные ресурсы на обучения не пропадают и сеть может быть доучена позднее с текущего уровня.
    В принципе возможно коммерческое создание некой экосистемы, вполне себе самодостаточной и коммерчески привлекательной.
  5. Jadn Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    10.05.2006
    Сообщения:
    3.626
    Симпатии:
    2.535
    Репутация:
    52
    Оффлайн
    Это невозможно.
  6. Комсюк народный модератор

    • Заблокирован
    Рег.:
    17.07.2011
    Сообщения:
    19.148
    Симпатии:
    23.331
    Репутация:
    1.258
    Нарушения:
    31
    Оффлайн
    А если взять с цитатой, на которую я отвечал?
  7. Оптик Старожил

    • Участник
    • Старожил
    Рег.:
    09.04.2013
    Сообщения:
    1.418
    Симпатии:
    1.092
    Репутация:
    49
    Оффлайн
    Просто невозможно и всё ?
    Не хотите развернуть свою мысль ?
  8. Jadn Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    10.05.2006
    Сообщения:
    3.626
    Симпатии:
    2.535
    Репутация:
    52
    Оффлайн
    Чем точнее и сложнее ОФ тем большего объема вычислений она требует и тем меньше раз её можно выполнить в секунду (на одинаковом железе). Разве это не очевидно?
    Вы предлагаете сделать машину, такую же быструю, как автомобиль Ф1 и такую же грузоподъемную, как Белаз. Так не бывает.
  9. Rom Старожил

    • Участник
    • Старожил
    Рег.:
    12.02.2012
    Сообщения:
    644
    Симпатии:
    275
    Репутация:
    27
    Оффлайн
    Может быть что-то ещё состоится. Хассабис вроде бы в твиттере писал о какой-то публикации.

    Возможно потому, что имиджевые плюсы от этого будет получать уже не Гугл, а другие организации. За счёт Гугла. Если нейросеть будет доступна, то устроить матч с "правильными" результатами не так уж сложно.

    Оценочная функция Стокфиша вычисляет только одно число - оценку позиции. Нейросеть Альфы вычисляет не только оценку позиции, но и предоставляет список ходов с процентной вероятностью "перспективности" каждого из них. И всё это без перебора, только на основании самой позиции и её истории. И только затем эти данные используются в переборе методом Монте-Карло (MCTS).

    К сожалению, даже принципиальная возможность для получения топового уровня из смеси Стока и Альфы ещё не совсем понятна.

    Нейросеть Альфы потому и даёт более тонкую оценку, потому что она производит намного больше вычислений чем ОФ Стока. Если очень упрощенно, то ОФ Стокфиша, можно представить как сетку вычислений из одного слоя, а нейросеть Альфы, как сетку из сорока слоёв, из которых каждый последующий вычисляется только после получения результатов предыдущего.
  10. Оптик Старожил

    • Участник
    • Старожил
    Рег.:
    09.04.2013
    Сообщения:
    1.418
    Симпатии:
    1.092
    Репутация:
    49
    Оффлайн
    Насколько я понимаю , свою ОФ Сток вычисляет в 1000 раз быстрее чем Альфа свою .
    А что будет если поменять ? Как минимум , Сток догонит Альфу по уровню , если говорить о равном железе .
    —- добавлено: 21 янв 2018, опубликовано: 21 янв 2018 —-
    Не совсем ясно . Сток набрал свою глубину , оценил миллионы позиций - и обладает списком ходов -кандидатов , и оценкой каждого продолжения . Оценка соответствует перспективности . Все как у Альфы.

    Как Альфа без перебора получает список рекомендуемых ходов , на основании позиции ?

    То есть , по сути Альфа это более мощное железо , и ничего более ?
    —- добавлено: 21 янв 2018 —-
    То есть , у Альфы 40 вариантов ОФ , а у Стока 1 ? Можно ли замедлить Сток в 40 раз , чтобы произвести все вычисления как Альфа ?
  11. Rom Старожил

    • Участник
    • Старожил
    Рег.:
    12.02.2012
    Сообщения:
    644
    Симпатии:
    275
    Репутация:
    27
    Оффлайн
    Альфа состоит из нейросети и переборной схемы методом Монте-Карло (MCTS). Нейросеть Альфы навроде черного ящика - мы просто подаём на вход нейросети позицию, а на выходе получаем оценку и список ходов. Какие там "соображения" она сформировала в процессе обучения мы не совсем представляем.

    ОФ Стока это по сути быстрая прикидка оценки, всё остальное отдаётся на откуп поисковой функции. Нейросеть альфы, это тщательное изучение каждой позиции на дереве перебора, а сам перебор менее изощренный. Даже на сходном железе Альфа будет больше расчётов вкладывать в оценку, а Сток в "умный" перебор.

    Не совсем понял... Если ОФ Стока, условно, в 40 хуже оценивает позицию, а затем её еще и в 40 раз замедлить, то тогда она будет в 1600 раз хуже оценивать.
  12. Оптик Старожил

    • Участник
    • Старожил
    Рег.:
    09.04.2013
    Сообщения:
    1.418
    Симпатии:
    1.092
    Репутация:
    49
    Оффлайн
    Но ведь можно сделать так , что Альфа выдавала не только ход , но и то , как она его вычислила . По сути ОФ .

    Сток будет распределять расчеты так , как задаст программист .
    Если нужно больше расчетов в оценку - значит так и надо распределять мощность .

    Нет . Если Сток оценивает в 40 раз хуже - то при замедлении он будет оценивать в 40 раз меньше позиций , но при этом каждую позицию в 40 раз тщательней . Речь не о замедлении а о перераспределении вычислительной мощности .

    Я думаю , производитель программы охотно согласится написать на диске - сделано на основе НС Гугла .
    Гугл получит свою часть славы , разработчик деньги , шахматисты - суперпрогу .
  13. Rom Старожил

    • Участник
    • Старожил
    Рег.:
    12.02.2012
    Сообщения:
    644
    Симпатии:
    275
    Репутация:
    27
    Оффлайн
    Наверное надо определиться, мы говорим об Альфе целиком или только об её нейросети? Сама нейросеть ничего "объяснить" не может, кроме как предоставить список произведенных арифметических операций над каждой позицией. Альфа целиком предоставит список наиболее посещаемых позиций в дереве перебора, из которых она выбрала наиболее посещаемый вариант.

    Стоку не надо больше расчетов в оценку, так как он наиболее эффективен именно при своей нынешней оценке. Если же добавлять параметры в его нынешнюю оценку, то это приведет к увеличению времени на вычисление этой оценки, потере скорости перебора и соответственно снижению общей силы игры.

    В нынешнюю ОФ Стока заложен определенный набор арифметических операций для оценки позиции. Ни больше, ни меньше. Нынешняя оценка не может оценивать в 40 раз качественнее, даже если повторит эти расчеты 40 раз.

    Я полагаю многие поступят проще. Возьмут Сток, переименуют его, проведут матч "своей" программы против Альфы на "более корректных" условиях и напишут на диске "Мы круче Гугла". :)
    Комсюк нравится это.
  14. Оптик Старожил

    • Участник
    • Старожил
    Рег.:
    09.04.2013
    Сообщения:
    1.418
    Симпатии:
    1.092
    Репутация:
    49
    Оффлайн
    Все верно . Мы берем этот список операций , и составляем на его основе новый алгоритм для Стока .

    Это если у Стока собственная ОФ .
    Но мы вставим в Сток ОФ Альфы . Стокфиш будет считать и оценивать позиции как Альфа .

    Написать мало , надо предъявить текст партий . И чтобы эти партии соответствовали заявленному качеству .
    Иначе над ними просто посмеются .
  15. Комсюк народный модератор

    • Заблокирован
    Рег.:
    17.07.2011
    Сообщения:
    19.148
    Симпатии:
    23.331
    Репутация:
    1.258
    Нарушения:
    31
    Оффлайн
    Оптик, иди начерти пару формул! Сток выиграет у этой богини, если не связывать ему руки. Переименовать его - дело двух секунд
    —- добавлено: 21 янв 2018 —-
    Будет и текст партий... в отличие от Гугла, и показания всех приборов (глубина, ширина и долгота расчётов)
  16. Rom Старожил

    • Участник
    • Старожил
    Рег.:
    12.02.2012
    Сообщения:
    644
    Симпатии:
    275
    Репутация:
    27
    Оффлайн
    Не понятно как это сделать. Для каждой новой позиции список операций будет разным.

    Но при этом возможно станет играть хуже, поскольку скорость поиска (перебора) по дереву вариантов резко снизится.

    ChessBase постоянно так делают. Найдут пару позиций в которых их программы справляются лучше других и пишут статью. При желании и партии наиграть могут. :cool:
  17. Оптик Старожил

    • Участник
    • Старожил
    Рег.:
    09.04.2013
    Сообщения:
    1.418
    Симпатии:
    1.092
    Репутация:
    49
    Оффлайн
    Ну как это делает Альфа ? В процессе обучения , Альфа сформировала некую целевую функцию , точно расставила в этой функции все весовые коэффициенты .
    И на основе этой функции играет сильнее чем Сток на своем алгоритме .

    С чего бы это Альфа не может выдать в чистом виде эту ОФ ?
    И почему ею не сможет воспользоваться обычная шахматная программа ?
  18. Jadn Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    10.05.2006
    Сообщения:
    3.626
    Симпатии:
    2.535
    Репутация:
    52
    Оффлайн
    Альфа вполне может её выдать, ну, если Гугл позволит. Но, вот эта оценочная функция работает на TPU. Можно конечно её переписать на х86 платформу, но разница со Стоковской в скорости будет даже не в 1000 раз, а намного больше. В итоге это Сток только ослабит.
    Оптик нравится это.
  19. Launder Новичок

    • Новичок
    Рег.:
    25.11.2016
    Сообщения:
    89
    Симпатии:
    22
    Репутация:
    1
    Оффлайн
    Мне кажется это не вполне корректный вопрос. Ну совершенно другой принцип у этой штуки, слишком какой-то топорный перевод этих "весовых коэффициентов"...
    —- добавлено: 22 янв 2018, опубликовано: 22 янв 2018 —-
    Во-первых 32-фигурная и любая другая база не понимают, а имеют таблицу соответствий, понимать может только человек, который видит в решении определённую логическую нить форсированную или не очень, но в любом случае, он понимает, ЗА СЧЁТ ЧЕГО это решение существует.
    Во-вторых, "комбинаторика в чистом виде" она до тех пор пока мы в этом хаосе не найдём определённого порядка. Конечно, для таких длинных решений доля комбинаторики такая, что распухнет любой мозг, и тем не менее, полагаю, что, всё же "в чистом виде", в природе мало что существует, и, в данном случае, примесь логики наверняка присутствует, просто она настолько разбавлена, что увидеть её крайне сложно, но это не значит что её нет. Можно сказать, что шахматы это вообще чистая комбинаторика, но ведь находим же мы в них логику?
    Так же и тут, просто из-за сложности и, возможно, из практических соображений (возможная цель на возможные усилия), пока не нашли своего исследователя. Есть какие-то линии, где порядок строгий порядок ходов, есть где не строгий, есть более, или менее длинные решение. Кстати, более короткое решение не всегда более наглядное, а значит более простое. Когда мы смотрим на позицию, мы видим те или иные применимые к ней идеи, но в коротком решении могут быть объединены они все - но нам же нужно это клубок распутать? В этом и сложность, что ответе спрятано(ы) (понятные нам) решение(я). Наша задача постичь идеи содержащиеся в этих ответах и тогда, пусть и не самым коротким путём ход в ход, но мы сможем решать подобные нерешаемые задачи... В общем, не исключено, что вооружившись таблицами, мы можем найти в них не мало алмазов...
  20. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.490
    Симпатии:
    3.104
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Вспоминается известный анекдот про Бернарда Шоу.
    "Давайте поженимся, наши дети будут умные, как вы, и красивые, как я! — Леди, а вдруг получится наоборот?"
    Launder, Undying, Zayats и 3 другим нравится это.
  21. nn Старожил

    • Участник
    • Старожил
    Рег.:
    25.03.2007
    Сообщения:
    1.456
    Симпатии:
    3.108
    Репутация:
    124
    Оффлайн
    Новые лучшие веса leela-chess в supervised learning. Дебют научилась имитировать, но зато потом компенсирует это нескучным театром народной самодеятельности.

  22. nn Старожил

    • Участник
    • Старожил
    Рег.:
    25.03.2007
    Сообщения:
    1.456
    Симпатии:
    3.108
    Репутация:
    124
    Оффлайн
    Да, там описано правильное решение - своим ходом сделать так, чтобы все поразрядные суммы цифр двоичного представления числа камней в кучках стали четными. Есть также и способ считать все это в течении нескольких секунд даже при достаточно большом числе камней и кучек глядя на позицию, а не в небо, как Вася при своем ходе - сразу видно какие-то шах-мат-суммы считает, а не варианты.

    Такая же проблема как с 32-фигурными таблицами возникает, если игра начинается с проигранной позиции, и нужно максимизировать шансы на ошибку соперника. Нужно идти в сложную позицию - больше камней больше кучек, неодинаковое число камней в кучках, нечетное число кучек, нечетность во многих поразрядных суммах, и т.д. Выигрываешь, даже если рассказать сопернику правильное решение, но не говорить как просто все считать. В шахматах при наличии 32-фигурных таблиц подобную программу тоже можно написать со своими критериями сложностями.
    Комсюк нравится это.
  23. Комсюк народный модератор

    • Заблокирован
    Рег.:
    17.07.2011
    Сообщения:
    19.148
    Симпатии:
    23.331
    Репутация:
    1.258
    Нарушения:
    31
    Оффлайн
    я играл только 3-5-7, но это действительно таблица у меня в голове :)
    Поскольку я не считал, а пришёл к решению экспериментально полным перебором (прямо, как MCTS)
  24. crem Учаcтник

    • Участник
    Рег.:
    24.11.2016
    Сообщения:
    140
    Симпатии:
    203
    Репутация:
    14
    Оффлайн
    Опубликовали доклад Хассабиса: https://www.youtube.com/watch?v=DXNqYSNvnjA
    В основном повторяет всё тот же доклад DeepMind об AlphaZero, но местами есть новое.
    nn и N1mTzo нравится это.
  25. nn Старожил

    • Участник
    • Старожил
    Рег.:
    25.03.2007
    Сообщения:
    1.456
    Симпатии:
    3.108
    Репутация:
    124
    Оффлайн
  26. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.490
    Симпатии:
    3.104
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
  27. Boroda Новичок

    • Новичок
    Рег.:
    12.01.2018
    Сообщения:
    62
    Симпатии:
    8
    Репутация:
    0
    Оффлайн
    А что нового говорит? Когда матч реванш будет?
  28. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.490
    Симпатии:
    3.104
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Какой ещё реванш? Они же не на титул играли, а просто программу тестировали.
  29. Boroda Новичок

    • Новичок
    Рег.:
    12.01.2018
    Сообщения:
    62
    Симпатии:
    8
    Репутация:
    0
    Оффлайн
    А что им жалко чтоли на титул сыграть? В Го ведь много играли, что мешает в шахматы немного поиграть?
  30. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.490
    Симпатии:
    3.104
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Наверное, жалко, раз проект ещё в мае закрыли и всех людей на другие задачи перебросили. Так что даже непонятно, кому и с кем реванш играть.
  31. svoitsl Учаcтник

    • Участник
    Рег.:
    06.01.2018
    Сообщения:
    374
    Симпатии:
    91
    Репутация:
    7
    Оффлайн
    то есть доклад менее чем недельной давности был сделан без участия гугла и дипмаинда?
    crem нравится это.
  32. crem Учаcтник

    • Участник
    Рег.:
    24.11.2016
    Сообщения:
    140
    Симпатии:
    203
    Репутация:
    14
    Оффлайн
    Проект "AlphaGo" действительно "закрыли", в том смысле, что больше соревнований в Го с людьми не будет. Но работа всё равно идёт. Например, статья "AlphaGo Zero" была написана в октябре 2017 (хотя сама работа была сделана ранее), а вот"AlphaZero" вообще был полностью написан после того объявления о закрытии, или вот AlphaGo Teach: https://alphagoteach.deepmind.com/, - был запущен в декабре 2017.

    По поводу AlphaZero и шахмат — вначале DeepMind опубликует полноценную статью в научном журнале, а не препринт, а потом будет думать, какими будут дальнейшие шаги. Уверен, что вопрос "сильнее ли alphazero чем stockfish" в воздухе не повиснет.
    N1mTzo нравится это.
  33. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.490
    Симпатии:
    3.104
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Если вы о недавней речи Хассабиса, то она на 90% состоит из повторения всех предыдущих презентаций, и на 10% - из пересказа препринта, подготовленного по материалам работ до апреля 2017 года.
  34. Benas Учаcтник

    • Участник
    Рег.:
    09.05.2017
    Сообщения:
    147
    Симпатии:
    27
    Репутация:
    1
    Оффлайн
    Шахматы - как некая площадка и думаю в ней будет еще не одна битва титанов...
    Аlpha стала как бы сильнейшей, но на вечно ли ?
  35. N1mTzo Учаcтник

    • Участник
    Рег.:
    17.04.2008
    Сообщения:
    318
    Симпатии:
    30
    Репутация:
    1
    Оффлайн
    Против прорвы TPU (и прочих монстров) у Стока нет шансов, более интересным имхо было бы сравнить Альфу (ее алгоритмы), обученную на чем-то вроде Intel Loihi с тем же Стоком на среднем железе, устроить некий тест ПК vs ПК.

Поделиться этой страницей