AlphaZero. Нейронная сеть играет в шахматы

Тема в разделе "Машинное отделение", создана пользователем grizly, 6 дек 2017.

  1. Комсюк
    Оффлайн

    Комсюк народный модератор баннер

    Репутация:
    1.270
    В прошедшем матче ничего не доказала
     
    Mustitz и nh2008 нравится это.
  2. Оптик
    Оффлайн

    Оптик Старожил

    Репутация:
    49
    Вы же разверните мысль . Что было не так в матче ?
     
  3. Комсюк
    Оффлайн

    Комсюк народный модератор баннер

    Репутация:
    1.270
    отсюда начинать
     
  4. svoitsl
    Оффлайн

    svoitsl Учаcтник

    Репутация:
    7
    ну наверное не стоит так уж категорично....
    Кое что все таки доказала, например то , что во многом другой алгоритм тоже имеет право на существование, полностью автоматическое обучение не требует эвристики, зато требует специфических команд процессора для перемножения матриц.Потраченные ресурсы на обучения не пропадают и сеть может быть доучена позднее с текущего уровня.
    В принципе возможно коммерческое создание некой экосистемы, вполне себе самодостаточной и коммерчески привлекательной.
     
  5. Jadn
    Оффлайн

    Jadn баннер

    Репутация:
    52
    Это невозможно.
     
  6. Комсюк
    Оффлайн

    Комсюк народный модератор баннер

    Репутация:
    1.270
    А если взять с цитатой, на которую я отвечал?
     
  7. Оптик
    Оффлайн

    Оптик Старожил

    Репутация:
    49
    Просто невозможно и всё ?
    Не хотите развернуть свою мысль ?
     
  8. Jadn
    Оффлайн

    Jadn баннер

    Репутация:
    52
    Чем точнее и сложнее ОФ тем большего объема вычислений она требует и тем меньше раз её можно выполнить в секунду (на одинаковом железе). Разве это не очевидно?
    Вы предлагаете сделать машину, такую же быструю, как автомобиль Ф1 и такую же грузоподъемную, как Белаз. Так не бывает.
     
  9. Rom
    Оффлайн

    Rom Старожил

    Репутация:
    28
    Может быть что-то ещё состоится. Хассабис вроде бы в твиттере писал о какой-то публикации.

    Возможно потому, что имиджевые плюсы от этого будет получать уже не Гугл, а другие организации. За счёт Гугла. Если нейросеть будет доступна, то устроить матч с "правильными" результатами не так уж сложно.

    Оценочная функция Стокфиша вычисляет только одно число - оценку позиции. Нейросеть Альфы вычисляет не только оценку позиции, но и предоставляет список ходов с процентной вероятностью "перспективности" каждого из них. И всё это без перебора, только на основании самой позиции и её истории. И только затем эти данные используются в переборе методом Монте-Карло (MCTS).

    К сожалению, даже принципиальная возможность для получения топового уровня из смеси Стока и Альфы ещё не совсем понятна.

    Нейросеть Альфы потому и даёт более тонкую оценку, потому что она производит намного больше вычислений чем ОФ Стока. Если очень упрощенно, то ОФ Стокфиша, можно представить как сетку вычислений из одного слоя, а нейросеть Альфы, как сетку из сорока слоёв, из которых каждый последующий вычисляется только после получения результатов предыдущего.
     
  10. Оптик
    Оффлайн

    Оптик Старожил

    Репутация:
    49
    Насколько я понимаю , свою ОФ Сток вычисляет в 1000 раз быстрее чем Альфа свою .
    А что будет если поменять ? Как минимум , Сток догонит Альфу по уровню , если говорить о равном железе .
    —- добавлено: 21 янв 2018, опубликовано: 21 янв 2018 —-
    Не совсем ясно . Сток набрал свою глубину , оценил миллионы позиций - и обладает списком ходов -кандидатов , и оценкой каждого продолжения . Оценка соответствует перспективности . Все как у Альфы.

    Как Альфа без перебора получает список рекомендуемых ходов , на основании позиции ?

    То есть , по сути Альфа это более мощное железо , и ничего более ?
    —- добавлено: 21 янв 2018 —-
    То есть , у Альфы 40 вариантов ОФ , а у Стока 1 ? Можно ли замедлить Сток в 40 раз , чтобы произвести все вычисления как Альфа ?
     
    Последнее редактирование: 21 янв 2018
  11. Rom
    Оффлайн

    Rom Старожил

    Репутация:
    28
    Альфа состоит из нейросети и переборной схемы методом Монте-Карло (MCTS). Нейросеть Альфы навроде черного ящика - мы просто подаём на вход нейросети позицию, а на выходе получаем оценку и список ходов. Какие там "соображения" она сформировала в процессе обучения мы не совсем представляем.

    ОФ Стока это по сути быстрая прикидка оценки, всё остальное отдаётся на откуп поисковой функции. Нейросеть альфы, это тщательное изучение каждой позиции на дереве перебора, а сам перебор менее изощренный. Даже на сходном железе Альфа будет больше расчётов вкладывать в оценку, а Сток в "умный" перебор.

    Не совсем понял... Если ОФ Стока, условно, в 40 хуже оценивает позицию, а затем её еще и в 40 раз замедлить, то тогда она будет в 1600 раз хуже оценивать.
     
  12. Оптик
    Оффлайн

    Оптик Старожил

    Репутация:
    49
    Но ведь можно сделать так , что Альфа выдавала не только ход , но и то , как она его вычислила . По сути ОФ .

    Сток будет распределять расчеты так , как задаст программист .
    Если нужно больше расчетов в оценку - значит так и надо распределять мощность .

    Нет . Если Сток оценивает в 40 раз хуже - то при замедлении он будет оценивать в 40 раз меньше позиций , но при этом каждую позицию в 40 раз тщательней . Речь не о замедлении а о перераспределении вычислительной мощности .

    Я думаю , производитель программы охотно согласится написать на диске - сделано на основе НС Гугла .
    Гугл получит свою часть славы , разработчик деньги , шахматисты - суперпрогу .
     
    Последнее редактирование: 21 янв 2018
  13. Rom
    Оффлайн

    Rom Старожил

    Репутация:
    28
    Наверное надо определиться, мы говорим об Альфе целиком или только об её нейросети? Сама нейросеть ничего "объяснить" не может, кроме как предоставить список произведенных арифметических операций над каждой позицией. Альфа целиком предоставит список наиболее посещаемых позиций в дереве перебора, из которых она выбрала наиболее посещаемый вариант.

    Стоку не надо больше расчетов в оценку, так как он наиболее эффективен именно при своей нынешней оценке. Если же добавлять параметры в его нынешнюю оценку, то это приведет к увеличению времени на вычисление этой оценки, потере скорости перебора и соответственно снижению общей силы игры.

    В нынешнюю ОФ Стока заложен определенный набор арифметических операций для оценки позиции. Ни больше, ни меньше. Нынешняя оценка не может оценивать в 40 раз качественнее, даже если повторит эти расчеты 40 раз.

    Я полагаю многие поступят проще. Возьмут Сток, переименуют его, проведут матч "своей" программы против Альфы на "более корректных" условиях и напишут на диске "Мы круче Гугла". :)
     
    Комсюк нравится это.
  14. Оптик
    Оффлайн

    Оптик Старожил

    Репутация:
    49
    Все верно . Мы берем этот список операций , и составляем на его основе новый алгоритм для Стока .

    Это если у Стока собственная ОФ .
    Но мы вставим в Сток ОФ Альфы . Стокфиш будет считать и оценивать позиции как Альфа .

    Написать мало , надо предъявить текст партий . И чтобы эти партии соответствовали заявленному качеству .
    Иначе над ними просто посмеются .
     
  15. Комсюк
    Оффлайн

    Комсюк народный модератор баннер

    Репутация:
    1.270
    Оптик, иди начерти пару формул! Сток выиграет у этой богини, если не связывать ему руки. Переименовать его - дело двух секунд
    —- добавлено: 21 янв 2018 —-
    Будет и текст партий... в отличие от Гугла, и показания всех приборов (глубина, ширина и долгота расчётов)
     
  16. Rom
    Оффлайн

    Rom Старожил

    Репутация:
    28
    Не понятно как это сделать. Для каждой новой позиции список операций будет разным.

    Но при этом возможно станет играть хуже, поскольку скорость поиска (перебора) по дереву вариантов резко снизится.

    ChessBase постоянно так делают. Найдут пару позиций в которых их программы справляются лучше других и пишут статью. При желании и партии наиграть могут. :cool:
     
  17. Оптик
    Оффлайн

    Оптик Старожил

    Репутация:
    49
    Ну как это делает Альфа ? В процессе обучения , Альфа сформировала некую целевую функцию , точно расставила в этой функции все весовые коэффициенты .
    И на основе этой функции играет сильнее чем Сток на своем алгоритме .

    С чего бы это Альфа не может выдать в чистом виде эту ОФ ?
    И почему ею не сможет воспользоваться обычная шахматная программа ?
     
  18. Jadn
    Оффлайн

    Jadn баннер

    Репутация:
    52
    Альфа вполне может её выдать, ну, если Гугл позволит. Но, вот эта оценочная функция работает на TPU. Можно конечно её переписать на х86 платформу, но разница со Стоковской в скорости будет даже не в 1000 раз, а намного больше. В итоге это Сток только ослабит.
     
    Оптик нравится это.
  19. Launder
    Оффлайн

    Launder Новичок

    Репутация:
    1
    Мне кажется это не вполне корректный вопрос. Ну совершенно другой принцип у этой штуки, слишком какой-то топорный перевод этих "весовых коэффициентов"...
    —- добавлено: 22 янв 2018, опубликовано: 22 янв 2018 —-
    Во-первых 32-фигурная и любая другая база не понимают, а имеют таблицу соответствий, понимать может только человек, который видит в решении определённую логическую нить форсированную или не очень, но в любом случае, он понимает, ЗА СЧЁТ ЧЕГО это решение существует.
    Во-вторых, "комбинаторика в чистом виде" она до тех пор пока мы в этом хаосе не найдём определённого порядка. Конечно, для таких длинных решений доля комбинаторики такая, что распухнет любой мозг, и тем не менее, полагаю, что, всё же "в чистом виде", в природе мало что существует, и, в данном случае, примесь логики наверняка присутствует, просто она настолько разбавлена, что увидеть её крайне сложно, но это не значит что её нет. Можно сказать, что шахматы это вообще чистая комбинаторика, но ведь находим же мы в них логику?
    Так же и тут, просто из-за сложности и, возможно, из практических соображений (возможная цель на возможные усилия), пока не нашли своего исследователя. Есть какие-то линии, где порядок строгий порядок ходов, есть где не строгий, есть более, или менее длинные решение. Кстати, более короткое решение не всегда более наглядное, а значит более простое. Когда мы смотрим на позицию, мы видим те или иные применимые к ней идеи, но в коротком решении могут быть объединены они все - но нам же нужно это клубок распутать? В этом и сложность, что ответе спрятано(ы) (понятные нам) решение(я). Наша задача постичь идеи содержащиеся в этих ответах и тогда, пусть и не самым коротким путём ход в ход, но мы сможем решать подобные нерешаемые задачи... В общем, не исключено, что вооружившись таблицами, мы можем найти в них не мало алмазов...
     
  20. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    Вспоминается известный анекдот про Бернарда Шоу.
    "Давайте поженимся, наши дети будут умные, как вы, и красивые, как я! — Леди, а вдруг получится наоборот?"
     
    Launder, Undying, Zayats и 3 другим нравится это.
  21. nn
    Оффлайн

    nn Старожил

    Репутация:
    124
    Новые лучшие веса leela-chess в supervised learning. Дебют научилась имитировать, но зато потом компенсирует это нескучным театром народной самодеятельности.

     
  22. nn
    Оффлайн

    nn Старожил

    Репутация:
    124
    Да, там описано правильное решение - своим ходом сделать так, чтобы все поразрядные суммы цифр двоичного представления числа камней в кучках стали четными. Есть также и способ считать все это в течении нескольких секунд даже при достаточно большом числе камней и кучек глядя на позицию, а не в небо, как Вася при своем ходе - сразу видно какие-то шах-мат-суммы считает, а не варианты.

    Такая же проблема как с 32-фигурными таблицами возникает, если игра начинается с проигранной позиции, и нужно максимизировать шансы на ошибку соперника. Нужно идти в сложную позицию - больше камней больше кучек, неодинаковое число камней в кучках, нечетное число кучек, нечетность во многих поразрядных суммах, и т.д. Выигрываешь, даже если рассказать сопернику правильное решение, но не говорить как просто все считать. В шахматах при наличии 32-фигурных таблиц подобную программу тоже можно написать со своими критериями сложностями.
     
    Комсюк нравится это.
  23. Комсюк
    Оффлайн

    Комсюк народный модератор баннер

    Репутация:
    1.270
    я играл только 3-5-7, но это действительно таблица у меня в голове :)
    Поскольку я не считал, а пришёл к решению экспериментально полным перебором (прямо, как MCTS)
     
  24. crem
    Оффлайн

    crem Учаcтник

    Репутация:
    14
    Опубликовали доклад Хассабиса: https://www.youtube.com/watch?v=DXNqYSNvnjA
    В основном повторяет всё тот же доклад DeepMind об AlphaZero, но местами есть новое.
     
    nn и N1mTzo нравится это.
  25. nn
    Оффлайн

    nn Старожил

    Репутация:
    124
  26. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
  27. Boroda
    Оффлайн

    Boroda Новичок

    Репутация:
    0
    А что нового говорит? Когда матч реванш будет?
     
  28. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    Какой ещё реванш? Они же не на титул играли, а просто программу тестировали.
     
  29. Boroda
    Оффлайн

    Boroda Новичок

    Репутация:
    0
    А что им жалко чтоли на титул сыграть? В Го ведь много играли, что мешает в шахматы немного поиграть?
     
    Последнее редактирование модератором: 29 янв 2018
  30. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    Наверное, жалко, раз проект ещё в мае закрыли и всех людей на другие задачи перебросили. Так что даже непонятно, кому и с кем реванш играть.
     
  31. svoitsl
    Оффлайн

    svoitsl Учаcтник

    Репутация:
    7
    то есть доклад менее чем недельной давности был сделан без участия гугла и дипмаинда?
     
    crem нравится это.
  32. crem
    Оффлайн

    crem Учаcтник

    Репутация:
    14
    Проект "AlphaGo" действительно "закрыли", в том смысле, что больше соревнований в Го с людьми не будет. Но работа всё равно идёт. Например, статья "AlphaGo Zero" была написана в октябре 2017 (хотя сама работа была сделана ранее), а вот"AlphaZero" вообще был полностью написан после того объявления о закрытии, или вот AlphaGo Teach: https://alphagoteach.deepmind.com/, - был запущен в декабре 2017.

    По поводу AlphaZero и шахмат — вначале DeepMind опубликует полноценную статью в научном журнале, а не препринт, а потом будет думать, какими будут дальнейшие шаги. Уверен, что вопрос "сильнее ли alphazero чем stockfish" в воздухе не повиснет.
     
    N1mTzo нравится это.
  33. WinPooh
    Оффлайн

    WinPooh В.М. Команда форума

    Репутация:
    95
    Если вы о недавней речи Хассабиса, то она на 90% состоит из повторения всех предыдущих презентаций, и на 10% - из пересказа препринта, подготовленного по материалам работ до апреля 2017 года.
     
  34. Benas
    Оффлайн

    Benas Учаcтник

    Репутация:
    1
    Шахматы - как некая площадка и думаю в ней будет еще не одна битва титанов...
    Аlpha стала как бы сильнейшей, но на вечно ли ?
     
  35. N1mTzo
    Оффлайн

    N1mTzo Учаcтник

    Репутация:
    1
    Против прорвы TPU (и прочих монстров) у Стока нет шансов, более интересным имхо было бы сравнить Альфу (ее алгоритмы), обученную на чем-то вроде Intel Loihi с тем же Стоком на среднем железе, устроить некий тест ПК vs ПК.