AlphaZero. Нейронная сеть играет в шахматы

Тема в разделе "Машинное отделение", создана пользователем grizly, 6 дек 2017.

  1. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    Люди тут авторитетно пишут про "два раза"... правда, потом отваливают
  2. vasa Опытный перворазрядник

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    35.297
    Симпатии:
    17.577
    Репутация:
    583
    Адрес:
    Ростов-на-Дону
    Оффлайн
  3. vasa Опытный перворазрядник

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    35.297
    Симпатии:
    17.577
    Репутация:
    583
    Адрес:
    Ростов-на-Дону
    Оффлайн
    Народ, а pgn'ка партий матча уже есть?
  4. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
  5. Crest Админ, МГ

    • Команда форума
    Рег.:
    05.02.2006
    Сообщения:
    57.243
    Симпатии:
    21.131
    Репутация:
    627
    Адрес:
    Москва, Россия
    Оффлайн
    Пока только здесь внизу текста есть ссылка для скачивания десяти избранных партий.
    Остальных пока нет.
    Более того! Стало известно, что АльфаЗеро и Стокфиш на самом деле сыграли гораздо больше партий, и Сток некоторые из них выиграл - но их нам точно не покажут!
    И вполне понятно, почему... Ведь рекламу нельзя перебивать антирекламой! ;)
    sovaz1997 нравится это.
  6. vasa Опытный перворазрядник

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    35.297
    Симпатии:
    17.577
    Репутация:
    583
    Адрес:
    Ростов-на-Дону
    Оффлайн
    Спасибо!
    :hi:
    То, что мне надо, я там нашёл. :)
  7. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    https://groups.google.com/forum/#!topic/fishcooking/pcFRIurN_l4
    Любитель_ нравится это.
  8. Mustitz Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    30.09.2006
    Сообщения:
    3.546
    Симпатии:
    1.265
    Репутация:
    36
    Адрес:
    Киев
    Оффлайн
    Нейросеть очень прожорлива к ресурсам, если не использовать GPU и специальные вычислители. Поэтому на равном железе или Сток не запустился бы (ибо не знает, как задействовать GPU/специальные платы), либо AlphaZero считала бы 700 позиций в секунду.
    —- добавлено: 8 дек 2017, опубликовано: 8 дек 2017 —-
    Ему просто не объяснили стоимость шахматный фигур.
  9. crem Учаcтник

    • Участник
    Рег.:
    24.11.2016
    Сообщения:
    140
    Симпатии:
    203
    Репутация:
    14
    Оффлайн
    Современные CPU умеют выполнять достаточно сложные операции, но делают это последовательно. Современные процессоры — многоядерные, и они могут выполнять независимо одновременно несколько последовательностей инструкций (например, у стокфиша было 64), но классические алгоритмы нельзя так просто переложить на такие процессоры. Точнее, прирост скорости будет, но не в 64 раза, а гораздо меньше.

    TPU по сути умеют делать только одну простую вещь: перемножать тысячи вещественных чисел одновременно, а больше ничего они делать не умеют. При этом стоимость у них такая же как у CPU. Так получилось, что перемножение большого количества матриц является самой трудозатратной частью нейросетей, при этом алгоритмы нейросетей позволяют это делать параллельно.

    Поэтому нельзя сказать что TPU быстрее, чем CPU, они разные:
    * TPU умеет перемножать вещественные числа, а стокфишу это не надо. Классические шахматные программы не работают с большими матрицами вещественных чисел или чего-то вроде того.
    * у CPU есть много сложных и быстрых инструкций, которых нету у TPU, и стокфиш этими инструкциями пользуется вовсю, а alphazero они не нужны, она только перемножает числа и всё.

    При этом стоимость и потребление электричества у одного CPU и одного TPU примерно одинакова (или даже TPU дешевле), так что это не сравнение суперкомпьютера обычным, просто у них разный набор инструкций.

    Пару слов о teraflops.
    FLOPS - это floating point operation per second, количество операций с плавающей точкой в секунду.
    Когда выбирали как оценивать производительность процессоров, решили выбрать какую-нибудь типично трудную задачу для процессора и посчитать сколько раз в секунду процессор её сможет выполнить. Такой задачей оказалась работа с вещественными числами, и она действительно медленна относительно других операций в современных CPU.

    Но для TPU — это наоборот, единственный тип операций, которые он умеет делать! Поэтому когда сравнивают количество FLOPS между CPU и TPU, то сравнивают:
    * сколько раз выполнится медленная неосновная инструкция CPU
    * сколько раз выполнится единственная вещь под которую TPU оптимизирован и построен.
    Это не совсем честно.

    Это как например если бы договорились определять степень зелёности городов по количеству дубов там (потому что дерево редкое, особенно в городах), а потом сказали что искусственная дубовая роща в 1000000 раз лучше озеленена чем типичный город или лес.
    Alhimik88, Gridnev и DraggonZ нравится это.
  10. Vertu Старожил

    • Участник
    • Старожил
    Рег.:
    22.12.2006
    Сообщения:
    972
    Симпатии:
    44
    Репутация:
    4
    Оффлайн
    Народ справедливо спрашивает: почему матч не провели публично? Комьюнити Стокфиша выставило бы настроенную по максимуму версию. А если Гугл так уверен в своих силах, то выставили бы его против "кентавра" типа Карлсен+Стокфиш!
  11. Нестор консультант_ специалист по черной магии

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    11.04.2006
    Сообщения:
    2.955
    Симпатии:
    3.315
    Репутация:
    331
    Адрес:
    Москва
    Оффлайн
    Vertu, не всё сразу! Думаю, какие-то матчи мы ещё увидим ;)
    Информационная бомба неслабая рванула! Рекламный потенциал ещё есть ...
    Любитель_ нравится это.
  12. crem Учаcтник

    • Участник
    Рег.:
    24.11.2016
    Сообщения:
    140
    Симпатии:
    203
    Репутация:
    14
    Оффлайн
    Гугл не анонсировал ничего публично, никаких пресс-релизов, никаких новостей в блоге, никаких попыток рекламировать.
    Всего лишь был добавлен препринт статьи в архив научных статей, а журналисты заметили и подняли шум.
    Статьи на тему нейросетей в этот архив добавляются десятками в день, это нормальный процесс, и вообще это требование для продвижения научного знания, "что мы попробовали сделать и что получилось".

    И основной посыл данной работы не "мы создали нейросеть, которая лучше всех играет в шахматы", а "мы создали универсальную нейронную сеть, которую можно использовать любой игры для двух игроков с полной информацией".

    Сейчас этот препринт находится на стадии рецензирования. До тех пор пока рецензии не получены, статья формально не считается "принятой" научным сообществом, и комментарии по ней не дают.
    После того, как "препринт" станет "принтом", разработчики дадут комментарии и интервью по поводу возникших вопросов.

    И я думаю, что публичный матч тоже будет (скорее всего просто на чемпионат мира по шахматам среди программ выкатят alphazero, но это просто предположение, возможно вместо этого и будет что-то другое).
    Любитель_ нравится это.
  13. Challenger Spy Технический специалист

    • Команда форума
    Рег.:
    29.01.2011
    Сообщения:
    5.280
    Симпатии:
    2.838
    Репутация:
    226
    Оффлайн
    Читаю ветку разработчиков. Кое-что оттуда:
    1. Многие говорят "Они тренировали свою сеть всего 9 часов". Однако "всего лишь" 9 часов на этих 5000 TPUs это 4 года фиштеста. Кроме того, график четко вышел на горизонталь - дальнейшее тестирование не дает усиления - хоть еще xx лет.
    2. Это "тестирование" на самом деле есть разработка дебютной книги Альфой, а у Стока книгу отобрали
    3. Стокфиш был ослаблен минимум трижды:
    3а Старая версия 2016 года, хотя свежая доступна для разработчиков.
    3б Всего 1 гб хэш на 64 ядра - это очень мало
    3в Контроль 1 минута на ход ( вместо 40/40) - очень удобен именно Альфе. Приводится пример: один товарищ запустил аналогичный тест между двумя стоками 40 секунд/40 ходов против 1 секунда/1 ход с результатом 19-9-72
    4. Игровое железо Альфы много быстрее, это признают все. Однако насколько именно - пока не совсем понятно (очевидно, обычные процы и используемые Альфой TCU сравнить нелегко). Присутствуют оценки разницы в 100+ раз и в 25 раз. С другой стороны говорится, что подобные суперкомпьютерные мощности Сток просто не сможет осилить - он для этого не предназначен.
    dom1n1k, 4547 и Fruit нравится это.
  14. Gottfrid Учаcтник

    • Участник
    Рег.:
    14.03.2016
    Сообщения:
    2.549
    Симпатии:
    3.191
    Репутация:
    135
    Адрес:
    Москва
    Оффлайн
    В этом прослеживается некоторое лукавство Google.
    Ибо первый тур проходящего сейчас турнира London Chess Classic прошёл в здании штаб-квартиры Google (1-го декабря), а в предваряющим этот турнир мероприятии по командным быстрым шахматам среди супергроссмейстеров играл один из ведущих "разработчиков" AlphaZero (кмс по совместительству). Выводы сделать не сложно. Пресс-релиз намечался. Вот таким своеобразным образом.
  15. crem Учаcтник

    • Участник
    Рег.:
    24.11.2016
    Сообщения:
    140
    Симпатии:
    203
    Репутация:
    14
    Оффлайн
    1. Да, действительно, вычислительные мощности на тренировку очень большие. На самом деле, используемые алгоритмы нейросетей более-менее общеизвестные, и даже многие любители могли бы подобную нейросеть построить. А вот вычислительные мощности чтобы эту сеть натренировать — именно тут гугл имеет большое преимущество над остальным миром. И действительно, заявлять про "9 часов" — лукавство.

    2. Нельзя сказать что у alphazero была дебютная книга, она просто в том числе научилась играть дебюты.
    И кстати в том что у стокфиша дебютной книги не было, я не убеждён. Накамура предположил, остальные тему развивают, но нигде нету доказательств (а оно было бы простым: стокфиш сыграл так вот, а будь у него книга — сыграл бы по-другому)

    3а. Это последняя стабильная версия. Заходишь на сайт, качаешь "последнюю" версию — и это она. Если более новая версия ещё не вышла — значит разработчики не обещают, что она будет работать.

    3б / 3в — ничего не могу сказать, кроме того что уверен что "умышленно ослабить" стокфиш точно не пытались, но возможно действительно с настройками не повезло.

    4. Как я уже писал выше, это не так. Это не "суперкомпьютер" против компьютера. Да, обычный процессор и TPU оптимизированы под разные типы задач, и если мерять производительность в teraFLOPS, то число у TPU оказывается гораздо больше, но это только из-за того что TPU оптимизирован под операции с плавающей точкой, а teraFLOPS именно этими операциями и меряет. Если сравнивать по другим показателям, например, цене или потреблению электричества, то оба компа равноценные.
  16. Jadn Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    10.05.2006
    Сообщения:
    3.626
    Симпатии:
    2.535
    Репутация:
    52
    Оффлайн
    В выложенных 10 партиях две испанки (Стокфиш белыми), две французкие и остальные новоиндийки, причем практически один и тот же вариант. Такого просто не могло бы быть, если бы использовалась дебютная книга с нормальными настройками.

    А эти TPU вообще продаются? Я думал, они только у Гугла есть.
  17. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    12.02.2006
    Сообщения:
    2.201
    Симпатии:
    64
    Репутация:
    3
    Оффлайн
    По давнишним тестам, удвоение размера хеша прибавляет около 7 пунктов эло (в эндшпиле немного больше). Так что, разница между 1гб и 64гб приблизительно 40 пунктов.
  18. Vladruss НедоКМС, победитель второразрядников.

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    30.12.2009
    Сообщения:
    16.477
    Симпатии:
    8.522
    Репутация:
    530
    Нарушения:
    31
    Оффлайн
    Для чего мало? Для контроля 1 минута на ход более чем достаточно, если не использовать всякие дебютные книги и эндшпильные базы.
  19. Crest Админ, МГ

    • Команда форума
    Рег.:
    05.02.2006
    Сообщения:
    57.243
    Симпатии:
    21.131
    Репутация:
    627
    Адрес:
    Москва, Россия
    Оффлайн
    Х-ммм... Простите, о чем Вы? Какая еще "последняя стабильная версия"?
    Весь шахматный мир активно пользуются свежими версиями Стокфиша, которые работают, уж поверьте, более чем стабильно - и при этом превосходят того старенького Стокфиша-8.
    И только устроители этого матча о том, как будто не знали... Ага, так и хочется им поверить. :facepalm2:
    sovaz1997 нравится это.
  20. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    12.02.2006
    Сообщения:
    2.201
    Симпатии:
    64
    Репутация:
    3
    Оффлайн
    Вы путаете хеш с жестким диском. Иначе, причем тут дебютная библиотека и и базы?

    Сергей Нефедов как-то писал:
    Размер Хеша влияет на то какие конкретно позиции с лучшими ходами и оценками будут захешированы.
    От этого зависит и оценка (захешированные оценки) и порядок рассмотрения ходов, и глубина вариантов после сделанного хода. Есно когда перебор идет в другое русло программа выдает другие ходы (в условиях нестабильного перебора - у всех сильнейших программ перебор нестабилен)..... И...... Программа лучше упорядочивает ходы, и лучше делает продления (не делает сокращений) на хороших ходах.
    Комсюк и Challenger Spy нравится это.
  21. Scaramuccia Старожил

    • Участник
    • Старожил
    Рег.:
    13.01.2012
    Сообщения:
    3.173
    Симпатии:
    2.085
    Репутация:
    61
    Оффлайн
    Гугл их вроде собирается в аренду сдавать и для желающих они уже доступны в альфа версии. Это интересная вещь на самом деле - это специализировая железяка для задач машинного обучения. Она дает огромную вычислительную мощность для узкого класса задач за небольшие деньги. Так что по цене у них было равное железо.
  22. nn Заблокирован

    • Участник
    • Заблокирован
    • Старожил
    Рег.:
    25.03.2007
    Сообщения:
    1.459
    Симпатии:
    3.109
    Репутация:
    124
    Нарушения:
    31
    Оффлайн
    Самоучка. Ему бы хорошего тренера немного теорию подучить и игру поставить. Из советской шахматной школы. Может Гарри возьмется?
    Challenger Spy нравится это.
  23. Challenger Spy Технический специалист

    • Команда форума
    Рег.:
    29.01.2011
    Сообщения:
    5.280
    Симпатии:
    2.838
    Репутация:
    226
    Оффлайн
  24. ubaldus Учаcтник

    • Участник
    Рег.:
    07.07.2007
    Сообщения:
    170
    Симпатии:
    22
    Репутация:
    -2
    Адрес:
    Miami, FL
    Оффлайн
    В препринте есть данные о тренировочных партиях А0 против Стока в разных дебютах. Интересно, что сициланку черными А0 не любит - в 150 партиях черными +10-11=129.
    Вообще замечательно, насколько Стокфиш силен, обыграть его черными не может даже такой монстр.

    Конечно, ничейная тенденция шахмат помогает. В шоги (где ничья практически невозможна), прежний чемпион проиграл 9:91.
  25. OLEGxUSSR Начинающий

    • Начинающий
    Рег.:
    10.09.2017
    Сообщения:
    1
    Симпатии:
    1
    Репутация:
    0
    Оффлайн
    На тему гугловского искуственного интеллекта был снят фильм под названием: "Из машины" 2014
    Любитель_ нравится это.
  26. Scaramuccia Старожил

    • Участник
    • Старожил
    Рег.:
    13.01.2012
    Сообщения:
    3.173
    Симпатии:
    2.085
    Репутация:
    61
    Оффлайн
    Вы не забывайте, что устраивали матч они в начале года. Сейчас только статья вышла. В апреле восьмому стокфишу было 6 месяцев. Не вижу никаких причин считать его стареньким на тот момент.
  27. Hippo23 Начинающий

    • Начинающий
    Рег.:
    08.12.2017
    Сообщения:
    1
    Симпатии:
    3
    Репутация:
    0
    Оффлайн
    Зарегистрировался, чтобы как-то отписаться по теме.

    @crem довольно хорошо написал тут. Постараюсь его дополнить
    1. Скорее всего над этим проектом работает относительно небольшая команда исследователей ИИ с доступом к мощному железу Google, поэтому они могли выбирать простые и понятные решения для игры в шахматы. Постоянное время на ход запрограммировать проще.
    2. Почему они для Stockfish'а использовали 64 ядра? Дело в том, что это максимум для одной машины, так, чтобы она не стоила больше золота по её весу. Скорее всего это 4 прцессора по 16 ядер. А вот ссылка на самый дорогой процессор Intel, разница по производительности не слишком велика. То есть в 3 раза более мощный комп они сделать просто не могли, а быстро из Стокфиша нельзя сделать кластер на 10 серверов.
    3. Возможно будет удобно "TPU" везде заменить на "видеокарта". По большому счёту, это она и есть, только без подключения монитора и панели управления Nvidia. Это также значит, что вы сможете натренировать точно такую же сеть у себя на компьютере. Если верить этой статье, то у них было 180*4=720 TF. Это соответствует примерно 70 1080 Ti. Если взять бюджетную сборку с одной 1080 Ti, то вам потребуется 70 карт * 9 часов = 26 суток. То есть меньше месяца. При этом для непосредственно работы такой мощности уже не нужно. Также стоит добавить, что построить кластер для обучения AlphaZero более мощный, чем у Google довольно просто, но очень дорого.
    4. Я думаю, что DeepMind выложат код и скоро у любого человека с прямыми руками и не самым древним компьютер появится мини AlphaZero. Возможно умельцы сделают облачную версию.
    5. Если видеокарты такие мощные, то почему Стокфиш работает на процессоре? По той же причине, по которой игры всё ещё требуют мощные процессоры. Потому что некоторые вещи просто невозможно вычислять на видеокарте хорошо. Поэтому говорить про разный уровень производительности нельзя. Если бы могли, стокфиш бы тоже работал на TPU. А так они его поставили на очень-очень мощный сервер. Правда кеш маловат получился, да.
    6. Также нужно ответить на "даже если бы месяц обучалась, то быстрее бы не стала". Почти уверен, что алгоритм работы непосредственно шахматами составлялся "на коленке" без цели создать супер ИИ. Если дать исследователям ещё времени именно на шахматы, дать им специалистов по шахматным ИИ, то они смогут сделать AlphaZero ещё лучше.
    Alhimik88, Любитель_ и Котэ нравится это.
  28. Экстремист Старожил

    • Участник
    • Старожил
    Рег.:
    26.09.2006
    Сообщения:
    988
    Симпатии:
    68
    Репутация:
    11
    Оффлайн
    Сделайте уже кто нибудь видеообзоры этих 10 партий. Чтобы любители-профаны могли прикоснуться к мудрости Альфа Зерровой.
  29. vasa Опытный перворазрядник

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    35.297
    Симпатии:
    17.577
    Репутация:
    583
    Адрес:
    Ростов-на-Дону
    Оффлайн
  30. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    верхняя строка
    [​IMG]
    —- добавлено: 8 дек 2017 —-
    Похоже, матч без дебютов был афиширован в рекламных целях (без поражений всё-таки)
  31. Baron Учаcтник

    • Участник
    Рег.:
    08.02.2008
    Сообщения:
    2.351
    Симпатии:
    237
    Репутация:
    11
    Оффлайн
    Теперь я стал по-другому оценивать единственную победу Ли Седоля над АльфаГо. Похоже, что это было что-то вроде чуда или какой-то чудесный сбой в алгоритме программы.
    Gridnev нравится это.
  32. Astrey Учаcтник

    • Участник
    Рег.:
    19.03.2015
    Сообщения:
    671
    Симпатии:
    753
    Репутация:
    54
    Оффлайн
    Пока что все, даже самые продвинутые разработки ИИ, обладают одним свойством: у них нет воли. Нет самоосознания, нет желаний. При самых продвинутых алгоритмах у них нет даже близко таких простых вещей как "хочу-не хочу", "нравится-не нравится", которые есть даже у новорожденных детей. Загрузили в нейросеть шахматы - играет в шахматы, загрузят модель мира - будет играть в модель мира.
    И, чуется, до того чтобы научить табуретку воле и проявлению этой воли, такая гигантская пропасть, что спать можно абсолютно спокойно. А вот то чего надо по настоящему бояться - что с такими продвинутыми алгоритмами будут делать взрослые белковые дяди и тети, обладающие властью и ресурсами. У них этой воли - ложкой ешь.
    Любитель_, mikola7 и Нестор нравится это.
  33. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    Как видно из таблицы, у Стокфиша провал чёрными во французской, а в афишированном матче без набора позиций он как раз её и играл в ответ на е4, ИМХО
  34. Rom Старожил

    • Участник
    • Старожил
    Рег.:
    12.02.2012
    Сообщения:
    645
    Симпатии:
    276
    Репутация:
    28
    Оффлайн
    Для тренировки использовалось 5000 TPU. Поэтому просто так дома Зеро не натренируешь. Единственное напрашивающееся решение - распределенные вычисления по типу Лилы. Но к сожалению, спецификация нейросети пока не опубликована.
  35. Neo94 Учаcтник

    • Участник
    Рег.:
    15.11.2014
    Сообщения:
    434
    Симпатии:
    144
    Репутация:
    -10
    Оффлайн
    За все мытарства у черных есть лишняя фигура.
    Видимо, стокфиш считает, что больше вечного шаха белые добиться не могут (не ну правда, на доске не так уж много фигур). И лично для меня именно большой перевес белых неочевиден, то, что белые играют на победу практически с ничьей в кармане - это да. Но что у черных прямо так безнадежно...

Поделиться этой страницей