AlphaZero. Нейронная сеть играет в шахматы

Тема в разделе "Машинное отделение", создана пользователем grizly, 6 дек 2017.

  1. nh2008 Старожил

    • Участник
    • Старожил
    Рег.:
    01.12.2013
    Сообщения:
    3.961
    Симпатии:
    5.378
    Репутация:
    379
    Адрес:
    Украина
    Оффлайн
    :)
    Я где-то читал, что в основном движки считают на определённую глубину и дальше обращаются к оценочной функции.
    Когда возможны отклонения? Мне известна пара случаев: глубже считается форсированный вариант, пока встречаются шахи и, как я понимаю, обращение к таблице эндшпилей.
    Комодо относится к этому типу. Из-за сплошного перебора получается меньше глубина анализа.
    А вот Стокфиш отбрасывает "бесперспективные" варианты и поэтому при том же количестве оценённых позиций ей удаётся заглянуть глубже. Но при этом она может выпустить из внимания лучший ход, который попадает в ветвь "бесперспективного" варианта.

    А0 просматривает меньше позиций, но анализирует их лучше. Если она при этом не занимается сплошным перебором, может что-то упустить. Вот тогда Комодо её и поймает.
    Может быть Комодо проиграет с ещё более разгромным счётом, но при этом добьётся хотя бы одной победы.
  2. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    Стокфиш добился кучи побед :rtfm:
    Просто в рекламных целях был проафиширован матч без первых ходов, "с нуля"
    И Зеро там сыграла на ноль (как раз очень удачно)
    А после ходов 1.e4 c5 2.Nf3 e6 у Альфы 7 поражений чёрными
    Любитель_, Challenger Spy, Gridnev и ещё 1-му нравится это.
  3. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    Посмотрите, как влияет мощность железа на силу игры: http://www.fastgm.de/schach/SMP-scaling.pdf :
    вот, например, 4 потока против 1: +1111,=1835,-54.
    Надо только учесть, что контроль здесь 10+0.1

    Странно, что им помешало выложить все партии - ведь это не так сложно, вроде бы.
    Challenger Spy нравится это.
  4. dom1n1k Учаcтник

    • Участник
    Рег.:
    18.11.2016
    Сообщения:
    187
    Симпатии:
    155
    Репутация:
    3
    Оффлайн
    Многие говорят про несправедливые условия - разную мощность железа, неудобный регламент по времени и (главный камень преткновения) дебютную библиотеку.

    1) Пока ничего непонятно (для меня). Да, формально TFLOPS у A0 было намного больше, но дело в том, что невозможно напрямую сравнивать процессоры разной архитектуры и назначения. Как например нельзя напрямую сравнивать мощность видеокарт и центральных процессоров: видеокарты как бы мощнее, но при этом "тупее" - они заточены только под узкий тип задач и алгоритмов, тогда как CPU гораздо универсальнее.

    2) Тут наверное да. С одной стороны, DeepMind можно понять - они хотели максимально прозрачного и равного регламента, поэтому и сделали его очень простым, без всех этих тайм-менеджментов и фишеровских добавлений, которые запутали бы картину. Но с другой стороны, этот регламент точно неудобный для классического счетного движка. То есть формально хотели как лучше, де-факто вышло наоборот.

    3) А вот тут я си-и-ильно сомневаюсь. Многие комментаторы сказали, что A0 в процессе обучения фактически создал себе дебютную библиотеку, а у SF её отобрали несправедливо. Я не согласен. Насколько я понимаю нейронные сети, никакой полноценной библиотеки (ну то есть таблицы, где абсолютно четко прописаны последовательности - ходить сюда, потом сюда и тд) он себе создать не мог. Он создавал себе вероятностное "виденье" и "понимание" любых позиций, ну и дебютных в том числе. Если посмотреть партии, то SF, даже (якобы) будучи лишенным дебютной библиотеки, не творил какую-то явную дичь, а делал вполне теоретические ходы (ну то есть он до них сам "додумался") и ведь никого это не удивляет? И A0 аналогично. В этом и был главный смысл - сравнить главные алгоритмы, а не боковые табличные костыли.
    crem, Gridnev и sovaz1997 нравится это.
  5. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    По поводу дебютной библиотеки - согласен. Сравнивают алгоритмы, а не все вместе. Но то, что железо совсем разное, не дает нормально сравнивать эти подходы. Но Deepmind, в общем-то, только статью выложили, а оттуда уже пошла волна распространения.
  6. Rom Старожил

    • Участник
    • Старожил
    Рег.:
    12.02.2012
    Сообщения:
    645
    Симпатии:
    276
    Репутация:
    28
    Оффлайн
    И Комодо и Стокфиш отбрасывают бесперспективные варианты. Базовые принципы у них совершенно одинаковые. Если очень грубо: 1) Альфа-бета отсекает ходы которые всё равно не будут рассматриваться. 2) Нулевой ход отсекает откровенно плохие тихие ходы. 3) LMR сокращает глубину рассмотрения для малоперспективных тихих ходов. 4) Плюс ещё различные сокращения на последних полуходах вариантов, итд итп.
  7. vasa Опытный перворазрядник

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    35.296
    Симпатии:
    17.577
    Репутация:
    583
    Адрес:
    Ростов-на-Дону
    Оффлайн
    Закрытие французской защиты ;)
  8. Michael-13 Господин

    • Участник
    • Старожил
    Рег.:
    18.11.2011
    Сообщения:
    3.068
    Симпатии:
    1.098
    Репутация:
    29
    Оффлайн
    04-09 декабря проходит 31 ежегодная (!!!) конференция по нейронным сетям, в которой участвует DeepMind (автор AlphaZero).
    https://deepmind.com/blog/deepmind-papers-nips-2017/
    Так что ответы на все вопросы по матчу со стокфишем будут после конференции - скорее всего начиная с 12 декабря (вторник).
    N1mTzo, crem, Rom и ещё 1-му нравится это.
  9. Rom Старожил

    • Участник
    • Старожил
    Рег.:
    12.02.2012
    Сообщения:
    645
    Симпатии:
    276
    Репутация:
    28
    Оффлайн
    Некоторые слайды с той самой конференции:
    https://lifein19x19.com/forum/viewtopic.php?p=225801#p225801
  10. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    А я не согласен. С этим КВ на этом железе Сток играл французскую с большой вероятностью везде
    А теперь посмотрите его провал чёрными в этом дебюте в матче с позициями
    Это очень большая фора!
    Любитель_ и Challenger Spy нравится это.
  11. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    Комсюк, это свойство алгоритмов. У Alpha Zero не было дебютной книги, как и у людей, играющих разные дебюты.
  12. NoraNora Старожил

    • Участник
    • Старожил
    Рег.:
    30.03.2013
    Сообщения:
    544
    Симпатии:
    505
    Репутация:
    8
    Оффлайн
    Закрытие или подтверждение известных проблем в одном из вариантов?...
  13. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    sovaz1997, ну ты-то, наверное, знаешь, что Сток тестируют не с начальной позиции, а с разных
    Не приспособлен он считать первые ходы :)
    —- добавлено: 9 дек 2017 —-
    А тут будут партии-близнецы во французской и этом трэшевом варике новоиндийки
  14. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    Комсюк, если делать честное тестирование, нужно много чего еще сделать. Сейчас же это просто демонстрация. Если бы Alpha Zero была бы действительно на голову выше других, можно было бы спокойно тестировать с последними версиями SF на нормальном контроле, при этом показав все партии. Но перевес в силе не очень большой пока, все-таки (если он есть, конечно).
  15. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    Гроссы может и видят инопланетную игру, но по цифрам, если принять за правду перевес мощности в 70 раз, то Сток8 просто сильнее (без книг и таблиц)
    Challenger Spy нравится это.
  16. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    Комсюк, для сравнения нужны одинаковые платформы в любом случае. Сейчас нельзя сравнивать движки из-за различных архитектур.
  17. Мобуту спаситель нации

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    15.02.2006
    Сообщения:
    6.916
    Симпатии:
    3.969
    Репутация:
    141
    Адрес:
    Заир
    Оффлайн
    Извините, что въезжаю к вам на белом носороге, но что произошло?

    AlphaZero на супержелезе обыграла Стокфиша на обычном железе?
    AlphaZero на супержелезе обыграла Стокфиша на супержелезе, т.к. тот не умеет им как следует пользоваться?
    Или что-то ещё?

    Вообще считаю не слишком-то спортивным хвалиться домашними победами над вяленым. Силу надо демонстрировать при всём честном народе. Есть TCEC, почему бы не сыграть там?
    Challenger Spy и Комсюк нравится это.
  18. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    мне можно :)
    Надо только грубую оценку перевеса по мощности
  19. vasa Опытный перворазрядник

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    35.296
    Симпатии:
    17.577
    Репутация:
    583
    Адрес:
    Ростов-на-Дону
    Оффлайн
    Любитель_, Комсюк и Rom нравится это.
  20. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    На слабо этих монстров не заманишь
  21. NoraNora Старожил

    • Участник
    • Старожил
    Рег.:
    30.03.2013
    Сообщения:
    544
    Симпатии:
    505
    Репутация:
    8
    Оффлайн
    Появился такой ИИ, который научился сам очень хорошо играть в шахматы. Остальное в принципе преувеличено, но и это очень круто.
    thenewone и Launder нравится это.
  22. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    не получится сыграть в TCEC, т. к. Alpha Zero - это не только софт. Запустите на железе TCEC и получите Магнуса Карлсена с 2800)). Игры будут интереснее остальных, но слабыми.
  23. просроченый_кмс Старожил

    • Участник
    • Старожил
    Рег.:
    15.02.2010
    Сообщения:
    1.112
    Симпатии:
    167
    Репутация:
    6
    Оффлайн
    Предлагаю мерить силу железа по энергопотреблению, и да, надо дать стокфишу час полтора на партию как и проге, пусть сами решают где сколько думать, с добавлением.
    Но идея очень интересная, человеческая и даже больше оценка, и меньший перебор.
    Судя по тому как стокфиш попадает со своими плохими слонами, понимания у проги больше, а он просто недосчитывает почему это плохо, и не понимает в отличие от нейросети.
  24. Undying Учаcтник

    • Участник
    Рег.:
    31.08.2016
    Сообщения:
    1.316
    Симпатии:
    566
    Репутация:
    15
    Оффлайн
    Не получили. Ничего общего между этими задачами и шахматами нет. А вот в более приземленных задачах, вроде искусственного водителя автотранспорта, вполне возможно что это действительно прорыв.
    Challenger Spy нравится это.
  25. NoraNora Старожил

    • Участник
    • Старожил
    Рег.:
    30.03.2013
    Сообщения:
    544
    Симпатии:
    505
    Репутация:
    8
    Оффлайн
    Научите эту штуку играть в Civilization 5: Brave new world...

    (помечать хочу)
  26. Baron Учаcтник

    • Участник
    Рег.:
    08.02.2008
    Сообщения:
    2.351
    Симпатии:
    237
    Репутация:
    11
    Оффлайн
    Интересное утверждение, ведь в опубликованных партиях Грюнфельда не видно. И в англоязычной статье я не нашел упоминаний об этой защите.
  27. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    Baron, есть партии с расстановки 1.d4 Nf6 2.c4 g6
    Возможно, работая в Гугл, Андрей знает, что там был Грюнфельд :cool:
  28. Undying Учаcтник

    • Участник
    Рег.:
    31.08.2016
    Сообщения:
    1.316
    Симпатии:
    566
    Репутация:
    15
    Оффлайн
    Вы сильно переоцениваете современные компьютерные программы. Понимания там вообще нет. Кмс адвансер выносит комп без каких либо проблем. Если было бы иначе адванс шахмат бы просто не существовало. А вот у альфа зеро по-видимому какое-то понимание уже есть.
  29. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    КМС + Stockfish = адвансер
    Гроссмейстер + Stockfish = Alpha Zero
    :)
    Rom нравится это.
  30. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    12.02.2006
    Сообщения:
    2.201
    Симпатии:
    64
    Репутация:
    3
    Оффлайн
    Так, в чем проблема? Достаточно подобрать набор дебютных позиций и заставить движки играть их за оба цвета. А можно множить победы в одном и том же варианте, который Стокфиш не в состоянии ни избежать, ни понять..... Как однажды чуть не сказал о Стокфише Боярский: Запомните, джентльмены: эту программу погубит рандомность.:)....Без нее матча на таких условиях "сравнения алгоритмов" просто бы не получилось.
    Challenger Spy и Комсюк нравится это.
  31. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    Дронов + Альфазеро =?
    Любитель_ и Challenger Spy нравится это.
  32. Vertu Старожил

    • Участник
    • Старожил
    Рег.:
    22.12.2006
    Сообщения:
    972
    Симпатии:
    44
    Репутация:
    4
    Оффлайн
    Самая большая непонятка (как справедиво заметил Crest) - это ход Стокфиша Rf8 в этой позиции.

    Может, ходы заводились вручную, и оператор мышкой не туда ткнул?
    Любитель_, Launder, Комсюк и ещё 1-му нравится это.
  33. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    Здесь Kf8 SF играет:
    Код:
    info depth 49 seldepth 82 multipv 1 score cp -120 nodes 4583901898 nps 9354157 hashfull 999 tbhits 0 time 490039 pv g8f8 h4f4 h8g8 f4c7 c5c4 c7c4 e8d8 c4c3 f8e8 g3g4 g8f8 g4g5 e7e6 f6f3 a7a6 b3d5 f8e7 c3h8 e7f8 h8h7 e8e7 d5e6 d7e6 f3b3 d8d5 b3b7 e7d6 h7g7 f8d8 g7c3 d8g5 g2f1 d5d1 f1e2 g5c1 c3c1 d1c1 h6h7 c1h1 b7f7 h1h3 e2f1 h3h2 f1g1 h2h5 g1g2 e6e5 f7a7 a6a5 g2f3 d6e6 f3g4 a5a4 a2a3 e5e4 g4f4 e4e3 f2e3 e6f6 f4g4 h5g5 g4f3 g5f5 f3e2 f5h5 a7a6 f6g7 a6a4 g7h7 a4a7 h7h6 a3a4 h6g5 a4a5 g5f6 a7a8 h5h2 e2f3 f6e6 a5a6 h2a2
  34. Baron Учаcтник

    • Участник
    Рег.:
    08.02.2008
    Сообщения:
    2.351
    Симпатии:
    237
    Репутация:
    11
    Оффлайн
    Интересно, сколько очков АльфаЗеро набрала бы против 32-фигурной таблицы Налимова.:) Второй интересный момент, что с определенного времени самообучения ИИ перестает усиливаться и рейтинг застывает в районе 3500. Или дальше усиление идет в час по чайной ложке (вроде 0,1 эло/сутки). Если первый вариант, то это число (3500-3600) можно считать физической константой типа постоянной Планка или числа Пи:)
  35. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    Ход ладьей - самоубийство. Ни одна шахматная программа так не будет, сделано для красоты партии :(
    (После хода ладьей, оценки относительно текущего хода)
    Код:
    info depth 39 seldepth 65 multipv 1 score cp 673 nodes 368530923 nps 10829271 hashfull 574 tbhits 0 time 34031 pv h4f4 d7d5 b3d5 e7d7 d5c4 a7a6 g3g4 a6a5 g4g5 a5a4 f4f3 d7c7 f3d5 h8f6 g5f6 f8c8 c4a6 c8f8 d5d6 c7a7 a6c4 f8a8 d6c6 a4a3 c6c5 a7d7 c5c6 d7a7 c4b3 a8f8 c6c5 a7a8 b3c4 a8e8 c5a7 e8c8 c4d5 c8e8 a7a3 e8d8 a3c5 d8d7 d5b3 f8d8 a2a4 d8a8 a4a5 d7a7 c5d5 a8f8 b3c4 a7c7 a5a6 f8c8 c4b3
    На всякий случай проверил 8-й версией. Тоже все правильно находит.

    Не знаю, может, надо считать до 60 или 70 глубины?

Поделиться этой страницей