AlphaZero. Нейронная сеть играет в шахматы

Тема в разделе "Машинное отделение", создана пользователем grizly, 6 дек 2017.

  1. Rom Старожил

    • Участник
    • Старожил
    Рег.:
    12.02.2012
    Сообщения:
    645
    Симпатии:
    276
    Репутация:
    28
    Оффлайн
    Кстати, если Зеро адаптировать для обычного компьютера с хорошей видеокартой, то скорость перебора скорее всего снизится до 2 000 позиций в секунду. А если для компьютера без видеокарты, то до 100 или даже до 10 позиций в секунду. По крайней мере у меня программа для игры го , с нейросеткой, перебирает всего 10 позиций в секунду. При том, что нейросетка небольшая. Тем не менее 4-ядерник загружен под завязку.
    —- добавлено: 7 дек 2017 —-
    Мне кажется примерно поровну было бы.
    —- добавлено: 7 дек 2017, опубликовано: 7 дек 2017 —-
    Можно сделать нейросеть больше, тогда она скорее всего натренируется быстрее и лучше. Правда станет ещё медленнее. Пробовать нужно. Вот Гуглу и карты в руки. Только у них есть 5000 TPU для тренировки.
    Undying нравится это.
  2. Challenger Spy Технический специалист

    • Команда форума
    Рег.:
    29.01.2011
    Сообщения:
    5.280
    Симпатии:
    2.838
    Репутация:
    226
    Оффлайн
    45x4=180
  3. Challenger Spy Технический специалист

    • Команда форума
    Рег.:
    29.01.2011
    Сообщения:
    5.280
    Симпатии:
    2.838
    Репутация:
    226
    Оффлайн
    [​IMG]
    Задумался насчет этого графика. Почему линия Альфы практически выходит на уровне Стока, лишь незначительно его превосходя? Ведь алгоритмы принципиально разные. Почему не ниже понятно - тогда бы никто эту прогу не явил миру. А почему выше так незначительно? Сток - это ориентир какой-то, веха? Чувство такое, что "алгоритм обучения" проги просто много месяцев обучали именно на стоке, с учетом его слабых мест. Именно поэтому играли со старой версией.
    Undying нравится это.
  4. crem Учаcтник

    • Участник
    Рег.:
    24.11.2016
    Сообщения:
    140
    Симпатии:
    203
    Репутация:
    14
    Оффлайн
    "Слабое железо" было 64-ядерным процессором, это точно сильнее, чем ваш "домашний стационар".

    У AlphaZero было 4 TPU (специальные процессоры которые умеют быстро перемножать матрицы), такая же производительность может быть получена от ~30 современных GPU (видеокарт). Обычные процессоры (CPU) под перемножение большого количества вещественных чисел не оптимизированы, и без GPU были бы помедленнее.

    Конечно, у AlphaZero всё-таки ресурсов было побольше (но не заоблачно больше), но Stockfish тоже работал на очень хорошем железе, гораздо лучшем, чем у вас дома.
    —- добавлено: 7 дек 2017, опубликовано: 7 дек 2017 —-
    На этапе тренировки нейронной сети действительно использовались очень большие вычислительные мощности. Действительно чтоб сыграть с собой миллионы партий за 4 часа, нужны тысячи компьютеров.
    Но после того, как сеть натренирована, модель можно запускать на куда меньших мощностях, и одного компьютера достаточно.

    В процессе тренировки alphazero никакого другого шахматного движка не использовалось. AlphaZero просто играл сам с собой, зная только правила (и делая ходы наугад), а потом постепенно научилось выигрывать.

    Как именно работают нейросети вообще и AlphaZero в частности — могу рассказать (точнее, могу рассказать о AlphaGo, потому что её алгоритм опубликован детальнее).
    Любитель_ и DraggonZ нравится это.
  5. Vertu Старожил

    • Участник
    • Старожил
    Рег.:
    22.12.2006
    Сообщения:
    972
    Симпатии:
    44
    Репутация:
    4
    Оффлайн
    Бедному Стокфишу отрезали дебютные и, что еще важнее, эндшпильные базы, взяли устаревшую версию и железо в сто раз слабее оппонента. Странно, что он не проиграл 0-100.
  6. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    дебютные/эндшпильные базы - это как раз ладно, сравнивают именно алгоритмы. Но различия архитектуры, я считаю, не должны выявлять победителя. Нужен честный матч на CPU.

    Но, по факту, можно признать, что все проблемные позиции для движков (крепости, пешечные цепи, а также изменяемая ценность фигур в зависимости от позиций и т. п.) решены
  7. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    не гораздо, а всего в два с небольшим раза
  8. Котэ Восьмикратный чемпион подъезда

    • Участник
    • Старожил
    Рег.:
    30.04.2010
    Сообщения:
    987
    Симпатии:
    393
    Репутация:
    12
    Оффлайн
    Вероятно потому, что играть значительно сильнее стока в принципе невозможно. +25 =25 белым цветом это очень много.. Сколько набрал бы против Стока комп вооруженный 32-х фигурными базами, т е неотвратимо наказывающий за любую ошибку? Это конечно зона домыслов, но мне кажется, что-то в районе +35 =15. Так как ничейные тенденции в шахматах довольно велики...
  9. Rom Старожил

    • Участник
    • Старожил
    Рег.:
    12.02.2012
    Сообщения:
    645
    Симпатии:
    276
    Репутация:
    28
    Оффлайн
    Трудно сравнивать столь разные архитектуры. Можно сравнивать CPU и GPU по флопсам/мипсам, можно сравнивать их по финансовым затратам на железо, можно как-то иначе. И каждый раз результат будет получаться разный. Как у слона и кита.
  10. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    не ладно :rtfm:
    Сток слаб в дебюте по нынешнему нашему пониманию (а по минуте на ход так вообще бестолковый)
    И в эндшпиле без таблиц он плавает
  11. crem Учаcтник

    • Участник
    Рег.:
    24.11.2016
    Сообщения:
    140
    Симпатии:
    203
    Репутация:
    14
    Оффлайн
    Нигде, кстати, не написано, что дебютных баз не было, только Накамура говорил. Но скорее всего он видел где стокфиш играл не по книге.
    А насчёт эндшпильных баз: они гарантируют оптимальную игру в эндшпиле и это не заслуга стокфиша, нельзя сравнивать движок который "думает" (stockfish или alphazero, не важно), с просто подсматриванием правильного ответа в таблице.
  12. Котэ Восьмикратный чемпион подъезда

    • Участник
    • Старожил
    Рег.:
    30.04.2010
    Сообщения:
    987
    Симпатии:
    393
    Репутация:
    12
    Оффлайн
    Мне кажется любопытным вот что. Когда анализируешь какой-то дебютный вариант со Стокфишем(Гудини/Комодо) выясняешь, что черные везде уверенно держатся. Запас прочности велик. Как результат - даже такие "сомнительные" дебютные построения как "дракон" вернулись в практику топ гроссмейстеров. А когда смотришь процент побед альфы во время тестов(во Французской например белые выиграли 39 раз из 50) начинает закрадываться мысль, что все мы ошибались и права "выступки" может оказаться достаточно для победы. Ладно, для победы конечно не достаточно, продвинутый адвансер со стоком, против альфы сможет отсушить. Но возможно белые по дебюту получают чуть больший перевес, чем нам казалось последние годы.
    Любитель_ нравится это.
  13. Alexandr_L куркуль

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    25.09.2009
    Сообщения:
    14.062
    Симпатии:
    8.161
    Репутация:
    119
    Оффлайн
    где скачать этот альфа зеро?
  14. Camon14 Хранитель традиций

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    28.05.2012
    Сообщения:
    18.567
    Симпатии:
    10.939
    Репутация:
    687
    Нарушения:
    31
    Оффлайн
  15. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    Комсюк,
    Им надо было хотя бы сравнивать с последней версией и дать возможность разрешать fail-high оценки с помощью турнирного контроля времени. Ну, и, железо совершенно разное и не вплане производительности, а в плане архитектуры.

    а у вас есть 4 TPU? Системные требования такие :(. А программки в открытом доступе нет, это машина (железо+софт).
  16. Vladruss НедоКМС, победитель второразрядников.

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    30.12.2009
    Сообщения:
    16.477
    Симпатии:
    8.522
    Репутация:
    530
    Нарушения:
    31
    Оффлайн
  17. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    точно все? :)
  18. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    Вот мне непонятно, почему партий 10. Почему они не выложили все 100 партий? Ведь нет ничего сложного в том, чтобы Stockfish сыграл с AlphaZero 1000 раз со счетом в пользу Stockfish +500 =490 -10 и выложить эту десятку под видом +28 =73 -0

    P. S.
    Ограничение в 500 секунд после каждого сообщения не очень удобно для обсуждения таких тем :)
  19. Zayats Без определенного статуса

    • Ветеран
    • Старожил
    Рег.:
    09.01.2007
    Сообщения:
    2.446
    Симпатии:
    1.651
    Репутация:
    156
    Оффлайн
    Вопрос по существу.
    Свешников полагал узаконенным читерством давать движку книгу и таблицы, но настоящий обман - выпустить нашего родного Стока, вот так, без дебюта и семифугурок, на помойном железе. Можно сказать - на убой. Посмотрим, что скажет Накамура, когда Stockfish получит качество или четыре хода вперед и будет в муках делать эпизодические ничьи.
    Любитель_, tesla, Gridnev и 5 другим нравится это.
  20. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    Соваз, ну какая разница? Это же не матч на чемпиона
  21. Jadn Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    10.05.2006
    Сообщения:
    3.626
    Симпатии:
    2.535
    Репутация:
    52
    Оффлайн
    Эндшпильные базы дают совсем немного. Дебютные? Я не вникал, но обычно тестируют на наборе табий с переменой цвета. Если тут такого не было, и играли всегда из начальной позиции, то это действительно не правильно, и могло повлиять на итог.
  22. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    так и было
    Не будем говорить про длинную книгу, против того же движка без книги это сможет дать более ста Эло, но короткую обучаемую ctg. надо было дать!
    Хоть бы французскую отсекли, проиграв разок :)
    Дебют этот совсем не для движковых матчей по минуте на ход
  23. Vladruss НедоКМС, победитель второразрядников.

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    30.12.2009
    Сообщения:
    16.477
    Симпатии:
    8.522
    Репутация:
    530
    Нарушения:
    31
    Оффлайн
    Я имел в виду: из того, что нам выложили.
  24. Gottfrid Учаcтник

    • Участник
    Рег.:
    14.03.2016
    Сообщения:
    2.549
    Симпатии:
    3.191
    Репутация:
    135
    Адрес:
    Москва
    Оффлайн
    Новоявленный гроссмейстер Альф Гуглович Нулёвкин как-то довольно быстро в процессе обучения пристрастился к "испанской партии"... Но в итоге разочаровался в ней. Это не может не радовать.

    alphazero.png
    Любитель_, Gridnev и sovaz1997 нравится это.
  25. Vladruss НедоКМС, победитель второразрядников.

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    30.12.2009
    Сообщения:
    16.477
    Симпатии:
    8.522
    Репутация:
    530
    Нарушения:
    31
    Оффлайн
    Не понимаю, что за истерика по поводу дебютной книги и эндшпильных баз? То, что Стока "выпустили на убой", это только по факту выяснилось. До начала игры это был эксперимент с неизвестным результатом, в котором проверялись алгоритмы программ. Понятно, что использовать в таком случае дебютную книгу и эндшпильные базы, это читерство и это сводит на нет смысл всего эксперимента. Опять же: проиграй этот матч Альфазеро, и можно уже кричать, что его отдали на расправу читеру-Стокфишу.
    Нет, все по честному: если проверяете качество алгоритма, то никакие тут книги и базы не уместны. Пусть своими электронно-программными мозгами играют.
    Любитель_, tesla, Undying и 4 другим нравится это.
  26. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    Стокфиш не создан считать первые ходы, его и тестируют с набором позиций
    Согласен частично с Ядном, влияние эндшпильных таблиц меньше
    Но не минимальное!
    Любитель_ нравится это.
  27. Neo94 Учаcтник

    • Участник
    Рег.:
    15.11.2014
    Сообщения:
    434
    Симпатии:
    144
    Репутация:
    -10
    Оффлайн
    Железо все же несбалансированное было - примерно в 2 раза (напрямую не сравнить, но +- так), что лишние полдесятка побед да принесло. Ну и строго 1 минута на ход (а не там час на партию) - конкретно Стокфишу плохой контроль.

    Да, сток проиграл бы и так, но не 28 партий, а примерно 15, ну 20. Альфа крут, но не так уж Стокфиш плох, будем откровенны...

    И да, с дебютной книгой Сток ну никак бы не проиграл половину партий черными.
  28. Vladruss НедоКМС, победитель второразрядников.

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    30.12.2009
    Сообщения:
    16.477
    Симпатии:
    8.522
    Репутация:
    530
    Нарушения:
    31
    Оффлайн
    Это его личные проблемы. Пусть показывает свою истинную силу без костылей подслеповатой бабки-теории. Глядишь, теперь программисты Стокфиша начнут по-серьезке репу чесать, как силу игры Стокфиша увеличить.
    Undying, Любитель_ и Котэ нравится это.
  29. Nikobelic Зарегистрирован

    Рег.:
    18.10.2016
    Сообщения:
    420
    Симпатии:
    88
    Репутация:
    9
    Оффлайн
    Это конечно какой то рекламный трюк то что фиш играл без книги и таблиц чтобы все балбесы об этом говрили создавая белый шум. Чего они только хотят не понятно.
    С левым контролем. Это все ради того чтобы показать победу
  30. Vladruss НедоКМС, победитель второразрядников.

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    30.12.2009
    Сообщения:
    16.477
    Симпатии:
    8.522
    Репутация:
    530
    Нарушения:
    31
    Оффлайн
    Про железо и контроль я ничего не говорил.
  31. Gottfrid Учаcтник

    • Участник
    Рег.:
    14.03.2016
    Сообщения:
    2.549
    Симпатии:
    3.191
    Репутация:
    135
    Адрес:
    Москва
    Оффлайн


    Другими словами: "Процессор, конечно, лопух, но аппаратура при нём. При-нём!" ©
    sovaz1997 и Vladruss нравится это.
  32. Neo94 Учаcтник

    • Участник
    Рег.:
    15.11.2014
    Сообщения:
    434
    Симпатии:
    144
    Репутация:
    -10
    Оффлайн
    Сток - это почти вершина умного брутфорса, мне кажется, что даже теоретически программы с таким алгоритмом (на аналогичном железе с аналогичными условиями) могут играть ну на 3550, даже 3600 не возьмут.

    Вот нейронки поднимут планку почти до 4000, до уровня б-га.
    —- добавлено: 7 дек 2017 —-
    Сток проиграет и с книгой, и с хорошим для него контролем, и с базами Налимова.
    Но отсушит не 72 партии из 100, а около 90.
  33. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    вы уж договоритесь между собой :)
    Спай утверждает о тысячекратном стократном перевесе
  34. Jadn Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    10.05.2006
    Сообщения:
    3.626
    Симпатии:
    2.535
    Репутация:
    52
    Оффлайн
    Ну, это ерунда. Веса в оценочной функции Стока не подогнаны специально под начальную позицию .Получилось, что над первым ходом Сток думал только 1 минуту, а Азер - минуту+все время предварительного обучения. Мягко говоря неравные условия. К тому же, наверное много похожих партий было.
    Undying и Комсюк нравится это.
  35. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    в 128 раз это 7 удвоений, то есть 280-350 Эло
    —- добавлено: 7 дек 2017 —-
    Сток тяготеет к французской на таком контроле, а Вы сами знаете, что это не фонтан (для движка без оператора)
    —- добавлено: 7 дек 2017 —-
    бакинцы решили приватизировать? :)

Поделиться этой страницей