AlphaZero. Нейронная сеть играет в шахматы

Тема в разделе "Машинное отделение", создана пользователем grizly, 6 дек 2017.

  1. Rom
    Оффлайн

    Rom Старожил

    Репутация:
    28
    Кстати, если Зеро адаптировать для обычного компьютера с хорошей видеокартой, то скорость перебора скорее всего снизится до 2 000 позиций в секунду. А если для компьютера без видеокарты, то до 100 или даже до 10 позиций в секунду. По крайней мере у меня программа для игры го , с нейросеткой, перебирает всего 10 позиций в секунду. При том, что нейросетка небольшая. Тем не менее 4-ядерник загружен под завязку.
    —- добавлено: 7 дек 2017 —-
    Мне кажется примерно поровну было бы.
    —- добавлено: 7 дек 2017, опубликовано: 7 дек 2017 —-
    Можно сделать нейросеть больше, тогда она скорее всего натренируется быстрее и лучше. Правда станет ещё медленнее. Пробовать нужно. Вот Гуглу и карты в руки. Только у них есть 5000 TPU для тренировки.
     
    Undying нравится это.
  2. Challenger Spy
    Оффлайн

    Challenger Spy Технический специалист Команда форума

    Репутация:
    226
    45x4=180
     
  3. Challenger Spy
    Оффлайн

    Challenger Spy Технический специалист Команда форума

    Репутация:
    226
    [​IMG]
    Задумался насчет этого графика. Почему линия Альфы практически выходит на уровне Стока, лишь незначительно его превосходя? Ведь алгоритмы принципиально разные. Почему не ниже понятно - тогда бы никто эту прогу не явил миру. А почему выше так незначительно? Сток - это ориентир какой-то, веха? Чувство такое, что "алгоритм обучения" проги просто много месяцев обучали именно на стоке, с учетом его слабых мест. Именно поэтому играли со старой версией.
     
    Undying нравится это.
  4. crem
    Оффлайн

    crem Учаcтник

    Репутация:
    14
    "Слабое железо" было 64-ядерным процессором, это точно сильнее, чем ваш "домашний стационар".

    У AlphaZero было 4 TPU (специальные процессоры которые умеют быстро перемножать матрицы), такая же производительность может быть получена от ~30 современных GPU (видеокарт). Обычные процессоры (CPU) под перемножение большого количества вещественных чисел не оптимизированы, и без GPU были бы помедленнее.

    Конечно, у AlphaZero всё-таки ресурсов было побольше (но не заоблачно больше), но Stockfish тоже работал на очень хорошем железе, гораздо лучшем, чем у вас дома.
    —- добавлено: 7 дек 2017, опубликовано: 7 дек 2017 —-
    На этапе тренировки нейронной сети действительно использовались очень большие вычислительные мощности. Действительно чтоб сыграть с собой миллионы партий за 4 часа, нужны тысячи компьютеров.
    Но после того, как сеть натренирована, модель можно запускать на куда меньших мощностях, и одного компьютера достаточно.

    В процессе тренировки alphazero никакого другого шахматного движка не использовалось. AlphaZero просто играл сам с собой, зная только правила (и делая ходы наугад), а потом постепенно научилось выигрывать.

    Как именно работают нейросети вообще и AlphaZero в частности — могу рассказать (точнее, могу рассказать о AlphaGo, потому что её алгоритм опубликован детальнее).
     
    Любитель_ и DraggonZ нравится это.
  5. Vertu
    Оффлайн

    Vertu Старожил

    Репутация:
    4
    Бедному Стокфишу отрезали дебютные и, что еще важнее, эндшпильные базы, взяли устаревшую версию и железо в сто раз слабее оппонента. Странно, что он не проиграл 0-100.
     
  6. sovaz1997
    Оффлайн

    sovaz1997 Учаcтник

    Репутация:
    3
    дебютные/эндшпильные базы - это как раз ладно, сравнивают именно алгоритмы. Но различия архитектуры, я считаю, не должны выявлять победителя. Нужен честный матч на CPU.

    Но, по факту, можно признать, что все проблемные позиции для движков (крепости, пешечные цепи, а также изменяемая ценность фигур в зависимости от позиций и т. п.) решены
     
  7. Комсюк
    Оффлайн

    Комсюк народный модератор баннер

    Репутация:
    1.263
    не гораздо, а всего в два с небольшим раза
     
  8. Котэ
    Оффлайн

    Котэ Восьмикратный чемпион подъезда

    Репутация:
    12
    Вероятно потому, что играть значительно сильнее стока в принципе невозможно. +25 =25 белым цветом это очень много.. Сколько набрал бы против Стока комп вооруженный 32-х фигурными базами, т е неотвратимо наказывающий за любую ошибку? Это конечно зона домыслов, но мне кажется, что-то в районе +35 =15. Так как ничейные тенденции в шахматах довольно велики...
     
    Последнее редактирование: 7 дек 2017
  9. Rom
    Оффлайн

    Rom Старожил

    Репутация:
    28
    Трудно сравнивать столь разные архитектуры. Можно сравнивать CPU и GPU по флопсам/мипсам, можно сравнивать их по финансовым затратам на железо, можно как-то иначе. И каждый раз результат будет получаться разный. Как у слона и кита.
     
  10. Комсюк
    Оффлайн

    Комсюк народный модератор баннер

    Репутация:
    1.263
    не ладно :rtfm:
    Сток слаб в дебюте по нынешнему нашему пониманию (а по минуте на ход так вообще бестолковый)
    И в эндшпиле без таблиц он плавает
     
  11. crem
    Оффлайн

    crem Учаcтник

    Репутация:
    14
    Нигде, кстати, не написано, что дебютных баз не было, только Накамура говорил. Но скорее всего он видел где стокфиш играл не по книге.
    А насчёт эндшпильных баз: они гарантируют оптимальную игру в эндшпиле и это не заслуга стокфиша, нельзя сравнивать движок который "думает" (stockfish или alphazero, не важно), с просто подсматриванием правильного ответа в таблице.
     
  12. Котэ
    Оффлайн

    Котэ Восьмикратный чемпион подъезда

    Репутация:
    12
    Мне кажется любопытным вот что. Когда анализируешь какой-то дебютный вариант со Стокфишем(Гудини/Комодо) выясняешь, что черные везде уверенно держатся. Запас прочности велик. Как результат - даже такие "сомнительные" дебютные построения как "дракон" вернулись в практику топ гроссмейстеров. А когда смотришь процент побед альфы во время тестов(во Французской например белые выиграли 39 раз из 50) начинает закрадываться мысль, что все мы ошибались и права "выступки" может оказаться достаточно для победы. Ладно, для победы конечно не достаточно, продвинутый адвансер со стоком, против альфы сможет отсушить. Но возможно белые по дебюту получают чуть больший перевес, чем нам казалось последние годы.
     
    Любитель_ нравится это.
  13. Alexandr_L
    Оффлайн

    Alexandr_L куркуль баннер

    Репутация:
    118
    где скачать этот альфа зеро?
     
  14. Camon14
    Оффлайн

    Camon14 Хранитель традиций баннер

    Репутация:
    687
  15. sovaz1997
    Оффлайн

    sovaz1997 Учаcтник

    Репутация:
    3
    Комсюк,
    Им надо было хотя бы сравнивать с последней версией и дать возможность разрешать fail-high оценки с помощью турнирного контроля времени. Ну, и, железо совершенно разное и не вплане производительности, а в плане архитектуры.

    а у вас есть 4 TPU? Системные требования такие :(. А программки в открытом доступе нет, это машина (железо+софт).
     
  16. Vladruss
    Оффлайн

    Vladruss НедоКМС, победитель второразрядников. баннер

    Репутация:
    530
  17. Комсюк
    Оффлайн

    Комсюк народный модератор баннер

    Репутация:
    1.263
    точно все? :)
     
  18. sovaz1997
    Оффлайн

    sovaz1997 Учаcтник

    Репутация:
    3
    Вот мне непонятно, почему партий 10. Почему они не выложили все 100 партий? Ведь нет ничего сложного в том, чтобы Stockfish сыграл с AlphaZero 1000 раз со счетом в пользу Stockfish +500 =490 -10 и выложить эту десятку под видом +28 =73 -0

    P. S.
    Ограничение в 500 секунд после каждого сообщения не очень удобно для обсуждения таких тем :)
     
  19. Zayats
    Оффлайн

    Zayats Без определенного статуса

    Репутация:
    156
    Вопрос по существу.
    Свешников полагал узаконенным читерством давать движку книгу и таблицы, но настоящий обман - выпустить нашего родного Стока, вот так, без дебюта и семифугурок, на помойном железе. Можно сказать - на убой. Посмотрим, что скажет Накамура, когда Stockfish получит качество или четыре хода вперед и будет в муках делать эпизодические ничьи.
     
    Последнее редактирование: 7 дек 2017
    Любитель_, tesla, Gridnev и 5 другим нравится это.
  20. Комсюк
    Оффлайн

    Комсюк народный модератор баннер

    Репутация:
    1.263
    Соваз, ну какая разница? Это же не матч на чемпиона
     
  21. Jadn
    Оффлайн

    Jadn баннер

    Репутация:
    52
    Эндшпильные базы дают совсем немного. Дебютные? Я не вникал, но обычно тестируют на наборе табий с переменой цвета. Если тут такого не было, и играли всегда из начальной позиции, то это действительно не правильно, и могло повлиять на итог.
     
  22. Комсюк
    Оффлайн

    Комсюк народный модератор баннер

    Репутация:
    1.263
    так и было
    Не будем говорить про длинную книгу, против того же движка без книги это сможет дать более ста Эло, но короткую обучаемую ctg. надо было дать!
    Хоть бы французскую отсекли, проиграв разок :)
    Дебют этот совсем не для движковых матчей по минуте на ход
     
  23. Vladruss
    Оффлайн

    Vladruss НедоКМС, победитель второразрядников. баннер

    Репутация:
    530
    Я имел в виду: из того, что нам выложили.
     
  24. Gottfrid
    Оффлайн

    Gottfrid Учаcтник

    Репутация:
    135
    Новоявленный гроссмейстер Альф Гуглович Нулёвкин как-то довольно быстро в процессе обучения пристрастился к "испанской партии"... Но в итоге разочаровался в ней. Это не может не радовать.

    alphazero.png
     
    Любитель_, Gridnev и sovaz1997 нравится это.
  25. Vladruss
    Оффлайн

    Vladruss НедоКМС, победитель второразрядников. баннер

    Репутация:
    530
    Не понимаю, что за истерика по поводу дебютной книги и эндшпильных баз? То, что Стока "выпустили на убой", это только по факту выяснилось. До начала игры это был эксперимент с неизвестным результатом, в котором проверялись алгоритмы программ. Понятно, что использовать в таком случае дебютную книгу и эндшпильные базы, это читерство и это сводит на нет смысл всего эксперимента. Опять же: проиграй этот матч Альфазеро, и можно уже кричать, что его отдали на расправу читеру-Стокфишу.
    Нет, все по честному: если проверяете качество алгоритма, то никакие тут книги и базы не уместны. Пусть своими электронно-программными мозгами играют.
     
    Любитель_, tesla, Undying и 4 другим нравится это.
  26. Комсюк
    Оффлайн

    Комсюк народный модератор баннер

    Репутация:
    1.263
    Стокфиш не создан считать первые ходы, его и тестируют с набором позиций
    Согласен частично с Ядном, влияние эндшпильных таблиц меньше
    Но не минимальное!
     
    Любитель_ нравится это.
  27. Neo94
    Оффлайн

    Neo94 Учаcтник

    Репутация:
    -10
    Железо все же несбалансированное было - примерно в 2 раза (напрямую не сравнить, но +- так), что лишние полдесятка побед да принесло. Ну и строго 1 минута на ход (а не там час на партию) - конкретно Стокфишу плохой контроль.

    Да, сток проиграл бы и так, но не 28 партий, а примерно 15, ну 20. Альфа крут, но не так уж Стокфиш плох, будем откровенны...

    И да, с дебютной книгой Сток ну никак бы не проиграл половину партий черными.
     
  28. Vladruss
    Оффлайн

    Vladruss НедоКМС, победитель второразрядников. баннер

    Репутация:
    530
    Это его личные проблемы. Пусть показывает свою истинную силу без костылей подслеповатой бабки-теории. Глядишь, теперь программисты Стокфиша начнут по-серьезке репу чесать, как силу игры Стокфиша увеличить.
     
    Undying, Любитель_ и Котэ нравится это.
  29. Nikobelic
    Оффлайн

    Nikobelic Зарегистрирован

    Репутация:
    9
    Это конечно какой то рекламный трюк то что фиш играл без книги и таблиц чтобы все балбесы об этом говрили создавая белый шум. Чего они только хотят не понятно.
    С левым контролем. Это все ради того чтобы показать победу
     
  30. Vladruss
    Оффлайн

    Vladruss НедоКМС, победитель второразрядников. баннер

    Репутация:
    530
    Про железо и контроль я ничего не говорил.
     
  31. Gottfrid
    Оффлайн

    Gottfrid Учаcтник

    Репутация:
    135


    Другими словами: "Процессор, конечно, лопух, но аппаратура при нём. При-нём!" ©
     
    sovaz1997 и Vladruss нравится это.
  32. Neo94
    Оффлайн

    Neo94 Учаcтник

    Репутация:
    -10
    Сток - это почти вершина умного брутфорса, мне кажется, что даже теоретически программы с таким алгоритмом (на аналогичном железе с аналогичными условиями) могут играть ну на 3550, даже 3600 не возьмут.

    Вот нейронки поднимут планку почти до 4000, до уровня б-га.
    —- добавлено: 7 дек 2017 —-
    Сток проиграет и с книгой, и с хорошим для него контролем, и с базами Налимова.
    Но отсушит не 72 партии из 100, а около 90.
     
  33. Комсюк
    Оффлайн

    Комсюк народный модератор баннер

    Репутация:
    1.263
    вы уж договоритесь между собой :)
    Спай утверждает о тысячекратном стократном перевесе
     
  34. Jadn
    Оффлайн

    Jadn баннер

    Репутация:
    52
    Ну, это ерунда. Веса в оценочной функции Стока не подогнаны специально под начальную позицию .Получилось, что над первым ходом Сток думал только 1 минуту, а Азер - минуту+все время предварительного обучения. Мягко говоря неравные условия. К тому же, наверное много похожих партий было.
     
    Undying и Комсюк нравится это.
  35. Комсюк
    Оффлайн

    Комсюк народный модератор баннер

    Репутация:
    1.263
    в 128 раз это 7 удвоений, то есть 280-350 Эло
    —- добавлено: 7 дек 2017 —-
    Сток тяготеет к французской на таком контроле, а Вы сами знаете, что это не фонтан (для движка без оператора)
    —- добавлено: 7 дек 2017 —-
    бакинцы решили приватизировать? :)