AlphaZero. Нейронная сеть играет в шахматы

Discussion in 'Машинное отделение' started by grizly, 6 Dec 2017.

  1. Rom Старожил

    • Участник
    • Старожил
    Member Since:
    12.02.2012
    Message Count:
    645
    Likes Received:
    276
    Репутация:
    28
    Оффлайн
    Кстати, если Зеро адаптировать для обычного компьютера с хорошей видеокартой, то скорость перебора скорее всего снизится до 2 000 позиций в секунду. А если для компьютера без видеокарты, то до 100 или даже до 10 позиций в секунду. По крайней мере у меня программа для игры го , с нейросеткой, перебирает всего 10 позиций в секунду. При том, что нейросетка небольшая. Тем не менее 4-ядерник загружен под завязку.
    —- добавлено: 7 Dec 2017 —-
    Мне кажется примерно поровну было бы.
    —- добавлено: 7 Dec 2017, опубликовано: 7 Dec 2017 —-
    Можно сделать нейросеть больше, тогда она скорее всего натренируется быстрее и лучше. Правда станет ещё медленнее. Пробовать нужно. Вот Гуглу и карты в руки. Только у них есть 5000 TPU для тренировки.
    Undying likes this.
  2. Challenger Spy Технический специалист

    • Команда форума
    Member Since:
    29.01.2011
    Message Count:
    5.292
    Likes Received:
    2.845
    Репутация:
    226
    Оффлайн
    45x4=180
  3. Challenger Spy Технический специалист

    • Команда форума
    Member Since:
    29.01.2011
    Message Count:
    5.292
    Likes Received:
    2.845
    Репутация:
    226
    Оффлайн
    [​IMG]
    Задумался насчет этого графика. Почему линия Альфы практически выходит на уровне Стока, лишь незначительно его превосходя? Ведь алгоритмы принципиально разные. Почему не ниже понятно - тогда бы никто эту прогу не явил миру. А почему выше так незначительно? Сток - это ориентир какой-то, веха? Чувство такое, что "алгоритм обучения" проги просто много месяцев обучали именно на стоке, с учетом его слабых мест. Именно поэтому играли со старой версией.
    Undying likes this.
  4. crem Учаcтник

    • Участник
    Member Since:
    24.11.2016
    Message Count:
    140
    Likes Received:
    203
    Репутация:
    14
    Оффлайн
    "Слабое железо" было 64-ядерным процессором, это точно сильнее, чем ваш "домашний стационар".

    У AlphaZero было 4 TPU (специальные процессоры которые умеют быстро перемножать матрицы), такая же производительность может быть получена от ~30 современных GPU (видеокарт). Обычные процессоры (CPU) под перемножение большого количества вещественных чисел не оптимизированы, и без GPU были бы помедленнее.

    Конечно, у AlphaZero всё-таки ресурсов было побольше (но не заоблачно больше), но Stockfish тоже работал на очень хорошем железе, гораздо лучшем, чем у вас дома.
    —- добавлено: 7 Dec 2017, опубликовано: 7 Dec 2017 —-
    На этапе тренировки нейронной сети действительно использовались очень большие вычислительные мощности. Действительно чтоб сыграть с собой миллионы партий за 4 часа, нужны тысячи компьютеров.
    Но после того, как сеть натренирована, модель можно запускать на куда меньших мощностях, и одного компьютера достаточно.

    В процессе тренировки alphazero никакого другого шахматного движка не использовалось. AlphaZero просто играл сам с собой, зная только правила (и делая ходы наугад), а потом постепенно научилось выигрывать.

    Как именно работают нейросети вообще и AlphaZero в частности — могу рассказать (точнее, могу рассказать о AlphaGo, потому что её алгоритм опубликован детальнее).
    Любитель_ and DraggonZ like this.
  5. Vertu Старожил

    • Участник
    • Старожил
    Member Since:
    22.12.2006
    Message Count:
    972
    Likes Received:
    44
    Репутация:
    4
    Оффлайн
    Бедному Стокфишу отрезали дебютные и, что еще важнее, эндшпильные базы, взяли устаревшую версию и железо в сто раз слабее оппонента. Странно, что он не проиграл 0-100.
  6. sovaz1997 Учаcтник

    • Участник
    Member Since:
    30.08.2016
    Message Count:
    649
    Likes Received:
    120
    Репутация:
    3
    Оффлайн
    дебютные/эндшпильные базы - это как раз ладно, сравнивают именно алгоритмы. Но различия архитектуры, я считаю, не должны выявлять победителя. Нужен честный матч на CPU.

    Но, по факту, можно признать, что все проблемные позиции для движков (крепости, пешечные цепи, а также изменяемая ценность фигур в зависимости от позиций и т. п.) решены
  7. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    17.07.2011
    Message Count:
    19.231
    Likes Received:
    23.509
    Репутация:
    1.266
    Оффлайн
    не гораздо, а всего в два с небольшим раза
  8. Котэ Восьмикратный чемпион подъезда

    • Участник
    • Старожил
    Member Since:
    30.04.2010
    Message Count:
    987
    Likes Received:
    393
    Репутация:
    12
    Оффлайн
    Вероятно потому, что играть значительно сильнее стока в принципе невозможно. +25 =25 белым цветом это очень много.. Сколько набрал бы против Стока комп вооруженный 32-х фигурными базами, т е неотвратимо наказывающий за любую ошибку? Это конечно зона домыслов, но мне кажется, что-то в районе +35 =15. Так как ничейные тенденции в шахматах довольно велики...
  9. Rom Старожил

    • Участник
    • Старожил
    Member Since:
    12.02.2012
    Message Count:
    645
    Likes Received:
    276
    Репутация:
    28
    Оффлайн
    Трудно сравнивать столь разные архитектуры. Можно сравнивать CPU и GPU по флопсам/мипсам, можно сравнивать их по финансовым затратам на железо, можно как-то иначе. И каждый раз результат будет получаться разный. Как у слона и кита.
  10. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    17.07.2011
    Message Count:
    19.231
    Likes Received:
    23.509
    Репутация:
    1.266
    Оффлайн
    не ладно :rtfm:
    Сток слаб в дебюте по нынешнему нашему пониманию (а по минуте на ход так вообще бестолковый)
    И в эндшпиле без таблиц он плавает
  11. crem Учаcтник

    • Участник
    Member Since:
    24.11.2016
    Message Count:
    140
    Likes Received:
    203
    Репутация:
    14
    Оффлайн
    Нигде, кстати, не написано, что дебютных баз не было, только Накамура говорил. Но скорее всего он видел где стокфиш играл не по книге.
    А насчёт эндшпильных баз: они гарантируют оптимальную игру в эндшпиле и это не заслуга стокфиша, нельзя сравнивать движок который "думает" (stockfish или alphazero, не важно), с просто подсматриванием правильного ответа в таблице.
  12. Котэ Восьмикратный чемпион подъезда

    • Участник
    • Старожил
    Member Since:
    30.04.2010
    Message Count:
    987
    Likes Received:
    393
    Репутация:
    12
    Оффлайн
    Мне кажется любопытным вот что. Когда анализируешь какой-то дебютный вариант со Стокфишем(Гудини/Комодо) выясняешь, что черные везде уверенно держатся. Запас прочности велик. Как результат - даже такие "сомнительные" дебютные построения как "дракон" вернулись в практику топ гроссмейстеров. А когда смотришь процент побед альфы во время тестов(во Французской например белые выиграли 39 раз из 50) начинает закрадываться мысль, что все мы ошибались и права "выступки" может оказаться достаточно для победы. Ладно, для победы конечно не достаточно, продвинутый адвансер со стоком, против альфы сможет отсушить. Но возможно белые по дебюту получают чуть больший перевес, чем нам казалось последние годы.
    Любитель_ likes this.
  13. Alexandr_L куркуль

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    25.09.2009
    Message Count:
    14.440
    Likes Received:
    8.488
    Репутация:
    136
    Оффлайн
    где скачать этот альфа зеро?
  14. Camon14 Хранитель традиций

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    28.05.2012
    Message Count:
    18.570
    Likes Received:
    10.943
    Репутация:
    688
    Нарушения:
    20
    Оффлайн
  15. sovaz1997 Учаcтник

    • Участник
    Member Since:
    30.08.2016
    Message Count:
    649
    Likes Received:
    120
    Репутация:
    3
    Оффлайн
    Комсюк,
    Им надо было хотя бы сравнивать с последней версией и дать возможность разрешать fail-high оценки с помощью турнирного контроля времени. Ну, и, железо совершенно разное и не вплане производительности, а в плане архитектуры.

    а у вас есть 4 TPU? Системные требования такие :(. А программки в открытом доступе нет, это машина (железо+софт).
  16. Vladruss НедоКМС, победитель второразрядников.

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Member Since:
    30.12.2009
    Message Count:
    16.477
    Likes Received:
    8.523
    Репутация:
    530
    Нарушения:
    31
    Оффлайн
  17. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    17.07.2011
    Message Count:
    19.231
    Likes Received:
    23.509
    Репутация:
    1.266
    Оффлайн
    точно все? :)
  18. sovaz1997 Учаcтник

    • Участник
    Member Since:
    30.08.2016
    Message Count:
    649
    Likes Received:
    120
    Репутация:
    3
    Оффлайн
    Вот мне непонятно, почему партий 10. Почему они не выложили все 100 партий? Ведь нет ничего сложного в том, чтобы Stockfish сыграл с AlphaZero 1000 раз со счетом в пользу Stockfish +500 =490 -10 и выложить эту десятку под видом +28 =73 -0

    P. S.
    Ограничение в 500 секунд после каждого сообщения не очень удобно для обсуждения таких тем :)
  19. Zayats Без определенного статуса

    • Ветеран
    • Старожил
    Member Since:
    09.01.2007
    Message Count:
    2.452
    Likes Received:
    1.665
    Репутация:
    157
    Оффлайн
    Вопрос по существу.
    Свешников полагал узаконенным читерством давать движку книгу и таблицы, но настоящий обман - выпустить нашего родного Стока, вот так, без дебюта и семифугурок, на помойном железе. Можно сказать - на убой. Посмотрим, что скажет Накамура, когда Stockfish получит качество или четыре хода вперед и будет в муках делать эпизодические ничьи.
  20. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    17.07.2011
    Message Count:
    19.231
    Likes Received:
    23.509
    Репутация:
    1.266
    Оффлайн
    Соваз, ну какая разница? Это же не матч на чемпиона
  21. Jadn Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    10.05.2006
    Message Count:
    3.626
    Likes Received:
    2.535
    Репутация:
    52
    Оффлайн
    Эндшпильные базы дают совсем немного. Дебютные? Я не вникал, но обычно тестируют на наборе табий с переменой цвета. Если тут такого не было, и играли всегда из начальной позиции, то это действительно не правильно, и могло повлиять на итог.
  22. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    17.07.2011
    Message Count:
    19.231
    Likes Received:
    23.509
    Репутация:
    1.266
    Оффлайн
    так и было
    Не будем говорить про длинную книгу, против того же движка без книги это сможет дать более ста Эло, но короткую обучаемую ctg. надо было дать!
    Хоть бы французскую отсекли, проиграв разок :)
    Дебют этот совсем не для движковых матчей по минуте на ход
  23. Vladruss НедоКМС, победитель второразрядников.

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Member Since:
    30.12.2009
    Message Count:
    16.477
    Likes Received:
    8.523
    Репутация:
    530
    Нарушения:
    31
    Оффлайн
    Я имел в виду: из того, что нам выложили.
  24. Gottfrid Учаcтник

    • Участник
    Member Since:
    14.03.2016
    Message Count:
    2.557
    Likes Received:
    3.203
    Репутация:
    136
    Location:
    Москва
    Онлайн
    Новоявленный гроссмейстер Альф Гуглович Нулёвкин как-то довольно быстро в процессе обучения пристрастился к "испанской партии"... Но в итоге разочаровался в ней. Это не может не радовать.

    alphazero.png
  25. Vladruss НедоКМС, победитель второразрядников.

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Member Since:
    30.12.2009
    Message Count:
    16.477
    Likes Received:
    8.523
    Репутация:
    530
    Нарушения:
    31
    Оффлайн
    Не понимаю, что за истерика по поводу дебютной книги и эндшпильных баз? То, что Стока "выпустили на убой", это только по факту выяснилось. До начала игры это был эксперимент с неизвестным результатом, в котором проверялись алгоритмы программ. Понятно, что использовать в таком случае дебютную книгу и эндшпильные базы, это читерство и это сводит на нет смысл всего эксперимента. Опять же: проиграй этот матч Альфазеро, и можно уже кричать, что его отдали на расправу читеру-Стокфишу.
    Нет, все по честному: если проверяете качество алгоритма, то никакие тут книги и базы не уместны. Пусть своими электронно-программными мозгами играют.
  26. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    17.07.2011
    Message Count:
    19.231
    Likes Received:
    23.509
    Репутация:
    1.266
    Оффлайн
    Стокфиш не создан считать первые ходы, его и тестируют с набором позиций
    Согласен частично с Ядном, влияние эндшпильных таблиц меньше
    Но не минимальное!
    Любитель_ likes this.
  27. Neo94 Учаcтник

    • Участник
    Member Since:
    15.11.2014
    Message Count:
    434
    Likes Received:
    144
    Репутация:
    -10
    Оффлайн
    Железо все же несбалансированное было - примерно в 2 раза (напрямую не сравнить, но +- так), что лишние полдесятка побед да принесло. Ну и строго 1 минута на ход (а не там час на партию) - конкретно Стокфишу плохой контроль.

    Да, сток проиграл бы и так, но не 28 партий, а примерно 15, ну 20. Альфа крут, но не так уж Стокфиш плох, будем откровенны...

    И да, с дебютной книгой Сток ну никак бы не проиграл половину партий черными.
  28. Vladruss НедоКМС, победитель второразрядников.

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Member Since:
    30.12.2009
    Message Count:
    16.477
    Likes Received:
    8.523
    Репутация:
    530
    Нарушения:
    31
    Оффлайн
    Это его личные проблемы. Пусть показывает свою истинную силу без костылей подслеповатой бабки-теории. Глядишь, теперь программисты Стокфиша начнут по-серьезке репу чесать, как силу игры Стокфиша увеличить.
  29. Nikobelic Зарегистрирован

    Member Since:
    18.10.2016
    Message Count:
    420
    Likes Received:
    88
    Репутация:
    9
    Оффлайн
    Это конечно какой то рекламный трюк то что фиш играл без книги и таблиц чтобы все балбесы об этом говрили создавая белый шум. Чего они только хотят не понятно.
    С левым контролем. Это все ради того чтобы показать победу
  30. Vladruss НедоКМС, победитель второразрядников.

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Member Since:
    30.12.2009
    Message Count:
    16.477
    Likes Received:
    8.523
    Репутация:
    530
    Нарушения:
    31
    Оффлайн
    Про железо и контроль я ничего не говорил.
  31. Gottfrid Учаcтник

    • Участник
    Member Since:
    14.03.2016
    Message Count:
    2.557
    Likes Received:
    3.203
    Репутация:
    136
    Location:
    Москва
    Онлайн


    Другими словами: "Процессор, конечно, лопух, но аппаратура при нём. При-нём!" ©
    sovaz1997 and Vladruss like this.
  32. Neo94 Учаcтник

    • Участник
    Member Since:
    15.11.2014
    Message Count:
    434
    Likes Received:
    144
    Репутация:
    -10
    Оффлайн
    Сток - это почти вершина умного брутфорса, мне кажется, что даже теоретически программы с таким алгоритмом (на аналогичном железе с аналогичными условиями) могут играть ну на 3550, даже 3600 не возьмут.

    Вот нейронки поднимут планку почти до 4000, до уровня б-га.
    —- добавлено: 7 Dec 2017 —-
    Сток проиграет и с книгой, и с хорошим для него контролем, и с базами Налимова.
    Но отсушит не 72 партии из 100, а около 90.
  33. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    17.07.2011
    Message Count:
    19.231
    Likes Received:
    23.509
    Репутация:
    1.266
    Оффлайн
    вы уж договоритесь между собой :)
    Спай утверждает о тысячекратном стократном перевесе
  34. Jadn Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    10.05.2006
    Message Count:
    3.626
    Likes Received:
    2.535
    Репутация:
    52
    Оффлайн
    Ну, это ерунда. Веса в оценочной функции Стока не подогнаны специально под начальную позицию .Получилось, что над первым ходом Сток думал только 1 минуту, а Азер - минуту+все время предварительного обучения. Мягко говоря неравные условия. К тому же, наверное много похожих партий было.
    Undying and Комсюк like this.
  35. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    17.07.2011
    Message Count:
    19.231
    Likes Received:
    23.509
    Репутация:
    1.266
    Оффлайн
    в 128 раз это 7 удвоений, то есть 280-350 Эло
    —- добавлено: 7 Dec 2017 —-
    Сток тяготеет к французской на таком контроле, а Вы сами знаете, что это не фонтан (для движка без оператора)
    —- добавлено: 7 Dec 2017 —-
    бакинцы решили приватизировать? :)

Share This Page