AlphaZero. Нейронная сеть играет в шахматы

warrior · 9 дек 2017

Полагаю, что условный Каруана, в предверии ТП, не может себя успокаивать "До шахмат им (=Google) дела нет, побаловались и бросят".

Равновесие нарушено и нарушено сильно!

Если раньше у всех гроссов на компах были условные Рыбки и Стокфиши и все были примерно ~в равных условиях, то теперь известно, что на планете Земля существует место (уникальное! единственное!) где можно получить уникальный аналитический материал (=ну скажем, 200 партий) например на тему "Закрываем белыми вопрос с французской защитой раз и навсегда".

Я полагаю, что претенденты и их команды сейчас места себе не находят и думают что делать - т.е. как получить этот ресурс в свое распоряжение, пусть всего лишь на N часов, но получить. Какие задействовать политические, финансовые, репутационные рычаги ...

Я также полагаю, что Гугл _поможет_ "правильному" кандидату. А что касается Крамника, Карякина и Грищука - ну, мы можем окропить их святой водой ...

—- добавлено: 9 дек 2017 —-

И наверное, пора перестать мечтать что корона "вернется в Россию". Либо духовные скрепы, либо ИИ ...

Undying · 9 дек 2017

Комсюк пишет: ↑

Гроссы может и видят инопланетную игру, но по цифрам, если принять за правду перевес мощности в 70 раз, то Сток8 просто сильнее (без книг и таблиц)
Нажмите, чтобы раскрыть...

Нет перевеса по мощности. Стокфиш и Альфа Зеро это два принципиально разных подхода к решению задачи. Их бессмысленно по флопсам сравнивать. Смысл имеет оценка по энергопотреблению/стоимости. А в этом плане железо было примерно равное.

Vertu · 9 дек 2017

Undying пишет: ↑

Нет перевеса по мощности. Стокфиш и Альфа Зеро это два принципиально разных подхода к решению задачи. Их бессмысленно по флопсам сравнивать. Смысл имеет оценка по энергопотреблению/стоимости. А в этом плане железо было примерно равное.
Нажмите, чтобы раскрыть...

Неужели? Сравните-ка по стоимости 2 Xeon'a с 4 TPU второго поколения.

longinean · 9 дек 2017

Как раз сравнение энергопотребления лишено всякого смысла. Performance-per-watt у TPU в 196 раз выше, чем у CPU. Что они добились таких энергосберегающих показателей - это они, конечно, молодцы, но это должно интересовать только интересующихся достижениями компьютерных железячников, а не достижениями в создании шахматных алгоритмов. Сравнивать программы надо при равном перформансе, какой бы у них там ни был разный подход, и сколько бы ватт ни жрало их железо

Undying · 9 дек 2017

Vertu пишет: ↑

Неужели? Сравните-ка по стоимости 2 Xeon'a с 4 TPU второго поколения.
Нажмите, чтобы раскрыть...

Процессор Intel Core i7 имеет производительность порядка 150-200 гигафлопсов. Видеокарта Nvidia GeForce GTX 1080 имеет производительность 9 терафлопсов. Стоимость процессора и видеокарты при этом примерно одинакова 400-600 баксов. То есть видеокарты в силу в своей заточенности на флопсы (по сути кроме операций над числами с плавающей точкой они больше ничего делать не умеют) имеют преимущество в производительности по этому показателю как раз где-то в 70 раз.

—- добавлено: 9 дек 2017 —-

longinean пишет: ↑

Сравнивать программы надо при равном перформансе, какой бы у них там ни был разный подход, и сколько бы ватт ни жрало их железо
Нажмите, чтобы раскрыть...

Это личные проблемы Стокфиша, что он требует для работы полноценного процессора, а на железе заточенном под флопсы (грубо говоря на видеокарте) работать не способен в принципе.

N1mTzo · 9 дек 2017

Мобуту пишет: ↑

Силу надо демонстрировать при всём честном народе. Есть TCEC, почему бы не сыграть там?
Нажмите, чтобы раскрыть...

Вопрос, а нужен ли им этот TCEC в принципе? С го, там всё понятно было, ИИ победил топовых белковых игроков, собрал кучу медиа, рекламы и известности. С шахматами такое уже невозможно, победа над тем же Магнусом ничего не докажет, т.к. люди уже долгие годы слабее движков, никого этим не удивишь. А что им (DeepMind) даст публичная победа (еще одна) над тем же Вяленым? Мне кажется, Свидлер правильные слова сказал, что им (DeepMind) шахматы по большему счету не сильно интересны, так, одна из множества игр для применения (и тестирования) их A0, не более. И даже деньги (некий призовой фонд) их не заинтересует, т.к. Гугл не нуждается в этих деньгах.

GKA · 9 дек 2017

Вроде же разжевали этот вопрос на других ресурсах...
Обрезанный везде Сток против супержелеза...
И всего то превосходство единиц на 100 рейтинга...

longinean · 9 дек 2017

Undying пишет: ↑

Это личные проблемы Стокфиша, что он требует для работы полноценного процессора, а на железе заточенном под флопсы (грубо говоря на видеокарте) работать не способен в принципе.
Нажмите, чтобы раскрыть...

У Стокфиша вообще нет никаких проблем. Проблемы возникают у тех, кто хочет сравнивать силу программ (именно софта, а не железа), работающих на разных платформах. С видеокартами тут как раз все ясно. Все программы, пытавшиеся их использовать, гораздо слабее Стокфиша, несмотря на более высокую производительность gpu.

Комсюк · 9 дек 2017

Vertu пишет: ↑

Самая большая непонятка (как справедиво заметил Crest) - это ход Стокфиша Rf8 в этой позиции.

Может, ходы заводились вручную, и оператор мышкой не туда ткнул?
Нажмите, чтобы раскрыть...

Туда он ткнул
При вводе "одним щелчком" в оболочке Фритц ходит фигура, ходившая последней
Т.е. клик по полю f8 приведёт к ходу ладьёй

Котэ · 9 дек 2017

Fruit пишет: ↑

Так, в чем проблема? Достаточно подобрать набор дебютных позиций и заставить движки играть их за оба цвета. А можно множить победы в одном и том же варианте, который Стокфиш не в состоянии ни избежать, ни понять.....
Нажмите, чтобы раскрыть...

Alphazero кроме основного зачета играла со стоком и набор популярных дебютных табий. Например вот в этой всем известной позиции:

Статистика следующая 27/22/1, b 6/44/0 т е A0 набрал 38 очков из 50 белыми и 28 из 50 черными.
Во всех прочих табиях, от ферзевого гамбита до Каро-Канна перевес также был на стороне A0. Так что причина поражения стока не в том, что он спамил неудачный вариант новоиндийки, а в том, что он хуже играет в шахматы. Блондин играет сильнее брюнета и никаким железом или дебютами изменить этого нельзя.

Мобуту · 9 дек 2017

У меня всё более и более крепнет ощущение, что это скорее реклама, чем настоящая смена на шахматном престоле. Матч был закрытый, и это порождает тьму вопросов. Самыми серьёзными мне кажутся такие.

1. Кто докажет, что АльфаЗеро вообще существует? Что это не какой-нибудь известный движок, который распараллелили на громадное количество процессов, переименовав по такому случаю?
2. Кто докажет, что было сыграно 100 партий, а не 100 000? Это ведь самое простое: проиграть матч +24 - 20 000 = 80 000, а потом показать лишь 100 партий, +24 - 0 = 76. Ради рекламы-то самое оно.
3. Отсутствие дебютной книжки у Стокфиша в условиях неравенства железа. Отсутствие книжки лишает его вариативности игры, т.е. надо просто нащупать вариант поострее, где превосходство в нодах будет сказываться. Дальше можно размножать такие победы, так как Стокфиш будет его раз за разом повторять.
4. Стокфиш, по-видимому, был криво установлен, возможно где-то накосячили при распараллеливании на 64 ядра. Он делал слабые ходы, которые не воспроизводятся на персоналках (Crest уже нашёл ...c4 во французской, ...Rf8 с лишним качеством в новоиндисйской - на наших компах Стокфиш так слабо что-то не хочет играть).
5. На TCEC или где-либо ещё мы АльфаЗеро не увидим. Позадавать ей вопросы у нас возможности не будет. Её небось разберут, как Дип Блю, под слова о пройденном этапе и неинтересности ещё раз доказывать что-то по новой. Информация строго дозирована, а воспринимать её предлагается на веру.

Не уважаю такую позицию, когда от подобных вопросов отмахиваются под слова "мы не должны никому и ничего доказывать", и дальше пускаются в рассуждения о нейронных сетях и о будущем искусственного интеллекта.

Экстремист · 9 дек 2017

Комсюк пишет: ↑

Vertu пишет: ↑

Самая большая непонятка (как справедиво заметил Crest) - это ход Стокфиша Rf8 в этой позиции.

Может, ходы заводились вручную, и оператор мышкой не туда ткнул?
Нажмите, чтобы раскрыть...

Туда он ткнул
При вводе "одним щелчком" в оболочке Фритц ходит фигура, ходившая последней
Т.е. клик по полю f8 приведёт к ходу ладьёй
Нажмите, чтобы раскрыть...

И что?Это вы к тому,что всё таки ошибка оператора?

longinean · 9 дек 2017

Во-первых, табия так себе, почти начальная позиция. Во-вторых, тот же Стокфиш на 300 ядрах набрал бы против самого себя на 64 ядрах столько же или больше. Не потому, что лучше в шахматы играет, а потому, что железа больше. А в-третьих, с дебютной книгой набрал бы еще больше из такой табии

Fruit · 9 дек 2017

Котэ пишет: ↑

Так что причина поражения стока не в том, что он спамил неудачный вариант новоиндийки, а в том, что он хуже играет в шахматы. Блондин играет сильнее брюнета и никаким железом или дебютами изменить этого нельзя.
Нажмите, чтобы раскрыть...

Неудачные варианты, 1 гиг оперативки, 1 минута на ход и тд. - “С миру по нитке — голому рубаха“

Undying · 9 дек 2017

longinean пишет: ↑

У Стокфиша вообще нет никаких проблем. Проблемы возникают у тех, кто хочет сравнивать силу программ (именно софта, а не железа), работающих на разных платформах. С видеокартами тут как раз все ясно. Все программы, пытавшиеся их использовать, гораздо слабее Стокфиша, несмотря на более высокую производительность gpu.
Нажмите, чтобы раскрыть...

Речь о том, что переборные алгоритмы (Стокфиш в частности) на видеокартах работать эффективно не могут. Нейронные сети (и Альфа Зеро в частности) как раз под видеокарты заточены.

—- добавлено: 9 дек 2017 —-

Fruit пишет: ↑

Неудачные варианты, 1 гиг оперативки, 1 минута на ход и тд. - “С миру по нитке — голому рубаха“
Нажмите, чтобы раскрыть...

К минуте на ход какие претензии? Обе программы были в равных условиях. И собственно вообще не факт, что это дало какое-то преимущество Альфа Зеро.

Fruit · 9 дек 2017

Undying пишет: ↑

К минуте на ход какие претензии? Обе программы были в равных условиях. И собственно вообще не факт, что это дало какое-то преимущество Альфа Зеро.
Нажмите, чтобы раскрыть...

Вы когда последний раз играли с фиксированным временем на ход? Если ответ, "почти никогда не играл", то следующий вопрос: почему же все-таки в шахматном мире предпочитают играть, к примеру, 1+0, 3+0, 5+0, но никогда 1 сек на ход, 5 сек на ход, 10 сек на ход?
Моя версия: Альфа Зеро хреново распределяет время на партию (Time management) и это нужно было нивелировать. Поэтому такая экзотика с контролем.

Vertu · 9 дек 2017

Undying пишет: ↑

Vertu пишет: ↑

Неужели? Сравните-ка по стоимости 2 Xeon'a с 4 TPU второго поколения.
Нажмите, чтобы раскрыть...

Процессор Intel Core i7 имеет производительность порядка 150-200 гигафлопсов. Видеокарта Nvidia GeForce GTX 1080 имеет производительность 9 терафлопсов. Стоимость процессора и видеокарты при этом примерно одинакова 400-600 баксов. То есть видеокарты в силу в своей заточенности на флопсы (по сути кроме операций над числами с плавающей точкой они больше ничего делать не умеют) имеют преимущество в производительности по этому показателю как раз где-то в 70 раз.
Нажмите, чтобы раскрыть...

А в огороде - бузина. Причем тут вообще видеокарты, и их производительность? А0 играла на четырёх TPU, а не на видеокартах. Вы что, утверждаете, что они сравнимы по стоимости с двумя 32-ядерными CPU?

Комсюк · 9 дек 2017

Fruit пишет: ↑

Неудачные варианты,
Нажмите, чтобы раскрыть...

книга Brain от Зиппорта и +160 Эло в кармане
Сток победил бы и на этом железе

—- добавлено: 9 дек 2017 —-

кстати, эта книга создаётся исключительно Стокфишем... пусть будет ну типа "тренировки Альфы"

Комсюк · 9 дек 2017

дайте Вяленому книгу (им же созданную по методу Монте-Карло) и час на всю партию, а эта монстрила пусть себе думает по минуте на ход, и мы увидим, кто есть ху

—- добавлено: 9 дек 2017 —-

Но пасаран!

Vertu · 9 дек 2017

Пусть поставят перед Альфа0 задачу написать движок под винду/линукс сильнее Stockfish. Вот если она эту задачу решит - это уже будет похоже на ИИ.

Комсюк · 9 дек 2017

Экстремист пишет: ↑

Комсюк пишет: ↑

Vertu пишет: ↑

Самая большая непонятка (как справедиво заметил Crest) - это ход Стокфиша Rf8 в этой позиции.

Может, ходы заводились вручную, и оператор мышкой не туда ткнул?
Нажмите, чтобы раскрыть...

Туда он ткнул
При вводе "одним щелчком" в оболочке Фритц ходит фигура, ходившая последней
Т.е. клик по полю f8 приведёт к ходу ладьёй
Нажмите, чтобы раскрыть...

И что? Это вы к тому,что всё таки ошибка оператора?
Нажмите, чтобы раскрыть...

Тут я затрудняюсь придумать обвинение...
Это гипотеза

hornet · 9 дек 2017

Ладно, пора вставить свои 5 копеек. Поначалу и я испытывал скепсис по поводу нового "гуру" шахматах. Думал дело в глубине, на которую (не) продвинулся Сток. Но действительно в одном из постов было показано, что Сток показывают нули (равенство) на большой глубине в проигранной позиции. Вот это удивило по настоящему. Значит есть проблемы в оценке позиции. Другими движками почти не пробовал, но по моему и они не блещут в этих позициях. А мы так привыкли доверять оценкам. Судя по описанным ресурсам Сток мог продвигаться на большую глубину (например 40 полуходов) даже за минуту (хотя конечно не факт). Нейросеть, как будто вскрыла непонимание движками некоторых позиций. И чем больше фигур на доске, тем больше непонимание. Понятно, что в позициях с более-менее простой структурой и малым количеством фигур нейросеть не выиграет, хоть ты тресни. В принципе дебют можно простить, да я и не видел больших ошибок в дебюте. Что теперь закрывать разыгранные варианты новоиндийки? Ну француженка была не на высоте, согласен. Ну а новый гуру видимо хорош. Раздвинул границы, хотя и до него некоторая искусственность в разыгрывании партии движками ощущалась. В общем явные недоработки в алгоритмах существующих движков надо подлатать и на время всё закончится.

NoraNora · 9 дек 2017

Первое что Стокфишу приходит в голову это как раз Rf8.

Экстремист · 9 дек 2017

Комсюк пишет: ↑

Экстремист пишет: ↑

Комсюк пишет: ↑

Vertu пишет: ↑

Самая большая непонятка (как справедиво заметил Crest) - это ход Стокфиша Rf8 в этой позиции.

Может, ходы заводились вручную, и оператор мышкой не туда ткнул?
Нажмите, чтобы раскрыть...

Туда он ткнул
При вводе "одним щелчком" в оболочке Фритц ходит фигура, ходившая последней
Т.е. клик по полю f8 приведёт к ходу ладьёй
Нажмите, чтобы раскрыть...

И что? Это вы к тому,что всё таки ошибка оператора?
Нажмите, чтобы раскрыть...

Тут я затрудняюсь придумать обвинение...
Это гипотеза
Нажмите, чтобы раскрыть...

Да хуже этот Стокфиш играет. Уже ясно всё. Ничего не поделаешь. Если дополнительно ему дать дебютную книгу, удобный контроль и ещё чего нибудь - всё равно толку не будет.

Vertu · 9 дек 2017

hornet пишет: ↑

В общем явные недоработки в алгоритмах существующих движков надо подлатать и на время всё закончится.
Нажмите, чтобы раскрыть...

Возможно, всё-таки у современных движков есть некоторые общеизвестные врожденные недостатки, которые трудно устранить в рамках текущей парадигмы построения шахматных алгоритмов. А у нейросети - другая парадигма, и пока неизвестно, какие у нее недостатки.

—- добавлено: 9 дек 2017 —-

NoraNora пишет: ↑

Первое что Стокфишу приходит в голову это как раз Rf8.
Нажмите, чтобы раскрыть...

И что? Стокфишу в матче давали минуту на ход на 64 (или 32?) ядрах. А вас одна секунда на одном ядре.

NoraNora · 9 дек 2017

Ну вот тут вот демонстрация, на какой глубине Стокфиш 8 понимает, что после Qf4 на доске не =, а всё намного хуже для чёрных. Аж в районе 37й.

N1mTzo · 9 дек 2017

Мобуту пишет: ↑

1. Кто докажет, что АльфаЗеро вообще существует? Что это не какой-нибудь известный движок, который распараллелили на громадное количество процессов, переименовав по такому случаю?
Нажмите, чтобы раскрыть...

Никто не докажет. Ваше личное право верить или не верить в данную информацию.

Мобуту пишет: ↑

Не уважаю такую позицию, когда от подобных вопросов отмахиваются под слова "мы не должны никому и ничего доказывать", и дальше пускаются в рассуждения о нейронных сетях и о будущем искусственного интеллекта.
Нажмите, чтобы раскрыть...

Ребята из DeepMind тихо выложили статью на архив орг, всю основную шумиху подняли СМИ.

Vertu пишет: ↑

Пусть поставят перед Альфа0 задачу написать движок под винду/линукс сильнее Stockfish. Вот если она эту задачу решит - это уже будет похоже на ИИ.
Нажмите, чтобы раскрыть...

А0 это пока совокупность железа и алгоритмов, до реального ИИ там пока еще далеко.

Комсюк · 9 дек 2017

NoraNora пишет: ↑

Первое что Стокфишу приходит в голову это как раз Rf8.
Нажмите, чтобы раскрыть...

и у 64-ядерного компа через минуту была глубина 20?

—- добавлено: 9 дек 2017 —-

Vertu пишет: ↑

Стокфишу в матче давали минуту на ход на 32 ядрах.
Нажмите, чтобы раскрыть...

там неясно... Thread - 64, могло быть и так, и так

—- добавлено: 9 дек 2017 —-

Экстремист пишет: ↑

Да хуже этот Стокфиш играет. Уже ясно всё.
Нажмите, чтобы раскрыть...

Так какого ты спрашиваешь, если тебе всё ясно?

vsvor · 9 дек 2017

Vertu пишет: ↑

А в огороде - бузина. Причем тут вообще видеокарты, и их производительность? А0 играла на четырёх TPU, а не на видеокартах. Вы что, утверждаете, что они сравнимы по стоимости с двумя 32-ядерными CPU?
Нажмите, чтобы раскрыть...

Каким образом можно их сравнивать по стоимости, если TPU не продаются и не производятся в сравнимых объемах? TPU 1-го поколения (которые в количестве 5000 шт. использовались при обучении) имели следующие характеристики: техпроцесс 28 нм, около 300 мм^2, 40 W, частота 700 МГц, 92 трлн операций с 8-битовыми числами в секунду.
https://arxiv.org/ftp/arxiv/papers/1704/1704.04760.pdf

Плата с 4 TPU 2-го поколения (4*45 = 180 TFlops, FP16) не выглядит слишком монструозной:

https://www.nextplatform.com/2017/05/17/first-depth-look-googles-new-second-generation-tpu/

Кстати: все-таки A0 играла на одной такой плате с 4 чипами или на четырех с 16 чипами?

NoraNora · 9 дек 2017

На самом деле, при первом включении, у меня он на самом деле уверенно долго показывал нули, а после введение рукой хода Qf4 странно резко поменял оценку на +-.

West55 · 9 дек 2017

Добрый день, всем.
Почему считаете, что минута на ход - это однозначно в минус Стокфишу?
Тут сложный вопрос. Ведь Альфа очень сильно отсеивает варианты. Т.е. ее глубина просчета вполне может быть глубже при одном времени. У Стокфиша количество вариантов растет лавинообразно от глубины(экспонента?) Минута, возможно, является оптимумом, при данном железе. У Альфы сильно меньшая скорость нарастания вариантов от глубины.
В сторону же малых времен тоже ясно преимущество Альфы, т.к. она может лучше оценивать конечные позиции.

Undying · 9 дек 2017

Fruit пишет: ↑

Вы когда последний раз играли с фиксированным временем на ход? Если ответ, "почти никогда не играл"
Нажмите, чтобы раскрыть...

Какое отношение игра людей имеет к игре программ? Для людей фиксированное время на ход, конечно, крайне неудобно. А для программ это естественный формат.

Vertu · 9 дек 2017

vsvor пишет: ↑

Каким образом можно их сравнивать по стоимости, если TPU не продаются и не производятся в сравнимых объемах?
Нажмите, чтобы раскрыть...

Так на каком же основании вы утверждаете, что системы 4TPU и 2CPU сравнимы по стоимости?

Undying · 9 дек 2017

Vertu пишет: ↑

А в огороде - бузина. Причем тут вообще видеокарты, и их производительность? А0 играла на четырёх TPU, а не на видеокартах. Вы что, утверждаете, что они сравнимы по стоимости с двумя 32-ядерными CPU?
Нажмите, чтобы раскрыть...

TPU это по сути упрощенная и урезанная видеокарта. Из Вики:

По сравнению с графическими процессорами, рассчитан на более высокий объём вычислений с уменьшенной точностью (например, всего 8-разрядную точность [3]) при более высокой производительности на ватт и отсутствие модуля для растеризации и текстурных блоков[2][1].
Нажмите, чтобы раскрыть...

Комсюк · 9 дек 2017

West55 пишет: ↑

Почему считаете, что минута на ход - это однозначно в минус Стокфишу?
Нажмите, чтобы раскрыть...

я не знаю, что в плюс Альфе, но у Стокфиша отличный тайм-менеджмент и время он распределит по партии, как положено

—- добавлено: 9 дек 2017 —-

Undying пишет: ↑

А для программ это естественный формат.
Нажмите, чтобы раскрыть...

это противоестественный формат для матча движков

Войти или зарегистрироваться

AlphaZero. Нейронная сеть играет в шахматы

warrior Учаcтник

Undying Учаcтник

Vertu Старожил

longinean Учаcтник

Undying Учаcтник

N1mTzo Учаcтник

GKA Старожил

longinean Учаcтник

Комсюк народный модератор

Котэ Восьмикратный чемпион подъезда

Мобуту спаситель нации

Экстремист Старожил

longinean Учаcтник

Fruit Александр

Undying Учаcтник

Fruit Александр

Vertu Старожил

Комсюк народный модератор

Комсюк народный модератор

Vertu Старожил

Комсюк народный модератор

hornet Учаcтник

NoraNora Старожил

Вложения:

m2PMVGV_saA.jpg

Экстремист Старожил

Vertu Старожил

NoraNora Старожил

Вложения:

m2PMVGV_saA.jpg

N1mTzo Учаcтник

Комсюк народный модератор

vsvor Новичок

NoraNora Старожил

West55 Начинающий

Undying Учаcтник

Vertu Старожил

Undying Учаcтник

Комсюк народный модератор

Поделиться этой страницей