AlphaZero. Нейронная сеть играет в шахматы

Vertu · 9 дек 2017

Undying пишет: ↑

TPU это по сути упрощенная и урезанная видеокарта.
Нажмите, чтобы раскрыть...

Ага, ну урежьте себе видеокарту, посмотрим, как вы получите TPU...

Undying · 9 дек 2017

Комсюк пишет: ↑

это противоестественный формат для матча движков
Нажмите, чтобы раскрыть...

Не факт. Сами матчи движков малоинтересны. Основное предназначение программ это анализ. А при анализе тайм-менеджмент Стокфиша не используется в принципе.

Экстремист · 9 дек 2017

Комсюк пишет: ↑

NoraNora пишет: ↑

Первое что Стокфишу приходит в голову это как раз Rf8.
Нажмите, чтобы раскрыть...

и у 64-ядерного компа через минуту была глубина 20?

—- добавлено: 9 дек 2017 —-

Vertu пишет: ↑

Стокфишу в матче давали минуту на ход на 32 ядрах.
Нажмите, чтобы раскрыть...

там неясно... Thread - 64, могло быть и так, и так

—- добавлено: 9 дек 2017 —-

Экстремист пишет: ↑

Да хуже этот Стокфиш играет. Уже ясно всё.
Нажмите, чтобы раскрыть...

Так какого ты спрашиваешь, если тебе всё ясно?
Нажмите, чтобы раскрыть...

На всякий случай)

Комсюк · 9 дек 2017

Undying пишет: ↑

Сами матчи движков малоинтересны.
Нажмите, чтобы раскрыть...

а мы что сейчас обсуждаем?

Undying · 9 дек 2017

Комсюк пишет: ↑

Undying пишет: ↑

Сами матчи движков малоинтересны.
Нажмите, чтобы раскрыть...

а мы что сейчас обсуждаем?
Нажмите, чтобы раскрыть...

Является ли Альфа Зеро прорывом в понимании шахмат компьютерными движками.

vsvor · 9 дек 2017

Vertu пишет: ↑

vsvor пишет: ↑

Каким образом можно их сравнивать по стоимости, если TPU не продаются и не производятся в сравнимых объемах?
Нажмите, чтобы раскрыть...

Так на каком же основании вы утверждаете, что системы 4TPU и 2CPU сравнимы по стоимости?
Нажмите, чтобы раскрыть...

В каком месте я это утверждаю? По количеству транзисторов, думаю, вполне сравнимы с современными видеокартами. CPU и GPU массово производятся, TPU нет. Стоимость производства TPU будет выше, даже если чипы проще.

West55 пишет: ↑

Добрый день, всем.
Почему считаете, что минута на ход - это однозначно в минус Стокфишу?
Тут сложный вопрос. Ведь Альфа очень сильно отсеивает варианты. Т.е. ее глубина просчета вполне может быть глубже при одном времени..
Нажмите, чтобы раскрыть...

В статье утверждается, что на длинных контролях преимущество A0 увеличивается, а SF выигрывает на самых коротких (менее 1 с на ход).
См. графики на с. 7. https://arxiv.org/pdf/1712.01815.pdf

Комсюк · 9 дек 2017

Undying пишет: ↑

Комсюк пишет: ↑

Undying пишет: ↑

Сами матчи движков малоинтересны.
Нажмите, чтобы раскрыть...

а мы что сейчас обсуждаем?
Нажмите, чтобы раскрыть...

Является ли Альфа Зеро прорывом в понимании шахмат компьютерными движками.
Нажмите, чтобы раскрыть...

Тогда я пас.
Прорывом м.б. и является, но преимущества над топ-калькулятором ПОКА не показала

NoraNora · 9 дек 2017

Ок, вот вам два последовательных скрина - 52-я глубина, оценка 0.00 до хода Qf4, и реакция на этот ход после.
Смахивает, честно говоря, на какой-то "баг веры в ничейность", я такие странности нередко за Стоком замечаю. И походу для партии с АльфаЗеро этот баг, если он реально есть, не пофиксили.

hornet · 9 дек 2017

Альфа хорош, но оказалось что чуть плоховат сток - есть над чем работать. Интереснее другое - а у человека достаточно понимания (четких критериев), чтобы определить позиция проиграна или защитима? Ведь сток даже на глубине 48 в одной из позиций ставил нули (равенство)... Ага берем позицию, заводим её, например, в чессбэйз, включаем якобы всезнающий движок и грузим его до глубины...хватит и 35 полуходов, - вот и весь наш (человеческий) критерий...

Fruit · 9 дек 2017

Undying пишет: ↑

Fruit пишет: ↑

Вы когда последний раз играли с фиксированным временем на ход? Если ответ, "почти никогда не играл"
Нажмите, чтобы раскрыть...

Какое отношение игра людей имеет к игре программ? Для людей фиксированное время на ход, конечно, крайне неудобно. А для программ это естественный формат.
Нажмите, чтобы раскрыть...

Где, простите, вы видели такой формат при тестировании движков? Очевидно же, что 1час движку на всю партию и этот же час - фиксировано 1 минута на ход может его только ослабить. Так зачем это делать? Нам времени не жалко или сила нужна поменьше?

Vertu · 9 дек 2017

NoraNora пишет: ↑

Ок, вот вам два последовательных скрина - 52-я глубина, оценка 0.00 до хода Qf4, и реакция на этот ход после.
Смахивает, честно говоря, на какой-то "баг веры в ничейность", я такие странности нередко за Стоком замечаю. И походу для партии с АльфаЗеро этот баг, если он реально есть, не пофиксили.
Нажмите, чтобы раскрыть...

Это у вас какой-то баг. Мой SF8 видит, что Qf4 выигрывает уже на глубине 31 (4 секунды).
http://prntscr.com/hl74ey

hornet · 9 дек 2017

Комсюк пишет: ↑

Прорывом м.б. и является, но преимущества над топ-калькулятором ПОКА не показала
Нажмите, чтобы раскрыть...

Забавно - раньше был анекдот: "Сенсация - Каспаров приграл калькулятору!"...

West55 · 9 дек 2017

Мобуту пишет: ↑

1. Кто докажет, что АльфаЗеро вообще существует? Что это не какой-нибудь известный движок, который распараллелили на громадное количество процессов, переименовав по такому случаю?
Нажмите, чтобы раскрыть...

Это же научное исследование. Статья в arxiv.org. Ее будут рецензировать специалисты. Все это еще не раз будет демонстрироваться и проверяться.

Возможно, знакомый по институту работает в Гугле по этой теме. Но выяснить вряд ли можно много. Очень жесткие условия неразглашения.

просроченый_кмс · 9 дек 2017

Насчёт того что прога упёрлась в потолок, вероятно есть какой то уровень после которого уже трудно победить ничейную смерть, и например теоретически не может быть программ с уровнем 4000 и 4500, все они наверно на 4000 будут играть.

И второе, возможно упёрлись в размер нейросети и она не может запомнить больше информации общей для всех позиций, вот если создать отдельно нейросеть для дебюта, миттельшпиля, и эндшпиля, то возможно усиление ещё пунктов на 100 200, имхо.

N1mTzo · 9 дек 2017

Vertu пишет: ↑

Мой SF8 видит, что Qf4 выигрывает уже на глубине 31 (4 секунды).
Нажмите, чтобы раскрыть...

Ну если по скринам судит, то у вас Вяленый цепляет эндшпильные базы и видит, у а NoraNora без баз не видит данный ход.

Fruit пишет: ↑

Где, простите, вы видели такой формат при тестировании движков?
Нажмите, чтобы раскрыть...

Ну а как тестовые билды движков (того же Вяленого и всех других) проверяют? Там вообще УКК ставят 1 сек или даже 0.5 сек на ход. Что это принципиально меняет?

Комсюк · 9 дек 2017

Vertu пишет: ↑

Мой SF8 видит, что Qf4 выигрывает уже на глубине 31 (4 секунды).
Нажмите, чтобы раскрыть...

если Вы делали уже этот ход, то Сток его запомнил
Очистите хеш или перегрузите движок

—- добавлено: 9 дек 2017 —-

N1mTzo пишет: ↑

Там вообще УКК ставят 1 сек или даже 0.5 сек на ход
Нажмите, чтобы раскрыть...

на УКК время на партию + прибавка на ход

Vertu · 9 дек 2017

Комсюк пишет: ↑

Vertu пишет: ↑

Мой SF8 видит, что Qf4 выигрывает уже на глубине 31 (4 секунды).
Нажмите, чтобы раскрыть...

если Вы делали уже этот ход, то Сток его запомнил
Очистите хеш или перегрузите движок
Нажмите, чтобы раскрыть...

Если бы он его запомнил, то он бы не показывал нули первые три секунды.
А вот эндшпильные базы действительно влияют. Без них действительно не находит.
Думаю, их отключение повлияло на счет в матче.

Комсюк · 9 дек 2017

NoraNora пишет: ↑

Ок, вот вам два последовательных скрина - 52-я глубина, оценка 0.00 до хода Qf4
Нажмите, чтобы раскрыть...

Vertu пишет: ↑

А вот эндшпильные базы действительно влияют. Без них действительно не находит.
Нажмите, чтобы раскрыть...

ну вот она и разгадка... ход Лf8 был возможен от Стока
оператора вычёркиваем

N1mTzo · 9 дек 2017

Комсюк пишет: ↑

на УКК время на партию + прибавка на ход
Нажмите, чтобы раскрыть...

Для компенсации лагов бывает ставят прибавку на ход, бывает не ставят. Это не принципиально, повторюсь, сейчас у всех SSD стоят, шины быстрые,куча не загруженных ядер на железяке . При МИНУТЕ на ход какие вообще могут быть претензии к контролю? Он (Вяленый) не успел подумать, лаги от железа мешали? У меня единственная претензия к авторам А0 в том, что не дали Стоку дебютную книжку хотя бы ходов на 10, ну и партий маловато обнародовали, хотелось бы все 100 глянуть.

Комсюк · 9 дек 2017

N1mTzo пишет: ↑

Для компенсации лагов бывает ставят прибавку на ход, бывает не ставят.
Нажмите, чтобы раскрыть...

но всё равно время на партию

N1mTzo пишет: ↑

У меня единственная претензия к авторам А0 в том, что не дали Стоку дебютную книжку хотя бы ходов на 10
Нажмите, чтобы раскрыть...

у меня также

nh2008 · 9 дек 2017

Michael-13 пишет: ↑

Так что ответы на все вопросы по матчу со стокфишем будут после конференции - скорее всего начиная с 12 декабря (вторник).
Нажмите, чтобы раскрыть...

Потом выяснят, что А0 мочу подменили и её дисквалифицируют.

N1mTzo · 9 дек 2017

sovaz1997 пишет: ↑

КМС + Stockfish = адвансер
Гроссмейстер + Stockfish = Alpha Zero

Нажмите, чтобы раскрыть...

Камский уже готов пооператорить со Стоком против A0.

Комсюк · 9 дек 2017

да уж... в очереди на призовой матч с детищем Гугла будет не протолкнуться

Fruit · 9 дек 2017

N1mTzo пишет: ↑

Ну а как тестовые билды движков (того же Вяленого и всех других) проверяют? Там вообще УКК ставят 1 сек или даже 0.5 сек на ход. Что это принципиально меняет?
Нажмите, чтобы раскрыть...

Да, какие-то свои внутренние тесты. Но больше доверяют результатам - CCRL, CEGT. И мне не известно ни одного рейтинг-листа с контролем фиксированное время на ход

nn · 9 дек 2017

N1mTzo пишет: ↑

Для компенсации лагов бывает ставят прибавку на ход, бывает не ставят. Это не принципиально, повторюсь, сейчас у всех SSD стоят, шины быстрые,куча не загруженных ядер на железяке . При МИНУТЕ на ход какие вообще могут быть претензии к контролю? Он (Вяленый) не успел подумать, лаги от железа мешали? У меня единственная претензия к авторам А0 в том, что не дали Стоку дебютную книжку хотя бы ходов на 10, ну и партий маловато обнародовали, хотелось бы все 100 глянуть.
Нажмите, чтобы раскрыть...

Контроль должен был иметь большой эффект. Альфа-бета достаточно хорошо приспособлена, чтобы очень сильно варьировать время на ход. Стокфиш увеличивает время в нормальных условиях, когда ход в корне меняется, если fail low в корне, если оценка падает, и уменьшает если ход единственный, если ход стабильный, если оценка увеличивается.
Кроме того, похоже DeepMind использовал movetime 60000, а не movestogo 1 wtime 60000 btime 60000, т.е. даже небольшие вариации по времени и накопление было невозможно, и итерация прерывалась не закончившись - а это дополнительные потери в эло.
Кроме того, эндшпильные таблицы, наверно, стоят 20-25 эло.
Обращает на себя внимание также, что hash очень маленький. На таком компьютере, если считать только по скорости заполнения, оптимально было бы где-то 180-240 Гб. Но дело еще хуже, так как много threads и они общаются между собой только через hash, т.е. малое количество hash влияет на эффективность использования этих threads.

like · 9 дек 2017

64 TPU (11,5 PFLOPS), на которых шла тренировка нейросетки (+ еще 5000 TPU генерировали 700 тыс. игр) (исправлено).
фото отсюда:
https://www.forbes.com/sites/moorin...gle-nvidia-and-the-machine-learning-industry/

—- добавлено: 9 дек 2017, опубликовано: 9 дек 2017 —-

в пользу Стокфиша можно предположить, что в каждом дебюте есть "ямы" и без дебютной базы он в них попадал
если их залатать, то уже не будет такой катастрофы как +39=11 во французской защите

vsvor · 9 дек 2017

like пишет: ↑

64 TPU (11,5 PFLOPS), на которых шла игра со стокфишем
Нажмите, чтобы раскрыть...

В статье сказано, что использовалось 4 TPU. Причем непонятно: то ли одна плата с 4 чипами, то ли 4 платы.

Carter · 9 дек 2017

Vertu пишет: ↑

Самая большая непонятка (как справедиво заметил Crest) - это ход Стокфиша Rf8 в этой позиции.

Может, ходы заводились вручную, и оператор мышкой не туда ткнул?
Нажмите, чтобы раскрыть...

Не хочется выглядеть как человек с самой отстойной версией "Стокфиша", но у меня он так играет.))

—- добавлено: 9 дек 2017, опубликовано: 9 дек 2017 —-

Надеюсь, это не спам. Просто доказательство, что "Стокфиш" так играет - и продолжает играть спустя уже немало времени.

sovaz1997 · 9 дек 2017

Carter пишет: ↑

Vertu пишет: ↑

Самая большая непонятка (как справедиво заметил Crest) - это ход Стокфиша Rf8 в этой позиции.

Может, ходы заводились вручную, и оператор мышкой не туда ткнул?
Нажмите, чтобы раскрыть...

Не хочется выглядеть как человек с самой отстойной версией "Стокфиша", но у меня он так играет.))

Посмотреть вложение 5386

—- добавлено: 9 дек 2017, опубликовано: 9 дек 2017 —-

Надеюсь, это не спам. Просто доказательство, что "Стокфиш" так играет - и продолжает играть спустя уже немало времени.

Посмотреть вложение 5387
Нажмите, чтобы раскрыть...

Какой Stockfish? 8-й быстро понимает, последний ещё быстрее. После Rf8 оценка +10 практически. Без таблиц.

Комсюк · 10 дек 2017

sovaz1997 пишет: ↑

Какой Stockfish?
Нажмите, чтобы раскрыть...

у Норы восьмой
Скрины выше http://kasparovchess.crestbook.com/threads/7644/page-11#post-768839

sovaz1997 · 10 дек 2017

Тогда хеш маленький, наверное. Уж на 64 ядрах должен был ход найтись.

Комсюк · 10 дек 2017

sovaz1997 пишет: ↑

Тогда хеш маленький, наверное
Нажмите, чтобы раскрыть...

Так и в матче небольшой

sovaz1997 пишет: ↑

Уж на 64 ядрах должен был ход найтись.
Нажмите, чтобы раскрыть...

Она же временем компенсировала

sovaz1997 · 10 дек 2017

Комсюк, вполне возможно, из-за этого. Хеш и потоки связаны между собой, чем больше хеш, тем больше продуктивность SMP.

N1mTzo · 10 дек 2017

nn пишет: ↑

Кроме того, эндшпильные таблицы, наверно, стоят 20-25 эло.
Нажмите, чтобы раскрыть...

Частично согласен, дал бы Стоку 5-фигурки попользовать, но не более.

nn пишет: ↑

Обращает на себя внимание также, что hash очень маленький.На таком компьютере, если считать только по скорости заполнения, оптимально было бы где-то 180-240 Гб
Нажмите, чтобы раскрыть...

Да, хэша действительно зажали. На TCEC топовые движки (Гудини, Вяленый, Комодо) по 16Гб хэша используют, более при таком контроле и не к чему.

like · 10 дек 2017

А если Альфу тренировать с нуля не из начальной позиции, а например из берлинского варианта? Причем белыми и черными отдельно. Получится прецизионный инструмент для крайне сложной задачи - пробивать черных в берлине.

Войти или зарегистрироваться

AlphaZero. Нейронная сеть играет в шахматы

Vertu Старожил

Undying Учаcтник

Экстремист Старожил

Комсюк народный модератор

Undying Учаcтник

vsvor Новичок

Комсюк народный модератор

NoraNora Старожил

Вложения:

m2PMVGV_saA.jpg

m2PMVGV_saA.jpg

hornet Учаcтник

Fruit Александр

Vertu Старожил

hornet Учаcтник

West55 Начинающий

просроченый_кмс Старожил

N1mTzo Учаcтник

Комсюк народный модератор

Vertu Старожил

Комсюк народный модератор

N1mTzo Учаcтник

Комсюк народный модератор

nh2008 Старожил

N1mTzo Учаcтник

Комсюк народный модератор

Fruit Александр

nn Старожил

like Начинающий

vsvor Новичок

Carter Новичок

sovaz1997 Учаcтник

Комсюк народный модератор

sovaz1997 Учаcтник

Комсюк народный модератор

sovaz1997 Учаcтник

N1mTzo Учаcтник

like Начинающий

Поделиться этой страницей