AlphaZero. Нейронная сеть играет в шахматы

WinPooh · 25 авг 2018

А нельзя веса из старой сети каким-то образом перенести в новую (если размер больше, то как-то интерполировать, что ли). Чтобы с нуля заново не начинать?

pavelgttfj8 · 25 авг 2018

Это очень смешно.
https://www.youtube.com/watch?v=hoi_QnOdqj0

Для тех кто не хочет смотреть можно перематывать на эндшпиль

Undying · 25 авг 2018

Mustitz пишет: ↑

Получается, что тогда от движка мы вправе требовать только три вида оценок: 0, ½ и 1. В целом такую оценку достаточно просто взять у Leela (спускаемся по симуляциям в наибольшей статистикой и смотрим результат), вот только вряд ли такая оценка будет удовлетворять админов TCEC и просто пользователей.
Нажмите, чтобы раскрыть...

Оценка в вероятностях победы, ничьи и поражения намного адекватнее и понятнее, чем в пешках. И собственно в докомпьютерную эпоху оценка такой и была - плюс-минус, плюс-минус в столбик, равная, ничейная, игра на три результата. Это все вероятностные оценки. Просто переборные движки только пешки умеют выдавать, поэтому это и стало стандартом. Подвинут нейронные движки переборные, стандарт изменится.

—- добавлено: 25 авг 2018 —-

WinPooh пишет: ↑

Потому что в семействе идеальных партий у чёрных больше моментов, где надо отвечать единственными или почти единственными ходами.
Нажмите, чтобы раскрыть...

Значит оценка вовсе не 0.00. Вероятность белых победить выше.

Undying · 25 авг 2018

svoitsl пишет: ↑

А для рядовых, не обремененных большими деньгами, любителей шахмат классические движки ещё довольно долго будут опережать NN движки
Нажмите, чтобы раскрыть...

Не факт. Лила на бюджетной видяхе вчера достойно сопротивлялась Стокфишу 8, играющему на суперпроцах. 4 : 8 проиграла в длинный блиц. Будь у Стокфиша тоже бюджетное железо играли бы на равных. То есть уже и на рядовом компе переборные и нейронные движки сопоставимы по силе. При этом переборные движки уже сколько вылизывают, а для нейронных это первый опыт. Запас для прогресса там еще большой должен быть.

Sergey1983 · 25 авг 2018

А на какой именно видеокарте она играла и какой счёт был в конце?

WinPooh · 25 авг 2018

Undying пишет: ↑

Mustitz пишет: ↑

Получается, что тогда от движка мы вправе требовать только три вида оценок: 0, ½ и 1. В целом такую оценку достаточно просто взять у Leela (спускаемся по симуляциям в наибольшей статистикой и смотрим результат), вот только вряд ли такая оценка будет удовлетворять админов TCEC и просто пользователей.
Нажмите, чтобы раскрыть...

Оценка в вероятностях победы, ничьи и поражения намного адекватнее и понятнее, чем в пешках. И собственно в докомпьютерную эпоху оценка такой и была - плюс-минус, плюс-минус в столбик, равная, ничейная, игра на три результата. Это все вероятностные оценки. Просто переборные движки только пешки умеют выдавать, поэтому это и стало стандартом. Подвинут нейронные движки переборные, стандарт изменится.

—- добавлено: 25 авг 2018 —-

WinPooh пишет: ↑

Потому что в семействе идеальных партий у чёрных больше моментов, где надо отвечать единственными или почти единственными ходами.
Нажмите, чтобы раскрыть...

Значит оценка вовсе не 0.00. Вероятность белых победить выше.
Нажмите, чтобы раскрыть...

Оценка - это только приближение к истинному value позиции. В крестиках ноликах 3 на 3 это value равно строго 0.5 (доказано элементарных перебором), в игре пять в ряд без фолов - 1.0 для чёрных. В шахматах value равно 0.5 (пока не доказано, но крайне правдоподобно), и никакого отношения к вероятности оно не имеет.

Undying · 25 авг 2018

Sergey1983 пишет: ↑

А на какой именно видеокарте она играла и какой счёт был в конце?
Нажмите, чтобы раскрыть...

Не знаю на какой карте. Но скорость была 1.7 килоноды в секунду. Для сравнения. Скорость на спарке GTX 1080 сложно оценить из-за перегрева. Примерно получается так - 150 кнод/с при времени обдумывания 8 секунд, 60 кнод/с при 15 секундах, 20 кнод/с при минуте. То есть на полной мощности скорость должна была быть в сотни кнод/с, а из-за перегрева Лила фактически играла на 10% мощности.

В первом приближении мощность вчерашней видяхи 1/100 от спарки GTX 1080, т.е. жалкие 180 ГФлопс. Для сравнения у GT 710 за 3 тысячи рублей производительность 360 ГФлопс. То есть походу Лила вчера вообще на встроенной в проц видяхе играла.

По счету примерно так и закончилось. После 12 партий на 3 партии подключили, то что здесь на форуме было анонсировано как V100. Но скорость поднялась аж до 27 кнод/с, т.е. это явно не V100 была. Все партии закончились в ничью. Потом снова вернули бюджетный вариант, первую Лила проиграла, а дальше я не смотрел. Но там почти сразу и закончилась. Так разница между Стокфишем 8 на суперпроцах и Лилой на чем-то очень бюджетном получилась в 150 пунктов рейтинга.

WinPooh · 25 авг 2018

Почему-то все результаты Лилы сопровождаются частицами "бы", "когда", "если" и т. д. Неужели среди энтузиастов нет никого, кто мог бы запустить её на по-настоящему мощном железе и сделать этого Стокфиша хотя бы со счётом 10-0 ? То, что в сферическом вакууме Лила - чемпион галактики, все поняли уже давно. А в реале Арасана не обыгрывает...

Undying · 25 авг 2018

А кто знает, для переборных движков десятикратное увеличение производительности какой прирост силы игры дает?

—- добавлено: 25 авг 2018, опубликовано: 25 авг 2018 —-

WinPooh пишет: ↑

Почему-то все результаты Лилы сопровождаются частицами "бы", "когда", "если" и т. д. Неужели среди энтузиастов нет никого, кто мог бы запустить её на по-настоящему мощном железе и сделать этого Стокфиша хотя бы со счётом 10-0 ? То, что в сферическом вакууме Лила - чемпион галактики, все поняли уже давно. А в реале Арасана не обыгрывает...
Нажмите, чтобы раскрыть...

А кто говорит о чемпионе галактики? Насколько можно судить пока сила Лилы на видяхе сопоставима силе переборных движков на соответствующем видяхе по цене проце. Вот на V100 Лила по идее уже должна доминировать, потому что это не видяха, а оптимизированная под нейровычисления штуковина, соответственно она в 2-3 раза производительнее видях при той же цене и энергопотреблении. Но V100 10 килобаксов стоит, как-то дороговато для энтузиастов.

svoitsl · 25 авг 2018

Undying пишет: ↑

Скорость на спарке GTX 1080 сложно оценить из-за перегрева.
Нажмите, чтобы раскрыть...

А почему вы думаете,что перегрев все ещё актуален,может его уже давно устранили,благо время на это было
тут вроде указана скорость без всякого перегрева,и вообще эти GPU довольно популярны и на перегрев ни кто не жаловался

Undying пишет: ↑

Для сравнения у GT 710 за 3 тысячи рублей производительность 360 ГФлопс
Нажмите, чтобы раскрыть...

Не знаю точно сколько моя GT 730 дает Gflops,но nps я думаю порядка 500-600

WinPooh пишет: ↑

кто мог бы запустить её на по-настоящему мощном железе и сделать этого Стокфиша хотя бы со счётом 10-0
Нажмите, чтобы раскрыть...

Ну прям уж настоящее мощное железо мало к кого есть, но если ума нет (в смысле хорошей сети), то железо не поможет, Lc0 запускали уж на 4ХV100 (примерно как 4 TPU Гугла) в тестах CCCC, но это ей не помогло.

WinPooh пишет: ↑

То, что в сферическом вакууме Лила - чемпион галактики, все поняли уже давно.
Нажмите, чтобы раскрыть...

но опять таки с "частицами "бы", "когда", "если" и т. д."
ТО есть не сейчас, и наверно не в этом году, но в будущем (не году, в просто) вполне вероятно

Undying · 25 авг 2018

svoitsl пишет: ↑

А почему вы думаете,что перегрев все ещё актуален,может его уже давно устранили,благо время на это было
тут вроде указана скорость без всякого перегрева,и вообще эти GPU довольно популярны и на перегрев ни кто не жаловался
Нажмите, чтобы раскрыть...

Сами посмотрите по архиву игр. Четкая зависимость. Когда Лила тратила на ход порядка 10 секунд, то скорость была 40-100 кнод/с. А когда порядка минуты, то 15-20 кнод. Скорей всего это как раз перегревом объясняется. За время хода соперника видеокарта остывала, затем сколько-то секунд выдавала около пиковую производительность, потом нагревалась и начинала работать еле-еле. Хотя есть другое объяснение. Что это из-за кэшированных с предыдущего хода позиций скорость поначалу такая высокая. Поэтому не так все ясно, как казалось.

По таблице получается, что связка TITAN V + TITAN XP суммарной производительностью 27 ГФлопс выдает 79 кнод/с. Соответственно спарка 1080 суммарной производительностью 18 ГФлопс должна выдавать порядка 50 кнод/с, а вовсе не те 15-20 кнод/с, которые мы видели на чемпионате. Плюс суперпроц еще должен какой-то прирост был дать, запихивает данные в видеокарту он явно быстрее настольного. Тогда получается, что Лила фактически играла на 30% мощности видеокарт.

Rom · 25 авг 2018

Undying пишет: ↑

А кто знает, для переборных движков десятикратное увеличение производительности какой прирост силы игры дает?
Нажмите, чтобы раскрыть...

Зависит от того, с какого контроля стартует десятикратное увеличение. Если грубо, то даже двукратное увеличение даёт примерно +100 эло в блице и +50 эло на длинных контролях на одном ядре. Если надо точнее, то вот:
http://www.fastgm.de/time-control4.html

WinPooh пишет: ↑

Неужели среди энтузиастов нет никого, кто мог бы запустить её на по-настоящему мощном железе ...
Нажмите, чтобы раскрыть...

Вот тесты на приличном и до некоторой степени сбалансированном железе (правда проц всего лишь четырехядерный):
https://docs.google.com/spreadsheet...USx1jyUrgVEcj8DNLKA7-urBw/edit#gid=1316991135

Конечно блиц, но node per move достаточно приличный. По масштабированию можно посмотреть здесь, в таблице (для большой и средней сети):
https://docs.google.com/spreadsheet...USx1jyUrgVEcj8DNLKA7-urBw/edit#gid=1392971980

svoitsl · 25 авг 2018

Undying пишет: ↑

Соответственно спарка 1080 суммарной производительностью 18 ГФлопс должна выдавать порядка 50 кнод/с
Нажмите, чтобы раскрыть...

как вы можете видеть по той же таблице 10 GTX1080 Ti дают 30 knps, вряд ли можно ждать, что две дадут 50 knps.

Undying · 25 авг 2018

svoitsl пишет: ↑

Не знаю точно сколько моя GT 730 дает Gflops,но nps я думаю порядка 500-600
Нажмите, чтобы раскрыть...

Судя по таблице вчера Лила играла на чем-то вроде GTX 950. То есть на видяхе за 150 баксов против суперпроцов за 8 килобаксов. При этом разница в силе игры всего 150 пунктов. Наглядное свидетельство того, что уже и на бюджетных компах Лила будет сопоставима по силе с топовыми переборными движками.

Rom · 25 авг 2018

svoitsl пишет: ↑

как вы можете видеть по той же таблице 10 GTX1080 Ti дают 30 knps, вряд ли можно ждать, что две дадут 50 knps.
Нажмите, чтобы раскрыть...

Там кто-то всю таблицу изуродовал. У Titan V было 31 knps; у Titan V + XP было 37 knps; у 1080ti было 8,5 knps; у 4xV100 было 78 knps.

У 1080ti скорость мала, потому что не поддерживается половинная точность и нет тензорных ядер. У 4xV100 скорость невелика, потому что нет поддержки игры на четырех видеокартах.

Undying · 25 авг 2018

svoitsl пишет: ↑

Undying пишет: ↑

Соответственно спарка 1080 суммарной производительностью 18 ГФлопс должна выдавать порядка 50 кнод/с
Нажмите, чтобы раскрыть...

как вы можете видеть по той же таблице 10 GTX1080 Ti дают 30 knps, вряд ли можно ждать, что две дадут 50 knps.
Нажмите, чтобы раскрыть...

По таблице можно только очень грубо судить. Там даже проц не указан и правильно ли настраивали вопрос. Но по логике надо на максимальные результаты ориентироваться, т.к. на чемпионате и проц был супер и настройки правильные.

svoitsl · 25 авг 2018

Rom пишет: ↑

У 4xV100 скорость невелика, потому что нет поддержки игры на четырех видеокартах.
Нажмите, чтобы раскрыть...

Может и так, но все таки на СССС она вполне уверено давала 70-80 knps, что примерно равно 4TPU Гугла, что правда LC0 не сильно помогло.
Хотя и пишут что поддержка мультиGPU не поная

Rom · 25 авг 2018

Undying пишет: ↑

Что это из-за кэшированных с предыдущего хода позиций скорость поначалу такая высокая. Поэтому не так все ясно, как казалось.
Нажмите, чтобы раскрыть...

Чтобы не учитывалось кеширование нужно смотреть скорость на первом самостоятельном ходу в партии.

—- добавлено: 25 авг 2018 —-

svoitsl пишет: ↑

Может и так, но все таки на СССС она вполне уверено давала 70-80 knps, что примерно равно 4TPU Гугла, что правда LC0 не сильно помогло.
Хотя и пишут что поддержка мультиGPU не поная
Нажмите, чтобы раскрыть...

Ну правильно, те же 78 knps, что и в бенче. По масштабированию на 4 карты crem писал:
http://talkchess.com/forum3/viewtopic.php?f=2&t=68253&p=772023#p772023

I don't have 4x V100 to test, but from the size of typical batch size that Lc0 can gather and mutex contention that we currently have, it's expected that above 2 GPUs currently Lc0 doesn't scale at all.
Нажмите, чтобы раскрыть...

Undying · 25 авг 2018

Rom пишет: ↑

Чтобы не учитывалось кеширование нужно смотреть скорость на первом самостоятельном ходу в партии.
Нажмите, чтобы раскрыть...

Согласен. Посмотрел. На первом ходу скорость плавала от 14 до 28 кнод/с. Вероятно это говорит о том, что видяха успевала перегреться уже на первом ходе. Иными причинами объяснить столь большую разницу сложно. Но насколько перегрев замедлял работу сложно понять, т.к. время хода обычно было одинаковое, порядка минуты.

Polarity · 26 авг 2018

Я тестил Lc0 на 8x1080. Полностью загрузить мне удалось 5 видеокарт одновременно, а дальше идёт даже небольшое падение производительности. Я совсем уж детально в коде не разбирался, но на мой взгляд там действительно понатыкано как-то слишком много блокировок и возможно не совсем оптимальным образом. Мне кажется, в DeepMind тоже столкнулись с этой проблемой. Поэтому они использовали всего лишь 4TPU, т. к. поняли, что дальше добалять их бессмысленно.
Надо помнить, что скорость расчёта ещё очень сильно зависит от текущей позиции. Как правило, скорость расчёта максимальна в самом начале игры и значительно проседает где-то в середине, т. к. доступно не так много "любопытных" ходов для нейронки.
Скорость расчёта ещё зависела от версии нейросети.
Сила игры кажется не сильно зависела от количества ресурсов, начиная с некоторого момента. В дискорде даже высказывались мнения, а нужны ли все эти 80k NPS, которые выдавал движок A0.

svoitsl · 26 авг 2018

Polarity пишет: ↑

Поэтому они использовали всего лишь 4TPU, т. к. поняли, что дальше добалять их бессмысленно.
Нажмите, чтобы раскрыть...

Для обучения они вполне успешно загрузили 5000 TPU, вряд ли для игры было уж так трудно загрузить 5

Rom · 26 авг 2018

svoitsl пишет: ↑

Для обучения они вполне успешно загрузили 5000 TPU, вряд ли для игры было уж так трудно загрузить 5
Нажмите, чтобы раскрыть...

Для обучения требуется множество независимых друг от друга партий. У всех партий по 800 nodes per move. То есть, на одном TPU играется, скажем, 100 параллельных партий одновременно, по 800 npm каждая. Эти партии не взаимодействуют друг с другом. Так можно распараллеливать сколько угодно, хоть на миллион TPU. Потому что взаимодействие между TPU не требуется.

В то время как в турнирном режиме мы играем всего лишь одну партию, скажем, по 80000 npm. Поэтому потоки на ядрах/видеокартах должны помогать друг другу. Обмениваться информацией. Для последовательных алгоритмов, таких как альфа-бета или MCTS, это очень непростая задача. Для альфа-беты обычных движках эту проблему недавно решили (там сейчас почти линейное масштабирование по ядрам), а вот для MCTS нейросетевых движков по-видимому пока нет. Может даже и не пытались ещё.

Sergey1983 · 26 авг 2018

Для игры нейронки достаточно высокой размерности вполне возможно удалось бы расспараллелить, так как насколько я себе представляю там параллельно считается большее число преобразований фурье которые сами по себе хорошо расспараллельливаються, другое дело что возможно они не хотели отпугивать потенциальных клиентов получившимися аппаратными требованиями технологии ИМХО.

Rom · 27 авг 2018

Параллельно там считается умножение. Это основная операция. Перемножаются трехмерные матрицы. То есть значения в ячейках одной трехмерной таблицы умножаются на соответствующие им значения в ячейках другой таблицы. Понятно, что это легко можно сделать параллельно.

Но с такими операциями справляется и одна видеокарта, причем с большим запасом по мощности. Сложности начинаются дальше. Проделав все эти вычисления мы получим оценку одной позиции (node, узла). Проблема заключается в том, что используя последовательный алгоритм MCTS мы не можем выбрать следующую позицию для оценивания, пока не получим оценку предыдущей.

Чтобы сгладить проблему сейчас используется такой трюк, как оценка авансом сразу большого количества позиций одним пакетом в 256 штук. В надежде, что следующая позиция окажется среди них. Но такой подход работает только до определенного предела. И опять же с таким пакетом должна (и может) справляться одна видеокарта. Так что проблема последовательного алгоритма не решается.

Может, конечно существует простое решение или всё решится как-то само собой, но пока о чем-либо подобном я не слышал.

pavelgttfj8 · 27 авг 2018

Rom пишет: ↑

Для альфа-беты обычных движках эту проблему недавно решили (там сейчас почти линейное масштабирование по ядрам)
Нажмите, чтобы раскрыть...

Где почитать про это?

Rom · 27 авг 2018

pavelgttfj8 пишет: ↑

Где почитать про это?
Нажмите, чтобы раскрыть...

Я могу кратко рассказать, подробности по ссылкам ниже.

Проблема распараллеливания альфа-беты существует уже сорок лет - с тех пор как в широкий обиход вошли многопроцессорные системы.
https://www.chessprogramming.org/Parallel_Search

По сути, существуют два подхода к распараллеливанию в обычных движках.
- Либо использовать почти независимые потоки, каждый со своим деревом перебора, а обмен информацией среди них производить через общую хэш-таблицу (Shared Hash Table). Простой, дешевый в разработке, но неэффективный подход. Нормально работает обычно не более чем на 2-х потоках. Номинально, суммарная скорость потоков большая, но прибавки к силе почти нет.
- Либо использовать фактически единое дерево перебора, где мастер-поток начинает перебор, расщепляет дерево перебора на отдельные группы, а остальные потоки ждут от него заданий в порядке очереди (Alpha-Beta Splitting). Подход неплохо работает до 8-ми ядер, но постепенно проблема обеспечения работой младших потоков становится всё более и более серьёзной. Младшие потоки ждут и общая скорость падает. Кроме того, подход сложен в реализации.

До 2015 года наиболее популярным методом был YBW(C), реализующий второй подход. Но с недавних пор, практический все ведущие движки перешли на метод Lazy SMP. А он реализует первый подход!
https://www.chessprogramming.org/Lazy_SMP

До сих пор не совсем понятно, почему метод LazySMP реально работает. Он сохраняет все достоинства первого подхода, но отлично масштабируется на большое число ядер. Многие по прежнему не считают его эффективным и даже называют примитивным. Возможно не у всех он работает достаточно хорошо. Но ведущая тройка движков была вынуждена перейти на него, иначе они проигрывали в TCEC. Для Стокфиша тесты показывают, что по крайней мере до 384-х потоков, метод LazySMP при удвоении ядер дает очень хорошую прибавку в силе, возможно такую же, как и при удвоении времени.

WinPooh · 27 авг 2018

Rom пишет:

"Нормально работает обычно не более чем на 2-х потоках. Номинально, суммарная скорость потоков большая, но прибавки к силе почти нет."
...
"До сих пор не совсем понятно, почему метод LazySMP реально работает. Он сохраняет все достоинства первого подхода, но отлично масштабируется на большое число ядер."
Нажмите, чтобы раскрыть...

Какие-то взаимоисключающие параграфы. Так "нет прибавки", или "отлично масштабируется"? Или, кроме общей хэш-таблицы, у LazySMP есть ещё какая-то фишка, с которой-то всё и заработало?

Rom · 27 авг 2018

WinPooh пишет: ↑

Какие-то взаимоисключающие параграфы. Так "нет прибавки", или "отлично масштабируется"? Или, кроме общей хэш-таблицы, у LazySMP есть ещё какая-то фишка, с которой-то всё и заработало?
Нажмите, чтобы раскрыть...

В этом и заключается вся парадоксальность момента, которую я хотел подчеркнуть. Раньше не работало, а сейчас заработало . А почему, никто толком не знает. Авторы Стокфиша даже удостоились отповеди от Роберта Хьятта, когда захотели реализовать Lazy SMP. А уж он то на распараллеливании собаку съел:

by bob » Wed Sep 09, 2015 5:46 am

I normally always respond to questions about this topic, but not in this case. You guys like to act childish and make clever insulting remarks, so rather than explaining why this is a poor approach, I'll leave it as an exercise for you to work out for yourself, WITHOUT telling you what was known about this approach 30+ years ago. And it WAS done back then by at least two different groups.
Нажмите, чтобы раскрыть...

http://www.talkchess.com/forum3/viewtopic.php?t=57572#p640349

Фишки есть, но кажется не у всех они работают. Главная проблема - как обеспечить, чтобы каждый поток считал разное дерево:

by Edsel Apostol » Wed Aug 22, 2018 1:53 pm

I first implemented a basic shared hash table, but I noticed that the threads seems to finish the iteration almost at the same time, returning the same score and principal variation. This is probably due to the fact that the single thread search is deterministic still and they are sharing the transposition table and the principal variation hash table.
Нажмите, чтобы раскрыть...

http://talkchess.com/forum3/viewtopic.php?f=7&t=68278

Но авторам Стока это удалось:

by mcostalba » Sat Oct 24, 2015 8:30 pm

Regarding lazy SMP I only add that is far from trivial to get something that works well: many SF developers (me included) have tried and failed before one of us, known by alias mbootsector, come up with the good one. Then many people improved above it, as is common in our development model. So the fact that you didn't get success with lazy SMP does not yield a lot of info per se.
Нажмите, чтобы раскрыть...

http://www.talkchess.com/forum3/viewtopic.php?f=7&t=58031&start=20#p646031

Тонкостей я не знаю, но основная фишка метода заключается в том, что вариативность потоков обеспечивается переменной глубиной перебора для каждого потока и независимой сортировкой ходов:
https://www.chessprogramming.org/Lazy_SMP

nn · 27 авг 2018

Потоки общаются только через хэш. Главный поток в итеративном поиске последовательно считает все глубины по очереди.

У самой первой версии последующие потоки начинали поиск со все более и более большой начальной глубины, которая вычислялась по какой-то простой формуле, а последующие их итерации были как обычно depth+1.
Это было достаточно, чтобы появилась существенная прибавка по сравнению с ybwc.
Потом формула для начальной глубины стала логарифмической.
Потом формула того, каким потокам что считать, была обобщена с пропуска только начальных глубин, чем по сути является выбор начальной глубины, до пропуска и каких-то последующих глубин. Формула задавалась матрицами явно - какую глубину и для какого потока считать или пропускать. Остановились на half-density matrices (Главный считает все, следующие два пропускают глубины через одну, следующие четыре две глубины считают, две пропускают, и т.д. ). Потом эти матрицы под аргументом упрощения сами начали задаваться формулами, а потом и эти формулы изменились немного, так что там нужно разбираться кто, что и когда считает.

При игре поиск останавливается главным потоком по его обычным критериям. Небольшую прибавку дает выбор лучшего хода из найденного другими потоками, если их глубина больше (здесь тоже много менялось, может уже условие немного другое)

Есть еще простая поддержка NUMA, хотя более сложная (но значительно более сложная) давала какую-то не очень большую прибавку.

WinPooh · 27 авг 2018

KEV81 пишет: ↑

Я, конечно, совсем тупой )
...но почему бы просто не дать каждому ядру по своему ходу? (ТТ, разумеется, общая)
Нажмите, чтобы раскрыть...

Ходы слишком разные по стоимости? Одному из потоков достанется ход, проигрывающий ферзя, он быстро поймёт, что там все плохо, и закончит работу, будет простаивать. Или выполнять бесполезные вычисления.
Хотя алгоритмы типа "младшего брата" что-то такое и делали.

Rom · 27 авг 2018

KEV81 пишет: ↑

Я, конечно, совсем тупой )
...но почему бы просто не дать каждому ядру по своему ходу? (ТТ, разумеется, общая)
Нажмите, чтобы раскрыть...

Вроде бы кто-то пробовал расщепление в корне. Многие пробуют метод ABDADA, который отличается тем, что вешает табличку "занято" на исследуемые в текущий момент узлы. Но для Стока и, насколько мне известно, остальных ведущих движков, оказалось правильным по минимуму ограничивать потоки в их возможностях (кроме хэша).

Mustitz · 27 авг 2018

Rom пишет: ↑

Поэтому потоки на ядрах/видеокартах должны помогать друг другу. Обмениваться информацией. Для последовательных алгоритмов, таких как альфа-бета или MCTS, это очень непростая задача. Для альфа-беты обычных движках эту проблему недавно решили (там сейчас почти линейное масштабирование по ядрам), а вот для MCTS нейросетевых движков по-видимому пока нет.
Нажмите, чтобы раскрыть...

AlphaGo прекрасно работал на гигантском кластере: для работы AlphaGo использовались 1920 процессоров и 280 графических процессоров, работающих в распределённой сети. Вообще, распараллелить MCTS вообще не проблема (ИМХО). Неужели тяжело выбрать вместой одной позиции сразу 1000 кандидатов для симуляции? Преимущество MCTS перед Alpha-Beta как раз в том, что позволяет эффективно строить такие кластеры. Один сервер раздаёт позиции для симуляций, получает тексты партий и аккумулирует статистику. Остальные заняты независимыми симуляциями. Нам не надо иметь общий многогигабайтный хеш позиций и работать с ним.

Jadn · 27 авг 2018

Rom пишет: ↑

метод LazySMP при удвоении ядер дает очень хорошую прибавку в силе, возможно такую же, как и при удвоении времени
Нажмите, чтобы раскрыть...

Интересно, я не знал, что AB научились нормально масштабировать. Тогда вопрос, почему авторы Лилы решили спаривать нейросети с MCTS? Потому, что в Го хорошо получилось?

sovaz1997 · 27 авг 2018

Потому, что Alpha Zero показала хорошие результаты в разных играх, в т. ч. и шахматах, думаю

Rom · 27 авг 2018

Jadn пишет: ↑

Интересно, я не знал, что AB научились нормально масштабировать. Тогда вопрос, почему авторы Лилы решили спаривать нейросети с MCTS? Потому, что в Го хорошо получилось?
Нажмите, чтобы раскрыть...

Сейчас авторы Лилы поставили себе задачу повторить результат DeepMind, а улучшениями займутся потом. В том числе и потому, что при использовании других методов хорошие результаты никто не гарантирует.

Войти или зарегистрироваться

AlphaZero. Нейронная сеть играет в шахматы

WinPooh В.М.

pavelgttfj8 Учаcтник

Undying Учаcтник

Undying Учаcтник

Sergey1983 Учаcтник

WinPooh В.М.

Undying Учаcтник

WinPooh В.М.

Undying Учаcтник

svoitsl Учаcтник

Undying Учаcтник

Rom Старожил

svoitsl Учаcтник

Undying Учаcтник

Rom Старожил

Undying Учаcтник

svoitsl Учаcтник

Rom Старожил

Undying Учаcтник

Polarity Новичок

svoitsl Учаcтник

Rom Старожил

Sergey1983 Учаcтник

Rom Старожил

pavelgttfj8 Учаcтник

Rom Старожил

WinPooh В.М.

Rom Старожил

nn Старожил

WinPooh В.М.

Rom Старожил

Mustitz Заслуженный

Jadn Заслуженный

sovaz1997 Учаcтник

Rom Старожил

Поделиться этой страницей