AlphaZero. Нейронная сеть играет в шахматы

nn · 16 янв 2018

NS пишет: ↑

nn пишет: ↑

Да, сыграл две партии - абсолютно одинаковы
Нажмите, чтобы раскрыть...

Всё немного сложнее.
При построении дерева перебора из 1600 узлов - случайностей нет. В каждой позиции выбирается ход с максимальным весом.
После построения дерева перебора - мы получаем для каждого хода из обдумываемой позиции - количество раз, сколько раз он исполнялся при построении дерева перебора.
А дальше уже вносится элемент случайности. Программа может сделать любой из возможных в позиции ходов, и вероятность сделать ход пропорциональна степени количества исполнений этого хода (в какую степень возводим - это параметр, которым регулируется рандомность игры)
То есть при построении дерева перебора рандомности нет. При исполнении хода (игре) рандомность есть, и её можно регулировать.
Нажмите, чтобы раскрыть...

По всей видимости там сейчас ошибка в коде при рандомизации. Возможно из-за этого также плохо исследовала другие ветки, и, например, мата не видела.

NS · 16 янв 2018

При исследовании - нет рандомности. Каждый раз при обдумывании одной и той-же позиции строится одинаковое дерево перебора. А вот ход делается разный.
Перебор в данном случае выдает сколько раз встретился в дереве каждый ход.
Лучшим считается ход который встретился больше раз, а вот делает программа не всегда его.

nn · 16 янв 2018

Сейчас и при игре нет
https://github.com/glinscott/leela-chess/issues/20#issuecomment-357761209

SkipperNorton · 19 янв 2018

Интересно, сколько очков АльфаЗеро набрала бы против 32-фигурной таблицы Налимова. Второй интересный момент, что с определенного времени самообучения ИИ перестает усиливаться и рейтинг застывает в районе 3500.
Нажмите, чтобы раскрыть...

1) почему Налимова? Налимов - только один из разработчиков эндшпильных баз, а есть и другие, этим занимался
даже Томпсон в своё время. Налимов сделал до 6 фигур, вот если сделает 32-фигурные, тогда и будем говорить
"32-фигурной таблицы Налимова".

А пока просто говорим - против 32-фигурной базы. А то приписываете некие лишние заслуги.

Ну а сколько набрал бы очков - я могу предположить.

Никто не понимает, какая там пропасть по силе в игре.
Предположим, средняя партия "почти на равных" у них будет продолжаться не более 80 ходов, а
изначальная позиция шахмат - ничейна.
Но таблицы никогда не ошибуться, в то время как - достаточно шахматной программе с 3600-рейтингом,
сделать хотя бы одну ошибку из 80 ходов - и проигрыш далее неминуемый.

Даже при абсолютно безошибочной игре в 90% ходах, (т.е. пусть Альфа-Зеро выбирает явно оптимально лучший ход),
на протяжении 80 ходов, будет совершена хотя бы одна ошибочка, ведущая к поражению -
с вероятностью около 0,6, т.е. 60% партий будут явно проиграны,
40% закончатся в ничью, и ни одной партии из 100, Альфа-Зеро (ну или Стокфиш, неважно, короче прога с 3600 рейт.) не выиграет.
А значит очков будет набрано только 20%.

Но программу, играющую по 32-фигурным базам, можно настроить так чтобы она выбирала ветки, ведущие
к усложению и затягиваю игры с достаточным материалом, при этом никогда по прежнему не будет делать ошибок.
Если удасться в среднем "затянуть" сопротивление (вместе с эндшпилем) в 2 раза, т.е. до 160 ходов,
(и это реально, хотя у людей такие партии встреаются редко, уже у 7-фигурных таблиц случаются выигрыши в 549 ходов),
то вероятность изменится так, что Альфа-Зеро с рейтом в 3600, наберет против 32-фигурных таблиц только 18%.
Т.е. проиграет 82 партии из 100, и 18 сведет в ничью и ни одной не выиграет.

Но спорно еще и утверждение что программа с рейтингом в 3600 в 90% случаев угадывает лучшие и оптимальные
ходы, тут может быть и 85% и 80% и даже меньше.

Потому - моё мнение таково -
Играй даже продвинутый АльфаЗеро (или Стокфиш - неважно), короче, программа
с рейтингом в 3600, —- против 32-фигурных шахматных баз - 100 партий -

результат будет таким - 95 партий проиграет, 5 партий сведет в ничью, и ни одной не выиграет.

Вот по этим результатам, посчитайте какой примерно рейтинг у программы играющей по 32-фигурным таблицам,
т.е. рейтинг The-Best-линии. ?

Jadn · 19 янв 2018

Кроме базы должна быть еще программа, с ней работающая. Современные движки, если не ошибаюсь, просто берут любой ход, не меняющий оценку. А, например, в начальной позиции для белых это, думаю, вообще любой ход. Поэтому если свести такую прогу со Стокфишем, она сначала загонит себя в полную ***, а потом будет спасаться единственными ходами, и все партии закончатся вничью. Да и с человеком будет тот же результат.
Между прочим, я смутно припоминаю, что читал фантастический рассказ о подобном шахматном автомате, причем, еще советский, но название вспомнить не могу.

ШахматыЭтоДиагноз · 19 янв 2018

Jadn пишет: ↑

Современные движки, если не ошибаюсь, просто берут любой ход, не меняющий оценку. А, например, в начальной позиции для белых это, думаю, вообще любой ход.
Нажмите, чтобы раскрыть...

Как-то это сомнительно. В начальной позиции есть 4-5 ходов не меняющих оценку, остальные по сути ведут к потере темпа белыми и уменьшению их первоначального преимущества (и без того недостаточного для победы). В дальнейшем в каждой позиции вряд ли будет более 3-5 примерно равноценных продолжений, а в некоторых такие ходы будут вообще единственными.

Комсюк · 19 янв 2018

SkipperNorton пишет: ↑

вероятность изменится так, что Альфа-Зеро с рейтом в 3600, наберет против 32-фигурных таблиц только 18%.
Т.е. проиграет 82 партии из 100, и 18 сведет в ничью и ни одной не выиграет.
Нажмите, чтобы раскрыть...

18 ничьих это 9%

Rom · 20 янв 2018

На Талкчесс не так давно выкладывались интересные тесты, показывающие что эндшпильные базы при определенных обстоятельствах могут даже вредить. При игре со слабым противником наличие баз у движка давало отрицательные результаты:
http://talkchess.com/forum/viewtopic.php?p=735047#735047

Разыгрывались несбалансированные эндшпильные позиции от 7 до 9 фигур движками с 6-фигурными базами и движками без баз.

Mustitz · 20 янв 2018

Jadn пишет: ↑

Поэтому если свести такую прогу со Стокфишем, она сначала загонит себя в полную ***, а потом будет спасаться единственными ходами, и все партии закончатся вничью.
Нажмите, чтобы раскрыть...

Как я понимаю, можно взять две версии AlphaZero. Только в одной из них все хода, которые по таблицам уменьшают оценку, признать невалидными.

Jadn · 20 янв 2018

Mustitz пишет: ↑

Jadn пишет: ↑

Поэтому если свести такую прогу со Стокфишем, она сначала загонит себя в полную ***, а потом будет спасаться единственными ходами, и все партии закончатся вничью.
Нажмите, чтобы раскрыть...

Как я понимаю, можно взять две версии AlphaZero. Только в одной из них все хода, которые по таблицам уменьшают оценку, признать невалидными.
Нажмите, чтобы раскрыть...

И типа переобучить? Ну, не знаю, имхо, вряд ли оценочная функция AZ от этого сильно изменится.

WinPooh · 20 янв 2018

Тем временем, первый номер рейтинга Ке Цзе "не вышел из дебюта" в игре с Fine Art на двух камнях форы.
http://eidogo.com/#EUexCx07

Boroda · 20 янв 2018

SkipperNorton пишет: ↑

результат будет таким - 95 партий проиграет, 5 партий сведет в ничью, и ни одной не выиграет.
Нажмите, чтобы раскрыть...

Rom пишет: ↑

На Талкчесс не так давно выкладывались интересные тесты, показывающие что эндшпильные базы при определенных обстоятельствах могут даже вредить. При игре со слабым противником наличие баз у движка давало отрицательные результаты:
Нажмите, чтобы раскрыть...

Предположим, что у AlphaZero рейтинг 3600 а у 32-х фигурной базы 4200.
Вопрос сколько возможных побед может отсечь, 32 фигурная база, если на ходу так примерно 80, 90, 100, увидит для себя проигрыш? Возможных побед потому, что AlphaZero с рейтингом 3600 эти выигрышные ходы так и не увидит?
А вот если сделать прогу, с ретингом близким к 4200, но еще более умную чем 32 фигурная база и запустить матч с AlphaZero из 100 игр. После первых 10-15 игр наша прога прощупывает рейтинг AlphaZero и понимает, что AlphaZero выигрышь на 80, 90, 100 ходах не увидит и начинает не много рисковать, но за счёт более высокого уровня игры, выигрывает все 100 партий из 100?
Я это всё к тому что 32 фигурная база по отношению к третьему игроку, не всегда самый сильный соперник))

nh2008 · 20 янв 2018

Boroda пишет: ↑

Предположим, что у AlphaZero рейтинг 3600 а у 32-х фигурной базы 4200.
Нажмите, чтобы раскрыть...

Не слежу за дискуссией. Можете пояснить что такое 32-х фигурная база?

Комсюк · 20 янв 2018

nh2008 пишет: ↑

Можете пояснить что такое 32-х фигурная база?
Нажмите, чтобы раскрыть...

типа шахматного коммунизма

nn · 20 янв 2018

Самая интересная игра игра - ним. Потому что правильный ход мгновенно вычисляется из аналитического представления n*m -фигурной эндшпильной базы. Для соперника непрерывные поражения выглядят очень загадочно. Главное направлением взгляда делать вид, что увеличиваешь глубину расчета, и не закатывать глаза вверх, что является признаком математических вычислений

SkipperNorton · 20 янв 2018

Предположим, что у AlphaZero рейтинг 3600 а у 32-х фигурной базы 4200.
Вопрос сколько возможных побед может отсечь, 32 фигурная база, если на ходу так примерно 80, 90, 100, увидит для себя проигрыш?
Нажмите, чтобы раскрыть...

Да ничего она не отсекает, в случае если видит одинаковые по оценкам ходы.
Т.е. программа имеющая такую базу - сразу видит к примеру - пойду 1) e4, 1) d4 1) c4 —- попадаю в ничейную позицию,
у которой у чёрных будет по 3-4 ответа - тоже с ничейной оценкой, иначе проиграют.

Пойду 1) Kf3, 1) b3 , Kc3 — тоже ничейная, только у черных больше вариантов сохранить ничью.

Пойду любой другой ход - вообще в проигрышную позицию попадаю.

Программа может конечно просто выбрать любой ход, зная оценки только на один полуход вперед, тогда очков меньше
наберет. Но вот если она будет смотреть что там по базам получается у противника на глубине 5-6 полуходов,
то она не просто выберет ход, ведущий в ничейную позицию. Она выберет ход, который минимизирует возможность
не ошибиться противнику в ближайшие 5-6 ходов, и не попать в проигрышну. для себя позицию.

Занимаясь таким анализом в течении всей партии, на протяжении 80 ходов, и даже 150 ходов
(программа сможет выбирать самые сложные затягивающие варианты) - сведет вероятность не ошибиться
у продвинутой Альфа-Зеро или Стокфиша, или др. программы с рейтингом в 3600 - до такого уровня, что вот
именно это и произойдёт как я написал - у них -

результат будет таким - 95 партий проиграет, 5 партий сведет в ничью, и ни одной не выиграет.

А то может даже и 5 партий вничью не свести.
Я сам программировал и анализировал эти базы (7-фигурки вообще все могу сгенерить,
только компьютерные мощности нужны и денежки на них), и уж хорошо видел,
какие там вообще возможности открываются.
Так что уверяю вас, даже если создадуд шахматную программу с рейтингом в 4000 - это еще далеко не предел.
А то некоторые ошибочно возомнили, что человечество с нынешними программами уже чуть ли не уровня Бога в шахматах достигает

Boroda · 20 янв 2018

nh2008 пишет: ↑

Boroda пишет: ↑

Предположим, что у AlphaZero рейтинг 3600 а у 32-х фигурной базы 4200.
Нажмите, чтобы раскрыть...

Не слежу за дискуссией. Можете пояснить что такое 32-х фигурная база?
Нажмите, чтобы раскрыть...

Гипотетическая эндшпильная база типа Налимова, только не на 6 фигур, а на 32.
В принципе её можно заменить квантовым компьютером, который решил шахматы))

Нестор · 20 янв 2018

Фантазеры ...

Boroda · 20 янв 2018

SkipperNorton, Но вы же пишите про 5 ничейных партий. Вы хотите сказать, что это те ходы AlphaZero, при которых база, не выиграла бы вообще ни при каких вариантах? То есть, даже если бы она рискнула проиграть в этих вариантах и сильно обострила бы игру, всё равно бы не выиграла? То есть риск на таком высоком уровне игры абсолютно ни чего не даёт?
Вот например играет 6 фигурная база с человеком новичком. Позиция у них ничейная. И новичок легко доводит эту игру до ничьи. А теперь играет новичок и прога скажем MegaAlphaZero+ и прога решает, "а я пожалуй рискну и тупо жертвует фигуру". Новичек от этого хода входит в ступор начинает нервничать и делает совершенно глупых ход и MegaAlphaZero+ спокойно выигрывает игру!))

SkipperNorton · 20 янв 2018

Гипотетическая эндшпильная база типа Налимова, только не на 6 фигур, а на 32.

Нужно еще не просто пользоваться базой на один полуход вперед, а при одинаковых оценках - анализировать
варианты которые получаются на глубине несколько полуходов - т.е. минимизировать вероятность не ошибиться противнику.
Шахматы - это такая игра, в которой существуют позиции, неотличимые по оценкам нейронной сети (и мозга), но вместе с тем,
имеющие разные (теоретические) оценки.
Пример - возьмите позицию из 7-фигурной базы, где белые выигрывают в 545 ходов, и сравните ее
с позицией где белые выигрывают но уже в 350 ходов. Ни человеческий мозг, ни одна нейронная сеть - часто неспособны будут
вообще понять, в чём же преимущество второй позиции над первой. Это чистая комбинаторика, и только программа
имеющая доступ к 32-фигурным базам - будет это видеть и понимать.

Если бы так человек мог ко всему совершенствоваться, то вот аналогичный пример - разложите на два множителя
число, длиной в 1000 десятичных цифр! Случаи факторизации в большинстве своём неотличимы
по функции нелинейной оптимизации, благодаря которой эти нейронные сети и обучаются!.
Потому и ни один человек не сможет решать подобную задачу, и её не сможет решить
ни одна нейронная сеть (ИИ - искусственный интеллект компьютера).
Иначе злоумышленники давно бы уже создали такую нейронную
сеть и взламывали бы любые шифры и пароли к базам данных банков и фондовых бирж.
и на этом можно было бы "заработать" миллиарды долларов.
(т.е. нейронную сеть невозможно этому обучить - нет критериев оптимизации для
этого). А 32-фигурная база по отношению к шахматам, это аналогично как уже сохранненная база
всех множителей для чисел длиной в 1000 цифр. Вот аналогия.

Отсюда следует, что если бы имелась 32-фигурная база.. Скажем, прилетели инопланетяне с ней и предложили
сыграть партию в шахматы с человечеством.
Такую что : 1) анализирует Карлсен + 20 лучших гроссмейстеров, 2) пользуются Стокфишем + продвинутой нейро-сетью
Альфа-Зеро, + 3) играют белыми и тратят неделю на каждый один ход -
и всё равно инопланетяне чёрными, с такой 32-фигурной базой - могли бы построить такую игру, в которой
минимизировали бы вероятность не ошибиться противнику, и в 95% партий (а то и больше) - добились бы победы.

Дело в том, что партия может продолжаться и 100 и 200 ходов, а чтобы проиграть в такой партии, достаточно
всего лишь одной ошибки. и вероятность хотя бы одной ошибки (на этом множестве) растет именно
с экспоненциальной скоростью в зависимости от количества ходов.
И программа с 32-фигурной базой уже ни одну ошибку точно не простит, и победу не упустит.

Так что шахматные программы еще долго будут совершенствоваться и даже будущий рейтинг
в 4000 - это еще далеко не предел.

Это область математики и мат.статистики.

SkipperNorton · 20 янв 2018

вы же пишите про 5 ничейных партий. Вы хотите сказать, что это те ходы AlphaZero, при которых база, не выиграла бы вообще
ни при каких вариантах? То есть, даже если бы она рискнула проиграть в этих вариантах и сильно обострила бы игру, всё равно бы не выиграла?

Скажу точнее - для программы имеющей доступ к 32-фигурным базам, вовсе не обязательно будет рисковать что то жертвовать и т.д.
чтобы осложнить игру, и увеличить вероятность выигрыша, вместе с тем получив (кратковременно) проигрышные для себя позиции.
Скорее всего, стартовая шахматная позиция ничейна, но даже в рамках этого "ничейного множества" - достаточно вариантов,
когда : 1) ничем не рискуешь, т.е. при лучшей игре противника всё равно ничья будет, 2) усложняешь или затягиваешь игру так, что
вероятность не ошибиться у противника, не имеющего 32-фигурных баз - будет устремляться к нулю.

это те ходы AlphaZero

Я просто допускаю возможность что лучшая программа AlphaZero хотя бы в 5% партий сможет не ошибиться ни разу на большом множестве ходов.
Но это пока недоказуемо. Может и меньше чем 5% ничьих у нее будет. Но то, что она ни разу никогда не выиграет у программы
с 32-фигурной базой, даже с миллионом партий (1.000.000) - вот это уже совершенно точно!
Выиграть точно невозможно. Но игра будет интересной.

Jadn · 20 янв 2018

SkipperNorton пишет: ↑

Она выберет ход, который минимизирует возможность
не ошибиться противнику в ближайшие 5-6 ходов, и не попать в проигрышну. для себя позицию.
Нажмите, чтобы раскрыть...

Это будут форсированные варианты и размены.
Вообще, можно провести эксперимент. Взять какой-нибудь эндшпиль, ничейный, но не тривиальный, например Л+С против Л, или Ф+2 крайние пешки против Ф, и посмотреть, как его будут разыгрывать по базам против движка без баз.

SkipperNorton · 20 янв 2018

можно провести эксперимент. Взять какой-нибудь эндшпиль, ничейный, но не тривиальный, например Л+С против Л, или Ф+2 крайние пешки против Ф, и посмотреть, как его будут разыгрывать по базам против движка без баз.
Нажмите, чтобы раскрыть...

Можно. Только движок должен быть специалзированный. Т.е. не просто -
1) помотрел в базу на глубину 1 полуход, увидел что из 40 варантов - 20 приводят к ничьёй, и любой ход из них рандомно выбрал.

а так -

1) посмотрел в базу на глубину 5-6 полуходов и даже больше, и увидел, в каких случаях у противника минимизируется
вероятность не сделать ошибку, т.е. меньше множесто ходов при которых он не проигрывает.

Только я такой программы не писал сам, и еще не видел, чтобы она где то существовала.
Но по факту, ее можно и создать, было бы желание.

А то что ферзь + две связанные крайние пешки не выигрывает против ферзя, это конечно сенсационная новость была. После того как было обнаружено с генератором эндшпильных таблиц.

nh2008 · 20 янв 2018

Boroda пишет: ↑

Гипотетическая эндшпильная база типа Налимова, только не на 6 фигур, а на 32.
В принципе её можно заменить квантовым компьютером, который решил шахматы))
Нажмите, чтобы раскрыть...

Я так и полагал. Тогда вообще не понятно что значит 4200.

—- добавлено: 20 янв 2018 —-

SkipperNorton пишет: ↑

Но то, что она ни разу никогда не выиграет у программы
с 32-фигурной базой, даже с миллионом партий (1.000.000) - вот это уже совершенно точно!
Выиграть точно невозможно. Но игра будет интересной.
Нажмите, чтобы раскрыть...

Это верно лишь в случае, если начальная позиция ничейна. Если же она выиграна, выиграть будет возможно. У Вас есть доказательство, что начальная позиция ничейна?

SkipperNorton · 20 янв 2018

У меня только гипотеза того что начальная позиция ничейна.

Комсюк · 20 янв 2018

nn пишет: ↑

Самая интересная игра игра - ним. Потому что правильный ход мгновенно вычисляется из аналитического представления n*m -фигурной эндшпильной базы. Для соперника непрерывные поражения выглядят очень загадочно. Главное направлением взгляда делать вид, что увеличиваешь глубину расчета, и не закатывать глаза вверх, что является признаком математических вычислений
Нажмите, чтобы раскрыть...

ода ниму
хорошая была тема изначально, теперь там Полоудин

SkipperNorton · 20 янв 2018

Значит, можно и на своём домашнем компьютере запрограммировать эмуляцию нейронной сети,
обучить её (месяц-полгода-год будет играть в шахматы сама с собой) - и получится программа, уровня
Стокфиш или Комодо (Гудини)? И не нужен никакой перебор на глубину в 20 полуходов

А если удачнее чем в Google придумать как учить свою нейронную сеть на компьютере, то может быть
будет играть и лучше чем АльфаЗеро, и против лучшего Стокфиш - наберет 90% очков.
Интересно потом и в адванс играть с такой программой.

Mustitz · 20 янв 2018

SkipperNorton пишет: ↑

1) посмотрел в базу на глубину 5-6 полуходов и даже больше, и увидел, в каких случаях у противника минимизируется вероятность не сделать ошибку, т.е. меньше множесто ходов при которых он не проигрывает.
Нажмите, чтобы раскрыть...

Может оказаться, что такая программа не будет играть по плану, а будет нападать на фигуры в надежде на простые одноходовые зевки.

Boroda · 20 янв 2018

nh2008 пишет: ↑

Я так и полагал. Тогда вообще не понятно что значит 4200.
Нажмите, чтобы раскрыть...

Цифры я тут так, почти с потолка взял, там может быть и 5200. Вообще специалисты наверное могут примерно рассчитать рейтинг такой базы относительно того же стокфиша.

просроченый_кмс · 20 янв 2018

БУДУЩЕЕ, ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ, НОВЫЕ ТЕХНОЛОГИИ, РИСКИ КОМПЬЮТЕРНЫХ СИСТЕМ, РОБОТЫ
ДУМАТЬ САМИМ ИЛИ РАЗУМОМ ИИ?
https://kiwibyrd.org/2017/10/07/1710/

Искусственный интеллект может заменить пилотов в воздушном бою
Робот ALPHA побеждает опытных пилотов-истребителей в каждом бою, используя мощность простого компьютера стоимостью $35
http://zoom.cnews.ru/rnd/news/top/iskusstvennyj_intellekt_mozhet_zamenit_pilotov_v_vozdushnom_boyu

nh2008 · 21 янв 2018

Boroda пишет: ↑

nh2008 пишет: ↑

Я так и полагал. Тогда вообще не понятно что значит 4200.
Нажмите, чтобы раскрыть...

Цифры я тут так, почти с потолка взял, там может быть и 5200. Вообще специалисты наверное могут примерно рассчитать рейтинг такой базы относительно того же стокфиша.
Нажмите, чтобы раскрыть...

- Петька, приборы.
- Тридцать.
- Что "тридцать"?
- А что "приборы"?

Вряд ли такой низкий будет коэффициент. Может быть несколько миллионов, а может быть и миллиардов ...
Вот где есть простор показать класс асам теорвера.

В системе рейтингов Эло принято, что переход от одного класса игры к следующему происходит примерно через 200 пунктов рейтинга (начиная с игроков уровня первого разряда). Если различие между двумя игроками составляет 200 пунктов, то сильнейший игрок набирает в среднем около 0,76 очка за игру, если различие составляет 400 пунктов, то это среднее примерно равно 0,91. Различие в 600 пунктов означает, что сильнейший игрок выигрывает «почти» всегда (в среднем около 0,97 очка за игру).
Нажмите, чтобы раскрыть...

А может быть надо будет придумать какую-нибудь другую оценочную шкалу, т.к. абсолют достигнут.

Jadn · 21 янв 2018

просроченый_кмс пишет: ↑

Искусственный интеллект может заменить пилотов в воздушном бою
Нажмите, чтобы раскрыть...

Есть специальная тема про ИИ, незачем оффтопить в теме про AlphaZero и шахматы.
http://kasparovchess.crestbook.com/threads/6365/

Оптик · 21 янв 2018

Дорогие друзья !
Насколько мне удалось понять , преимущество Альфы было в самообучении - то есть автоматизированном
получении Оценочной Функции . Которая и оказалась более точной чем у Стокфиша (созданная вручную) .

Если это так , возможен ли вариант передачи Гуглом и пересадка в Стокфиш этой самой уточненной ОФ ?

Rom · 21 янв 2018

Оптик пишет: ↑

Дорогие друзья !
Насколько мне удалось понять , преимущество Альфы было в самообучении - то есть автоматизированном получении Оценочной Функции . Которая и оказалась более точной чем у Стокфиша (созданная вручную) .

Если это так , возможен ли вариант передачи Гуглом и пересадка в Стокфиш этой самой уточненной ОФ ?
Нажмите, чтобы раскрыть...

Увы, как показывает пример Го, обученной нейросетью Гугл вряд ли поделится. Так что придется обучать самостоятельно.

Оценочная функция Стокфиша, кстати, тоже отчасти настраивается автоматически. Оцениваемые параметры выбираются вручную, но подбор "весов" для этих параметров автоматизирован. В целом, ОФ Стока конечно намного слабее, но зато работает быстрее. До появления правильных методов тренировки нейросетей скорость была эффективнее качества оценки для шахматных движков. Кстати, разобрать оценочную функцию Стока "на пальцах" можно здесь:
https://hxim.github.io/Stockfish-Evaluation-Guide/

Нейросетка Альфы не только берёт на себя обязанности Оценочной Функции, но отчасти и Функции Поиска. То есть, помимо оценки позиции, она ещё и рекомендует перспективные ходы. В этом отношении её рекомендации пересекаются с переборными эвристиками Стокфиша. Возможно (но не обязательно) здесь может возникнуть дублирование, избыточный счёт и соответственно неэффективная работа вместе. Кроме того, большая нейросеть высчитывает свои оценки очень медленно, а традиционные алгоритмы рассчитаны на быструю работу. Так что эффективно совместить их может оказаться не тривиальной задачей.

Натренировать маленькую, но быструю нейросеть может тоже оказаться не лучшим решением, поскольку как показали недавние тесты скорости, в шахматах топовые видеокарты сильно теряют в эффективности на маленьких нейросетках. То есть, выходит что малоразмерные нейросетки тоже не слишком быстры. Народ сейчас только начал пробовать разные варианты, так что может быть в конце концов из этого что-то и выйдет. Но также вполне возможно, что потребуется "изобрести" ещё какие-то новые методы обучения.

Оптик · 21 янв 2018

Rom пишет: ↑

Увы, как показывает пример Го, обученной нейросетью Гугл вряд ли поделится. Так что придется обучать самостоятельно.
Нажмите, чтобы раскрыть...

Это странно .
Гугл не хочет сыграть ещё матч по причине того , что им это не нужно , другие цели , все такое . Деньги им не нужны ...
Так почему бы не передать ОФ ?
Нельзя же быть такой собакой на сене .

Rom пишет: ↑

ценочная функция Стокфиша, кстати, тоже отчасти настраивается автоматически. Оцениваемые параметры выбираются вручную, но подбор "весов" для этих параметров автоматизирован. В целом, ОФ Стока конечно намного слабее, но зато работает быстрее.
Нажмите, чтобы раскрыть...

Альфа доказала в матче , что лучше медленно , но с более тонкой оценкой .

Rom пишет: ↑

Нейросетка Альфы не только берёт на себя обязанности Оценочной Функции, но отчасти и Функции Поиска. То есть, помимо оценки позиции, она ещё и рекомендует перспективные ходы.
Нажмите, чтобы раскрыть...

Что значит "рекомендует перспективные ходы " ?
На основании чего рекомендует ?
Я вижу только один вариант - на основании все того же перебора и ОФ.

Rom пишет: ↑

здесь может возникнуть дублирование, избыточный счёт и соответственно неэффективная работа вместе. Кроме того, большая нейросеть высчитывает свои оценки очень медленно, а традиционные алгоритмы рассчитаны на быструю работу. Так что эффективно совместить их может оказаться не тривиальной задачей.
Нажмите, чтобы раскрыть...

Наверняка это не столь примитивно .
Но принципиально то возможно ?

Будет новый шахматный монстр - считать быстро как Сток , а оценивать так же тонко как Альфа .

Войти или зарегистрироваться

AlphaZero. Нейронная сеть играет в шахматы

nn Старожил

NS Нефёдов Сергей

nn Старожил

SkipperNorton Новичок

Jadn Заслуженный

ШахматыЭтоДиагноз Учаcтник

Комсюк народный модератор

Rom Старожил

Mustitz Заслуженный

Jadn Заслуженный

WinPooh В.М.

Boroda Новичок

nh2008 Старожил

Комсюк народный модератор

nn Старожил

SkipperNorton Новичок

Boroda Новичок

Нестор консультант_ специалист по черной магии

Boroda Новичок

SkipperNorton Новичок

SkipperNorton Новичок

Jadn Заслуженный

SkipperNorton Новичок

nh2008 Старожил

SkipperNorton Новичок

Комсюк народный модератор

SkipperNorton Новичок

Mustitz Заслуженный

Boroda Новичок

просроченый_кмс Старожил

nh2008 Старожил

Jadn Заслуженный

Оптик Старожил

Rom Старожил

Оптик Старожил

Поделиться этой страницей