AlphaZero. Нейронная сеть играет в шахматы

Тема в разделе "Машинное отделение", создана пользователем grizly, 6 дек 2017.

  1. Mellio Новичок

    • Новичок
    Рег.:
    11.12.2017
    Сообщения:
    16
    Симпатии:
    8
    Репутация:
    0
    Оффлайн
    а ну да, -15 белым из 50 это видимо очень близкий матч равных соперников:D

    Хорошо жонглируем фактам
  2. Vladruss НедоКМС, победитель второразрядников.

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    30.12.2009
    Сообщения:
    16.477
    Симпатии:
    8.522
    Репутация:
    530
    Нарушения:
    31
    Оффлайн
    Ну, недообучилась в процессе обучения, делов-то. Зато в других компонентах сильнее оказалась, чем Стокфиш.
  3. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    Mellio, а что насчёт 160 прироста с книгой?
    Будем жонглировать?
    Альфа у них умная и в плохие дебюты не пойдёт, а Сток - тупица, наступает на одни и те же грабли

    Так дайте ему книгу, им же созданную, и всё
    Challenger Spy и sovaz1997 нравится это.
  4. N1mTzo Учаcтник

    • Участник
    Рег.:
    17.04.2008
    Сообщения:
    318
    Симпатии:
    30
    Репутация:
    1
    Оффлайн
    И еще Камского в придачу не забудьте. Хотя, если А0 еще пару лишних часиков обучаться будет, то придется и Магнуса в помощники Вяленому звать.
  5. Challenger Spy Технический специалист

    • Команда форума
    Рег.:
    29.01.2011
    Сообщения:
    5.280
    Симпатии:
    2.838
    Репутация:
    226
    Оффлайн
    Не придумывайте, много раз уже был график, который выходит на горизонталь. Они сначала попробовали обучать много-много часов(может дней), увидели тупик, откатились и озвучили "наша Альфа обучалась всего Х часов", где Х - выход на точку, в которой дальнейшая эффективность обучения падает в ноль )
  6. Mellio Новичок

    • Новичок
    Рег.:
    11.12.2017
    Сообщения:
    16
    Симпатии:
    8
    Репутация:
    0
    Оффлайн
    Это прирост против самого себя, что сильно отличается допустим от реального прироста ELO против разноплановых соперников. Вы же сами это прекрасно понимаете. Если вы нашли дырку в дебютной игре стокфиша, поправите её вручную и пустите междусобойчик играть, конечно прирост будет ощутимый, это же битва с тенью. А вот против какого-то другого движка, который не совершает ошибку в этом месте, такая правка дебютной библиотеки не даст такого эффекта (он вообще может эту ветку не играть например).

    Списывать разгром стока на дебют, посмотрев эти 10 партий, вы серьезно? Там по партиям видно огромную разницу в классе игры. Перекат в закрытой позиции в анти-берлине - это дебют что ли виноват? Это по вашему у A0 в дебютной книге та жертва фигуры на g6? Тут все также, как и у людей, можно получить перевес по дебюту, но вот реализовать его - это совсем другое дело.

    Если уж на то пошло, можно еще добавить обучение A0 на партиях со стокфишем. Сейчас она просто сама с собой училась играть, а так еще и слабые места стокфиша выявит и будет идти на конректные типы позиции против него. В итоге получите разрыв грелки тузиком. Это уже будет как человеческая подготовка к конкретному сопернику.
  7. tiger Новичок

    • Новичок
    Рег.:
    11.02.2006
    Сообщения:
    85
    Симпатии:
    25
    Репутация:
    1
    Оффлайн
    Чтобы в точке, где градиент обращается в ноль был локальный минимум нужно чтобы все собственные значения Гессиана (матрицы вторых производных) были одного знака, положительными в данном случае. Если функция от N переменных, то вероятность этого 2 в степени -N. Так как у знака две равновероятных возможности.
    Jadn и WinPooh нравится это.
  8. Mellio Новичок

    • Новичок
    Рег.:
    11.12.2017
    Сообщения:
    16
    Симпатии:
    8
    Репутация:
    0
    Оффлайн
    В шахматах выход ELO на насыщение не означает остановку прогресса. Из-за "ничейной смерти" вы никогда 5000 ELO не получите. Ничья с позиции силы, или когда всю игру изо всех сил боролись за ничью, дает те же пол-очка.

    Вообще, я не хочу сказать, что стокфиш совсем уж плох. Обратите внимание на комментарии его разработчика. Он говорил именно о проценте ничьих. Действительно, если задаться целью, он может отсушить гораздо больше партий. Но в целом играет он намного слабее и тут ничего не сделать. Всему приходит время отправляться на свалку истории.
  9. просроченый_кмс Старожил

    • Участник
    • Старожил
    Рег.:
    15.02.2010
    Сообщения:
    1.112
    Симпатии:
    167
    Репутация:
    6
    Оффлайн
    У меня где то завалялась старинная книга тензорный анализ, вот оно что оказывается) надо было читать хотя нихрена непонятно.
  10. Gordon10 Учаcтник

    • Участник
    Рег.:
    20.01.2015
    Сообщения:
    153
    Симпатии:
    111
    Репутация:
    13
    Оффлайн
    С лишней легкой фигурой любой квалифицированный шахматист, например с 2300 и выше (а может и пониже) обыграет и Стока и А0 в сухую. Я умудрился пару раз делать ничью и то, когда смотрел в полгаза на экран, а вполглаза в ТВ. А вот уже с форой в 2 пешки, С А0, если все правда, боюсь человек может рассчитывать только на ничью.
  11. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    Если SF с нейросетью будет побежать SF без неё, в SF будет нейросеть. На данный момент времени это не так.
  12. Jadn Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    10.05.2006
    Сообщения:
    3.626
    Симпатии:
    2.535
    Репутация:
    52
    Оффлайн
    30% на 5000 TPU это не так мало.
    Уничтожен, но не так. Даже двухходовая книга уменьшила перевес на 20 пунктов ЭЛО.

    Ну и самый главный довод: зачем было отнимать книгу, если всё так радужно? В неопытность или наивность разработчиков я не верю.
    Challenger Spy нравится это.
  13. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    а если Костальба опубликует 10 выигранных партий, будем петь оду Стокфишу?

    и наоборот :)
    Разрешит Гугл потренировать Вяленого?

    В итоге мы получим равный матч
  14. N1mTzo Учаcтник

    • Участник
    Рег.:
    17.04.2008
    Сообщения:
    318
    Симпатии:
    30
    Репутация:
    1
    Оффлайн
    Это был
    [​IMG]
    , если что

    Нам это неизвестно, здесь только гадать можно. Но логично предположить то, что А0 можно еще улучшать для игры в шахматы, ведь Альфу, заточенную под го очень сильно "прокачали".
  15. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    Гударт ещё до матча в интервью предрекал Альфе 4000 Эло при дальнейшем развитии, Кауфман был скромнее
  16. Мобуту спаситель нации

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    15.02.2006
    Сообщения:
    6.916
    Симпатии:
    3.969
    Репутация:
    141
    Адрес:
    Заир
    Оффлайн
    В этом матче она бы уменьшила перевес намного сильнее, я думаю. Ведь отсутствием книжки целенаправленно пользовались для выявления наиболее неприятных дебютов, чтобы Стокфиш раз за разом их повторял. Вот для примера. Насколько сильно портит перфоманс в компьютерных шахматах обязаловка всегда идти чёрными на французскую защиту с Nc3 Nf6? Если навязвать это Стокфишу, то он, судя по статистике, сольёт со счётом + 39 = 11 -0. Если навязать это Альфачессу, то будет близко к равной борьбе. В одном случае - гроссмейстер бьёт слабого кмс, а во втором этот кмс перевоплощается в такого же гросса. Это уже не о 20 пунктах речь, а раз в десять побольше.

    В матче, конечно же, французскую Стокфиш играл только чёрными. Вот такая фора.
  17. Jadn Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    10.05.2006
    Сообщения:
    3.626
    Симпатии:
    2.535
    Репутация:
    52
    Оффлайн
    Они писали, что учили на партиях с собой, и я им верю. Незаметно для неспециалистов подкорректировать условия финального испытания и прямое враньё это две большие разницы.
    Challenger Spy нравится это.
  18. dom1n1k Учаcтник

    • Участник
    Рег.:
    18.11.2016
    Сообщения:
    187
    Симпатии:
    155
    Репутация:
    3
    Оффлайн
    Сколько стенаний в интернете, караул, обижают, гуглогопники 20 рублей эло отобрали.
    Книгу отобрали потому, что их целью был не спортивный матч с розыгрышем коровы, а научное-техническое сравнение двух разнотипных алгоритмов. Разумеется, им было интересно сравнивать именно алгоритмы и оценочные функции, а не какие-то там таблицы. Таблицы они и в Африке таблицы - какой в них интерес? Всё абсолютно логично.
    thenewone, Vladruss, N1mTzo и 2 другим нравится это.
  19. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    И он таки не досчитал чуть дальше...
    Адвансёры нашли

    Сток пошёл 50.g4?
  20. Jadn Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    10.05.2006
    Сообщения:
    3.626
    Симпатии:
    2.535
    Репутация:
    52
    Оффлайн
    Оценочная функция СФ такая, чтобы оптимально играть в любой позиции с любым контролем времени. А АЗ настроена именно на начальную позу, и может даже контроль. Во всяких TCEC-ах тоже сравнивают алгоритмы, но тестируют на наборе позиций.
    Нет, ничего логичного тут нет. То, что вы это не понимаете, я верю, а вот в то, что этого не понимают создатели АЗ - не очень.
    —- добавлено: 12 дек 2017 —-
    Что-то не пойму, а если король черных на c3 придёт? Без компа смотрю.
    Gridnev, MS и Комсюк нравится это.
  21. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    я сам об этом думаю... комп проверяет есть ли ж4 в кандидатах (пока трогать не буду)
    —- добавлено: 12 дек 2017 —-
    судя по всему, чем-то другим смотрели, Сток8 кажет -3 с копейками
  22. Undying Учаcтник

    • Участник
    Рег.:
    31.08.2016
    Сообщения:
    1.316
    Симпатии:
    566
    Репутация:
    15
    Оффлайн
    Если для правильной оценки позиции требуется более 40 полуходов, то считать надо полуходов на 60. Чтобы опасную позицию обнаружить заблаговременно и просто на нее не идти. Час на партию здесь мало чем поможет.
  23. N1mTzo Учаcтник

    • Участник
    Рег.:
    17.04.2008
    Сообщения:
    318
    Симпатии:
    30
    Репутация:
    1
    Оффлайн
    Был подобный матч Комодо против FM Больцони (2189). Первая часть 1,5:1,5 завершилась, а во второй (через неделю) человек потренировался и разнес железку 3:0.
    Ларри Кауфман устраивал и такие матчи. Если коротко, то без подготовки железка отлупила человека (GM 2450), а подготовившись, через несколько дней, он отомстил.
  24. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    грубо не получится, пешка на е4 даст контру
    Но крепости похоже нет, сейчас смотрю АСМом, чёрные расставятся и загонят белых в цугцванг, пешками придётся ходить по-любому
    —- добавлено: 12 дек 2017, опубликовано: 12 дек 2017 —-
    у меня мелькнул на третьей строке, но вот у чувака
  25. Undying Учаcтник

    • Участник
    Рег.:
    31.08.2016
    Сообщения:
    1.316
    Симпатии:
    566
    Репутация:
    15
    Оффлайн
    Каким образом? Вроде план за черных Сd4, сгоняя ладью с линии f. Затем преодолеваем королем линию f. Потом слона можно снова на e5 вернуть, чтобы пешка e нигде пойти вперед пойти не могла. И королем на с3 идем.
  26. N1mTzo Учаcтник

    • Участник
    Рег.:
    17.04.2008
    Сообщения:
    318
    Симпатии:
    30
    Репутация:
    1
    Оффлайн
    Что крепости нет видит и древний Гудини 1.5. А что вы вообще проверяете?
  27. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Рег.:
    17.07.2011
    Сообщения:
    19.230
    Симпатии:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    одновременно 2 вещи :)
    1. сделан ли ход g4 Стокфишем? Доказано.
    2. есть ли крепость? Нет.
    Любитель_ и N1mTzo нравится это.
  28. Valen548 Новичок

    • Новичок
    Рег.:
    09.10.2016
    Сообщения:
    47
    Симпатии:
    5
    Репутация:
    1
    Оффлайн
    Было интересно смотреть партии АльфаЗеро. Игра Стокфиша впечатлает не меньше чем А0. Сыграть 70 партий вничью из 100 против А0- вероятно примерно 70% партий Стокфиш проводит на математически корректном уровне. Компьютеры играют намного интереснее людей, хаххх.
    Ждем А0 в массы.
    sovaz1997 нравится это.
  29. dom1n1k Учаcтник

    • Участник
    Рег.:
    18.11.2016
    Сообщения:
    187
    Симпатии:
    155
    Репутация:
    3
    Оффлайн
    И что?
    Повторю в сотый раз - целью разработчиков (на данном этапе) не была "спортивная справедливость", за которую тут уже несколько дней пятые точки полыхают. Их целю было сравнение алгоритмических подходов. Сравнение научно-техническое, а не спортивное. Если бы они хотели настоящего спорта, был бы разрекламированный матч по типу Седолевского.
    А именно их интересовало: может ли их софтина выйти на качественно новый уровень "понимания" игры? Сколько там эло и позиций в секунду - вопрос второй. Главное это самое "понимание". И вроде бы всё выглядит так, что да, может. Вот это и есть главный результат. А всё прочее есть вторичные подробности, тоже по-своему любопытные, но вторичные. Ими (возможно) будут заниматься позднее, если авторы на новые темы не ускачут.
    Undying, WinPooh и Baron нравится это.
  30. Jadn Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    10.05.2006
    Сообщения:
    3.626
    Симпатии:
    2.535
    Репутация:
    52
    Оффлайн
    Ну так запустили бы Стокфиш на телефоне. Еще более впечатляющий успех бы был.
    Любитель_ и Diamond нравится это.
  31. Gridnev Старожил

    • Участник
    • Старожил
    Рег.:
    01.06.2012
    Сообщения:
    652
    Симпатии:
    3.632
    Репутация:
    152
    Оффлайн

    В общем, напоминает римского императора Коммода, который любил участвовать в грязных гладиаторских боях, забивая дубинкой на арене достойных соперников - больных и калек. Не могу не восхищаться игрой ИИ, но понимаю, что фору А0 дали неспроста, жаль не погоняли тестовые позиции. Осталось много вопросов. Что-то вытрясут рецензенты, а для полного понимания глубины приоткрывшейся бездны надо запастись терпением.
  32. Мобуту спаситель нации

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    15.02.2006
    Сообщения:
    6.916
    Симпатии:
    3.969
    Репутация:
    141
    Адрес:
    Заир
    Оффлайн
    А я им не верю даже в этом. Статья - рекламная, там бабки наверняка замешаны немалые. И не абы за что, а нужен сногсшибательный результат. Ради его достижения сделаешь и не такое. Заказчика наверняка всё устроит: подумаешь, побрюзжат там какие-то русскоязычные крестбуковцы. Доказать, потреблял ли Альфачесс "допинг" при подготовке или не потреблял, всё равно не смогут: баночки с мочой не осталось.

    А весь мир тем временем будет глазеть на запертого ферзя h8 и обсуждать с придыханием, как гугловые нейросети выходят на новый уровень понимания всего и вся.
  33. Mustitz Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    30.09.2006
    Сообщения:
    3.546
    Симпатии:
    1.265
    Репутация:
    36
    Адрес:
    Киев
    Оффлайн
    Выскажу несколько своих соображений. Нейросеть даёт скорее всего не оценку данной позиции, а предлагает ходы-кандидаты. Потом партии доигрываются до конца (возможно до явного перевеса одной из сторон) и на основании статистики выбирается ход. Такой подход даёт преимущество программе в закрытых позициях, он распознаёт крепости, и позволяет оценивать долговременную инициативу за горизонтом счётных движков а-ля Стокфиша. Есть у него и минусы — позиций рассматривается меньше. Поэтому в острых позициях варианта Найдорфа, имхо, ощутимое преимущество будет у Стокфиша. Ибо там важен счёт и еще раз счёт, а возникновение крепостей маловероятно, и до эндшпиля надо дожить. С другой стороны нейросеть вполне способна избегать таких позиций, потому как при обучении результат партий будет рандомный, будет много поражений, и нейросеть вполне способна отбраковать такие варианты как рискованные.

    Я не согласен с тем, что оценка Стокфиша это творение человеческих рук. Думаю, последние годы оценка Стокфиша развивалась исключительно в его матчах против себя самого и/или движков из топ. И партии с AlphaZero также могут её улучшить. Также партии Стокфиша с самим собой могут послужить для создания большой дебютной библиотеки также без участия человека. Чем не самообучение?

    Было бы интересно, если бы разработчики Stockfish вызвали AlphaZero на дуэль матч по причине того, что команда AlphaZero не смогла правильно оттюнить движок. А условия матча могли бы быть разными: набор позиций или, что бы было ещё интересней, версии движков фиксируются. Каждая сторона собирает желело, дебютную книгу, таблицы Ломоносова и всё, что пожелает. После чего играется суперматч. Можно даже Комодо пригласить за компанию.
    Crest нравится это.
  34. Valen548 Новичок

    • Новичок
    Рег.:
    09.10.2016
    Сообщения:
    47
    Симпатии:
    5
    Репутация:
    1
    Оффлайн

    Вы что , шутите? Программа за несколько часов научилась играть на уровне Стокфиша. Сама , без внесения знаний и параметров. А Стокфиша программируют много лет.

    Деньги у Гугла и Дипмайнда есть и так на миллиарды долларов, так что думать что они пытаются заработать на своей статье не стоит.
  35. MS Михаил Семионенков

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    6.542
    Симпатии:
    3.361
    Репутация:
    175
    Оффлайн
    Главной целью был рекламный эффект. Результат, бкзусловно, выдающийся, но если ставить эксперимент корректно, то результата "за час обучения побили сильнейшую программу" не получишь. Корректный результа - "создана программа, которая легко бьёт человека и достаточно сильна среди движков".
    С помощью подкручивания параметров эксперимента создан большой медийный эффект, к корректной научной работе не имеющий отношения.
    Это печально, для тех кто что-то понимает в предмете, но чувства мизерной части аудитории гугл не волновали.
    Увы, "цель оправдывает средства". И подрывает авторитет гугла. Очередной прорыв со стороны гугла будет восприниматься с бОльшим скептицизмом.
    Любитель_, Diamond, vasa и 6 другим нравится это.

Поделиться этой страницей