AlphaZero. Нейронная сеть играет в шахматы

Discussion in 'Машинное отделение' started by grizly, 6 Dec 2017.

  1. Mellio Новичок

    • Новичок
    Member Since:
    11.12.2017
    Message Count:
    16
    Likes Received:
    8
    Репутация:
    0
    Оффлайн
    а ну да, -15 белым из 50 это видимо очень близкий матч равных соперников:D

    Хорошо жонглируем фактам
  2. Vladruss НедоКМС, победитель второразрядников.

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Member Since:
    30.12.2009
    Message Count:
    16.477
    Likes Received:
    8.522
    Репутация:
    530
    Нарушения:
    31
    Оффлайн
    Ну, недообучилась в процессе обучения, делов-то. Зато в других компонентах сильнее оказалась, чем Стокфиш.
  3. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Member Since:
    17.07.2011
    Message Count:
    19.230
    Likes Received:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    Mellio, а что насчёт 160 прироста с книгой?
    Будем жонглировать?
    Альфа у них умная и в плохие дебюты не пойдёт, а Сток - тупица, наступает на одни и те же грабли

    Так дайте ему книгу, им же созданную, и всё
    Challenger Spy and sovaz1997 like this.
  4. N1mTzo Учаcтник

    • Участник
    Member Since:
    17.04.2008
    Message Count:
    318
    Likes Received:
    30
    Репутация:
    1
    Оффлайн
    И еще Камского в придачу не забудьте. Хотя, если А0 еще пару лишних часиков обучаться будет, то придется и Магнуса в помощники Вяленому звать.
  5. Challenger Spy Технический специалист

    • Команда форума
    Member Since:
    29.01.2011
    Message Count:
    5.280
    Likes Received:
    2.838
    Репутация:
    226
    Оффлайн
    Не придумывайте, много раз уже был график, который выходит на горизонталь. Они сначала попробовали обучать много-много часов(может дней), увидели тупик, откатились и озвучили "наша Альфа обучалась всего Х часов", где Х - выход на точку, в которой дальнейшая эффективность обучения падает в ноль )
  6. Mellio Новичок

    • Новичок
    Member Since:
    11.12.2017
    Message Count:
    16
    Likes Received:
    8
    Репутация:
    0
    Оффлайн
    Это прирост против самого себя, что сильно отличается допустим от реального прироста ELO против разноплановых соперников. Вы же сами это прекрасно понимаете. Если вы нашли дырку в дебютной игре стокфиша, поправите её вручную и пустите междусобойчик играть, конечно прирост будет ощутимый, это же битва с тенью. А вот против какого-то другого движка, который не совершает ошибку в этом месте, такая правка дебютной библиотеки не даст такого эффекта (он вообще может эту ветку не играть например).

    Списывать разгром стока на дебют, посмотрев эти 10 партий, вы серьезно? Там по партиям видно огромную разницу в классе игры. Перекат в закрытой позиции в анти-берлине - это дебют что ли виноват? Это по вашему у A0 в дебютной книге та жертва фигуры на g6? Тут все также, как и у людей, можно получить перевес по дебюту, но вот реализовать его - это совсем другое дело.

    Если уж на то пошло, можно еще добавить обучение A0 на партиях со стокфишем. Сейчас она просто сама с собой училась играть, а так еще и слабые места стокфиша выявит и будет идти на конректные типы позиции против него. В итоге получите разрыв грелки тузиком. Это уже будет как человеческая подготовка к конкретному сопернику.
  7. tiger Новичок

    • Новичок
    Member Since:
    11.02.2006
    Message Count:
    85
    Likes Received:
    25
    Репутация:
    1
    Оффлайн
    Чтобы в точке, где градиент обращается в ноль был локальный минимум нужно чтобы все собственные значения Гессиана (матрицы вторых производных) были одного знака, положительными в данном случае. Если функция от N переменных, то вероятность этого 2 в степени -N. Так как у знака две равновероятных возможности.
    Jadn and WinPooh like this.
  8. Mellio Новичок

    • Новичок
    Member Since:
    11.12.2017
    Message Count:
    16
    Likes Received:
    8
    Репутация:
    0
    Оффлайн
    В шахматах выход ELO на насыщение не означает остановку прогресса. Из-за "ничейной смерти" вы никогда 5000 ELO не получите. Ничья с позиции силы, или когда всю игру изо всех сил боролись за ничью, дает те же пол-очка.

    Вообще, я не хочу сказать, что стокфиш совсем уж плох. Обратите внимание на комментарии его разработчика. Он говорил именно о проценте ничьих. Действительно, если задаться целью, он может отсушить гораздо больше партий. Но в целом играет он намного слабее и тут ничего не сделать. Всему приходит время отправляться на свалку истории.
  9. просроченый_кмс Старожил

    • Участник
    • Старожил
    Member Since:
    15.02.2010
    Message Count:
    1.112
    Likes Received:
    167
    Репутация:
    6
    Оффлайн
    У меня где то завалялась старинная книга тензорный анализ, вот оно что оказывается) надо было читать хотя нихрена непонятно.
  10. Gordon10 Учаcтник

    • Участник
    Member Since:
    20.01.2015
    Message Count:
    153
    Likes Received:
    111
    Репутация:
    13
    Оффлайн
    С лишней легкой фигурой любой квалифицированный шахматист, например с 2300 и выше (а может и пониже) обыграет и Стока и А0 в сухую. Я умудрился пару раз делать ничью и то, когда смотрел в полгаза на экран, а вполглаза в ТВ. А вот уже с форой в 2 пешки, С А0, если все правда, боюсь человек может рассчитывать только на ничью.
  11. sovaz1997 Учаcтник

    • Участник
    Member Since:
    30.08.2016
    Message Count:
    649
    Likes Received:
    120
    Репутация:
    3
    Оффлайн
    Если SF с нейросетью будет побежать SF без неё, в SF будет нейросеть. На данный момент времени это не так.
  12. Jadn Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    10.05.2006
    Message Count:
    3.626
    Likes Received:
    2.535
    Репутация:
    52
    Оффлайн
    30% на 5000 TPU это не так мало.
    Уничтожен, но не так. Даже двухходовая книга уменьшила перевес на 20 пунктов ЭЛО.

    Ну и самый главный довод: зачем было отнимать книгу, если всё так радужно? В неопытность или наивность разработчиков я не верю.
    Challenger Spy likes this.
  13. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Member Since:
    17.07.2011
    Message Count:
    19.230
    Likes Received:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    а если Костальба опубликует 10 выигранных партий, будем петь оду Стокфишу?

    и наоборот :)
    Разрешит Гугл потренировать Вяленого?

    В итоге мы получим равный матч
  14. N1mTzo Учаcтник

    • Участник
    Member Since:
    17.04.2008
    Message Count:
    318
    Likes Received:
    30
    Репутация:
    1
    Оффлайн
    Это был
    [​IMG]
    , если что

    Нам это неизвестно, здесь только гадать можно. Но логично предположить то, что А0 можно еще улучшать для игры в шахматы, ведь Альфу, заточенную под го очень сильно "прокачали".
  15. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Member Since:
    17.07.2011
    Message Count:
    19.230
    Likes Received:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    Гударт ещё до матча в интервью предрекал Альфе 4000 Эло при дальнейшем развитии, Кауфман был скромнее
  16. Мобуту спаситель нации

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    15.02.2006
    Message Count:
    6.916
    Likes Received:
    3.969
    Репутация:
    141
    Location:
    Заир
    Онлайн
    В этом матче она бы уменьшила перевес намного сильнее, я думаю. Ведь отсутствием книжки целенаправленно пользовались для выявления наиболее неприятных дебютов, чтобы Стокфиш раз за разом их повторял. Вот для примера. Насколько сильно портит перфоманс в компьютерных шахматах обязаловка всегда идти чёрными на французскую защиту с Nc3 Nf6? Если навязвать это Стокфишу, то он, судя по статистике, сольёт со счётом + 39 = 11 -0. Если навязать это Альфачессу, то будет близко к равной борьбе. В одном случае - гроссмейстер бьёт слабого кмс, а во втором этот кмс перевоплощается в такого же гросса. Это уже не о 20 пунктах речь, а раз в десять побольше.

    В матче, конечно же, французскую Стокфиш играл только чёрными. Вот такая фора.
  17. Jadn Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    10.05.2006
    Message Count:
    3.626
    Likes Received:
    2.535
    Репутация:
    52
    Оффлайн
    Они писали, что учили на партиях с собой, и я им верю. Незаметно для неспециалистов подкорректировать условия финального испытания и прямое враньё это две большие разницы.
    Challenger Spy likes this.
  18. dom1n1k Учаcтник

    • Участник
    Member Since:
    18.11.2016
    Message Count:
    187
    Likes Received:
    155
    Репутация:
    3
    Оффлайн
    Сколько стенаний в интернете, караул, обижают, гуглогопники 20 рублей эло отобрали.
    Книгу отобрали потому, что их целью был не спортивный матч с розыгрышем коровы, а научное-техническое сравнение двух разнотипных алгоритмов. Разумеется, им было интересно сравнивать именно алгоритмы и оценочные функции, а не какие-то там таблицы. Таблицы они и в Африке таблицы - какой в них интерес? Всё абсолютно логично.
    thenewone, Vladruss, N1mTzo and 2 others like this.
  19. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Member Since:
    17.07.2011
    Message Count:
    19.230
    Likes Received:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    И он таки не досчитал чуть дальше...
    Адвансёры нашли

    Сток пошёл 50.g4?
  20. Jadn Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    10.05.2006
    Message Count:
    3.626
    Likes Received:
    2.535
    Репутация:
    52
    Оффлайн
    Оценочная функция СФ такая, чтобы оптимально играть в любой позиции с любым контролем времени. А АЗ настроена именно на начальную позу, и может даже контроль. Во всяких TCEC-ах тоже сравнивают алгоритмы, но тестируют на наборе позиций.
    Нет, ничего логичного тут нет. То, что вы это не понимаете, я верю, а вот в то, что этого не понимают создатели АЗ - не очень.
    —- добавлено: 12 Dec 2017 —-
    Что-то не пойму, а если король черных на c3 придёт? Без компа смотрю.
    Gridnev, MS and Комсюк like this.
  21. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Member Since:
    17.07.2011
    Message Count:
    19.230
    Likes Received:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    я сам об этом думаю... комп проверяет есть ли ж4 в кандидатах (пока трогать не буду)
    —- добавлено: 12 Dec 2017 —-
    судя по всему, чем-то другим смотрели, Сток8 кажет -3 с копейками
  22. Undying Учаcтник

    • Участник
    Member Since:
    31.08.2016
    Message Count:
    1.316
    Likes Received:
    566
    Репутация:
    15
    Оффлайн
    Если для правильной оценки позиции требуется более 40 полуходов, то считать надо полуходов на 60. Чтобы опасную позицию обнаружить заблаговременно и просто на нее не идти. Час на партию здесь мало чем поможет.
  23. N1mTzo Учаcтник

    • Участник
    Member Since:
    17.04.2008
    Message Count:
    318
    Likes Received:
    30
    Репутация:
    1
    Оффлайн
    Был подобный матч Комодо против FM Больцони (2189). Первая часть 1,5:1,5 завершилась, а во второй (через неделю) человек потренировался и разнес железку 3:0.
    Ларри Кауфман устраивал и такие матчи. Если коротко, то без подготовки железка отлупила человека (GM 2450), а подготовившись, через несколько дней, он отомстил.
  24. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Member Since:
    17.07.2011
    Message Count:
    19.230
    Likes Received:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    грубо не получится, пешка на е4 даст контру
    Но крепости похоже нет, сейчас смотрю АСМом, чёрные расставятся и загонят белых в цугцванг, пешками придётся ходить по-любому
    —- добавлено: 12 Dec 2017, опубликовано: 12 Dec 2017 —-
    у меня мелькнул на третьей строке, но вот у чувака
  25. Undying Учаcтник

    • Участник
    Member Since:
    31.08.2016
    Message Count:
    1.316
    Likes Received:
    566
    Репутация:
    15
    Оффлайн
    Каким образом? Вроде план за черных Сd4, сгоняя ладью с линии f. Затем преодолеваем королем линию f. Потом слона можно снова на e5 вернуть, чтобы пешка e нигде пойти вперед пойти не могла. И королем на с3 идем.
  26. N1mTzo Учаcтник

    • Участник
    Member Since:
    17.04.2008
    Message Count:
    318
    Likes Received:
    30
    Репутация:
    1
    Оффлайн
    Что крепости нет видит и древний Гудини 1.5. А что вы вообще проверяете?
  27. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    • Старожил
    Member Since:
    17.07.2011
    Message Count:
    19.230
    Likes Received:
    23.509
    Репутация:
    1.263
    Нарушения:
    31
    Оффлайн
    одновременно 2 вещи :)
    1. сделан ли ход g4 Стокфишем? Доказано.
    2. есть ли крепость? Нет.
    Любитель_ and N1mTzo like this.
  28. Valen548 Новичок

    • Новичок
    Member Since:
    09.10.2016
    Message Count:
    47
    Likes Received:
    5
    Репутация:
    1
    Оффлайн
    Было интересно смотреть партии АльфаЗеро. Игра Стокфиша впечатлает не меньше чем А0. Сыграть 70 партий вничью из 100 против А0- вероятно примерно 70% партий Стокфиш проводит на математически корректном уровне. Компьютеры играют намного интереснее людей, хаххх.
    Ждем А0 в массы.
    sovaz1997 likes this.
  29. dom1n1k Учаcтник

    • Участник
    Member Since:
    18.11.2016
    Message Count:
    187
    Likes Received:
    155
    Репутация:
    3
    Оффлайн
    И что?
    Повторю в сотый раз - целью разработчиков (на данном этапе) не была "спортивная справедливость", за которую тут уже несколько дней пятые точки полыхают. Их целю было сравнение алгоритмических подходов. Сравнение научно-техническое, а не спортивное. Если бы они хотели настоящего спорта, был бы разрекламированный матч по типу Седолевского.
    А именно их интересовало: может ли их софтина выйти на качественно новый уровень "понимания" игры? Сколько там эло и позиций в секунду - вопрос второй. Главное это самое "понимание". И вроде бы всё выглядит так, что да, может. Вот это и есть главный результат. А всё прочее есть вторичные подробности, тоже по-своему любопытные, но вторичные. Ими (возможно) будут заниматься позднее, если авторы на новые темы не ускачут.
    Undying, WinPooh and Baron like this.
  30. Jadn Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    10.05.2006
    Message Count:
    3.626
    Likes Received:
    2.535
    Репутация:
    52
    Оффлайн
    Ну так запустили бы Стокфиш на телефоне. Еще более впечатляющий успех бы был.
    Любитель_ and Diamond like this.
  31. Gridnev Старожил

    • Участник
    • Старожил
    Member Since:
    01.06.2012
    Message Count:
    652
    Likes Received:
    3.632
    Репутация:
    152
    Оффлайн

    В общем, напоминает римского императора Коммода, который любил участвовать в грязных гладиаторских боях, забивая дубинкой на арене достойных соперников - больных и калек. Не могу не восхищаться игрой ИИ, но понимаю, что фору А0 дали неспроста, жаль не погоняли тестовые позиции. Осталось много вопросов. Что-то вытрясут рецензенты, а для полного понимания глубины приоткрывшейся бездны надо запастись терпением.
  32. Мобуту спаситель нации

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    15.02.2006
    Message Count:
    6.916
    Likes Received:
    3.969
    Репутация:
    141
    Location:
    Заир
    Онлайн
    А я им не верю даже в этом. Статья - рекламная, там бабки наверняка замешаны немалые. И не абы за что, а нужен сногсшибательный результат. Ради его достижения сделаешь и не такое. Заказчика наверняка всё устроит: подумаешь, побрюзжат там какие-то русскоязычные крестбуковцы. Доказать, потреблял ли Альфачесс "допинг" при подготовке или не потреблял, всё равно не смогут: баночки с мочой не осталось.

    А весь мир тем временем будет глазеть на запертого ферзя h8 и обсуждать с придыханием, как гугловые нейросети выходят на новый уровень понимания всего и вся.
  33. Mustitz Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    30.09.2006
    Message Count:
    3.546
    Likes Received:
    1.265
    Репутация:
    36
    Location:
    Киев
    Оффлайн
    Выскажу несколько своих соображений. Нейросеть даёт скорее всего не оценку данной позиции, а предлагает ходы-кандидаты. Потом партии доигрываются до конца (возможно до явного перевеса одной из сторон) и на основании статистики выбирается ход. Такой подход даёт преимущество программе в закрытых позициях, он распознаёт крепости, и позволяет оценивать долговременную инициативу за горизонтом счётных движков а-ля Стокфиша. Есть у него и минусы — позиций рассматривается меньше. Поэтому в острых позициях варианта Найдорфа, имхо, ощутимое преимущество будет у Стокфиша. Ибо там важен счёт и еще раз счёт, а возникновение крепостей маловероятно, и до эндшпиля надо дожить. С другой стороны нейросеть вполне способна избегать таких позиций, потому как при обучении результат партий будет рандомный, будет много поражений, и нейросеть вполне способна отбраковать такие варианты как рискованные.

    Я не согласен с тем, что оценка Стокфиша это творение человеческих рук. Думаю, последние годы оценка Стокфиша развивалась исключительно в его матчах против себя самого и/или движков из топ. И партии с AlphaZero также могут её улучшить. Также партии Стокфиша с самим собой могут послужить для создания большой дебютной библиотеки также без участия человека. Чем не самообучение?

    Было бы интересно, если бы разработчики Stockfish вызвали AlphaZero на дуэль матч по причине того, что команда AlphaZero не смогла правильно оттюнить движок. А условия матча могли бы быть разными: набор позиций или, что бы было ещё интересней, версии движков фиксируются. Каждая сторона собирает желело, дебютную книгу, таблицы Ломоносова и всё, что пожелает. После чего играется суперматч. Можно даже Комодо пригласить за компанию.
    Crest likes this.
  34. Valen548 Новичок

    • Новичок
    Member Since:
    09.10.2016
    Message Count:
    47
    Likes Received:
    5
    Репутация:
    1
    Оффлайн

    Вы что , шутите? Программа за несколько часов научилась играть на уровне Стокфиша. Сама , без внесения знаний и параметров. А Стокфиша программируют много лет.

    Деньги у Гугла и Дипмайнда есть и так на миллиарды долларов, так что думать что они пытаются заработать на своей статье не стоит.
  35. MS Михаил Семионенков

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    6.542
    Likes Received:
    3.361
    Репутация:
    175
    Оффлайн
    Главной целью был рекламный эффект. Результат, бкзусловно, выдающийся, но если ставить эксперимент корректно, то результата "за час обучения побили сильнейшую программу" не получишь. Корректный результа - "создана программа, которая легко бьёт человека и достаточно сильна среди движков".
    С помощью подкручивания параметров эксперимента создан большой медийный эффект, к корректной научной работе не имеющий отношения.
    Это печально, для тех кто что-то понимает в предмете, но чувства мизерной части аудитории гугл не волновали.
    Увы, "цель оправдывает средства". И подрывает авторитет гугла. Очередной прорыв со стороны гугла будет восприниматься с бОльшим скептицизмом.

Share This Page