AlphaZero. Нейронная сеть играет в шахматы

Тема в разделе "Машинное отделение", создана пользователем grizly, 6 дек 2017.

  1. Vertu Старожил

    • Участник
    • Старожил
    Рег.:
    22.12.2006
    Сообщения:
    945
    Симпатии:
    24
    Репутация:
    3
    Оффлайн
    Ага, ну урежьте себе видеокарту, посмотрим, как вы получите TPU...
  2. Undying Учаcтник

    • Участник
    Рег.:
    31.08.2016
    Сообщения:
    1.313
    Симпатии:
    558
    Репутация:
    15
    Оффлайн
    Не факт. Сами матчи движков малоинтересны. Основное предназначение программ это анализ. А при анализе тайм-менеджмент Стокфиша не используется в принципе.
  3. Экстремист Старожил

    • Участник
    • Старожил
    Рег.:
    26.09.2006
    Сообщения:
    988
    Симпатии:
    68
    Репутация:
    11
    Оффлайн
    На всякий случай:))
    Комсюк нравится это.
  4. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    Рег.:
    17.07.2011
    Сообщения:
    16.452
    Симпатии:
    19.480
    Репутация:
    1.111
    Нарушения:
    124
    Оффлайн
    а мы что сейчас обсуждаем?
  5. Undying Учаcтник

    • Участник
    Рег.:
    31.08.2016
    Сообщения:
    1.313
    Симпатии:
    558
    Репутация:
    15
    Оффлайн
    Является ли Альфа Зеро прорывом в понимании шахмат компьютерными движками.
    Комсюк нравится это.
  6. vsvor Новичок

    • Новичок
    Рег.:
    09.12.2017
    Сообщения:
    9
    Симпатии:
    3
    Репутация:
    0
    Оффлайн
    В каком месте я это утверждаю? По количеству транзисторов, думаю, вполне сравнимы с современными видеокартами. CPU и GPU массово производятся, TPU нет. Стоимость производства TPU будет выше, даже если чипы проще.

    В статье утверждается, что на длинных контролях преимущество A0 увеличивается, а SF выигрывает на самых коротких (менее 1 с на ход).
    См. графики на с. 7. https://arxiv.org/pdf/1712.01815.pdf
  7. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    Рег.:
    17.07.2011
    Сообщения:
    16.452
    Симпатии:
    19.480
    Репутация:
    1.111
    Нарушения:
    124
    Оффлайн
    Тогда я пас.
    Прорывом м.б. и является, но преимущества над топ-калькулятором ПОКА не показала
  8. NoraNora Учаcтник

    • Участник
    Рег.:
    30.03.2013
    Сообщения:
    365
    Симпатии:
    262
    Репутация:
    8
    Оффлайн
    Ок, вот вам два последовательных скрина - 52-я глубина, оценка 0.00 до хода Qf4, и реакция на этот ход после.
    Смахивает, честно говоря, на какой-то "баг веры в ничейность", я такие странности нередко за Стоком замечаю. И походу для партии с АльфаЗеро этот баг, если он реально есть, не пофиксили.

    Вложения:

    • m2PMVGV_saA.jpg
      m2PMVGV_saA.jpg
      Размер файла:
      288,9 КБ
      Просмотров:
      988
    • m2PMVGV_saA.jpg
      m2PMVGV_saA.jpg
      Размер файла:
      245 КБ
      Просмотров:
      1.014
    Комсюк нравится это.
  9. hornet Учаcтник

    • Участник
    Рег.:
    05.11.2016
    Сообщения:
    456
    Симпатии:
    143
    Репутация:
    0
    Оффлайн
    Альфа хорош, но оказалось что чуть плоховат сток - есть над чем работать. Интереснее другое - а у человека достаточно понимания (четких критериев), чтобы определить позиция проиграна или защитима? Ведь сток даже на глубине 48 в одной из позиций ставил нули (равенство)... Ага берем позицию, заводим её, например, в чессбэйз, включаем якобы всезнающий движок и грузим его до глубины...хватит и 35 полуходов, - вот и весь наш (человеческий) критерий...:bye:
  10. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    11.02.2006
    Сообщения:
    2.196
    Симпатии:
    52
    Репутация:
    3
    Оффлайн
    Где, простите, вы видели такой формат при тестировании движков? Очевидно же, что 1час движку на всю партию и этот же час - фиксировано 1 минута на ход может его только ослабить. Так зачем это делать? Нам времени не жалко или сила нужна поменьше?
  11. Vertu Старожил

    • Участник
    • Старожил
    Рег.:
    22.12.2006
    Сообщения:
    945
    Симпатии:
    24
    Репутация:
    3
    Оффлайн
    Это у вас какой-то баг. Мой SF8 видит, что Qf4 выигрывает уже на глубине 31 (4 секунды).
    http://prntscr.com/hl74ey
  12. hornet Учаcтник

    • Участник
    Рег.:
    05.11.2016
    Сообщения:
    456
    Симпатии:
    143
    Репутация:
    0
    Оффлайн
    Забавно - раньше был анекдот: "Сенсация - Каспаров приграл калькулятору!"...:smehota:
  13. West55 Начинающий

    • Начинающий
    Рег.:
    09.12.2017
    Сообщения:
    4
    Симпатии:
    2
    Репутация:
    0
    Оффлайн
    Это же научное исследование. Статья в arxiv.org. Ее будут рецензировать специалисты. Все это еще не раз будет демонстрироваться и проверяться.

    Возможно, знакомый по институту работает в Гугле по этой теме. Но выяснить вряд ли можно много. Очень жесткие условия неразглашения.
    felagund08 нравится это.
  14. просроченый_кмс Старожил

    • Участник
    • Старожил
    Рег.:
    15.02.2010
    Сообщения:
    1.011
    Симпатии:
    89
    Репутация:
    2
    Оффлайн
    Насчёт того что прога упёрлась в потолок, вероятно есть какой то уровень после которого уже трудно победить ничейную смерть, и например теоретически не может быть программ с уровнем 4000 и 4500, все они наверно на 4000 будут играть.

    И второе, возможно упёрлись в размер нейросети и она не может запомнить больше информации общей для всех позиций, вот если создать отдельно нейросеть для дебюта, миттельшпиля, и эндшпиля, то возможно усиление ещё пунктов на 100 200, имхо.
  15. N1mTzo Учаcтник

    • Участник
    Рег.:
    16.04.2008
    Сообщения:
    318
    Симпатии:
    30
    Репутация:
    1
    Оффлайн
    Ну если по скринам судит, то у вас Вяленый цепляет эндшпильные базы и видит, у а NoraNora без баз не видит данный ход.

    Ну а как тестовые билды движков (того же Вяленого и всех других) проверяют? Там вообще УКК ставят 1 сек или даже 0.5 сек на ход. Что это принципиально меняет?
  16. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    Рег.:
    17.07.2011
    Сообщения:
    16.452
    Симпатии:
    19.480
    Репутация:
    1.111
    Нарушения:
    124
    Оффлайн
    если Вы делали уже этот ход, то Сток его запомнил
    Очистите хеш или перегрузите движок
    —- добавлено: 9 дек 2017 —-
    на УКК время на партию + прибавка на ход
  17. Vertu Старожил

    • Участник
    • Старожил
    Рег.:
    22.12.2006
    Сообщения:
    945
    Симпатии:
    24
    Репутация:
    3
    Оффлайн
    Если бы он его запомнил, то он бы не показывал нули первые три секунды.
    А вот эндшпильные базы действительно влияют. Без них действительно не находит.
    Думаю, их отключение повлияло на счет в матче.
    Комсюк нравится это.
  18. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    Рег.:
    17.07.2011
    Сообщения:
    16.452
    Симпатии:
    19.480
    Репутация:
    1.111
    Нарушения:
    124
    Оффлайн
    ну вот она и разгадка... ход Лf8 был возможен от Стока
    оператора вычёркиваем
  19. N1mTzo Учаcтник

    • Участник
    Рег.:
    16.04.2008
    Сообщения:
    318
    Симпатии:
    30
    Репутация:
    1
    Оффлайн
    Для компенсации лагов бывает ставят прибавку на ход, бывает не ставят. Это не принципиально, повторюсь, сейчас у всех SSD стоят, шины быстрые,куча не загруженных ядер на железяке . При МИНУТЕ на ход какие вообще могут быть претензии к контролю? Он (Вяленый) не успел подумать, лаги от железа мешали? У меня единственная претензия к авторам А0 в том, что не дали Стоку дебютную книжку хотя бы ходов на 10, ну и партий маловато обнародовали, хотелось бы все 100 глянуть.
  20. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    Рег.:
    17.07.2011
    Сообщения:
    16.452
    Симпатии:
    19.480
    Репутация:
    1.111
    Нарушения:
    124
    Оффлайн
    но всё равно время на партию

    у меня также
  21. nh2008 Учаcтник

    • Участник
    Рег.:
    01.12.2013
    Сообщения:
    3.466
    Симпатии:
    4.682
    Репутация:
    355
    Адрес:
    Украина
    Оффлайн
    Потом выяснят, что А0 мочу подменили и её дисквалифицируют. :)
  22. N1mTzo Учаcтник

    • Участник
    Рег.:
    16.04.2008
    Сообщения:
    318
    Симпатии:
    30
    Репутация:
    1
    Оффлайн
    Камский уже готов пооператорить со Стоком против A0.
    sovaz1997 нравится это.
  23. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    Рег.:
    17.07.2011
    Сообщения:
    16.452
    Симпатии:
    19.480
    Репутация:
    1.111
    Нарушения:
    124
    Оффлайн
    да уж... в очереди на призовой матч с детищем Гугла будет не протолкнуться
    N1mTzo нравится это.
  24. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    11.02.2006
    Сообщения:
    2.196
    Симпатии:
    52
    Репутация:
    3
    Оффлайн
    Да, какие-то свои внутренние тесты. Но больше доверяют результатам - CCRL, CEGT. И мне не известно ни одного рейтинг-листа с контролем фиксированное время на ход
  25. nn В предбаннике

    • Участник
    • Старожил
    Рег.:
    25.03.2007
    Сообщения:
    1.216
    Симпатии:
    2.986
    Репутация:
    115
    Нарушения:
    16
    Оффлайн
    Контроль должен был иметь большой эффект. Альфа-бета достаточно хорошо приспособлена, чтобы очень сильно варьировать время на ход. Стокфиш увеличивает время в нормальных условиях, когда ход в корне меняется, если fail low в корне, если оценка падает, и уменьшает если ход единственный, если ход стабильный, если оценка увеличивается.
    Кроме того, похоже DeepMind использовал movetime 60000, а не movestogo 1 wtime 60000 btime 60000, т.е. даже небольшие вариации по времени и накопление было невозможно, и итерация прерывалась не закончившись - а это дополнительные потери в эло.
    Кроме того, эндшпильные таблицы, наверно, стоят 20-25 эло.
    Обращает на себя внимание также, что hash очень маленький. На таком компьютере, если считать только по скорости заполнения, оптимально было бы где-то 180-240 Гб. Но дело еще хуже, так как много threads и они общаются между собой только через hash, т.е. малое количество hash влияет на эффективность использования этих threads.
    Gridnev, Challenger Spy, Rom и 3 другим нравится это.
  26. like Начинающий

    • Начинающий
    Рег.:
    09.12.2017
    Сообщения:
    4
    Симпатии:
    3
    Репутация:
    0
    Оффлайн
    [​IMG]
    64 TPU (11,5 PFLOPS), на которых шла тренировка нейросетки (+ еще 5000 TPU генерировали 700 тыс. игр) (исправлено).
    фото отсюда:
    https://www.forbes.com/sites/moorin...gle-nvidia-and-the-machine-learning-industry/
    —- добавлено: 9 дек 2017, опубликовано: 9 дек 2017 —-
    в пользу Стокфиша можно предположить, что в каждом дебюте есть "ямы" и без дебютной базы он в них попадал
    если их залатать, то уже не будет такой катастрофы как +39=11 во французской защите
  27. vsvor Новичок

    • Новичок
    Рег.:
    09.12.2017
    Сообщения:
    9
    Симпатии:
    3
    Репутация:
    0
    Оффлайн
    В статье сказано, что использовалось 4 TPU. Причем непонятно: то ли одна плата с 4 чипами, то ли 4 платы.
  28. Carter Новичок

    • Новичок
    Рег.:
    07.05.2010
    Сообщения:
    85
    Симпатии:
    75
    Репутация:
    0
    Оффлайн
    Не хочется выглядеть как человек с самой отстойной версией "Стокфиша", но у меня он так играет.))

    upload_2017-12-9_19-20-48.png
    —- добавлено: 9 дек 2017, опубликовано: 9 дек 2017 —-
    Надеюсь, это не спам. Просто доказательство, что "Стокфиш" так играет - и продолжает играть спустя уже немало времени.

    upload_2017-12-9_19-27-57.png
    N1mTzo нравится это.
  29. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    Какой Stockfish? 8-й быстро понимает, последний ещё быстрее. После Rf8 оценка +10 практически. Без таблиц.
  30. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    Рег.:
    17.07.2011
    Сообщения:
    16.452
    Симпатии:
    19.480
    Репутация:
    1.111
    Нарушения:
    124
    Оффлайн
  31. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    Тогда хеш маленький, наверное. Уж на 64 ядрах должен был ход найтись.
  32. Комсюк народный модератор

    • Заслуженный
    • Ветеран
    • Заблокирован
    Рег.:
    17.07.2011
    Сообщения:
    16.452
    Симпатии:
    19.480
    Репутация:
    1.111
    Нарушения:
    124
    Оффлайн
    Так и в матче небольшой :)

    Она же временем компенсировала
  33. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    Комсюк, вполне возможно, из-за этого. Хеш и потоки связаны между собой, чем больше хеш, тем больше продуктивность SMP.
  34. N1mTzo Учаcтник

    • Участник
    Рег.:
    16.04.2008
    Сообщения:
    318
    Симпатии:
    30
    Репутация:
    1
    Оффлайн
    Частично согласен, дал бы Стоку 5-фигурки попользовать, но не более.
    Да, хэша действительно зажали. На TCEC топовые движки (Гудини, Вяленый, Комодо) по 16Гб хэша используют, более при таком контроле и не к чему.
  35. like Начинающий

    • Начинающий
    Рег.:
    09.12.2017
    Сообщения:
    4
    Симпатии:
    3
    Репутация:
    0
    Оффлайн
    А если Альфу тренировать с нуля не из начальной позиции, а например из берлинского варианта? Причем белыми и черными отдельно. Получится прецизионный инструмент для крайне сложной задачи - пробивать черных в берлине.
    WinPooh, Нестор и Camon14 нравится это.

Поделиться этой страницей