Leela Chess Zero (lc0): турниры, партии, рейтинги...

Тема в разделе "Машинное отделение", создана пользователем vasa, 10 окт 2018.

  1. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.474
    Симпатии:
    3.068
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Michael-13 нравится это.
  2. Undying Учаcтник

    • Участник
    Рег.:
    31.08.2016
    Сообщения:
    1.316
    Симпатии:
    566
    Репутация:
    15
    Оффлайн
    Нынешняя версия Лилы это топ-4, а не топ-1. И опять же я не понимаю зачем разработчики Trade Penalty отключили. Судя по третьему дивизиону это усиление игры, плюс возможность проверить новую идею в боевых условиях.
  3. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    Скажу такую вещь: по 6 партиям вообще делать какие-либо выводы нельзя. И вы, как разработчик движка (а 2800 пунктов - это очень большой труд), это понимаете.

    Stockfish с вероятностью процентов так 20 мог проиграть этот матч, процентов 25 - выиграть. Это можно подсчитать более точно, конечно.

    Ну, выиграл одну партию (последнюю при том) и теперь все будут говорить, что Великий Stockfish (а с этим никто не спорит), развиваемый 10 лет + Alpha-Beta, развиваемая 50 лет победил "недодвижок", отросток от AlphaZero - Лилу (которой/которого и в помине не было год назад). Уничтожил, разгромил и доказал свое превосходство. И доказал, что он номер один.... В 6 партий выиграл одну, остальные свел в ничью.

    P. S. А дебюты вообще были одинаковыми при перемене цвета? Судя по матчу, нет. Т. е. можно было SF подсунуть в конце очень хороший дебют (в котором и Лила имела бы огромные шансы). Т. е. это чисто развлекательный матч. Ничего не доказывающий абсолютно, ведь по тестам все видно, кто вообще сказал, что Лила #1..

    А реально есть тесты, которые показывают, что разница между Stockfish и Lc0 - около 50-100 пунктов ЭЛО. Я посмеюсь через год, пока признаём поражение Лилы в этом чисто развлекательном мачте :)

    Пока Лила не доказывает, что она #1. Это вообще не цель проекта на данный момент. Понятно, что рано или поздно данный подход разнесет классический, но не будем говорить об этом раньше времени. Лила доказала, что DeepMind по-крайней мере не обманывает. А ведь раньше много было недоверчивых (в том числе и я).
  4. pavelgttfj8 Учаcтник

    • Участник
    Рег.:
    07.12.2017
    Сообщения:
    288
    Симпатии:
    89
    Репутация:
    3
    Оффлайн
    Никогда такой разницы в оценке не видел. Лила не распознает бешенную ладью
    4ый.jpg

  5. pavelgttfj8 Учаcтник

    • Участник
    Рег.:
    07.12.2017
    Сообщения:
    288
    Симпатии:
    89
    Репутация:
    3
    Оффлайн
    судя по графику финальный lr drop произошел?
  6. Rom Старожил

    • Участник
    • Старожил
    Рег.:
    12.02.2012
    Сообщения:
    644
    Симпатии:
    275
    Репутация:
    27
    Оффлайн
    Пока нет.
  7. Пломбир Новичок

    • Новичок
    Рег.:
    09.04.2018
    Сообщения:
    35
    Симпатии:
    25
    Репутация:
    0
    Оффлайн
    Подскажите, а по какому принципу подбирали конфигурацию оборудования для матча стока и лилы?
    Я год назад топил за то, чтобы подбирать конфиг по потребляемой энергии. Но в этом случае для лилы пришлось бы урезать осетра раза в два...
    При этом, в прошедшем матче я в чате видел сообщение, что на процессорах для стока частота стояла всего 2Ghz. Чой-та маловато...
    В принципе, я за любой кипишь, лишь бы интрига была, но хотелось бы знать на чем основана официальная позиция людей, которые делают матчи.
  8. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.474
    Симпатии:
    3.068
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн

    Я понимаю всё, и даже немножко больше. Одно только неясно: если это ничего не решающий, статистически ничтожный, чисто развлекательный матч - зачем было поднимать вокруг него столько хайпа? ("the real world championship..." etc)
    sovaz1997 нравится это.
  9. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.474
    Симпатии:
    3.068
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Да вот не факт, что разнесёт. Чтобы победить дракона, надо превратиться в дракона. Чтобы победить АБ-движки, надо модифицировать поиск Монте-Карло так, чтобы он научился таки находить двадцатиходовые варианты с единственными ходами в игровом эндшпиле.
    sovaz1997 нравится это.
  10. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    Тем не менее, догнали же Stockfish как-никак. Ну, пускай там 100 пунктов ещё надо. Конечно, своим недостатки в эндшпиле у Лилы могут сохранится. Значит, в дебюте надо выигрывать). Везде свои плюсы и минусы. Для нестандартных позиций Лила абсолютно не подходит, тоже есть такая штука. Так что AB-движки не умрут, им будет отведено свое особое место. Наверняка из этого в итоге появятся всякие "гибриды".
  11. Undying Учаcтник

    • Участник
    Рег.:
    31.08.2016
    Сообщения:
    1.316
    Симпатии:
    566
    Репутация:
    15
    Оффлайн
    Не обязательно. Достаточно регулярно переигрывать АБ-движки в миттельшпиле. Уже приводили пример насколько помню с первыми версиями Рыбки, которые часто лажали в эндшпилях, но в миттельшпиле играли настолько сильнее, что редкие эндшпильные победы соперников погоды не делали.

    Развивать надо сильные стороны. Проблема в том, что пока Лиле редко удается переиграть в миттельшпиле топовые АБ-движки. А отдельные зевки и пропуски этюдных выигрышей в эндшпилях на результат на самом деле мало влияют.
  12. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    Сначала Leela отдает 2 пешки, потом слона за пешку... Ну а дальше просто выигрывает :)

    Edwards нравится это.
  13. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.474
    Симпатии:
    3.068
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Если ограничиваться только игрой в турнирах на компьютерах немногочисленных гиков, то да.
    Если планировать стать движком номер один на компьютерах всех гроссмейстеров мира, то в анализ тоже надо уметь. И тогда без эндшпиля никуда.
  14. redhelicopter В предбаннике

    • Участник
    Рег.:
    11.11.2014
    Сообщения:
    626
    Симпатии:
    2.182
    Репутация:
    38
    Нарушения:
    15
    Оффлайн
    Погонял несколько партий LC0 с сеткой 11250, против SF9. Использую дистрибутив, на который дана ссылка в параллельной теме, т.е. на ресурсах процессора, без видеокарты.

    Что можно отметить, играет неплохо, временами на равных, но любит позевать.

    Примечательная партия была в отказанном ферзевом (Лила белыми). Все было неплохо, но на 33-м ходу Лила проголодалась и решила слопать ферзем незащищенную пешку. Зевок весьма человеческий. Выкладываю отдельно позицию, которая получилась - любители тактики могут посчитать ответ Стокфиша.



    Собственно, партия:

  15. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    redhelicopter, на процессоре Лила очень слабо играет, несравнимо слабее, чем на видеокарте. Какая у вас была скорость у Лилы?

    И ошибка была явно не на 33-м ходу, там у нее -5 (по анализу lichess), -10 (по Лиле на слабенькой видеокарте) и это 1-я линия
    —- добавлено: 18 дек 2018 —-
    Ах, перепутал соперников. Сейчас пересмотрю
    —- добавлено: 18 дек 2018, опубликовано: 18 дек 2018 —-
    На 2600 узлах видит ошибку. У меня достаточно медленно, т. к. долго разгоняется до скорости в 500-1000 nps, На топовых RTX за миллисекунды увидит, на бюджетных типа 1050 Ti - меньше, чем за секунду.
  16. redhelicopter В предбаннике

    • Участник
    Рег.:
    11.11.2014
    Сообщения:
    626
    Симпатии:
    2.182
    Репутация:
    38
    Нарушения:
    15
    Оффлайн
    Точно не могу сказать, но чтобы отказаться от хода 33. Qxh5, ей требуется около минуты.

    Имхо, ресурсы, предоставленные движку и сетке, должны быть равными для честной оценки силы игры.
  17. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    redhelicopter, в смысле, равные? Уж извините, но Лила заточена под видеокарту, а не процессор. Stockfish заточен под процессор, а не видеокарту. Давайте сделаем турнир на видеокарте (равные ресурсы). Кто не запустится - сам виноват... Скажите ещё спасибо, что Лила вообще работает на процессоре.

    Равные ресурсы - это уже давно обсуждается. Нужно сбалансированное железо просто.
    Undying нравится это.
  18. SKY Учаcтник

    • Участник
    Рег.:
    05.11.2018
    Сообщения:
    190
    Симпатии:
    20
    Репутация:
    1
    Оффлайн
    А если по "FLOP"
  19. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    SKY, видеокарта и процессор - совершенно разные вещи и сравнивать их в лоб нельзя.
    Скажу простую вещь: была бы видеокарта быстрее процессора, Stockfish бы уже работал в том числе и на ней. А видеокарта по некоторым показателям действительно быстрее процессора.

    Но Stockfish не работает на видеокарте.
  20. SKY Учаcтник

    • Участник
    Рег.:
    05.11.2018
    Сообщения:
    190
    Симпатии:
    20
    Репутация:
    1
    Оффлайн
    Согласен,да и видеокарта более простая по сути,она работает с бОльшими объемами,но использует более простые алгоритмы,наверно это и недает запускать на ней обычные движки,а ЦП может работать с программами любой сложности.
  21. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.474
    Симпатии:
    3.068
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Единственный физичный критерий - по потребляемой мощности. Остальное от лукавого.
    sovaz1997 нравится это.
  22. Mustitz Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    30.09.2006
    Сообщения:
    3.527
    Симпатии:
    1.243
    Репутация:
    32
    Адрес:
    Киев
    Оффлайн
    Отличие видеокарты от процессора в том, что видеокарта может выполнять одновременно много одинаковых действий. Это идеально для видеоигр, потому что алгоритм, который определяет цвет пикселя в левом верхнем углу ничем не отличается от алгоритма, который считает цвет соседнего пикселя. С учётом того, что на GPU тысяти ядер мы получаем ускорение на порядок.

    Если взять генератор ходов, то видеокарта может сгенерировать ходы одновременно в тысяче позиций, вычислить ОФ для тысячи позиций. Но если в процессе оценки будет условие, то видеокарта должна будет выполнить каждую из ветвь. Например, допустим что мы генерируем ходы пешками, при этом в некоторых позициях у нас восемь пешек, а в некоторых четыре. В результате даже те ядра, которым досталась позиция с четырься пешками, всё равно будут делать восемь итераций только потому, что эти итерации нужны другим ядрам.

    Думаю, что при желании Stockfish можно заточить под GPU, но это больной объем работы, и прирост в производительности может быть всего несколько раз.
  23. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.474
    Симпатии:
    3.068
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Насколько я понимаю, абстракции при вычислениях на GPU не поднимаются до предметной области (пешки, ходы и прочие элементы шахматного алгоритма), а представляют собой просто очень быстрые перемножения матриц - основную операцию, нужную для работы нейросетей.
    Настоящая "шахматная" параллельность была у специализированных машин, вроде Belle Томпсона или DeepBlue - с аппаратной генерацией ходов и даже ФВ-поиском. Но эти устройства были, конечно же, не универсальными.
    Undying нравится это.
  24. Mustitz Заслуженный

    • Заслуженный
    • Участник
    • Старожил
    Рег.:
    30.09.2006
    Сообщения:
    3.527
    Симпатии:
    1.243
    Репутация:
    32
    Адрес:
    Киев
    Оффлайн
    Да, но никто не мешает использовать GPU и для генерации ходов, я больше про это. Просто там будет много технических сложностей, больше связанных не с вычислениями а с кешами.
  25. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.474
    Симпатии:
    3.068
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Забавно наблюдать, как за считанные часы до начала премьер-дивизиона TCEC разработчики Лилы так и не могут решить, какая же сеть у них самая сильная :)
    https://groups.google.com/forum/m/#!topic/lczero/S4vPhpn5oxU
    Похоже, сейчас опять версию 1x полугодовой давности отправят.
  26. crem Учаcтник

    • Участник
    Рег.:
    24.11.2016
    Сообщения:
    140
    Симпатии:
    203
    Репутация:
    14
    Оффлайн
    Не хочу сказать, что разработчики знают, какая сеть самая сильная, но я не знаю кто все эти люди, которые пишут в той теме (включая человека, который начал тему).

    Конфигурацию для DivP TCEC отправили организатором вообще до того, как эту тему на форуме начали.
  27. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.474
    Симпатии:
    3.068
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    И какую отправили? Неужели опять старую?
  28. crem Учаcтник

    • Участник
    Рег.:
    24.11.2016
    Сообщения:
    140
    Симпатии:
    203
    Репутация:
    14
    Оффлайн
    Отправили 32195 но у нас ещё есть 5 минут чтобы переотправить 32208.

    UPD: Отправили 32194, и у нас не было 5 минут чтобы переотправить что-нибудь другое. :)
    FlashNeo, Undying, sovaz1997 и ещё 1-му нравится это.
  29. nn Заблокирован

    • Заблокирован
    Рег.:
    25.03.2007
    Сообщения:
    1.404
    Симпатии:
    3.105
    Репутация:
    124
    Нарушения:
    31
    Оффлайн
    Там у них полный бардак творится. Какая версия сильнее определяется голосованием, причем голосуют какие-то случайные люди, не понимающие ничего в статистике. Отсылается при этом что-то другое.
    И такое происходит не только с тем, что они посылают, но и с патчами, и с параметрами при обучении и в программе. Типа демократия.
    Голосовать нужно давать по ничего не значащим вопросам, чтобы те, кто дает вычислительные мощности были удовлетворены. А по значащим вопросам все должно решаться узком кругу некоторых из разработчиков, как происходит со стокфишем. Типа репрезентативная меритократия.
    sovaz1997 и WinPooh нравится это.
  30. sovaz1997 Учаcтник

    • Участник
    Рег.:
    30.08.2016
    Сообщения:
    649
    Симпатии:
    120
    Репутация:
    3
    Оффлайн
    Так у них такая штука еще: они говорят, что понимают, что партий мало, и при счете 7-6 к новой версии говорят, что та версия (что набрала 7) ВЕРОЯТНЕЕ всего сильнее, чем та версия, которая набрала 6 очков. То, что вероятность того, что одна сильнее другой колышется в районе 50-51% их не волнует))

    Ну и, конечно, "sure more games would be better but it takes too long to do 100 already". Ну, если вы не способны набрать достаточное число игр, то к чему такой тест, после которого некоторые будут делать неверные выводы.

    В результате сеть выбирается не на научнос подходе, а просто на эмоциях по сути (та, которой начинает больше везти, называют лучшей и отправляют в TCEC)
    —- добавлено: 24 дек 2018 —-
    По поводу параметров тестирования: лично я считаю, что здесь нужно использовать то, что делает команда Stockfish (SPRT-тестирование)
  31. Rom Старожил

    • Участник
    • Старожил
    Рег.:
    12.02.2012
    Сообщения:
    644
    Симпатии:
    275
    Репутация:
    27
    Оффлайн
    Давно хотел провести турнир, где будет участвовать с десяток копий одной и той же программы. То есть турнир абсолютно одинаковых программ. Определенно, такой турнир выявит и "сильнейших" и "слабейших". Примерно так же как здесь:
  32. crem Учаcтник

    • Участник
    Рег.:
    24.11.2016
    Сообщения:
    140
    Симпатии:
    203
    Репутация:
    14
    Оффлайн
    В последние месяцы голосование немного утратило свой смысл.
    Оно идёт (в 90% случаев) не от разработчиков, которые пишут код, а от других участников, но выглядит будто бы официальным (и обычно так сформулировано, что ответ заранее известен).
    Такие голосования разработчиками в основном игнорируются. Как это прекратить, чтобы никого не обидеть — не знаю.
    Когда голосования идут от разработчиков, они касаются в основном общего мнения/настроения, а не "какая сеть сильнее?". И результаты голосования учитываются, но не являются обязательными к исполнению.

    По поводу голосования что слать в TCEC: я некоторое время пытался бороться, чтобы отсылали проверенные версии, но на это уходит много энергии, и TCEC это развлекательное мероприятие, поэтому я туда больше не вмешиваюсь. В прошлый раз вообще было так, что решили отправлять версию с изменениями о которых даже не было известно, компилируются ли они.
    В целом, многие считали что я в вопросе выбора того, что слать на TCEC, очень сильно неправ, поэтому я своего мнения там больше не высказываю.

    В CCCC пока что всё более под контролем. Туда мы шлём проверенные версии и проверенные сети, выбранные в узком кругу.
    В этот раз правда пришлось сделать по-другому. chess.com купил собственный сервер с GPU (до этого они арендовали), и оказалось, что синхронизация между процессорами там очень медленная. Неизвестно, почему. Возможно, потому что у них два CPU, а возможно, потому что ядро линукса у них 2012 года. Пришлось срочно делать всякие заплатки, чтоб скорость была не 5-10 knps. Но это была вынужденная мера, и голосование тут не при чём.

    По поводу голосования "за патчи" — они идут не от людей, которые пишут код. Такими голосованиями пользуются как аргументом, что "комьюнити хочет этот патч" (пока что безуспешно).
    Ни один патч не был смержен "потому что так проголосовали".

    По поводу голосований по поводу настроек тренировки: оно происходит очень редко (раз в месяца два), и по субъективным вопросам, либо для развлечения. (В последний раз такое было в начале ноября по поводу "мы останавливаем test20, никто не против?"). Параметры тренировки тоже решаются в узком кругу.

    Об использовании статистических методов для оптимизации параметров всего (тренировки/настроек движка/патчей):
    Мы знаем, что это необходимо и обязательно и вообще без правильно поставленных тестов мы упрёмся в тупик!
    Проблема в том, что у нас нету инфраструктуры для таких тестов, и нету времени чтобы эту инфраструктуру написать. Я начинал уже 4 раза, в самый первый раз это было в июне.
    Было бы замечательно запустить много тренировок с разными настройками и оптимизацией параметров, параллельно и автоматически, но нету кода чтобы это сделать.
    Сейчас запуск нового run'а требуется 4 часа шаманства с тренировочными скриптами, базами данных, заботой о том, чтоб после перезапуска старые клиенты не продолжали слать тренировочные данные от старых сетей и т.д..
    Я планировал сделать следующую попытку в течение новогодних праздников, но пока ещё не знаю дойдут ли руки.
    sovaz1997, FlashNeo, svoitsl и 3 другим нравится это.
  33. Edwards Ветеран

    • Ветеран
    Рег.:
    11.02.2006
    Сообщения:
    6.331
    Симпатии:
    323
    Репутация:
    21
    Адрес:
    CПб
    Оффлайн
    ну, может, хотя бы тут - на практике - ребята поймут, что "демократия" это очень сомнительная "система".
  34. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.474
    Симпатии:
    3.068
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Беда CCCC в том, что там совершенно непрозрачная какая-то система. Идут один турнир за другим, система их совершенно неясна, таблиц с историей и архивов партий без пол-литры не отыскать, и т.д.
    Перестал за ними следить где-то в середине турнира по пятиминуткам. И так ясно, что Лила всегда будет третья-четвёртая, пока новой версии не появится.
    Undying и sovaz1997 нравится это.
  35. WinPooh В.М.

    • Команда форума
    Рег.:
    13.02.2006
    Сообщения:
    9.474
    Симпатии:
    3.068
    Репутация:
    95
    Адрес:
    Москва
    Оффлайн
    Если Лила выйдет в суперфинал, дадут ей ещё раз сеть на новую поменять?

Поделиться этой страницей