Первый серьезный покерный матч человек-машина

ubaldus · 25 июл 2007

Покерный бот "Полярис" (последний продукт известной группы из Университета Альберты) играет матч в лимит холд-ем против известных профессионалов Фила Лаака и Али Эслами.
Формат - лимит, один-на-один, дупликатный матч (2 комнаты, каждая сдача в одной повторяется зеркально в другой комнате). Таким образом элемент везения минимизируется.
Приз $50000.

Играются 4 сессии по 1000 раздач (2х500), подводится отдельный итог по каждой сессии.
Результат в пределах 25 ставок считается ничьей.

Сессия 1: Полярис +7 (ничья)
Сессия 2: Полярис +95 (1:0). Судя по графику, люди сильно устали в конце после 7 часов игры.
Сессия 3: Полярис -82 (0:1)

Так что все решит последняя партия.
Конструкция бота довольно интересная - сильно приближенный расчет эквилибриума по Нэшу + самообучаемые подкрутки.

http://www.poker-academy.com/man-machine/results.php
http://www.cs.ualberta.ca/~games/poker/man-machine/Details/
http://www.cs.ualberta.ca/~darse/Papers/billings-phd.pdf

WildCat · 25 июл 2007

ubaldus пишет:

Конструкция бота довольно интересная - сильно приближенный расчет эквилибриума по Нэшу + самообучаемые подкрутки.
Нажмите, чтобы раскрыть...

А откуда такая информация про конструкцию бота?

NS · 25 июл 2007

Один на один - эквилибрум по Нешу = оптимальная стратегия.
или они играют с рейком?

romm · 25 июл 2007

Кстати, о компьютерах и картах, а какова ситуация в бридже?

ubaldus · 25 июл 2007

Сессия 4: Поларис -57 (0:1)

Люди выиграли матч 2.5:1.5. Похоже Али Эслами нашел слабые стороны у бота - будем ждать анализа от разработчиков.

Информация о боте - из диссертации Дарса Биллингса. Если бы можно было сколь-нибудь точно посчитать эквилибриум, бот был бы непобедим. Но для этого игра слишком велика, может лет через 25 расчет станет возможен.
Пока приходится упрощать модель и считать весьма приблизительный эквилибриум. Профессионал высокого класса в конце концов находит дыры в модели.

WildCat · 25 июл 2007

ubaldus пишет:

Информация о боте - из диссертации Дарса Биллингса.
Нажмите, чтобы раскрыть...

Она уже довольно старая. И уже непонятно какое отношение к ней имеет новый бот.

А вообще интересно было бы с тобой поговорить на тему программирования покера. Тут есть специальная ветка для этого: http://www.kasparovchess.crestbook.com/viewtopic.php?id=1121
Обшие вопросы, не относящиеся непосредственно к матчу лучше обсуждать там.

NS · 25 июл 2007

Информация о боте - из диссертации Дарса Биллингса. Если бы можно было сколь-нибудь точно посчитать эквилибриум, бот был бы непобедим. Но для этого игра слишком велика, может лет через 25 расчет станет возможен.
Нажмите, чтобы раскрыть...

Не рассматривал Неш двух участников. В случае двух участников вырожденный случай - существует оптимальная смешанная стратегия.
Вы смешиваете информацию из диссера, относящуюся к игре ботов на длинных столах и ботов играющих один на один.

Какие 25 лет? сейчас уже играют очень близко к оптимальной стратегии.

WildCat · 25 июл 2007

NS пишет:

сейчас уже играют очень близко к оптимальной стратегии.
Нажмите, чтобы раскрыть...

"очень" - это понятие очень относительное. Кому-то очень близко, а кому-то очень далеко.

NS · 25 июл 2007

Для меня слишком близко. Так же как и русские шашки.
Меня результаты матчей +2 -1 =99 (по 10 минут на партию на мощной машине) немного смущают. Так-же как и результат в Покере в матче сильнейших ботов.

Кстати, ссылку на результат матчей на сайте найти почему-то не могу. Это приватная ссылка для тех кто записался в турнир?

WildCat · 25 июл 2007

NS пишет:

Меня результаты матчей +2 -1 =99 (по 10 минут на партию на мощной машине) немного смущают.
Нажмите, чтобы раскрыть...

Правильные начальные позиции нужно выбирать.

Вот ссылки на турнир ботов:
http://www.cs.ualberta.ca/~pokert/2007/results/summarylimiteq.html
http://www.cs.ualberta.ca/~pokert/2007/results/summarylimitonline.html

Результаты вполне позволяют отранжировать ботов. А что еще нужно?

NS · 25 июл 2007

Правильные начальные позиции нужно выбирать.
Нажмите, чтобы раскрыть...

Это твои начальные позиции. Если есть лучше, то вышли...

Hyperborean07LimitEq1 IanBotLimit1 GS3Limit1 Average
Hyperborean07LimitEq1 0.021 ± 0.003 0.032 ± 0.003 0.026 ± 0.002
IanBotLimit1 -0.021 ± 0.003 0.004 ± 0.003 -0.008 ± 0.002
GS3Limit1 -0.032 ± 0.003 -0.004 ± 0.003 -0.018 ± 0.002

Это сколькож они рук наиграли чтоб выявить всё-таки сильнейшего?
Я считаю что такой результат - это уже практически оптимальная стратегия.

WildCat · 25 июл 2007

NS пишет:

Это твои начальные позиции. Если есть лучше, то вышли...
Нажмите, чтобы раскрыть...

Нет, это общепринятые.

HotDog · 25 июл 2007

NS пишет:

Это сколькож они рук наиграли чтоб выявить всё-таки сильнейшего?
Нажмите, чтобы раскрыть...

Писали что то о 6 миллионах рук

NS · 25 июл 2007

Зачем усиливать программу, когда разница в силе становится заметна только после миллионов рук? Можно считать что лимит 1+1 закончился.

Нестор · 25 июл 2007

Интересно, что в последней четвертой игровой сессии победили оба человека в зеркальных раздачах. Видимо, люди пока еще обучаются быстрее, чем компьютер

WildCat · 25 июл 2007

Мне кажется, что сыграно очень мало сдач, чтобы говорить о значимости результата.

ubaldus · 26 июл 2007

Сам Дарс Биллингс говорит, что легко выносит свой бот с разгромным результатом, т.к. знает дырки в модели.

Нынешние модели *очень* далеки от теоретического эквилибриума, который дает правильную стратегию для всех 4 раундов игры.
Или коряво моделируются три раунда пре-флоп, и потом склеиваются кое-как с пост-флоп моделью - это и есть канадские боты. Или более тонко моделируются первые два (получается задача линейной оптимизации размера этак 250000х 250000), а потом как бог пошлет. Так делают ребята из Карнеги-Меллона с их GS ботами.
Когда станут доступны терабайты памяти и линейные задачи с 10^9 переменных, модели станут близки к теоретическим, думается.

Кстати, посмотрев как Эслами играет последнюю сессию, Биллингс сразу сказал, что матч людьми выигран, не дожидаясь результата второй половины зеркалки.

WildCat · 26 июл 2007

ubaldus пишет:

Сам Дарс Биллингс говорит, что легко выносит свой бот с разгромным результатом, т.к. знает дырки в модели.
Нажмите, чтобы раскрыть...

Это наверное было сказано давно и про совсем другой бот.

ubaldus · 26 июл 2007

WildCat пишет:

Мне кажется, что сыграно очень мало сдач, чтобы говорить о значимости результата.
Нажмите, чтобы раскрыть...

Маловато, да. Притом я не знаю чему равно s.d. в дупликатный покер (в обычный 1-на-1 где-то 5.5 sb/h).

Кроме того, как в любом подобном матче, было полно мулек. Во второй сессии люди играли поздно вечером и уставшие. В третьей сессии у бота отрубило обучающий модуль. В любом случае общий итог ~0.009 sb/h разумеется близок к ничьей для такого короткого матча.

Но... NS неправ, когда говорит что 0.02 sb/h это мало. Тот же Али Эслами играет 100,000 - 150,000 раздач в год, по ставкам начиная с $400/800 до $1000/2000 и выше. Его преимущество над соперниками вряд ли больше 0.02 sb/h. Это и есть разница между Эло 2500 и 2700, так сказать. А в денежных терминах - 2000 или 3000 ставок в год (х $500 для простоты).

Войти или зарегистрироваться

Первый серьезный покерный матч человек-машина

ubaldus Учаcтник

WildCat Коршунов Игорь Команда форума

NS Нефёдов Сергей баннер

romm KMC баннер

ubaldus Учаcтник

WildCat Коршунов Игорь Команда форума

NS Нефёдов Сергей баннер

WildCat Коршунов Игорь Команда форума

NS Нефёдов Сергей баннер

WildCat Коршунов Игорь Команда форума

NS Нефёдов Сергей баннер

WildCat Коршунов Игорь Команда форума

HotDog Учаcтник

NS Нефёдов Сергей баннер

Нестор консультант_ специалист по черной магии баннер

WildCat Коршунов Игорь Команда форума

ubaldus Учаcтник

WildCat Коршунов Игорь Команда форума

ubaldus Учаcтник