Первый серьезный покерный матч человек-машина

Тема в разделе "Машинное отделение", создана пользователем ubaldus, 25 июл 2007.

  1. ubaldus
    Оффлайн

    ubaldus Учаcтник

    Репутация:
    -2
    Покерный бот "Полярис" (последний продукт известной группы из Университета Альберты) играет матч в лимит холд-ем против известных профессионалов Фила Лаака и Али Эслами.
    Формат - лимит, один-на-один, дупликатный матч (2 комнаты, каждая сдача в одной повторяется зеркально в другой комнате). Таким образом элемент везения минимизируется.
    Приз $50000.

    Играются 4 сессии по 1000 раздач (2х500), подводится отдельный итог по каждой сессии.
    Результат в пределах 25 ставок считается ничьей.

    Сессия 1: Полярис +7 (ничья)
    Сессия 2: Полярис +95 (1:0). Судя по графику, люди сильно устали в конце после 7 часов игры.
    Сессия 3: Полярис -82 (0:1)

    Так что все решит последняя партия.
    Конструкция бота довольно интересная - сильно приближенный расчет эквилибриума по Нэшу + самообучаемые подкрутки.



    http://www.poker-academy.com/man-machine/results.php
    http://www.cs.ualberta.ca/~games/poker/man-machine/Details/
    http://www.cs.ualberta.ca/~darse/Papers/billings-phd.pdf
     
  2. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    А откуда такая информация про конструкцию бота?
     
  3. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Один на один - эквилибрум по Нешу = оптимальная стратегия.
    или они играют с рейком?
     
  4. romm
    Оффлайн

    romm KMC баннер

    Репутация:
    0
    Кстати, о компьютерах и картах, а какова ситуация в бридже?
     
  5. ubaldus
    Оффлайн

    ubaldus Учаcтник

    Репутация:
    -2
    Сессия 4: Поларис -57 (0:1)

    Люди выиграли матч 2.5:1.5. Похоже Али Эслами нашел слабые стороны у бота - будем ждать анализа от разработчиков.

    Информация о боте - из диссертации Дарса Биллингса. Если бы можно было сколь-нибудь точно посчитать эквилибриум, бот был бы непобедим. Но для этого игра слишком велика, может лет через 25 расчет станет возможен.
    Пока приходится упрощать модель и считать весьма приблизительный эквилибриум. Профессионал высокого класса в конце концов находит дыры в модели.
     
  6. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    Она уже довольно старая. И уже непонятно какое отношение к ней имеет новый бот.

    А вообще интересно было бы с тобой поговорить на тему программирования покера. Тут есть специальная ветка для этого: http://www.kasparovchess.crestbook.com/viewtopic.php?id=1121
    Обшие вопросы, не относящиеся непосредственно к матчу лучше обсуждать там.
     
  7. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Не рассматривал Неш двух участников. В случае двух участников вырожденный случай - существует оптимальная смешанная стратегия.
    Вы смешиваете информацию из диссера, относящуюся к игре ботов на длинных столах и ботов играющих один на один.

    Какие 25 лет? сейчас уже играют очень близко к оптимальной стратегии.
     
  8. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    "очень" - это понятие очень относительное. Кому-то очень близко, а кому-то очень далеко. :)
     
  9. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Для меня слишком близко. Так же как и русские шашки.
    Меня результаты матчей +2 -1 =99 (по 10 минут на партию на мощной машине) немного смущают. Так-же как и результат в Покере в матче сильнейших ботов.

    Кстати, ссылку на результат матчей на сайте найти почему-то не могу. Это приватная ссылка для тех кто записался в турнир?
     
  10. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    Правильные начальные позиции нужно выбирать. :)

    Вот ссылки на турнир ботов:
    http://www.cs.ualberta.ca/~pokert/2007/results/summarylimiteq.html
    http://www.cs.ualberta.ca/~pokert/2007/results/summarylimitonline.html

    Результаты вполне позволяют отранжировать ботов. А что еще нужно?
     
  11. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Это твои начальные позиции. :) Если есть лучше, то вышли...

    Hyperborean07LimitEq1 IanBotLimit1 GS3Limit1 Average
    Hyperborean07LimitEq1 0.021 ± 0.003 0.032 ± 0.003 0.026 ± 0.002
    IanBotLimit1 -0.021 ± 0.003 0.004 ± 0.003 -0.008 ± 0.002
    GS3Limit1 -0.032 ± 0.003 -0.004 ± 0.003 -0.018 ± 0.002

    Это сколькож они рук наиграли чтоб выявить всё-таки сильнейшего?
    Я считаю что такой результат - это уже практически оптимальная стратегия.
     
  12. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    Нет, это общепринятые.
     
  13. HotDog
    Оффлайн

    HotDog Учаcтник

    Репутация:
    0
    Писали что то о 6 миллионах рук
     
  14. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Зачем усиливать программу, когда разница в силе становится заметна только после миллионов рук? :) Можно считать что лимит 1+1 закончился.
     
  15. Нестор
    Оффлайн

    Нестор консультант_ специалист по черной магии баннер

    Репутация:
    331
    Интересно, что в последней четвертой игровой сессии победили оба человека в зеркальных раздачах. Видимо, люди пока еще обучаются быстрее, чем компьютер :)
     
  16. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    Мне кажется, что сыграно очень мало сдач, чтобы говорить о значимости результата.
     
  17. ubaldus
    Оффлайн

    ubaldus Учаcтник

    Репутация:
    -2
    Сам Дарс Биллингс говорит, что легко выносит свой бот с разгромным результатом, т.к. знает дырки в модели.

    Нынешние модели *очень* далеки от теоретического эквилибриума, который дает правильную стратегию для всех 4 раундов игры.
    Или коряво моделируются три раунда пре-флоп, и потом склеиваются кое-как с пост-флоп моделью - это и есть канадские боты. Или более тонко моделируются первые два (получается задача линейной оптимизации размера этак 250000х 250000), а потом как бог пошлет. Так делают ребята из Карнеги-Меллона с их GS ботами.
    Когда станут доступны терабайты памяти и линейные задачи с 10^9 переменных, модели станут близки к теоретическим, думается.

    Кстати, посмотрев как Эслами играет последнюю сессию, Биллингс сразу сказал, что матч людьми выигран, не дожидаясь результата второй половины зеркалки.
     
  18. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    Это наверное было сказано давно и про совсем другой бот.
     
  19. ubaldus
    Оффлайн

    ubaldus Учаcтник

    Репутация:
    -2
    Маловато, да. Притом я не знаю чему равно s.d. в дупликатный покер (в обычный 1-на-1 где-то 5.5 sb/h).

    Кроме того, как в любом подобном матче, было полно мулек. Во второй сессии люди играли поздно вечером и уставшие. В третьей сессии у бота отрубило обучающий модуль. В любом случае общий итог ~0.009 sb/h разумеется близок к ничьей для такого короткого матча.

    Но... NS неправ, когда говорит что 0.02 sb/h это мало. Тот же Али Эслами играет 100,000 - 150,000 раздач в год, по ставкам начиная с $400/800 до $1000/2000 и выше. Его преимущество над соперниками вряд ли больше 0.02 sb/h. Это и есть разница между Эло 2500 и 2700, так сказать. А в денежных терминах - 2000 или 3000 ставок в год (х $500 для простоты).