Матч на Кубок Президента: Deep Fritz - Deep Junior

Тема в разделе "Машинное отделение", создана пользователем Gorodnichii, 25 апр 2007.

  1. трактатор
    Оффлайн

    трактатор Мирослав Лескив баннер

    Репутация:
    1
    Такими фразами Вы меня окончательно запутаете.
    Давайте попорядку:
    1. Что я хочу доказать? При изменении контроля сила программы может значительно меняться. Берём средние значения рейтинга Фрица при разных контролях: 2943 и 2919. Разница в 24 пункта.
    2. Погрешности этих средних - 16 и 27, соответственно. И Вы говорите, что разница в 24 пункта укладывается в рамки этих погрешностей. Здесь спорить не о чем. Действительно, укладывается.
    3. Если мы увеличим количество партий, погрешности должны уменьшиться. Но вот будут ли сходиться средние к одной величине? К сожалению, по рейтингу предсказать мы этого не можем. Кстати, не совсем понятно, играли ли все включённые в рейтинг-лист движки между собой (результаты некоторых матчей в таблице внизу отсутствуют).
    4. Можно попробовать определить, как сильно меняется сила движка в зависимости от контроля по результатам отдельных матчей.
    Возьмём самое злободневное: Фриц-Джуниор :)
    40/4 счёт 55.5 - 44.5 (55,5% в пользу Фрица)
    40/40 счёт 19 - 11 (63,3% в пользу Фрица)
    Результаты разные, но вы и здесь можете возразить, что взяты разные размеры выборок.
    5. Вывод: пользуясь данными CCRL мы не можем ни доказать, ни опровергнуть утверждение об изменении силы в зависимости от контроля. Равно как и предсказать результат матча между Джуниором и Фрицем в Элисте, моделируя этот матч на своём компе :)
     
  2. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Трактатор, всё-таки 19-11 - это не серьёзно. :)
    Я не говорил, что предскажу результат матча в Элисте, моделируя этот матч на своём компе. Для 6 партий врядли можно сделать толковое предсказание. Возможен и счёт 6-0....
     
  3. Vertu
    Оффлайн

    Vertu Старожил

    Репутация:
    4
    Ничто, кроме Гидры, не может играть на гидрином железе. И Гидра ни на чем, кроме своего железа, тоже играть не может. И "на равном железе" Гидра ни с чем играть не может. Потому что для "равного железа" больше никаких программ не написано.
     
  4. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    1. Трактатор, вы сравниваете несравнимые вещи.

    Рейтинг в первом листе равне C1+2943
    Во втором С2+2919
    Вы можете понять что мало того что С1 не равно С2, но еще и отличается где-то на 200 пунктов?
    Потом, если у нас Два значения полученные с погрешность А, то их разница будет иметь погрешность Больше чем А.

    А сравнивать можно только сравнимые величины.

    2. Вы несете полный бред. В первом листе можно одновременно всем движкам спокойно прибавить 100 пунктов, и рейтинг лист останется правильным - это несвязанные рейтинг-листы.

    3. Срочно в школу учить математику. Чему равна погрешность суммы и погрешность разницы независимых величин.

    4. Блин, да посмотрите вы наконец доверительные интервалы по 30 партиям!!! У вас сколько партий во втором матче?


    Причем тут разные размеры? Важно не то что разные размеры выборок, а то что сами выборки малы.

    5. Пользуясь данными ССRL мы не можем предсказать результат матча из нескольких партий, так как это чистая рулетка. И если кому-то интересно смотреть как она крутится, то мне больше нравятся интеллектуальные занятия. А наиграть несколько партий Джуниора с Фрицем можно и дома. И с таким-же удовольствием их посмотреть.


    Никто никогда и не говорил что Джуниор либо Фриц сильнее - это два примерно равных движка, причем явно не сильнейших - Занзибар и Рыбка достоверно их сильнее.
     
  5. Fruit
    Оффлайн

    Fruit Александр баннер

    Репутация:
    3
    Вы думаете автор Гидры об этом не знает? Он говорил, что есть 4-х процовый комп и, что совсем смешно, на Playchess Гидра играла на нём, в том числе. Так что, то, что вы, Vertu, написали - неправда.
     
  6. трактатор
    Оффлайн

    трактатор Мирослав Лескив баннер

    Репутация:
    1
    Слушайте, NS, Вы можете объяснять нормально, или будете говорить сами с собой на тарабарском языке?
    Что такое C1 и С2? Откуда они берутся?
    Я просто пытаюсь составить логическую цепочку рассуждений и надеюсь, что меня поправят, если я неправ. Вы же своими постами меня ещё больше запутываете.

    В школах теорию вероятностей и погрешности не проходят. Так что не надо меня туда отсылать.
    Если вы об этом:
    , то когда я говорю об увеличении количества партий, я имею ввиду увеличение размеров выборки. Включение новых матчей, действительно, увеличивает погрешность, но увеличение числа партий в одном матче должно её уменьшать.

    Вот это вообще не понял к чему. Программы, указанные в этих листах, одни и те же. Почему же рейтинг-листы несвязанные?
     
  7. bankuss
    Оффлайн

    bankuss Александр баннер

    Репутация:
    6
    у меня небольшой турнир на ноуте крутится круглые сутки, контроль 1 час на партию.
    дык вот занзи всем лидерам сливает...единственные 0.5 очка отняты у хайркс 11.1 :)
    в остальных микро матчах полные ноли :) кроме юниора (+1) и смарфи (+1)
    кстати юниор проив фрица идет пока с +1
    партий немного правда сыграли, но борьба нешуточная :)

    так же и в этом суперматче может случится - где-то в какой то партии юниор возмет эти +1 и доведет до победы :) но большее чем на шоу этот матч не тянет.
     
  8. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Попытаюсь сказать нормально. Извините, я просто учился в мат. школе, возможно разные программы :)


    Почему рейтинг листы разные? При увеличении контроля в 10 раз сила программ меняется примерно на 250 пунктов ЭЛО.
    То есть Если при контроле 40/4 Фриц играет на 2600, то при контроле 40/40 Фриц Играет на 2850. Мы спокойно можем во всем рейтинг листе (отдельном) прибавить каждой программе некоторое значение (одинаковое для всех программ) к рейтингу, при этом разница рейтингов между любыми двумя программами в рейтинг-листе останется та-же, именно поэтому при расчетах рейтингов при помощи BayesElo EloStat и т.д. нужно задавать начальный рейтинг.

    Откуда взялись в рейтинг листах значения 2900+?

    Просто примерно прикинули в какую силу при таком контроле играет человек, и каждый рейтинг-лист скоррректировали так, чтоб можно было сравнить человека с конкретным рейтингом ФИДЕ, играющего с таким-же контролем с программой. Естественно эта прибавка условна, и рейтинг-листы между собой сравнивать нельзя. Вы говорите про пару десятков пунктов разницы в силе Фрица - там на самом деле разница в 250 пунктов. Удвоение дает прибавку около 70 пунктов, увеличние контроля в 10 раз -
    70 * ln 10 / ln 2


    Вы как раз не увеличиваете выборку, а складываете (вычитаете) независимые величины с заданной погрешностью. (на самом деле с заданным доверительным интервалом, но это не важно).
    Что такое увеличение выборки? Путь есть две выборки, один раз рейтинг получился 2900, второй раз 2910. Считаем средний рейтинг (2900+2910) / 2 = 2905.
    вот это как раз увеличение выборки


    Обратите внимание на деление на два! Только из-за этого деления погрешность уменьшается.
     
  9. трактатор
    Оффлайн

    трактатор Мирослав Лескив баннер

    Репутация:
    1
    Ах вот оно как! А я-то по наивности думал, что эти рейтинг-листы однозначно связаны между собой (то есть, если изменить контроль с 40/4 на 40/40, то сила фрица возрастёт на 28 пунктов). Отсюда и недопонимание. Если это не так, то мои умозаключения, действительно, некорректны. Написали бы Вы этот пост раньше, вообще бы проблем с пониманием не возникло. Тогда, если разница в двух рейтинг листах - неизвестная константа (возможно и известная: кажется, для её нахождения достаточно организовать просто матчи между одной и той же версией программы, но с разными контролями у сторон), сила фрица меняется на 28+эта константа. И для сравнения силы программ в зависимости от контроля нужно либо знать эту константу, либо, если сравниваешь изменение силы двух программ, оперировать 4-мя величинами (в случае Фрица и Джуниора разница в 29 (28+(-1)) пунктов попадает в рамки доверительных интервалов на данный момент; непонятно, будет ли она попадать в эти рамки при увеличении числа партий).

    Первый вывод, который я могу сделать из этого, погрешность при увеличении числа партий всё же уменьшается :). Кстати, разве Ваше рассуждение не одно и то же, что если мы возьмём все данные из выборок и заново рассчитаем по ним погрешность? Допустим, 2900+/-10 по 5-и партиям это (2890, 2895, 2900, 2905, 2910) и 2910+/-5 по 5-и (2890, 2900, 2910, 2912, 2920). Увеличиваем выборку - 10 партий (2890, 2895, 2900, 2905, 2910, 2890, 2900, 2910, 2912, 2920)- и считаем среднее и погрешность.
     
  10. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Вы нигде в расчетах не увеличивали выборку. Чтоб посчитать среднее - нужно на что-то поделить. А вы на самом деле вычли из одной величины другую - при этом возможные ошибки суммируются по модулю.
     
  11. трактатор
    Оффлайн

    трактатор Мирослав Лескив баннер

    Репутация:
    1
    То, что погрешности рейтингов при определении разницы в силе будут суммироваться, никто не спорит. Но при увеличении числа партий уменьшатся погрешности исходных рейтингов. Будет, например, не 2943 (16), а 2945 (6). Следовательно, уменьшится и погрешность их разности.
     
  12. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Так откуда-же возмется большее число партий? :)
     
  13. трактатор
    Оффлайн

    трактатор Мирослав Лескив баннер

    Репутация:
    1
    Наиграют, наверное, на том же CCRL через годик-другой :) Сейчас-то там маловато, как-то. Вопрос в том, что разница в 30 пунктов в относительном изменении силы Фрица и Юниора может уменьшится, а может и останется такой же (я более склонен ко второму варианту), а погрешность-то будет точно уменьшаться.
     
  14. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Недостоверная это разница. Не факт что Джуниор играет слабее.
    Погрешность точно будет уменьшаться, но до того как их доставерно отранжируют успеют выйти новые версии. Заколдованный круг.
    Вот если бы CEGT и CCRL объединились...
     
  15. трактатор
    Оффлайн

    трактатор Мирослав Лескив баннер

    Репутация:
    1
    Блин! Про новые версии-то я и забыл :( Ну тогда утверждение Мобуту о том, что сила Фрица с увеличением контроля растёт быстрее, чем у остальных программ, так и останется непроверенным :)
     
  16. Brorn
    Оффлайн

    Brorn Гринь Николай

    Репутация:
    -4
    Сила с увеличением контроля растет быстрее у тех программ у которых лучше статическая оценка позиции ("Фриц" одна из них, НО и Карась тоже). И утверждение о том что удвоение приводит к прибавке 70 пунктов - тоже не верно. Количесво узлов шахматного дерева ростет експоненциально с увеличение глубины, и увеличение времени с минуты до 2 ни одно и тоже что с часа до двух. Именно по этой причине сила программ не так быстро ростет как сила белковых шахматистов с увеличением времени.
     
  17. Alexander
    Оффлайн

    Alexander баннер

    Репутация:
    43
    Если кому и нужно время, то это Junior'у. От порой весьма диковатой оценки на первых секундах он постепенно приходит к вполне разумной. А эндшпиль вообще играет значительно лучше Fritz'а.
     
  18. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Ничего не понял :)
    Сила вырастает на X пунктов либо при удвоении количества узлов, либо при увеличении глубины на Y - что для программ по сути одно и тоже.
     
  19. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    Между увеличением количества узлов и глубиной зависимость нелинейная.
    Но не факт, что сила игры линейно зависит от глубины. Возможно она "более линейно" зависит от количества узлов :)
     
  20. Мобуту
    Онлайн

    Мобуту спаситель нации баннер

    Репутация:
    142
    Позор псовой проги приближается с каждым днём! Если организаторы не придумают какой-нибудь трюк, обеспечивающий ей достойный результат, то она обречена!
     
  21. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    [q]Между увеличением количества узлов и глубиной зависимость нелинейная.[/q]
    Я разве сказал что линейная? Она эспоненциальная... Зависимость силы от глубины соответственно линейная, а от количества узлов (и потраченного на обдумывание времени) - логарифмическая.
     
  22. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    Тогда удвоение времени будет давать разный прирост силы,
     
  23. NS
    Оффлайн

    NS Нефёдов Сергей баннер

    Репутация:
    3
    Одинаковый. Зависимость Логарифмическая - сила в пунктах Эло равна
    С1+С2*ln(количество узлов)
    Удвоение времени будет всегда прибавлять С2*ln(2)
     
  24. WildCat
    Оффлайн

    WildCat Коршунов Игорь Команда форума

    Репутация:
    0
    Это ведь не факт, а только догадки.
     
  25. Alexdragon
    Оффлайн

    Alexdragon Учаcтник

    Репутация:
    0
    Как показывает обсуждение этой темы,отдел маркетинга ChessBase занялся антирекламой.Эффект от такого матча только отрицательный
    (просто вызывает раздражение,да и понятно,когда бегают от сильнейших в шахматах-это самая яркая демонстрация собственного бессилия).
    .Любой человек может взять Рыбку,Фритц и Юниор,запустить их на своем компьютере и получить тот результат,который все знают.А то,что есть какой-то якобы особый Фритц или Юниор на особом железе и с особым контролем времени-ну кому это интересно?
    Вот она Рыбка-берите,проверяйте,используйте.А кому нужны эти мифические проги,которые под мудрым контролем Chess Base разыграют
    нечто вроде "пения под фонограмму" ?