Матч на Кубок Президента: Deep Fritz - Deep Junior

трактатор · 27 апр 2007

NS пишет:

Кто вам сказал что оба рейтинг-листа приведены к одной шкале?
Сложите погрешности, Вычтите разницы.
Я хочу сказать что +29 и -1 различаются на 30 пунктов, а у вас четыре замера с погрешностями 16,14,23 и 27.
Нажмите, чтобы раскрыть...

Такими фразами Вы меня окончательно запутаете.
Давайте попорядку:
1. Что я хочу доказать? При изменении контроля сила программы может значительно меняться. Берём средние значения рейтинга Фрица при разных контролях: 2943 и 2919. Разница в 24 пункта.
2. Погрешности этих средних - 16 и 27, соответственно. И Вы говорите, что разница в 24 пункта укладывается в рамки этих погрешностей. Здесь спорить не о чем. Действительно, укладывается.
3. Если мы увеличим количество партий, погрешности должны уменьшиться. Но вот будут ли сходиться средние к одной величине? К сожалению, по рейтингу предсказать мы этого не можем. Кстати, не совсем понятно, играли ли все включённые в рейтинг-лист движки между собой (результаты некоторых матчей в таблице внизу отсутствуют).
4. Можно попробовать определить, как сильно меняется сила движка в зависимости от контроля по результатам отдельных матчей.
Возьмём самое злободневное: Фриц-Джуниор
40/4 счёт 55.5 - 44.5 (55,5% в пользу Фрица)
40/40 счёт 19 - 11 (63,3% в пользу Фрица)
Результаты разные, но вы и здесь можете возразить, что взяты разные размеры выборок.
5. Вывод: пользуясь данными CCRL мы не можем ни доказать, ни опровергнуть утверждение об изменении силы в зависимости от контроля. Равно как и предсказать результат матча между Джуниором и Фрицем в Элисте, моделируя этот матч на своём компе

Fruit · 27 апр 2007

Трактатор, всё-таки 19-11 - это не серьёзно.
Я не говорил, что предскажу результат матча в Элисте, моделируя этот матч на своём компе. Для 6 партий врядли можно сделать толковое предсказание. Возможен и счёт 6-0....

Vertu · 27 апр 2007

Ничто, кроме Гидры, не может играть на гидрином железе. И Гидра ни на чем, кроме своего железа, тоже играть не может. И "на равном железе" Гидра ни с чем играть не может. Потому что для "равного железа" больше никаких программ не написано.

NS · 27 апр 2007

1. Трактатор, вы сравниваете несравнимые вещи.

Рейтинг в первом листе равне C1+2943
Во втором С2+2919
Вы можете понять что мало того что С1 не равно С2, но еще и отличается где-то на 200 пунктов?
Потом, если у нас Два значения полученные с погрешность А, то их разница будет иметь погрешность Больше чем А.

А сравнивать можно только сравнимые величины.

2. Вы несете полный бред. В первом листе можно одновременно всем движкам спокойно прибавить 100 пунктов, и рейтинг лист останется правильным - это несвязанные рейтинг-листы.

3. Срочно в школу учить математику. Чему равна погрешность суммы и погрешность разницы независимых величин.

4. Блин, да посмотрите вы наконец доверительные интервалы по 30 партиям!!! У вас сколько партий во втором матче?

Причем тут разные размеры? Важно не то что разные размеры выборок, а то что сами выборки малы.

5. Пользуясь данными ССRL мы не можем предсказать результат матча из нескольких партий, так как это чистая рулетка. И если кому-то интересно смотреть как она крутится, то мне больше нравятся интеллектуальные занятия. А наиграть несколько партий Джуниора с Фрицем можно и дома. И с таким-же удовольствием их посмотреть.

Никто никогда и не говорил что Джуниор либо Фриц сильнее - это два примерно равных движка, причем явно не сильнейших - Занзибар и Рыбка достоверно их сильнее.

Fruit · 27 апр 2007

Vertu пишет:

Ничто, кроме Гидры, не может играть на гидрином железе. И Гидра ни на чем, кроме своего железа, тоже играть не может. И "на равном железе" Гидра ни с чем играть не может. Потому что для "равного железа" больше никаких программ не написано.
Нажмите, чтобы раскрыть...

Вы думаете автор Гидры об этом не знает? Он говорил, что есть 4-х процовый комп и, что совсем смешно, на Playchess Гидра играла на нём, в том числе. Так что, то, что вы, Vertu, написали - неправда.

трактатор · 27 апр 2007

Слушайте, NS, Вы можете объяснять нормально, или будете говорить сами с собой на тарабарском языке?
Что такое C1 и С2? Откуда они берутся?
Я просто пытаюсь составить логическую цепочку рассуждений и надеюсь, что меня поправят, если я неправ. Вы же своими постами меня ещё больше запутываете.

В школах теорию вероятностей и погрешности не проходят. Так что не надо меня туда отсылать.
Если вы об этом:

Абсолютная погрешность суммы двух независимых величин равна сумме абсолютных погрешностей отдельных слагаемых
Нажмите, чтобы раскрыть...

, то когда я говорю об увеличении количества партий, я имею ввиду увеличение размеров выборки. Включение новых матчей, действительно, увеличивает погрешность, но увеличение числа партий в одном матче должно её уменьшать.

NS пишет:

2. Вы несете полный бред. В первом листе можно одновременно всем движкам спокойно прибавить 100 пунктов, и рейтинг лист останется правильным - это несвязанные рейтинг-листы.
Нажмите, чтобы раскрыть...

Вот это вообще не понял к чему. Программы, указанные в этих листах, одни и те же. Почему же рейтинг-листы несвязанные?

bankuss · 27 апр 2007

у меня небольшой турнир на ноуте крутится круглые сутки, контроль 1 час на партию.
дык вот занзи всем лидерам сливает...единственные 0.5 очка отняты у хайркс 11.1
в остальных микро матчах полные ноли кроме юниора (+1) и смарфи (+1)
кстати юниор проив фрица идет пока с +1
партий немного правда сыграли, но борьба нешуточная

так же и в этом суперматче может случится - где-то в какой то партии юниор возмет эти +1 и доведет до победы но большее чем на шоу этот матч не тянет.

NS · 27 апр 2007

Слушайте, NS, Вы можете объяснять нормально, или будете говорить сами с собой на тарабарском языке?
Что такое C1 и С2? Откуда они берутся?
Я просто пытаюсь составить логическую цепочку рассуждений и надеюсь, что меня поправят, если я неправ. Вы же своими постами меня ещё больше запутываете.
Нажмите, чтобы раскрыть...

Попытаюсь сказать нормально. Извините, я просто учился в мат. школе, возможно разные программы

Вот это вообще не понял к чему. Программы, указанные в этих листах, одни и те же. Почему же рейтинг-листы несвязанные?
Нажмите, чтобы раскрыть...

Почему рейтинг листы разные? При увеличении контроля в 10 раз сила программ меняется примерно на 250 пунктов ЭЛО.
То есть Если при контроле 40/4 Фриц играет на 2600, то при контроле 40/40 Фриц Играет на 2850. Мы спокойно можем во всем рейтинг листе (отдельном) прибавить каждой программе некоторое значение (одинаковое для всех программ) к рейтингу, при этом разница рейтингов между любыми двумя программами в рейтинг-листе останется та-же, именно поэтому при расчетах рейтингов при помощи BayesElo EloStat и т.д. нужно задавать начальный рейтинг.

Откуда взялись в рейтинг листах значения 2900+?

Просто примерно прикинули в какую силу при таком контроле играет человек, и каждый рейтинг-лист скоррректировали так, чтоб можно было сравнить человека с конкретным рейтингом ФИДЕ, играющего с таким-же контролем с программой. Естественно эта прибавка условна, и рейтинг-листы между собой сравнивать нельзя. Вы говорите про пару десятков пунктов разницы в силе Фрица - там на самом деле разница в 250 пунктов. Удвоение дает прибавку около 70 пунктов, увеличние контроля в 10 раз -
70 * ln 10 / ln 2

то когда я говорю об увеличении количества партий, я имею ввиду увеличение размеров выборки. Включение новых матчей, действительно, увеличивает погрешность, но увеличение числа партий в одном матче должно её уменьшать.
Нажмите, чтобы раскрыть...

Вы как раз не увеличиваете выборку, а складываете (вычитаете) независимые величины с заданной погрешностью. (на самом деле с заданным доверительным интервалом, но это не важно).
Что такое увеличение выборки? Путь есть две выборки, один раз рейтинг получился 2900, второй раз 2910. Считаем средний рейтинг (2900+2910) / 2 = 2905.
вот это как раз увеличение выборки

Обратите внимание на деление на два! Только из-за этого деления погрешность уменьшается.

трактатор · 27 апр 2007

NS пишет:

Почему рейтинг листы разные? При увеличении контроля в 10 раз сила программ меняется примерно на 250 пунктов ЭЛО.
То есть Если при контроле 40/4 Фриц играет на 2600, то при контроле 40/40 Фриц Играет на 2850. Мы спокойно можем во всем рейтинг листе (отдельном) прибавить каждой программе некоторое значение (одинаковое для всех программ) к рейтингу, при этом разница рейтингов между любыми двумя программами в рейтинг-листе останется та-же, именно поэтому при расчетах рейтингов при помощи BayesElo EloStat и т.д. нужно задавать начальный рейтинг.
Нажмите, чтобы раскрыть...

Ах вот оно как! А я-то по наивности думал, что эти рейтинг-листы однозначно связаны между собой (то есть, если изменить контроль с 40/4 на 40/40, то сила фрица возрастёт на 28 пунктов). Отсюда и недопонимание. Если это не так, то мои умозаключения, действительно, некорректны. Написали бы Вы этот пост раньше, вообще бы проблем с пониманием не возникло. Тогда, если разница в двух рейтинг листах - неизвестная константа (возможно и известная: кажется, для её нахождения достаточно организовать просто матчи между одной и той же версией программы, но с разными контролями у сторон), сила фрица меняется на 28+эта константа. И для сравнения силы программ в зависимости от контроля нужно либо знать эту константу, либо, если сравниваешь изменение силы двух программ, оперировать 4-мя величинами (в случае Фрица и Джуниора разница в 29 (28+(-1)) пунктов попадает в рамки доверительных интервалов на данный момент; непонятно, будет ли она попадать в эти рамки при увеличении числа партий).

Вы как раз не увеличиваете выборку, а складываете (вычитаете) независимые величины с заданной погрешностью. (на самом деле с заданным доверительным интервалом, но это не важно).
Что такое увеличение выборки? Путь есть две выборки, один раз рейтинг получился 2900, второй раз 2910. Считаем средний рейтинг (2900+2910) / 2 = 2905.
вот это как раз увеличение выборки.
Обратите внимание на деление на два! Только из-за этого деления погрешность уменьшается.
Нажмите, чтобы раскрыть...

Первый вывод, который я могу сделать из этого, погрешность при увеличении числа партий всё же уменьшается . Кстати, разве Ваше рассуждение не одно и то же, что если мы возьмём все данные из выборок и заново рассчитаем по ним погрешность? Допустим, 2900+/-10 по 5-и партиям это (2890, 2895, 2900, 2905, 2910) и 2910+/-5 по 5-и (2890, 2900, 2910, 2912, 2920). Увеличиваем выборку - 10 партий (2890, 2895, 2900, 2905, 2910, 2890, 2900, 2910, 2912, 2920)- и считаем среднее и погрешность.

NS · 27 апр 2007

Вы нигде в расчетах не увеличивали выборку. Чтоб посчитать среднее - нужно на что-то поделить. А вы на самом деле вычли из одной величины другую - при этом возможные ошибки суммируются по модулю.

трактатор · 28 апр 2007

То, что погрешности рейтингов при определении разницы в силе будут суммироваться, никто не спорит. Но при увеличении числа партий уменьшатся погрешности исходных рейтингов. Будет, например, не 2943 (16), а 2945 (6). Следовательно, уменьшится и погрешность их разности.

NS · 28 апр 2007

Так откуда-же возмется большее число партий?

трактатор · 28 апр 2007

Наиграют, наверное, на том же CCRL через годик-другой Сейчас-то там маловато, как-то. Вопрос в том, что разница в 30 пунктов в относительном изменении силы Фрица и Юниора может уменьшится, а может и останется такой же (я более склонен ко второму варианту), а погрешность-то будет точно уменьшаться.

NS · 28 апр 2007

Недостоверная это разница. Не факт что Джуниор играет слабее.
Погрешность точно будет уменьшаться, но до того как их доставерно отранжируют успеют выйти новые версии. Заколдованный круг.
Вот если бы CEGT и CCRL объединились...

трактатор · 28 апр 2007

Блин! Про новые версии-то я и забыл Ну тогда утверждение Мобуту о том, что сила Фрица с увеличением контроля растёт быстрее, чем у остальных программ, так и останется непроверенным

Brorn · 11 май 2007

Сила с увеличением контроля растет быстрее у тех программ у которых лучше статическая оценка позиции ("Фриц" одна из них, НО и Карась тоже). И утверждение о том что удвоение приводит к прибавке 70 пунктов - тоже не верно. Количесво узлов шахматного дерева ростет експоненциально с увеличение глубины, и увеличение времени с минуты до 2 ни одно и тоже что с часа до двух. Именно по этой причине сила программ не так быстро ростет как сила белковых шахматистов с увеличением времени.

Alexander · 11 май 2007

Если кому и нужно время, то это Junior'у. От порой весьма диковатой оценки на первых секундах он постепенно приходит к вполне разумной. А эндшпиль вообще играет значительно лучше Fritz'а.

NS · 11 май 2007

Сила с увеличением контроля растет быстрее у тех программ у которых лучше статическая оценка позиции ("Фриц" одна из них, НО и Карась тоже). И утверждение о том что удвоение приводит к прибавке 70 пунктов - тоже не верно. Количесво узлов шахматного дерева ростет експоненциально с увеличение глубины, и увеличение времени с минуты до 2 ни одно и тоже что с часа до двух. Именно по этой причине сила программ не так быстро ростет как сила белковых шахматистов с увеличением времени.
Нажмите, чтобы раскрыть...

Ничего не понял
Сила вырастает на X пунктов либо при удвоении количества узлов, либо при увеличении глубины на Y - что для программ по сути одно и тоже.

WildCat · 11 май 2007

NS пишет:

Сила вырастает на X пунктов либо при удвоении количества узлов, либо при увеличении глубины на Y - что для программ по сути одно и тоже.
Нажмите, чтобы раскрыть...

Между увеличением количества узлов и глубиной зависимость нелинейная.
Но не факт, что сила игры линейно зависит от глубины. Возможно она "более линейно" зависит от количества узлов

Мобуту · 12 май 2007

Позор псовой проги приближается с каждым днём! Если организаторы не придумают какой-нибудь трюк, обеспечивающий ей достойный результат, то она обречена!

NS · 12 май 2007

[q]Между увеличением количества узлов и глубиной зависимость нелинейная.[/q]
Я разве сказал что линейная? Она эспоненциальная... Зависимость силы от глубины соответственно линейная, а от количества узлов (и потраченного на обдумывание времени) - логарифмическая.

WildCat · 12 май 2007

Тогда удвоение времени будет давать разный прирост силы,

NS · 12 май 2007

Тогда удвоение времени будет давать разный прирост силы,
Нажмите, чтобы раскрыть...

Одинаковый. Зависимость Логарифмическая - сила в пунктах Эло равна
С1+С2*ln(количество узлов)
Удвоение времени будет всегда прибавлять С2*ln(2)

WildCat · 12 май 2007

Это ведь не факт, а только догадки.

Alexdragon · 15 май 2007

Schurick пишет:

В данном случае участие Джуниора не оспаривается. Всё-таки прога обошла Рыбку на чемпионате среди компьютерных программ.

А Фриц - это уже легко узнаваемый бренд далеко за пределами 64 клеток. Про Рыбку далеко не все шахматисты знают. Что же говорить о публике далекой от шахмат.

Какое издание станет освещать матч Джуниор-Рыбка... А тут... Фриц, победивший чемпиона мира среди людей, самого мистера Крамника... и какой-то там Джуниор... Интрига есть... Противостояние... Пусть даже всё это преувеличено. Но, существует возможность привлечь внимание массового читателя. К тому же, для спонсоров важнее для имиджа компании "присоединиться" к раскрученной марке (как Фриц). От появления имени известной фирмы вместе с мало известной прогой спонсор вряд ли выиграет.

Пусть Рыбка во сто крат будет сильнее. Но, пока отдел маркетинга ChessBase может давать любую фору Рахлику и Chess Assistant. Пока их детище не засветиться серьёзно в масс-медиа, надеяться на такие матчи, как их получили Фриц и Джуниор не приходиться.

Всё это моё личное мнение.
Нажмите, чтобы раскрыть...

Как показывает обсуждение этой темы,отдел маркетинга ChessBase занялся антирекламой.Эффект от такого матча только отрицательный
(просто вызывает раздражение,да и понятно,когда бегают от сильнейших в шахматах-это самая яркая демонстрация собственного бессилия).
.Любой человек может взять Рыбку,Фритц и Юниор,запустить их на своем компьютере и получить тот результат,который все знают.А то,что есть какой-то якобы особый Фритц или Юниор на особом железе и с особым контролем времени-ну кому это интересно?
Вот она Рыбка-берите,проверяйте,используйте.А кому нужны эти мифические проги,которые под мудрым контролем Chess Base разыграют
нечто вроде "пения под фонограмму" ?

Войти или зарегистрироваться

Матч на Кубок Президента: Deep Fritz - Deep Junior

трактатор Мирослав Лескив баннер

Fruit Александр баннер

Vertu Старожил

NS Нефёдов Сергей баннер

Fruit Александр баннер

трактатор Мирослав Лескив баннер

bankuss Александр баннер

NS Нефёдов Сергей баннер

трактатор Мирослав Лескив баннер

NS Нефёдов Сергей баннер

трактатор Мирослав Лескив баннер

NS Нефёдов Сергей баннер

трактатор Мирослав Лескив баннер

NS Нефёдов Сергей баннер

трактатор Мирослав Лескив баннер

Brorn Гринь Николай

Alexander баннер

NS Нефёдов Сергей баннер

WildCat Коршунов Игорь Команда форума

Мобуту спаситель нации баннер

NS Нефёдов Сергей баннер

WildCat Коршунов Игорь Команда форума

NS Нефёдов Сергей баннер

WildCat Коршунов Игорь Команда форума

Alexdragon Учаcтник