Обсуждаем математическую статистику и рейтинг-системы

Тема в разделе "Машинное отделение", создана пользователем WildCat, 8 авг 2006.

  1. TopicStarter Overlay

    WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Матожидание понятие чисто теоретическое. И его численное значение на практике получить невозможно. Вообще.
    Поэтому его всегда заменяют оценкой матожидания. И, в реальной задаче, говоря матожидание, всегда подразумевают его оценку, т.к. ни очем другом вести речь не имеет смысла.

    В примере с двумя победами о каком средневадратичном отклонении может идти речь? Все результаты одинаковы.
    Если выборка вся одинакова, то ни один стат. метод не сможет дать никаких интервалов.

    суммируем по элементам Отклонение*Вероятность - получили мат ожидание
    матожидание чего мы так получили?

    Что-то мне не хочется больше обсуждать эту тему.
    Мне столько водки ниасилить :)
  2. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Да Игорь уже сказал - просто намного более простая формула для ожидаемого результата - (0.5+Р/800)
    Где Р - разница в рейтингах. На 200 пунктах дает 75%...
    Ничего не сказано какой параметр в Bayeselo и EloStat минимизируем. Для случая двух соперников всё просто - ничего не минимизируем, а просто считаем мат. ожидание и доверительный интервал.
    Есно для этого не нужны итерационные методы, а достаточно просто разбить интервал на участки.
    А если три соперника?
  3. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Математика четкая наука, и по данной Функции распределения получают четкое матожидание.
    Примеры задач есть в любом учебнике по Теории вероятности и мат. статистике.
    Не оценку матожидания, а четкое конкретное числовое значение.
    И есть четкое определение матожидания.
  4. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    В примере с двумя победами о каком средневадратичном отклонении может идти речь? Все результаты одинаковы.
    Если выборка вся одинакова, то ни один стат. метод не сможет дать никаких интервалов.


    Любой метод даст - опять повторю пример. Есть три человека. Один выигрывает в 0.9 случаев второй в 0.5 третий в 0.1
    Взяли наугад человека, если он выиграл две партии подряд мы МОЖЕМ ЧЕТКО ПОСЧИТАТЬ вероятность того что перед нами каждый конкретный соперник, и соответственно посчитать матожидание результата в следующей партии.
  5. TopicStarter Overlay

    WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Нужели так трудно увидеть разницу между матожиданием и его оценкой?
    Матожидание - это чисто теоретическое числовое значение. На приктике нет способа узнать его. Ну вообще никак.
    Поэтому и пользуются оценкой матожидания. Т.е. каким-то числом, приближенно равным матожиданию. И все методы интервальных оценок как раз о том, чтобы узнать насколько наша оценка близка к истинному матожиданию. Ничего больше о истинном матожидании мы узнать не можем.
  6. TopicStarter Overlay

    WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    0.9, 0.5, 0.1 - просто смешные числа. Мы о них из Библии узнали? Но находятся и такие, кто даже этой книге не доверяет.

    Нет у нас способа узнать эти вероятности, только оценить их матожидание можем.
  7. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Как это - есть кубик, у него шесть граней. Мат. ожидание - 3.
    Есть генератор СЧ в интервале [0,1) C Равномерным распределением - мат. Ожидание 0.5
    У нас есть две коробки в одном 60% черных шаров, и 40% белых, в другой 40% белых и 60% черных. В коробках одинаковое количество шаров. Смешали две коробки, взяли наугад шар - он оказался черный - легко можем посчитать вероятность того что шар изначально принадлежал первой коробки.
    Есть распределение рейтингов - равномерное. Взяли наугад соперника, сыграли с ним матч с результом +24 =9 -17 - При известной вероятности ничьи легко можем посчитать мат. ожидание и доверительный интервал Для относительного рейтинга этого соперника.
  8. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    И никто не говорит, что цифры в коробке - 40% черных шаров взяты из библии. Мы это просто четко знаем.
    Так же как и равномерное распределение рейтинга (единственное предположение не имеющее подтверждения) - нет другого варианта. Поэтому и равномерное.
  9. Kirr Администратор

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    1.208
    Симпатии:
    22
    Репутация:
    8
    Оффлайн
    Интересно... надо подумать, переварить. :)

    Минимизируем разницу между предсказанием реальности и самой реальностью. Задача поиска рейтингов - это задача обучения системы предсказывать реальность. Чем точнее предсказания тем лучше. Понятно что даже точность предсказаний можно по-разному измерять, но это уже детали реализации. :)

    Как узнать хорошая у нас модель и метод аппроксимации или нет: Сначала накапливают большую базу наблюдений (результатов партий). Разбивают базу на две половины случайным образом. Аппроксимируют модель для одной половины. Затем проверяют насколько точно модель предсказывает результаты из другой половины. Эксперимент повторяют раз где-то 10000, каждый раз для разного разбиения базы результатов. При этом накапливаем среднюю точность предсказания (как бы мы эту самую точность ни считали).
  10. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Нет, не так. Матожидание - это матожидание, а вероятность результата - это совсем другое.
    Мы можем дать оценку вероятности победы в следующей партии, оценку разности рейтингов - этого мы точно не знаем. А вот матожидание мы можем посчитать четко.
  11. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Нельзя минимизировать разницу. Можно минимизировать сумму квадратов отклонения результата от посчитанного через рейтинг, можем минимизировать сумму модулей отклонений результатов и т.д.
  12. Kirr Администратор

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    1.208
    Симпатии:
    22
    Репутация:
    8
    Оффлайн
    Это в том случае если приближение модели к реальности сходится, для наший модели, данных и метода. Как сказал пух сходимость неплохо бы доказать.

    Вот эти величины я и назвал общим словом "разница". Можно сказать расстояние или метрика. Как определить это расстояние - это вобщем-то свобода экспериментатора, часть постановки задачи.

    Вообще о чём именно здесь спор? А то я что-то потерял нить. :)
  13. morkoffkin Учаcтник

    • Участник
    Рег.:
    19.02.2006
    Сообщения:
    298
    Симпатии:
    0
    Репутация:
    0
    Оффлайн
    to NS

    > Делим предполагаемую разницу на интервалы в 1 пункт (сильнее не имеет смысла)
    Получем Дипазон [-2000,2000] (из 4001 элемента), попадание ... и.т.д

    Это и есть практическое использование теоремы Байеса. Вы как господин Ж., не подозревающий, что он говорит прозой.
  14. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Истинная бывает вероятность, сила и т.д. - а матожидание - это уже оценка силы, Не бывает оценки оценки. Мы не можем сделать оценку оценки силы.
    Есть оценка силы (матожидание - четкое числовое значение), есть среднеквадратичное отклонение силы (Четкое числовое значение) Есть доверительный интервал (силы, результата, но никак не матожидания)
  15. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Вы опять читаете через строчку.
    1. Для определения вероятности результата в матче из известными вероятностями результата в одной партии - Байес не используется (а если вы посмотрите свой пост - он дан именно к этому расчету)
    Объясните тогда, к чему вы упоминули его???
    2. Посмотрите историю обсуждения - я специально сделал оговорку - Байес не используется для обсчета вероятного рейтинга в случае РАВНОМЕРНОГО РАСПРЕДЕЛЕНИЯ. Он в общем случае используется в случае разных вероятностей для интервалов/множеств/группы событий.
    Внимательно посмотрите теорему Байеса. Тут частный случай, где применение его теоремы не нужно.
    Так же как и не нужно использовать сочетательный закон в вырожденном случае (Множитель Единица)
  16. TopicStarter Overlay

    WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Есть доверительный интервал (силы, результата, но никак не матожидани
    После таких фраз уже совсем становится скучно. Можно открыть любой учебник и посмотреть, что такое оценка матожидания.

    а матожидание - это уже оценка силы
    матожидание и есть матожидание, а то что мы его используем как показатель силы не имеет никакого значения.

    Как это - есть кубик, у него шесть граней. Мат. ожидание - 3.
    Ну допустим, что принято считать, что матожидание близко к 3.5. Но ведь никто не поручится, что оно равно этому. Ведь грани у кубика неодинаковые и соотв. вероятности появления чисел разные, хоть и очень близкие.

    У нас есть две коробки в одном 60% черных шаров, и 40% белых, в другой 40% белых и 60% черных. В коробках одинаковое количество шаров. Смешали две коробки, взяли наугад шар - он оказался черный - легко можем посчитать вероятность того что шар изначально принадлежал первой коробки.

    Ты оперируешь теоретическими понятиями. На практике никто не может быть уверен, что лабораторию, где проводится этот эксперимент, не накроет атомная бомба и соотв. из коробки будет нечего вытаскивать. Это я так, отвлекся. О вероятности того, что шар принадлежал какой-то коробки на практике говорить вообще глупо, т.к. эта вероятность или 0 или 1. Тут уже нет никакой неопределенности. Неопределенность только у того кто не знает откуда этот шар. С другой стороны кто может сделать такие шары и такой механизм по доставанию этих шаров из коробки, чтобы у всех шаров вероятность быть вытащеным была одинакова? Нет таких технологий.

    В природе нельзя определить точно вероятности и матожидания. Это можно определить только для абстрактных понятий придуманных человеком (например, твой идеальный кубик и шары в коробке). Проще всего сказать, что вероятность 2 + 2 = 4 равна 1. Потому, что мы сами это придумали. Проблема в реальности, а не в том мире который придумал человек.

    В жизни приходиться вместо приходиться работать с оценками матожидания. При некоторых допущениях можно считать, что эти оценки совпадают с матожиданием. Например, в случае кубика.

    Но в большинсве случаев мы находимся в состоянии полной неопределенности и заранее мало что можем предположить о оцениваемой системе. В природе нет систем изученных человеком до конца.

    Вообще, речь идет о основах теории вероятностей, так что очень скучно объяснять что такое матожидание и что такое его оценка.
  17. TopicStarter Overlay

    WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Короче, он умер от избытка чувств, среди которых преобладали чувства голода, холода и жажды.
  18. morkoffkin Учаcтник

    • Участник
    Рег.:
    19.02.2006
    Сообщения:
    298
    Симпатии:
    0
    Репутация:
    0
    Оффлайн
    to NS

    До чего же Вы приставучий. И писучий.
    Вместо того, чтобы внятно что-либо написать, вываливаете кучу ненужных сообщений.
    Ладно, объяснюсь в последний раз. На этом закончим, и будьте добры, вопросов мне более не задавайте и в дискуссию не вовлекайте.

    В своем третьем сообщении в данной теме Вы даете ссылку на другую тему. В которой приводите таблицы, которые как Вами же ранее написано ни к чему обсуждаемому отношения не имеют, а предназначены исключительно для Атоку.

    WildCat совершенно справедливо пишет в сообщении 8
    > Что-то я не понимаю как по этой табличке допуски считать.

    Как и что считает NS непонятно никому.
    WinPooh 50:

    >Ещё раз вопрошаю. "Тут" - это где???
    Постановку задачи - в студию!

    К 66! сообщению в ветке, состоящей большей частью из постов NS более-менее проясняется, как и что Вы считали.

    Считаю такой подход-кашу неуважением ко всем участникам форума. И то, что Вы не осознаете, что применяете Байеса, уже никакого значения не имеет. Вопрос не возник бы вообще, если бы Вы сразу ясно изложили свои соображения.

    Прошу извинить меня за резкий тон. Но должна быть ясность.
  19. atoku Модератор

    • Команда форума
    Рег.:
    05.02.2006
    Сообщения:
    2.949
    Симпатии:
    9
    Репутация:
    0
    Адрес:
    USA
    Оффлайн
    NS, не обижайтесь на резкий тон раньше времени. Чтобы у вас сложилось правильное впечатление, я хотел бы уточнить, что morkoffkin действительно сечет в математике! Настолько сечет, что я, кандидат физмат наук и абсолютный отличник мехмата МГУ почтительно склоняю голову в безмерном уважении к нему и внимаю как оракулу. Потому, не спешите ругаться! :)
  20. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Нет, не от избытка чувств, а для Банк-клиента пришлось отрубится от ADSL-я.
    Да, с кубиком лажанулся - Действительно 3.5
    Насчет матожидания - сплошная демагогия - чуть развить мысль, и получится что Теория и мат. статистика никому не нужны.

    По поводу формулировки задач.
    В первых Таблицах Сразу было написано - что считается вероятность Разных результатов матча Для заданной вероятности ничьи и разницев силе.
    А к следующим Таблицам - так же сразу было приписано - что считается мат. ожидание и доверительный интервал (для заданной вероятности) рейтинга. По заданному результату матча.
    Причем опять-таки было сразу оговорено про вероятность ничьи, и распределение рейтинга.
    К каждой таблице у меня написано что это за таблица, и что и как мы считаем.
  21. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Я не ругаюсь, я отвечаю на безосновательные придирки. Для примера - о Байесе применительно к расчету вероятностей результатов матчей с заданной разницей силы.
    (Байес не нужен - согласны?)

    Так же о доверительном интервале результов матча (Для этой-же задачи) в пересчете на рейтинг Эло - я сказал что в случае 22-ух партий он составляет сотни пунктов. Что сказал Моркоффкин? Правильно, что я ошибся. Но ошибся не я, а наоборот кто-то перепутал среднеквадратичное с вероятным отклонением.

    И так всюду. Громкие обвинения сначала в неточностях, потом в незнании, потом в сумбурности - не доказывают собственные знания.
    Я не просто знаю, но и могу применять на практике - что доказал приведенными расчетами - если у кого получаются другие результаты - то готов обсудить.
    Причем я тоже могу кичиться своими регалиями, но не делаю этого.
  22. atoku Модератор

    • Команда форума
    Рег.:
    05.02.2006
    Сообщения:
    2.949
    Симпатии:
    9
    Репутация:
    0
    Адрес:
    USA
    Оффлайн
    NS, я не кичусь, а то бы написал действительно регалии ;). Я же просто написал как крут morkoffkin! А он очень крут :)
  23. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Действительно умные люди так как он себя не ведут. :)
    Или это просто рассеянность?
    Человек видит в ветке меньше половины постов, да и те целиком прочитать не может...

    Прекращайте разборки и наезды, или переходите с ними в приват. Мои корректорские ножницы уже хищно клацают. — ЦштЗщщр
  24. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Насчет результатов матчей нескольких соперников...
    Максимизировать наверно лучше вероятность фактического исхода.
    То есть строим рейтинги таким образом, чтоб вероятность результата случившегося в матчах была максимальной (Максимально произведение вероятностей исхода отдельных матчей)

    Попробую набросать программу по этому методу, только не совсем ясно как считать доверительные интервалы.
  25. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Почитал теорию - вот как расправляется с вероятностью ничьи Bayesian Elo

    f(Delta) = 1 / (1 + 10^(Delta/400))
    P(WhiteWins) = f(eloBlack - eloWhite - eloAdvantage + eloDraw)
    P(BlackWins) = f(eloWhite - eloBlack + eloAdvantage + eloDraw)
    P(Draw) = 1 - P(WhiteWins) - P(BlackWins)

    eloAdvantage indicates the advantage of playing first. eloDraw indicates how likely draws are. The default values in the program were obtained by finding their maximum-likelihood values over 29,610 games of Leo Dijksman's WBEC. The value measured, with 95% confidence intervals are:

    eloAdvantage = 32.8 +/- 4
    eloDraw = 97.3 +/- 2

    Осталось разобраться с доверительным интервалом. (в случае когда соперников больше двух)
  26. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Так с Байес Ело всё понятно.
    Итерактивный метод, с делением на интервалы.
    После каждой вероятности они считают вероятность рейтинга по интервалам, получая уже неравномерное распределение,
    Затем Это Полученное Неравномерное Распределение берут для основу для следующей итерации (которая считается по Байесу, поэтому так программа и названа). Метод очень простой, и на выходе для каждого движка получаем таблицу с распределениями. Соответственно можем посчитать доверительный интервал (так как есть вероятности для каждого интервала)
    Только похоже подход к ничьим слишком упрощенный (к вероятностям ничьи)
    Да и используя полученное распределение для следующей итерации они постоянно неправомерно сужают доверительный интервал.
    (Максимизируется у них как раз вероятность, как я и предлагал в предыдущих постах)
  27. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    От вероятности ничьи результат как правило зависит слабо +/- 5 пунктов.
    Но другое меня смущает -
    f(Delta) = 1 / (1 + 10^(Delta/400))
    P(WhiteWins) = f(eloBlack - eloWhite - eloAdvantage + eloDraw)
    P(BlackWins) = f(eloWhite - eloBlack + eloAdvantage + eloDraw)
    P(Draw) = 1 - P(WhiteWins) - P(BlackWins)


    После этих формул
    P(Draw)/2+P(WhiteWins) Не равно f(eloBlack - eloWhite - eloAdvantage) - то есть нарушается формула Эло. Причем очень легко, посчитав вероятность ничьи по их формуле, правильно сосчитать P(WhiteWins) и P(BlackWins)
  28. Crest Админ, МГ

    • Команда форума
    Рег.:
    05.02.2006
    Сообщения:
    57.245
    Симпатии:
    21.134
    Репутация:
    627
    Адрес:
    Москва, Россия
    Оффлайн

Поделиться этой страницей