Тестовый турнир четырех версий Тоги

Discussion in 'Машинное отделение' started by NS, 19 Dec 2006.

  1. drowsy Учаcтник

    • Участник
    Member Since:
    08.09.2006
    Message Count:
    1.282
    Likes Received:
    1
    Репутация:
    0
    Location:
    Toronto, Canada
    Оффлайн
    ламерский вопрос : какой лучше кэш ставить тоге для игры/анализа? У меня 2 гига оперативки.
    Чем больше, тем лучше или есть некоторая оптимальная величина ?
  2. WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    Ставь 1 гиг.
    Вообще-то для ответа на этот вопрос и нужен турнир NS. Вот только согласится ли он делать такой турнир? Ведь как бы и так очевидно, что чем больше - тем лучше :)
    Но хотя бы станет понятно насколько этот вопрос важен.
  3. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Марков писал что цена вопроса - 7 пунктов на каждом увоении размера хеша.
    Но на всякий случай запущу турнир.
  4. WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    Сделай новый опрос. Я думаю прирост от удвояния будет 15 - 20.
  5. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    По системе Эло прибавка от удвоения контроля:
    Методом наименьших квадратов - 138 пунктов.
    Сумма квадратов отклонений 43.25

    MO 134
    Наиболее вероятное значение 135
    95% доверительный интервал [123,143]


    По системе Сонаса сумма Квадратов отклонений 82.42
  6. WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    Стоит, наверно, проверить разные Тоги против набора других движков, чтобы результаты небыли искажены, если мы хотим узнать реальную прибавку Эло.
  7. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Надо попробовать...
    Но я думаю что всё-таки это значительно больше чем 70 пунктов.
  8. Igrok7 Учаcтник

    • Участник
    Member Since:
    04.01.2007
    Message Count:
    132
    Likes Received:
    0
    Репутация:
    0
    Оффлайн
    NS,
    1)WildCat,тебе правильно говорит,что тестировать движок против самого себя бессмысленно!WC: Так мы заранее знаем, что получим неправильные результаты, т.к. перевес одной и той же проги над собой обычно чуть ли не вдвое завышается.Я много думал над этим,но по другому поводу.Я считаю,что я(моя сила игры в 2003году) нигогда не выиграл бы у я(2007 года),хотя рейтинг мой вырос незначительно.
    Если шахматисты-люди примерно одного стиля и разница в рейтинге у них скажем 50 пунктов,то более слабый НИКОГДА не удержит эту разницу(проиграет более 50 пунктов)!Ему просто нечего будет противопоставить.Так и Тога с 1с ничего не сможет противопоставить Тоге с 2с.Поэтому твой эксперимент интересен,но не даёт ответ на главный вопрос.
    2)Самое главное.Зависимость увеличения силы от увеличения времени не ЛИНЕЙНА!!! Т.е при увеличении времени с 1с до 2с на ход и с 1 мин до 2 мин на ход различно.Если не согласен,то я тебе это смогу просто доказать.
    Вот и появилась новая задача-найти график этой нелинейной функции.
  9. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    То есть как это бессмысленно?

    Наверно стоит прочитать ветку с самого начала :)
    Речь идет не о том что оно бессмысленно, а о том что прибавка от удвоения в матче движка с самим собой будет завышена, но об этом я вроде писал в самом начале ветки :)
  10. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Не различно оно, а одинаково. Практически одинаково.
    Доказательство было бы очень интересно, только если оно конечно не абстрактное, а показывающее ЗНАЧИТЕЛЬНУЮ разницу в прибавке от удвоения при разнице контролей в 60 раз, и при достаточно большой глубине перебора.

    под абстрактным доказательством я имею в виду доказательство через "потолок силы"
    Это доказательство не показывает РАЗНИЦУ от удвоения, а вот разница как раз очень несущественна...
  11. Igrok7 Учаcтник

    • Участник
    Member Since:
    04.01.2007
    Message Count:
    132
    Likes Received:
    0
    Репутация:
    0
    Оффлайн
    Ты считаешь,что сила шахматных программ бесконечна?Скажем движок может играть в силу 3200-3300?
  12. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    За минуту до твоего поста я всё написал... :)
    Пусть потолок силы 5000 пунктов Эло...
    Дальше можно строить графики как угодно :)
    Ни один практический тест не показывает разницу в прибавке при разных контролях...
  13. WinPooh В.М.

    • Команда форума
    Member Since:
    13.02.2006
    Message Count:
    9.492
    Likes Received:
    3.122
    Репутация:
    95
    Location:
    Москва
    Оффлайн
    Нет, не бессмысленно. Одно применение всё-таки есть: пусть мы добавили в оценку какую-то опцию, про которую вообще не можем сказать, усиливает она игру или ослабляет. Тогда тест против самой себя покажет нам ЗНАК изменения силы. А точную цифровую оценку, конечно, мы будем искать в тестовых матчах против других движков.
  14. Igrok7 Учаcтник

    • Участник
    Member Since:
    04.01.2007
    Message Count:
    132
    Likes Received:
    0
    Репутация:
    0
    Оффлайн
    Ни один практический тест не показывает разницу в прибавке при разных контролях...
    Для таких тестов надо слишком много времени.
    Пример.Гораздо важнее просчитать например с 10-й глубины на 11-ю,чем с 16-й на 17-ю.Надо провести тест например 5мин против 10,но обязательно разными движками и я уверен разницы в фантастические 70 пунктов не будет.
  15. WinPooh В.М.

    • Команда форума
    Member Since:
    13.02.2006
    Message Count:
    9.492
    Likes Received:
    3.122
    Репутация:
    95
    Location:
    Москва
    Оффлайн
    Насколько я слышал, diminishing returns в шахматах не работает.
    И прибавка 16->17 может давать столько же силы, сколько и 11->12. Или сравнимо.
    В других играх (не во всех) - да, есть некие характерные глубины, после которых дальнейшее углубление не столь критично.
    В шахматах - не так. Подозреваю, что и в Го тоже - но по другим причинам.
  16. Igrok7 Учаcтник

    • Участник
    Member Since:
    04.01.2007
    Message Count:
    132
    Likes Received:
    0
    Репутация:
    0
    Оффлайн
    Вообщем нужен новый тест!
  17. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Будет. Разница 1/2 абсолютно идентична разнице 2/4.
    5 минут против 10-ти? Чтоб уловить разницу в 5 пунктов нужно провести около 5 тысяч партий. Пусть средняя партия 50 ходов. 5*50+10*50=750 минут на партию. (пусть будет 1/2 дня)
    5000 партий это всего лишь 2500 дней, 7 лет.
    Я за такой тест не возьмусь :)
  18. Igrok7 Учаcтник

    • Участник
    Member Since:
    04.01.2007
    Message Count:
    132
    Likes Received:
    0
    Репутация:
    0
    Оффлайн
    NS,потолок силы имеет очень большое значение,т.к к нему подошли достаточно близко. Пример.Одна программа досчитывает до 18 глубины,а другая до 17-й.Последняя программа делает небольшие ошибки(т.к глубина на 1 меньше).Но их НЕДОСТАТОЧНО для победы другой.А если сранить скажем 7 и 8 глубину то вероятность просчета резко возрастает.Шахматы в целом ничейная игра и это надо учитывать.Я,например достаточно успешно играю с компами(делаю много ничьх),а выиграть не могу ни одной!
    А практически ты наверное прав.Если брать программы типа Анечки,то разница в рейтинге будет одинаковой.
  19. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    К потолку силы подошли достаточно близко в шашках 8x8, но никак не в шахматах.
    1. достаточно сравнить результативность сильнейших игроков в турнирах.
    2. Так-же можно посмотреть на результативность сильнейших программ между собой.

    Ничего не говорит о том что порог близко. Есть основания так думать? :)

    И самое главное - то что при изменении контроля рост силы при удвоении одинаков, то что более слабые движки с ростом контроля не догоняют более сильных - всё это говорит о том что до потолка как до луны.

    И на каком основании можно считать что потолок близко? Хотя бы один признак этого есть? :)


    Если есть желание сравнить - могу привести результативность в матчах среди шашечных программ, она весьма показательна...


    А так-же результаты Рыбки с длинными контролями - когда потолок близко - сильнейшие играют примерно в одинаковую силу, а когда возможен такой чудовищный отрыв, и когда результативность просто зашкаливает - потолка еще не видно...
  20. Igrok7 Учаcтник

    • Участник
    Member Since:
    04.01.2007
    Message Count:
    132
    Likes Received:
    0
    Репутация:
    0
    Оффлайн
    Давай подойдем с другой стороны.Каков теоретический потолок рейтинга комп.программ?Под рейтингом понимаем классические шахматы и программа будет играть против сильнейших людей(на условиях сходных с матчем Крамник-Фриц)Я считаю что предел около 3000,может чуть более.Сейчас компьютеры точно перешли отметку 2850, возможно 2900.
  21. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    А я вижу что программы перешли отметку в 3100, и потолок оцениваю в 5000 пунктов Эло. :)
    Какие есть основания думать что потолок 3000?
    Откуда взята цифра в 2900?
    Программы играющие слабее лидеров на 300-400 пунктов не проиграли ни одного матча сильнейшим шахматистам. То есть сильнейшие шахматисты играют на 2400-2500?

    Если мы говорим о рейтингах ФИДЕ, то сильнейшие гроссы играют всё-таки в силу 2800 :)
  22. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
  23. Igrok7 Учаcтник

    • Участник
    Member Since:
    04.01.2007
    Message Count:
    132
    Likes Received:
    0
    Репутация:
    0
    Оффлайн
    Почему в 3000?Да,потому,что человек будет тупо делать ничьи!!!Шахматы-это ничейная игра!Ты хочешь сказать,что будет такая программа,которая выиграет у Крамника скажем 20-0? 5000 пунктов :)))."Программы играющие слабее лидеров на 300-400 пунктов не проиграли ни одного матча сильнейшим шахматистам" -не на 300-400!Тут правда и статистики нет.
    Я вот играю с сильнейшими прогами- самая слабая Скорпио-2690, самая сильная рыбка 2980,контроль 15+10.Пока cыграл 16 партий,6 ничьих,10 поражений.Могу с уверенностью сказать,что я буду делать периодически ничьи с любыми прогами и на любых компах.Почему?Потому,что в некоторых партиях я буду делать такое кол-во ошибок,которых не будет хватать для победы компа.
  24. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Ничего не понял из ваших рассуждений...
    Кроме того что имея рейтинг 2400 Вы играете сильнее Крамника и Каспарова, что можно легко понять хотя бы из Вашего намерения выиграть матч у Кошки :)

    Я отлично понимаю, что рейтинг листы на 40000 партий для Вас статистикой не являются :)
  25. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Могу так-же сказать, что по формуле Эло вероятность ничьи есть при любой разнице в силах :)
  26. Igrok7 Учаcтник

    • Участник
    Member Since:
    04.01.2007
    Message Count:
    132
    Likes Received:
    0
    Репутация:
    0
    Оффлайн
    "Я отлично понимаю, что рейтинг листы на 40000 партий для Вас статистикой не являются"
    Я имел ввиду статистику игр компа против человека,которой действительно нет.
    Думаю,что Кошка против Крамника не потянет.
  27. TopicStarter Overlay

    NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Member Since:
    02.05.2006
    Message Count:
    6.811
    Likes Received:
    96
    Репутация:
    3
    Location:
    Санкт-Петербург
    Оффлайн
    Есть статистика игры компа против человека. После матча с Дип Блю было сыграно достаточно серьезных матчей, и относительная сила всех программ (кроме Гидры) достоверно известна.

Share This Page