Контроль времени для тестирования программ

Тема в разделе "Машинное отделение", создана пользователем WinPooh, 31 июл 2006.

  1. Kirr Администратор

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    1.208
    Симпатии:
    22
    Репутация:
    8
    Оффлайн
    Слишком большой разброс. Если так пойдёт дальше, предлагаю исключить Амиян и Греку. (Сорри, Пух!). Можно подождать ещё круг-другой.

    Предлагаю включить Kiwi 0.6d.
  2. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Не надо исключать Греку :)
  3. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Играют без дебютных библиотек.

    А чем Kiwi примечательна?

    Слишком разная сила игры у участников. Для наших целей это очень плохо. Видимо придется пересмотреть состав.
  4. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Может всё-таки лучше Nunn2?
    У меня вообще нет оценки развития, и других дебютных признаков... С первого хода идёт миттельшпильная оценка.
  5. Kirr Администратор

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    1.208
    Симпатии:
    22
    Репутация:
    8
    Оффлайн
    Без дебютных библиотек можно играть максимум два круга, дальше начинаются повторяться дебюты, а то и партии целиком. Дебютная книжка нужна в основном чтобы избежать повторений, поэтому книжку лучше ограничивать в глубину. Глубину можно посчитать исходя из предполагаемого числа партий и из ветвистости книжки. В этом турнире я бы взял любую общую книжку вроде Perfect 8.32 и ограничил бы восемью ходами. Можно даже шестью. :)

    Мне нравилось как она играет, хотелось посмотреть как она поведёт себя в разных контролях. Правда движок больше не разрабатывается, но зато сила должна быть вроде подходящая. :)

    Да, при таком разбросе сил участников результат эксперимента будет недостоверным. Влияние контроля времени на силу игры будет меньше реального.
  6. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Наверно Nunn2 чеcтнее, так как при любой дебютной возможны случайности - программе всегда будет доставаться плохая последебютная позиция, либо возможно повторение :)
  7. Kirr Администратор

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    1.208
    Симпатии:
    22
    Репутация:
    8
    Оффлайн
    Можно и Nunn2, вопрос вкуса. :) С книжкой тоже честно так как у всех движков одинаковые шансы получить плохую позицию. И книжку можно так подобрать/настроить чтобы плохих позиций не практически не было.
  8. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Код:
     1. Amyan 1.592             16.5 / 18
     2. WildCat 4               13.5 / 18
     3. Little Goliath 2000 3.9 13.5 / 18
     4. WildCat 3               12.0 / 18
     5. Gaia 3.5                 8.0 / 18
     6. Eeyore 1.48              6.0 / 18
     7. Zeus 1.27                6.0 / 18
     8. Anechka 0.08             5.5 / 18
     9. Anechka 0.07             5.0 / 18
    10. GreKo 3.3a               4.0 / 18
    Используется 25 дебютных позиций. Эта таблица получена на дебюте: 1.e4 e5. Amyan-у просто повезло с этим дебютом. На остальных для него все будет хуже. Разница в игре первых четырех не должна быть больше 50 Эло.

    Продолжать или будем менять состав?
  9. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Нет, состав можно оставить тот-же.
    Это результаты с контролем 2'+1"?
    Это продолжение 34-го поста? Анечки набрали 3 и 1.5 очка во втором круге? :(
  10. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Да, это продолжение турнира 2 + 1.
  11. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Грека здорово подтянулся, а остальные четверо значительно слабее сыграли второй тур...
  12. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Код:
     1. Amyan 1.592             30.5 / 36
     2. Little Goliath 2000 3.9 27.5 / 36
     3. WildCat 4               26.0 / 36
     4. WildCat 3               26.0 / 36
     5. Zeus 1.27               14.5 / 36
     6. Gaia 3.5                13.5 / 36
     7. Eeyore 1.48             13.5 / 36
     8. Anechka 0.07            11.5 / 36
     9. GreKo 3.3a               9.0 / 36
    10. Anechka 0.08             8.0 / 36
  13. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Код:
     1. Amyan 1.592             41.5 / 51
     2. Little Goliath 2000 3.9 36.0 / 51
     3. WildCat 3               35.0 / 51
     4. WildCat 4               33.5 / 51
     5. Gaia 3.5                23.0 / 51
     6. Eeyore 1.48             22.0 / 51
     7. Zeus 1.27               20.0 / 51
     8. Anechka 0.07            15.0 / 51
     9. Anechka 0.08            14.5 / 51
    10. GreKo 3.3a              14.5 / 51
    Насколько часто выкдалывать обновления?
  14. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Наверно раз в день достаточно... Что-то по две минуты совсем плохо...
    Просрочек времени ни у кого нет?
  15. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Нашел одну просрочку. Голиаф на втором ходу (т.е. для него это был первый ход, т.к. до этого были ходы по дебюту). Видимо где-то что-то глюкануло. Переиграю эту партию.
    Думаешь с увеличением времени дела у Анечки пойдут лучше? Может быть действительно у нее проблемы с игрой в дебюте? Хотя насколько я видел из дебюта нормально выходит (не хуже других). А сливает в основном в середине игры.

    А вот Кошки ведут себя как и ожидалось. При очень быстром контроле 3-я версия чуть покруче. Дело в том, что я ее делал на P-180 (32 Мб). На нем теперешние длинные контроли никак нельзя было проверить. И я понасувал в нее алгоритмов собственного сочинения. А в 4-ой версии просто выбросил большинство из них. И она заиграла лучше при длинных контролях.
    Интересно проверить, так ли это на самом деле?
  16. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Ну и Amyan ожидаемо всех душит в быстрые шахматы. Интересно как у него пойдет при увеличении контроля. Вообще есть мнение, что с увеличением контроля сильным движкам более сложно выигрывать, т.к. при очень длинном контроле, практически любой слабый движок способен добиться ничьей, если в нем нет глюков.
  17. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Думаешь с увеличением времени дела у Анечки пойдут лучше?
    Да, согласно моим тестам - значительно лучше.
    В дебюте, кроме отсутствия дебютной оценки сказывается еще плохая (слишком простая) оценка защищенности короля.
    Причем Защищенность короля с увеличением контроля сказывается меньше.
    А рост силы происходит быстрее - хотя-бы из-за LMR, которого нет ни у Greko, ни у Zeus-a, ни у Иа-Иа.
    А метод Селективный :)
  18. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Вообще есть мнение, что с увеличением контроля сильным движкам более сложно выигрывать, т.к. при очень длинном контроле, практически любой слабый движок способен добиться ничьей, если в нем нет глюков.

    Ни мои тесты, ни тесты CEGT этой теории не подтверждают.
    Из-за более быстрого раста силы у сильных движков результат ухудшается.
    Достаточно взять на CEGT движки присутствующие в обоих листах, разбить их на две группы (согласно рейтингу (силе)), и посчитать средний рейтинг в каждой группе. Разрыв с увеличением контроля увеличивается, и связано это скорей всего с более грамотными переборными алгоритмами у сильных движков.
  19. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Достаточно взять на CEGT движки присутствующие в обоих листах, разбить их на две группы

    Конкретные факты в студию! Очень интересно.
  20. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Сейчас приведу.
  21. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Код:
                                          40/40   40/4
    Rybka 2.0 Beta 1-4 x64 2CPU            3003    3002
    Deep Shredder 10 x64 2CPU              2849    2861
    Zap!Chess Paderborn x64 2CPU           2834    2829
    Shredder 10                            2821    2801
    Fritz 9                                2780    2782
    Hiarcs X50 UCI                         2778    2819
    Spike 1.2 Turin                        2778    2769
    Fruit 2.2.1                            2776    2769
    Glaurung 1.2 x64 2CPU                  2759    2766
    Ktulu 8                                2751    2772
    Loop List 600                          2683    2703
    Deep Sjeng 1.6 2CPU                    2667    2649
    SlowChess Blitz WV2.1                  2656    2642
    Ruffian Leiden2003                     2654    2663
    Jonny 2.89                             2627    2618
    Delfi 5.0                              2621    2604
    WildCat 6                              2615    2615
    SOS 5,1 for Arena                      2612    2598
    
    Средний                              2736,89    2736,78
    
    Deep Sjeng 1.6 1CPU                    2605    2607
    Pseudo 0.7c                            2605    2614
    Pharaon 3.3                            2594    2595
    Anaconda 2.0.1                         2585    2579
    Thinker 4.7a                           2565    2581
    AnMon 5.60                             2546    2569
    Green Light Chess 3.01.2.2             2541    2527
    Movei 00.8.352                         2534    2566
    Chiron B 03/03/06                      2530    2551
    Patriot 1.3.0                          2527    2544
    Ufim 7.01                              2514    2542
    Zarkov 4.75                            2509    2549
    Amyan 1.595                            2508    2498
    Colossus 2006b                         2508    2560
    Quark 2.62                             2508    2475
    Trace 1.35                             2489    2495
    Pepito v1.59                           2486    2548
    Snitch 1.4.5                           2454    2440
    Bruja 1.9                              2436    2409
    
    Средний                             2528,63    2539,42
    Первая колонка 40/40, вторая 40/4 Моя теория на этой выборке не подтвердилась. :(
    Добавлено.
    То есть извиняюсь, подтвердилась!
  22. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Рейтинги отличающиеся большее чем на статистическую ошибку:

    Hiarcs X50 UCI 2778 2819
    Ufim 7.01 2514 2542
    Pepito v1.59 2486 2548

    Из 74 рейтингов по статистике 3.7 должны выходить за границы, т.е. это нормально. Было бы интересно, если бы эти движки потестировали побольше.
  23. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Что-то я не то сказал :) Как раз моя теория подтвердилась :) В среднем при десятикратном увеличении контроля в младшей группе падение на 11 пунктов по сравнению с старшей.
    То есть разница в 3 пункта на Двухкратном увеличении.
  24. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Стоит ли говорить о 11 пунктах?

    Странно, что у сильных примерное равенство. А у средних падение на 11 пунктов. Кто-же тогда поднялся на 11 пунктов? Слабые что-ли?
  25. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    У них рейтинг рассчитывается иcходя из привязки кого-то из сильных к конкретному рейтингу.
    (не помню кого конкретно)
    Поэтому и сильная группа показала одинаковый результат при разных контролях.
    У слабой группы уже привязки нет, поэтому средний рейтинг 40/4 на 11 пунктов больше чем 40/40.

    Нет нормальной статистики по более слабым движкам - там разница была-бы серьёзней.
    Если брать еще слабее, то например Бестия по сравнению с новыми Анечками при увеличении контроля падает в силе очень быстро.
  26. Booot Учаcтник

    • Участник
    Рег.:
    05.06.2006
    Сообщения:
    140
    Симпатии:
    0
    Репутация:
    0
    Оффлайн
    Только вот набрел на этот топик! WildCat, а можно Booot включить в тест? Вот уж чего точно не знаю, это как он играет при разных контролях - максимум на что есть время - погонять его пару десятков партий в суперблиц.
  27. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Решил сразу начать турниры и с другими контролями, чтобы было интереснее наблюдать за развитием событий.
    8 + 4:
    Код:
     1. WildCat 3               7.0 / 9
     2. Amyan 1.592             7.0 / 9
     3. WildCat 4               6.5 / 9
     4. Little Goliath 2000 3.9 6.0 / 9
     5. Gaia 3.5                4.5 / 9
     6. Eeyore 1.48             4.5 / 9
     7. GreKo 3.3a              3.0 / 9
     8. Anechka 0.07            3.0 / 9
     9. Zeus 1.27               2.0 / 9
    10. Anechka 0.08            1.5 / 9
  28. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Решил сразу начать турниры и с другими контролями, чтобы было интереснее наблюдать за развитием событий.
    У тебя сколько компов?
  29. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Booot, наверное слишком силен. Итак получается как бы два разных турнира. Желательно бы какой движок средней силы. Около 2400.
  30. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Один комп. Зачем мне больше?
  31. Мастер Икс Василий Щепетнев

    • Команда форума
    Рег.:
    11.02.2006
    Сообщения:
    3.616
    Симпатии:
    282
    Репутация:
    19
    Адрес:
    Деревня Великая Гвазда
    Оффлайн
    Статистическая достоверность ? а именно ради нее мы загружаем наши компьютеры матчами и турнирами ? возрастает с числом партий, ergo, необходимо их, партий, иметь елико возможно больше. Результат матча из двухсот пятиминуток будет гораздо достовернее, нежели из шести семичасовых партий. Поэтому предпочтительнее блиц.
    И потом ? пятиминутка на Атлоне 4800+ стоит семичасовой партии на 386 компьютере, а я помню время, когда трешка DX 40 считалась очень быстрой машиной ? были ведь и 286 компьютеры...
  32. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Вот поэтому я и люблю короткие контроли. Уже при 32 + 16 тратится очень много времени, а результатов нет и нет.
  33. WildCat Коршунов Игорь

    • Команда форума
    Рег.:
    04.05.2006
    Сообщения:
    3.599
    Симпатии:
    4
    Репутация:
    0
    Адрес:
    Гомель
    Оффлайн
    Результаты во всех трех турнирах после первого круга:

    2 + 1
    Код:
     1. Amyan 1.592             8.5 / 9
     2. Little Goliath 2000 3.9 7.5 / 9
     3. WildCat 4               6.0 / 9
     4. WildCat 3               5.0 / 9
     5. Anechka 0.08            4.0 / 9
     6. Eeyore 1.48             4.0 / 9
     7. Gaia 3.5                4.0 / 9
     8. Zeus 1.27               4.0 / 9
     9. Anechka 0.07            2.0 / 9
    10. GreKo 3.3a              0.0 / 9
    8 + 4
    Код:
     1. Amyan 1.592             7.0 / 9
     2. WildCat 3               7.0 / 9
     3. WildCat 4               6.5 / 9
     4. Little Goliath 2000 3.9 6.0 / 9
     5. Gaia 3.5                4.5 / 9
     6. Eeyore 1.48             4.5 / 9
     7. GreKo 3.3a              3.0 / 9
     8. Anechka 0.07            3.0 / 9
     9. Zeus 1.27               2.0 / 9
    10. Anechka 0.08            1.5 / 9
    32 + 16
    Код:
     1. Little Goliath 2000 3.9 8.0 / 9
     2. WildCat 4               6.5 / 9
     3. Amyan 1.592             6.0 / 9
     4. Gaia 3.5                5.0 / 9
     5. WildCat 3               4.5 / 9
     6. Anechka 0.08            4.5 / 9
     7. Anechka 0.07            4.0 / 9
     8. Eeyore 1.48             4.0 / 9
     9. Zeus 1.27               1.5 / 9
    10. GreKo 3.3a              1.0 / 9
    Видна деградация Amyan, Zeus.
    Анечка 0.07 растет.

    Конечно, делать выводы после 9 туров смешно. В этом очень большой недостаток медленных контролей. Уж очень они медленные :)
  34. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Если супер блиц - то Греко или Анечка (скорей всего Анечка)
    Если Блиц (5+2 например) - то Анечка...
    Версия 1.08 - Это как раз с оценкой только по положению фигур (с разбитием партии на две стадии)?
  35. NS Нефёдов Сергей

    • Заслуженный
    • Ветеран
    • Старожил
    Рег.:
    02.05.2006
    Сообщения:
    6.811
    Симпатии:
    96
    Репутация:
    3
    Адрес:
    Санкт-Петербург
    Оффлайн
    Мои тесты тоже показывают более быстрый рост по сравнению и с Иа-Иа и с Зевсом и с Греко силы с увеличением конроля... Причем значительно быстрее растет. Похоже на более четкие переборные алгоритмы и отсутствие ошибок.
    Плюс - наверно сильнее на коротких конролях сказывается неполная ОФ...

Поделиться этой страницей