Белка

Discussion in 'Машинное отделение' started by WildCat, 3 Nov 2007.

  1. TopicStarter Overlay

    WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    Давайте попробуем систематизировать тестирование Белки. Для тех, кто готов этим заниматься предлагаю такую схему.

    Каждый тестер запускает матчи из 100 партий против 10 эталонных движков:

    Rybka 2.3.2a
    Hiarcs 11.1
    Loop 13.6
    Fruit 2.3
    Shredder 11
    Ktulu 8
    Spike 1.2 Turin
    Naum 2.2
    Zappa Mexico
    Glaurung 1.2.1

    Контроль любой фишеровский. Начальные позиции берем здесь: www.igorkorshunov.narod.ru/50.pgn

    Для начала все желающие тестируют Стрелку 1.8 и Белку 1.8.7. А затем мы посмотрим выйдет ли что-то из этой затеи.
  2. Vertu Старожил

    • Участник
    • Старожил
    Member Since:
    22.12.2006
    Message Count:
    972
    Likes Received:
    44
    Репутация:
    4
    Оффлайн
    Взял матчи с Hiarcs 11.1 с контролем 0'1"
  3. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    А какой дожен быть контроль?
  4. Vertu Старожил

    • Участник
    • Старожил
    Member Since:
    22.12.2006
    Message Count:
    972
    Likes Received:
    44
    Репутация:
    4
    Оффлайн
    написано: Контроль любой фишеровский.
  5. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    Ну, хотелось бы слышать наиболее подходящий....0+1, 5+3, 60+15, 90+30 все-таки совершенно разные контроли, где и результаты могут быть несколько другими
  6. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    написано: Каждый тестер запускает матчи из 100 партий против 10 эталонных движков
  7. Vertu Старожил

    • Участник
    • Старожил
    Member Since:
    22.12.2006
    Message Count:
    972
    Likes Received:
    44
    Репутация:
    4
    Оффлайн
    если каждый - будет долго.
  8. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    В том-то и дело, что более или менее достоверно получется, но очень-очень долго. 60-70 часов, если по 3 мин на партию каждому. Мне, если честно, больше по душе сыграть 2-3 десятка партий по 60+15 - это никак не достоверно, но видно, где прога глючит и какие позиции не понимает. :)
  9. Vertu Старожил

    • Участник
    • Старожил
    Member Since:
    22.12.2006
    Message Count:
    972
    Likes Received:
    44
    Репутация:
    4
    Оффлайн
    10 движков по 100 партий это уже более-менее достоверно. Если действительно имеет место усиление, это уже будет заметно.
  10. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    Так, я не спорю. Просто, если каждый возьмёт только по матчу с одним движком, то о достоверности уже нельзя будет говорить (разные компы, контроли, хеш)
  11. Vertu Старожил

    • Участник
    • Старожил
    Member Since:
    22.12.2006
    Message Count:
    972
    Likes Received:
    44
    Репутация:
    4
    Оффлайн
    Блин, да, лучше быть богатым и здоровым, чем бедным и больным! Лучше провести мильон партий 60+60 на ста одинаковых компах!
  12. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    Зачем утрировать? Мне кажется, я ясно выразил свою мысль. Вы не согласны, что, играя каждый матч на разных компах, в не всегда одинаковом контроле, мы получим недостоверные результаты или что?
  13. thenewone Евгений Манев

    • Участник
    • Старожил
    Member Since:
    09.06.2006
    Message Count:
    3.173
    Likes Received:
    18
    Репутация:
    1
    Location:
    Пловдив
    Оффлайн
    pgn-файл назвать надо 49.pgn :) не 50 :)

    Игорь, давай 50-ю позицию :)
  14. TopicStarter Overlay

    WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    ОК. Можно разделить движки между тестерами. Только брать один движок это уж как-то совсем мало. Берите хотя бы по три.
    Минимальный контроль 1+1.
    Там 50 позиций.
    Каждый тестер будет проводить свои мачти в фиксированных условиях. Так что результаты будут вполне достоверны (у нас нет цели определить рейтинг - нам нужно просто сравнивать разные версии между собой). Проблемы могут появиться если кто-то из тестеров решит уйти. Тогда некоторую часть его работы придется переделывать кому-то другому.
    Это никто не запрещает делать. :)
    А тестирование нужно для контроля что мы идем правильной дорогой.
  15. Vertu Старожил

    • Участник
    • Старожил
    Member Since:
    22.12.2006
    Message Count:
    972
    Likes Received:
    44
    Репутация:
    4
    Оффлайн
    Минимальный контроль 1+1.

    Блин, а я уже полтора матча по 0+1 провел...
  16. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    Ладно, понял. Я начну играть 1+1 с каждой прогой по отдельности. Если будет уходить слишком много времени, оставлю ограниченное кол-во движков. Кстати, нужно тестировать и Стрелку и Белку обе?
    60+15 это я к слову. Можно просто взять партии CCRL в контроле 40/40 и уже там смотреть, где Стрелка глючит. :)
  17. Vertu Старожил

    • Участник
    • Старожил
    Member Since:
    22.12.2006
    Message Count:
    972
    Likes Received:
    44
    Репутация:
    4
    Оффлайн
    Результаты моих матчей с Hiarcs 11.1 (контроль 0+1):
    Code:
    Strelka +26 -47 =27
    Belka   +37 -38 =25
    Таким образом, похоже, Hiarcs проголосовал за Белку.
  18. TopicStarter Overlay

    WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    Vertu, переиграй на контроле 1+1.
    Все, кто будет участвовать, партии кидайте мне на мыло.
  19. TopicStarter Overlay

    WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    Меня терзают смутные сомнения, что оболочка Vertu ведет себя неадекватно.Возможно она добавляет время движкам за расстановку начальной позиции. Это явно бред. В начале партии на часах должно быть базовое время фишеровского контроля.

    Кстати, забыл сказать. Дебютные книги и любое обучение должны быть выключены.

    Короче:

    1. Дебютные книги
    2. Обучение

    :cool:
  20. Vertu Старожил

    • Участник
    • Старожил
    Member Since:
    22.12.2006
    Message Count:
    972
    Likes Received:
    44
    Репутация:
    4
    Оффлайн
    Добавляет, да. По секунде на ход. Ну и что, она же одно и то же время обоим добавляет?
  21. TopicStarter Overlay

    WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    Просто это бред. Ставиться один контроль, а оболочка сама его подправляет по своему усмотрению. Конечно, это не очень принципиально.
  22. immortal223 Вячеслав

    • Участник
    Member Since:
    22.02.2006
    Message Count:
    2.412
    Likes Received:
    15
    Репутация:
    0
    Оффлайн
    WildCat

    Почему бы не взять Loop 13.6 он вроде как сильнее. А Sjeng 2.7 у меня не работает, так что не смогу тестировать.

    Я бы предложил другой список движков, но так как Вы не привели в списке никого из CB-engines, очевидно оболочка Фрица Вас чем-то не устраивает?
  23. TopicStarter Overlay

    WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    Пусть будет Луп 13.6. А что с Sjeng 2.7? Я его еще не пробовал. Если с ним какие-то проблемы, то лучше заменить.
    Кого можно вместо него?
    Заппу брать не хочется.
    У Тигра путаница с версиями.
    Похоже нужно брать Alaric 707.
  24. Vertu Старожил

    • Участник
    • Старожил
    Member Since:
    22.12.2006
    Message Count:
    972
    Likes Received:
    44
    Репутация:
    4
    Оффлайн
    а почему не хочется Заппу?
  25. immortal223 Вячеслав

    • Участник
    Member Since:
    22.02.2006
    Message Count:
    2.412
    Likes Received:
    15
    Репутация:
    0
    Оффлайн
    С ним проблемы, решение которых лучше обсудить не на этом форуме :), поэтому лучше его убрать от греха подальше.
    Я бы предложил такой список (без СБ-движков):

    Rybka 2.3.2a
    Shredder 11
    Toga II 1.3.1
    Hiarcs 11.1
    Zappa Mexico
    Naum 2.2
    Loop 13.6
    Spike 1.2 Turin
    Ktulu 8.0
    Chess Tiger 2007.1

    Вроде бы все сильнейшие и доступные. Составлен согласно рейтингу CCRL :)
  26. TopicStarter Overlay

    WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    Список движков изменен.
  27. immortal223 Вячеслав

    • Участник
    Member Since:
    22.02.2006
    Message Count:
    2.412
    Likes Received:
    15
    Репутация:
    0
    Оффлайн
    А Налимов? Юзать его или нет?
    Сдача партии. Сдаваться или играть до упора? У Белки есть проблемы в энде, так что и это может сказаться на результате.
  28. TopicStarter Overlay

    WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    Это все можно по желанию.
  29. Fruit Александр

    • Заслуженный
    • Участник
    • Старожил
    Member Since:
    12.02.2006
    Message Count:
    2.201
    Likes Received:
    64
    Репутация:
    3
    Оффлайн
    Результаты:

    ALEXM, Blitz:1'+1" 0

    Belka 1.8.7 - Loop 13.6 59.0 - 41.0 +44/-26/=30 59.00%
    Belka 1.8.7 - Ktulu 8.0 64.5 - 35.5 +51/-22/=27 64.50%
    Belka 1.8.7 - Spike 1.2 Turin 67.5 - 32.5 +54/-19/=27 67.50%
    Belka 1.8.7 - Zappa Mexico 67.5 - 32.5 +53/-18/=29 67.50%
    Belka 1.8.7 - IShredder 11 UCI 49.0 - 51.0 +36/-38/=26 49.00%
  30. Vertu Старожил

    • Участник
    • Старожил
    Member Since:
    22.12.2006
    Message Count:
    972
    Likes Received:
    44
    Репутация:
    4
    Оффлайн
    Закончил 2 матча 1'+1" с Рыбкой.

    Code:
    Rybka 2.3.2a 32-bit   - Strelka 1.8 UCI         65.5 - 34.5    +48/-17/=35    65.50%
    Rybka 2.3.2a 32-bit   - Belka 1.8.7             62.5 - 37.5    +43/-18/=39    62.50%
    Выигрывает Белка примерно столько же, сколько Стрелка, а проигрывает немного поменьше. Интересно, какой результат будет у других...
    Партии вышлю позже.
  31. VP Учаcтник

    • Участник
    Member Since:
    06.05.2007
    Message Count:
    181
    Likes Received:
    0
    Репутация:
    0
    Location:
    Красноярск
    Оффлайн
    Последние 2 надо выкинуть из списка и заменить на ЗаппуМексика и Фриц10
    Зачем играть со слабыми, "если хочешь чему то научиться
    всегда играй с более сильным противником!"
    Или это правило к движкам не относится?
    Если пока нужна просто статистика больших чисел, в разнице между Белкой и Стрелкой...
    Силу движков я уже выяснил. Белка играет сильней. См. мой турнир в соседней теме.
    Контроль по 1+1 считаю несерьезным. Надо брать минимум 3+1, 4+2, 5+3
    В ничейном эндшпиле при разнопол-слонах Белка завышает оценку пешек, а надо занизить!
    И еще есть замечания по эндшпилю, но там конкретно надо искать те партии и смотреть позиции.
    По моим предварительным тестам серьезные противники для Белки пока остаются
    Рыбка и Заппа. Она у них берет_20-30% Также пока уступает Шреддеру11_40%
    На этой неделе запущу тесты на 10 компах с контролем 3+1, базу дебютную 50 поз. качнул.
    На каждом компе поставлю по 1 разному противнику. По 100 или 200 партий для Белки и Стрелки.
    Оболочка будет ШреддерКлассик-3 + all345.tbe; хеш=64; обучение-нет
    Во вторник 6-го зупущу в четверг 8-го будет результат.
    Постараюсь в четверг-пятницу выдать 2000 партий по Белке и Стрелке.
    Список движков этот брать?
    Кто тестит на 4 ядерниках может запускать 4 разные оболочки без пондера :)
    Либо 2 оболочки с пондером :( Сейчас у меня так работает комп. ШреддерКл-3 и Шреддер10.
    Главное чтоб движки(если одинаковые одновр.запущены) были в разных директориях.
    Единственое что мне не нравится, дошли сейчас до таблиц KR-KN ничья в оценке движков и по таблицам, а они все равно
    продолжают молотить лишние 50 ходов обращаясь к таблицам шреддера. Почему ничья автоматом не фиксируется?
    Под облочкой СВ+НалимовТВ такого я не видел. Там можно и в результат вмешаться поставить самому,
    а здесь в классике такого не вижу. А прервать здесь можно по моему только турнир, если матч прервать,
    то деб.база собьется, при новом запуске сначала начнется? Поэтому придется ставить наверно турнир-вызов,
    где один движок играет с другими по очереди. Тогда наверно и очередь в деб.базе должна сохраняться,так?
  32. Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    Я бы тоже предложил свой список движков:

    Rybka 1.0 Beta 64-bit
    Fruit 2.3.1
    Spike 1.2
    Naum 2.0 32-bit
    Alaric 707
    Glaurung 1.2.1 32-bit
    Scorpio 2.0
    Movei 0.08.438 (10 10 10)
    Pro Deo 1.6
    Delfi 5.2
    Slow Chess Blitz WV2.1
    Zappa 1.1 64-bit
    Frenzee 3.0 64-bit
    Pharaon 3.5.1
    List 5.12
    WildCat 7

    (16 движков, так как 10, по-моему, мало).

    Преимущество: все движки бесплатные, поэтому в тестировании могут принять участие все желающие. Также, больше уверенности в результатах так как точно знаешь о каждом движке что это действительно тот движок что ты думаешь.
  33. VP Учаcтник

    • Участник
    Member Since:
    06.05.2007
    Message Count:
    181
    Likes Received:
    0
    Репутация:
    0
    Location:
    Красноярск
    Оффлайн
    До 20 сюда не хватает:
    17.Colossus 2007d
    18. TogaII 1.3.1
    19. Ufim 8.02
    20. Boot 4.13.1
    Последних 2 наших включить как резерв от тестеров СНГ :) Марков только обидится на нас, что про него забыли.
    Но могут еще в обиде остаться другие фри движки
    Почему бы и не разделиться, одни тестят среди сильнейших фри-движков,
    недостаток этого списка для теста - движки слабоваты, т.к. Белка займет там 2 строку после Рыбки :(

    Другие желающие пусть тестят среди 10 сильнейших
    по общему рейт листу CCRL 40/4 Rating List - 32-bit single
  34. Kirr Администратор

    • Команда форума
    Member Since:
    11.02.2006
    Message Count:
    1.208
    Likes Received:
    22
    Репутация:
    8
    Оффлайн
    Если нужно двадцать движков, то к моей выборке можно добавить:

    Colossus 2007d
    SOS 5.1
    Pseudo 0.7c
    Ruffian 1.0.5

    Booot, Ufim и Smarthink в первую двадцатку, к сожалению, не входят.. (хотя Booot сейчас 21-й в моей выборке по бесплатным однопроцессорным движкам).
  35. TopicStarter Overlay

    WildCat Коршунов Игорь

    • Команда форума
    Member Since:
    04.05.2006
    Message Count:
    3.599
    Likes Received:
    4
    Репутация:
    0
    Location:
    Гомель
    Оффлайн
    По списку движков возможно только замена кого-то из слабых на Заппу Мексика. Будем менять?

Share This Page