Рейтинги CCRL 40/40

NS · 21 янв 2007

Посчитал при помощи своей программы (система Эло)

добавлено
Скачать текущую версию можно тут:
http://rapidshare.com/files/13026256/NSRating001.rar.html

Версия 0.02
http://rapidshare.com/files/13094646/NSRating002.rar.html
Добавлена возможность чтения нескольких pgn,
и более жестко задано ограничение на максимальную разницу в рейтингах.

Теперь метод сходится за секунды, но пару десятков секунд занимает расчет доверительных интервалов (на 200 участников).
Считаю наискорейшим градиентным спуском с переменным шагом - максимизирую вероятность случившихся исходов.

Привязка к
Fritz 9 2843 +13 −13 50.0% +0.0 34.6% 2072

Код:

CCRL-4040.[44514].pgn

    Elo       Av.Op.   -     +    Score/Games          Name
   3165.6    2949.5   -60    63  138.0/ 180.0  76.7% Rybka 2.2 64-bit 4CPU
   3122.9    2925.3   -55    58  155.5/ 209.0  74.4% Rybka 2.1 64-bit 4CPU
   3115.0    2868.1   -54    57  190.5/ 240.0  79.4% Rybka 2.1 64-bit 2CPU
   3114.1    2897.6   -59    62  141.0/ 182.0  77.5% Rybka 2.1 32-bit 4CPU
   3057.0    2839.5   -38    39  345.5/ 453.0  76.3% Rybka 2.2 64-bit 2CPU
   3040.9    2888.0   -38    39  270.5/ 386.0  70.1% Rybka 2.2 32-bit 2CPU
   3036.9    2879.0   -56    58  126.5/ 179.0  70.7% Rybka 2.2 64-bit
   3024.8    2863.6   -34    34  359.5/ 508.0  70.8% Rybka 2.1 32-bit 2CPU
   3013.1    2842.0   -27    27  578.5/ 801.0  72.2% Rybka 2.2 32-bit
   3011.4    2817.1   -27    28  620.0/ 833.0  74.4% Rybka 1.2 64-bit
   3008.6    2798.0   -31    32  506.0/ 665.0  76.1% Rybka 1.1 64-bit
   2991.7    2827.5   -23    24  752.0/1063.0  70.7% Rybka 1.2 32-bit
   2986.8    2927.3   -73    74   52.0/  89.0  58.4% Hiarcs 11 4CPU
   2983.9    2839.7   -30    31  417.0/ 606.0  68.8% Rybka 2.1 32-bit
   2973.7    2820.0   -22    23  804.5/1154.0  69.7% Rybka 1.1 32-bit
   2973.6    2803.0   -37    38  296.5/ 410.0  72.3% Rybka 2.1 32-bit (C+1 OSO)
   2969.6    2850.3   -33    33  322.0/ 492.0  65.4% Zap!Chess Paderborn 64-bit 4CPU
   2944.5    2857.5   -92    95   37.0/  60.0  61.7% Deep Fritz 10 2CPU
   2937.6    2924.1   -33    33  237.0/ 454.0  52.2% LoopMP 12.32 2CPU
   2935.4    2928.2   -34    34  225.0/ 439.0  51.3% Deep Junior 10 4CPU
   2935.1    2910.2   -35    36  220.5/ 412.0  53.5% Deep Shredder 10 64-bit 4CPU
   2932.9    2899.1  -124   126   17.0/  31.0  54.8% Deep Shredder 10 32-bit 4CPU
   2932.4    2878.7   -23    24  517.5/ 906.0  57.1% Deep Shredder 10 32-bit 2CPU
   2929.4    2866.3   -71    72   57.5/  98.0  58.7% Hiarcs 11 2CPU
   2929.1    2778.9   -21    21  867.5/1243.0  69.8% Rybka 1.0 64-bit
   2924.9    2965.5   -63    63   55.5/ 124.0  44.8% Zap!Chess Paderborn 32-bit 4CPU
   2915.9    2877.7   -33    34  238.0/ 430.0  55.3% Zap!Chess Paderborn 64-bit 2CPU
   2911.7    2937.2   -62    61   57.5/ 124.0  46.4% Deep Junior 10.1 4CPU
   2907.3    2884.1   -51    51   96.5/ 181.0  53.3% LoopMP 11A.32 2CPU
   2903.6    2854.2   -28    28  355.5/ 630.0  56.4% Deep Junior 10 2CPU
   2899.1    2976.0   -53    53   72.0/ 180.0  40.0% Deep Fritz 10 4CPU
   2888.2    2807.7   -20    21  736.5/1210.0  60.9% Rybka 1.0 32-bit
   2879.9    2730.9  -172   195   12.5/  18.0  69.4% Junior 10.1
   2876.6    2732.3  -140   143   20.5/  33.0  62.1% Deep Shredder 10 64-bit 2CPU
   2876.3    2869.4   -24    25  422.5/ 828.0  51.0% Loop 10.32f
   2874.3    2795.6   -19    19  830.0/1366.0  60.8% Shredder 10
   2873.1    2854.0   -64    64   62.5/ 119.0  52.5% List 10.64f 64-bit
   2871.2    2870.1   -35    36  196.5/ 392.0  50.1% Hiarcs X50 Hypermodern
   2867.1    2860.9   -17    17  870.0/1702.0  51.1% Toga II 1.2.1a
   2866.1    2797.2   -48    48  126.0/ 212.0  59.4% Fritz 10
   2863.8    2854.8   -44    44  129.5/ 252.0  51.4% Hiarcs 11
   2858.4    2892.6   -41    41  129.0/ 286.0  45.1% Hiarcs X54 64-bit
   2856.2    2805.1   -21    22  616.5/1081.0  57.0% Deep Shredder 9 2CPU
   2854.1    2806.5   -49    50  110.5/ 195.0  56.7% Loop 12.32
   2847.5    2880.9   -22    21  510.5/1114.0  45.8% Hiarcs X50
   2847.4    2833.5   -17    17  909.0/1748.0  52.0% Spike 1.2 Turin
   2842.9    2843.6   -15    16 1037.0/2072.0  50.0% Fritz 9
   2841.9    2821.5   -16    16 1036.5/1963.0  52.8% Fruit 2.2.1
   2841.4    2840.9   -18    18  745.5/1486.0  50.2% Hiarcs 10
   2839.4    2871.4   -48    48  102.5/ 223.0  46.0% Hiarcs X54 32-bit
   2839.0    2803.4   -42    42  151.5/ 276.0  54.9% Toga II 1.2 32-bit
   2838.7    2863.5   -54    53   86.0/ 183.0  47.0% Hiarcs X54 Hypermodern 32-bit
   2837.9    2836.5   -22    22  506.5/1006.0  50.3% Junior 10
   2837.3    2782.1  -110   113   23.0/  40.0  57.5% Smarthink 1.00 64-bit
   2831.0    2826.5   -23    24  461.5/ 908.0  50.8% Deep Fritz 8 2CPU
   2824.7    2787.5   -22    22  561.5/1017.0  55.2% Toga II 1.1a
   2820.8    2963.6  -100    94   18.5/  60.0  30.8% Zap!Chess Reykjavik 64-bit 2CPU
   2820.0    2779.4   -20    21  647.0/1162.0  55.7% Shredder 9
   2817.9    2800.5   -21    22  564.0/1075.0  52.5% Deep Junior 9 2CPU
   2817.9    2807.1   -23    24  459.5/ 889.0  51.7% Hiarcs 10 Hypermodern
   2807.9    2869.2   -43    42  127.5/ 309.0  41.3% Glaurung 1.2.1 64-bit 2CPU
   2807.3    2868.1   -77    75   38.0/  90.0  42.2% Zap!Chess Paderborn 64-bit
   2806.5    2902.9   -84    81   32.5/  90.0  36.1% ListMP 11.64 64-bit 2CPU
   2802.2    2792.1   -23    24  468.5/ 910.0  51.5% Naum 2.0 32-bit
   2801.7    2664.3  -146   151   17.0/  27.0  63.0% Zap!Chess Paderborn 32-bit 2CPU
   2798.2    2855.5   -21    21  474.0/1119.0  42.4% Ktulu 8.0
   2797.7    2837.2   -34    33  198.5/ 442.0  44.9% Fritz 8 Bilbao
   2793.4    2794.9   -29    29  290.5/ 580.0  50.1% Naum 2.0 64-bit
   2790.3    2649.9  -254   291    6.0/   9.0  66.7% Scorpio 1.81 2CPU
   2782.2    2624.7   -85    88   53.5/  82.0  65.2% Scorpio 1.84
   2779.8    2788.5   -18    18  720.0/1469.0  49.0% Spike 1.1
   2777.4    2836.9   -32    31  211.0/ 502.0  42.0% Chess Tiger 2007
   2775.7    2813.5   -26    26  330.5/ 732.0  45.2% Zap!Chess Paderborn 32-bit
   2773.5    2798.9   -20    19  577.0/1237.0  46.6% Junior 9
   2766.4    2794.8   -45    45  111.5/ 242.0  46.1% Zap!Chess Paderborn SE 32-bit
   2760.6    2790.9   -29    29  273.0/ 590.0  46.3% Glaurung 1.2.1 64-bit
   2755.3    2753.1   -44    44  127.5/ 254.0  50.2% CM9000 Enforcer
   2754.4    2808.4   -19    18  610.0/1421.0  42.9% Ktulu 7.5
   2753.4    2843.8   -45    44   96.5/ 255.0  37.8% Zap!Chess Reykjavik 32-bit
   2753.4    2817.9   -33    33  197.5/ 475.0  41.6% CM10th Paralyse
   2751.2    2799.4   -23    23  416.0/ 950.0  43.8% Glaurung 1.2.1 32-bit
   2750.9    2811.9   -19    19  590.0/1404.0  42.0% CM10th Xperience
   2748.6    2701.2  -182   191    8.5/  15.0  56.7% Scorpio 1.9
   2745.9    2795.5   -20    19  567.5/1304.0  43.5% Smarthink 1.00 32-bit
   2745.8    2788.3  -152   141   13.0/  31.0  41.9% Deep Frenzee 3.0 64-bit 2CPU
   2743.5    2788.9   -24    23  382.0/ 871.0  43.9% Spike 1.0a
   2739.9    2701.1   -60    60   79.0/ 148.0  53.4% LoopList 6.00
   2737.3    2753.4   -24    23  420.0/ 877.0  47.9% Scorpio 1.8
   2736.8    2755.5   -89    88   33.5/  71.0  47.2% Glaurung 1.2.1 Crusader 32-bit
   2736.4    2915.3   -66    63   45.5/ 164.0  27.7% Pharaon 3.5.1 2CPU
   2735.0    2756.2   -46    45  110.0/ 233.0  47.2% CM10th Ogre
   2734.3    2804.3   -22    22  421.5/1037.0  40.6% CM10th Magic II
   2732.8    2735.0   -55    55   81.0/ 163.0  49.7% CM10th Lazarus
   2731.6    2740.4   -20    20  588.5/1201.0  49.0% Slow Chess Blitz WV2.1
   2731.2    2758.9   -47    47  101.5/ 219.0  46.3% CM10th Warrior
   2730.0    2797.5   -23    22  388.0/ 949.0  40.9% Ktulu 7.1
   2729.0    2694.6   -89    89   35.5/  66.0  53.8% Fruit 2.1
   2727.6    2766.4   -39    39  157.0/ 347.0  45.2% Chess Tiger 15 Gambit
   2724.3    2759.9   -49    48  100.5/ 220.0  45.7% Glaurung 1.1 32-bit
   2724.2    2757.9   -31    30  230.5/ 507.0  45.5% Zappa 1.1 64-bit
   2722.0    2799.4   -22    22  414.5/1040.0  39.9% CM10th Default
   2721.9    2789.3   -21    21  466.0/1129.0  41.3% Chess Tiger 15
   2715.8    2755.4   -26    26  325.0/ 728.0  44.6% WildCat 7
   2715.7    2774.7   -22    21  453.5/1072.0  42.3% Glaurung 1.0.2 32-bit
   2714.8    2766.4   -32    32  220.5/ 507.0  43.5% Ruffian 2.1.0
   2713.6    2712.8   -47    47  117.5/ 234.0  50.2% CM10th Pestilence
   2711.5    2787.7   -19    19  565.0/1411.0  40.0% Gandalf 6
   2709.5    2700.1   -27    28  318.5/ 625.0  51.0% Pro Deo 1.2
   2708.8    2733.0   -24    24  386.5/ 826.0  46.8% List 5.12
   2705.9    2795.5   -25    25  296.5/ 784.0  37.8% Hiarcs 9
   2703.8    2664.9   -47    47  123.5/ 223.0  55.4% Scorpio 1.7
   2700.8    2774.4   -23    23  381.0/ 950.0  40.1% Slow Chess Blitz WV2
   2700.8    2743.5   -23    22  418.5/ 943.0  44.4% Pharaon 3.5.1
   2700.0    2772.3   -28    27  263.5/ 653.0  40.4% Chess Tiger 2004
   2697.7    2728.1   -26    25  336.5/ 732.0  46.0% Ruffian 1.0.5
   2695.5    2772.7   -23    23  389.0/ 972.0  40.0% Naum 1.91 64-bit
   2694.7    2740.3  -188   180    7.0/  16.0  43.8% Movei 0.08.402
   2689.9    2769.3   -22    22  409.5/1042.0  39.3% Naum 1.91 32-bit
   2687.9    2703.9   -25    24  378.5/ 791.0  47.9% Delfi 5.0
   2686.2    2740.3   -19    19  589.0/1367.0  43.1% Aristarch 4.50
   2686.0    2676.2   -52    53   92.0/ 179.0  51.4% Zappa 1.1 32-bit
   2683.1    2704.5   -27    26  320.5/ 680.0  47.1% WildCat 6
   2679.2    2679.4   -38    38  167.0/ 334.0  50.0% Delfi 4.6
   2678.8    2707.7   -40    39  147.5/ 319.0  46.2% Pro Deo 1.1
   2671.6    2682.1   -27    26  321.0/ 660.0  48.6% Pseudo 0.7c
   2668.0    2693.6   -29    29  262.5/ 565.0  46.5% Jonny 2.83 32-bit
   2667.6    2543.5   -98   102   37.5/  59.0  63.6% Twisted Logic 0.065e35
   2665.5    2619.5   -54    54   98.0/ 179.0  54.7% Frenzee 2.0
   2663.9    2703.4   -35    35  170.0/ 383.0  44.4% Jonny 2.83 64-bit
   2661.6    2678.8   -77    77   38.5/  81.0  47.5% Pro Deo 1.1 Silver
   2658.3    2662.2   -39    39  158.0/ 326.0  48.5% Petir 3.99d
   2656.3    2664.5  -131   130   15.0/  31.0  48.4% Movei 0.08.403
   2653.9    2674.8   -46    45  107.5/ 228.0  47.1% Pharaon 3.3
   2652.0    2662.3   -30    29  262.5/ 556.0  47.2% Colossus 2006f
   2638.7    2683.1   -34    34  186.0/ 424.0  43.9% SOS 5.1
   2634.9    2659.5   -43    42  122.5/ 263.0  46.6% Anaconda 2.0.1
   2634.3    2604.8   -45    45  132.0/ 248.0  53.2% Frenzee 3.0
   2632.5    2621.9   -42    42  143.5/ 283.0  50.7% Ufim 8.02
   2630.3    2828.3  -120   109   12.5/  50.0  25.0% Crafty 20.14 64-bit
   2627.0    2672.4   -50    49   84.0/ 193.0  43.5% Smarthink 0.17a
   2626.9    2640.6   -41    41  137.0/ 284.0  48.2% The Baron 1.7.0
   2626.6    2609.5   -44    45  126.5/ 241.0  52.5% Thinker 4.7a
   2626.3    2598.1   -51    51  100.5/ 186.0  54.0% Petir 3.95
   2617.5    2515.6  -197   198   10.0/  17.0  58.8% Crafty 20.14 32-bit 2CPU
   2612.5    2567.7  -256   271    4.5/   8.0  56.3% Crafty 21.5 32-bit
   2612.5    2651.6   -52    52   80.5/ 180.0  44.7% Movei 0.08.295
   2612.5    2604.2   -42    43  138.5/ 271.0  51.1% E.T. Chess 18.11.05
   2604.9    2740.5   -80    77   29.0/  90.0  32.2% Nimzo 8
   2604.8    2692.4   -46    46   95.5/ 247.0  38.7% Crafty 20.14 32-bit
   2604.5    2600.4   -55    55   82.0/ 163.0  50.3% Twisted Logic 0.065e37
   2602.5    2591.3   -46    46  114.0/ 221.0  51.6% Colossus 2006d
   2596.9    2566.4   -51    51  107.5/ 201.0  53.5% Booot 4.12.1
   2595.9    2787.8  ——  ——    0.5/   2.0  25.0% Crafty 21.5 64-bit
   2590.4    2614.3   -57    56   73.0/ 155.0  47.1% Crafty 20.13 32-bit
   2589.9    2721.8   -32    32  169.5/ 521.0  32.5% AnMon 5.60
   2587.5    2602.9   -45    45  115.0/ 240.0  47.9% Little Goliath Evolution 3.12
   2578.6    2644.7  -143   133   14.0/  35.0  40.0% Gaia 3.5 64-bit
   2575.5    2607.9   -43    43  118.5/ 260.0  45.6% Movei 0.08.358
   2574.9    2655.5   -74    73   38.5/  97.0  39.7% Crafty 20.11 32-bit
   2573.6    2584.0   -68    68   49.5/ 102.0  48.5% Frenzee 1.1
   2572.7    2573.7   -75    75   47.0/  95.0  49.5% Trace 1.36
   2571.7    2593.6   -54    53   78.0/ 166.0  47.0% Ufim 8.00
   2568.1    2527.5  -160   157   13.0/  26.0  50.0% Deep Frenzee 2.0 2CPU
   2562.8    2628.4  -440   369    2.0/   5.0  40.0% Snitch 1.6.2 64-bit
   2556.5    2655.3   -58    56   58.5/ 159.0  36.8% Ufim 7.01
   2551.5    2589.1   -58    58   64.0/ 143.0  44.8% Booot 4.10.1
   2546.5    2615.8   -49    49   84.5/ 208.0  40.6% Quark 2.35
   2543.7    2535.8   -61    61   71.0/ 140.0  50.7% Matacz 1.1
   2538.1    2575.4   -42    41  124.0/ 277.0  44.8% Amyan 1.597
   2536.9    2518.6   -62    62   71.0/ 136.0  52.2% Trace 1.37a
   2529.2    2581.4   -57    56   64.5/ 151.0  42.7% Trace 1.35
   2528.9    2555.7   -64    64   59.0/ 128.0  46.1% Arasan 9.5
   2524.9    2477.7   -73    73   57.5/ 103.0  55.8% Delphil 1.6c
   2521.4    2556.7   -47    46  100.5/ 223.0  45.1% Snitch 1.6.2
   2515.4    2518.4   -68    67   55.0/ 111.0  49.5% Muse 0.899b
   2512.1    2565.3   -76    74   39.5/  92.0  42.9% Booot 4.11.1
   2512.0    2482.5   -71    72   56.0/ 104.0  53.8% Kiwi 0.6d
   2510.9    2598.0   -56    55   62.0/ 163.0  38.0% Arasan 9.2
   2504.3    2490.6   -76    76   44.5/  86.0  51.7% Gaia 3.5 32-bit
   2500.8    2506.9   -60    59   69.0/ 140.0  49.3% Dragon 4.6
   2488.7    2534.4   -68    67   51.5/ 116.0  44.4% Djinn 0.925x
   2482.3    2489.2   -61    60   71.0/ 145.0  49.0% Hermann 1.9
   2478.0    2480.9   -66    65   57.0/ 115.0  49.6% Gosu 0.16
   2471.2    2533.8  -128   126   15.0/  35.0  42.9% DanaSah 2.85
   2461.2    2525.5   -64    62   56.0/ 135.0  41.5% Amateur 2.82
   2454.8    2445.1   -80    81   38.5/  75.0  51.3% Patzer 3.80
   2452.3    2428.6   -79    80   41.0/  77.0  53.2% Typhoon 1.00-285
   2446.2    2406.5  -102   105   25.5/  46.0  55.4% Xpdnt 061030
   2441.0    2473.1   -70    69   46.5/ 102.0  45.6% DanaSah 2.73
   2433.8    2428.8   -80    80   38.5/  76.0  50.7% Aice 0.99.2
   2428.1    2433.6   -90    90   30.0/  61.0  49.2% Diablo 0.5.1
   2424.6    2496.0   -64    63   54.0/ 132.0  40.9% Alfil 6.10
   2403.1    2462.1   -74    73   40.0/  95.0  42.1% Anechka 0.08
   2398.5    2278.6   -84    86   56.5/  89.0  63.5% Zeus 1.27
   2397.6    2425.1  -146   143   12.0/  26.0  46.2% Zeus 1.28
   2395.9    2467.3   -83    80   32.0/  79.0  40.5% Queen 3.09
   2395.7    2376.2   -88    89   33.5/  64.0  52.3% Thor's Hammer 2.28
   2385.1    2313.6   -74    74   61.0/ 106.0  57.5% Horizon 4.3
   2378.9    2495.3   -78    75   39.5/ 109.0  36.2% Tornado 1.0
   2372.8    2661.9  -268   208    3.0/  17.0  17.6% Homer Leiden 64-bit
   2359.9    2495.5  -150   140   10.0/  29.0  34.5% Hamsters 0.0.6
   2347.9    2448.5   -82    78   32.0/  87.0  36.8% Popochin 2.7
   2345.5    2464.7   -99    93   20.0/  59.0  33.9% AliChess 4.06
   2330.1    2507.9  -129   116   11.5/  42.0  27.4% Popochin 2.8
   2312.5    2410.7  -138   130   11.0/  30.0  36.7% Deuterium 06.08.25.04
   2302.8    2492.7   -96    88   19.5/  75.0  26.0% Ant 2006-F
   2300.3    2411.5  -141   130   10.5/  30.0  35.0% Arion 1.7
   2257.0    2861.3  ——  ——    1.0/  31.0   3.2% LittleThought 0.98 64-bit 2CPU
   2224.0    2377.4  -116   108   14.5/  48.0  30.2% EXchess 5.01b
   2192.1    2451.8  -119   109   15.5/  66.0  23.5% Gibbon 2.01b
   2153.6    2331.8   -88    86   32.5/  98.0  33.2% Monarch 1.7
   2151.6    2457.6  -367   286    2.0/  10.0  20.0% Gibbon 2.31b
   2151.1    2421.6  -243   211    5.0/  21.0  23.8% LittleThought 0.96 64-bit
   2055.0    2380.9   -87    80   23.5/ 135.0  17.4% Feuerstein 0.4.4.2
   1255.0    2497.2  ——  ——    0.0/  14.0   0.0% Eden 0.0.11

WinPooh · 21 янв 2007

Почему у последнего движка рейтинг ноль? Он вообще фигуры передвигать не умеет?
В моих тестах даже material-only оценка даёт не меньше 1500...

NS · 21 янв 2007

Потому что последний движок набрал ровно 0 очков.

WinPooh · 21 янв 2007

Так исключить его партии из обсчёта вообще, с точки зрения уточнения оценки других движков он ничего не даёт, даже только портит...

NS · 21 янв 2007

Он ничего не портит. Без него всё будет точно также, за исключением кго отсутствия внизу списка

Я посмотрел - У ЭлоСтата погрешность жуткая. Какая-же погрешность у БайесЭло, ежели они умудряются такую базу посчитать за секунды, а при этом наискорейший градинтный спуск - на данный момент наиболее применимый из-за очень хорошей и быстрой сходимости (я на всякий случай еще проверю как себя ведет метод Ньютона на этой задаче)

spaceman · 21 янв 2007

Погрешность в доверительных итнервалах или в рейтингах?

http://wbforum.vpittlik.org/viewtopic.php?t=949
Здесь информация насчёт алгоритма EloStat.

rating_new=average_opponent+400*log10(score/(1-score))
Это формула рейтинга для игроков.
Для тех, у кого score 1 или 0, просто соответственно rating_new=average_opponent+/-600.

Я, кстати, в данное время пытаюсь создать вычислитель рейтингов для одной лиги (кое-какая компьютерная игра) для PHP & MySQL на основании EloStat. В принципе по указанным выше формулам всё получается (доверительные интервалы там не нужны), но не знаю, как спрограммировать разделение игроков по группам, когда между этими группами нет логической связи. Например сыграли игроки: A-B, C-D. Здесь нужно разделить игроков на две группы (A,B и C,D) и только потом считать рейтинги отдельно для каждой группы. Не подскажете, как это реализовать?

NS · 21 янв 2007

Я знаю алгоритм БайесЭло. Я говорю не о погрешности доверительных интервалов, а о погрешности самого получаемого ими рейтинга. Можно конечно легко проверить методом суммы квадратов отклонений, их формула для мат. ожидания известна.

В этом разделе есть ветка - я выкладывал формулы БайесЭло

NS · 21 янв 2007

Зачем что-то придумывать? Минимизируем сумму квадратов отклонений наискорейшим градиентным спуском, да и всех делов Коршунов использует покоординатный - говорит тоже хорошо сходится.

Когда 20 участников - проблем нет. Но когда их больше 200... Но лучше уж не очень хорошая скорость (как у меня), чем такая погрешность как в ЭлоСтат.

spaceman · 22 янв 2007

Из readme от EloStat:

If a database consists of a large number of games played between many programs, the database can become fragmented, i.e. it is decomposed into independent clusters with no relation in playing strength between them. This case appears if for example additionally to the programs A, B, and C, three further programs are added which played against each other (D-E, D-F, E-F) but not against the other programs. In this case the database consists, strictly speaking, of two independent databases. Concerning the Elo calculation, two independent iteration procedures take place and there is no relation between the Elo performances calculated in each cluster. ELOStat identifies fragmented databases and shows the different programs and the number of games played within each cluster.

Вот это я не могу встроить. Без этого результаты не правильные.

NS пишет:

наискорейшим градиентным спуском
Нажмите, чтобы раскрыть...

Это как? Это что-то, чего нет в Елостате?

NS · 22 янв 2007

Да, в Элостате нет точного расчета рейтингов.
Разбить на группы - как раз несложно. это элементарная задача теории Графов.
Снача каждая группа состоит из одельного учатника.
Если у группы нет результатов вне своей группы - то она изолирована, и её можно обсчитать.
Если связь есть - то группы между которыми есть связи объединяем.

NS · 22 янв 2007

rating_new=average_opponent+400*log10(score/(1-score))
Нажмите, чтобы раскрыть...

Ожидаемый результат равен сумме мат. ожиданий результатов с каждым соперником, но никак не равен мат. ожиданию результата от "среднего соперника", так же и рейтинг зависит от конректных рейтингов каждого оппонента, а не от среднего рейтинга.
При разбросе рейтингов соперников ЭлоСтат получается решает не то уравнение.
И кроме того - решает его недостаточно точно.

NS · 23 янв 2007

добился я того, что на базе CCRL 44514 партий, и 215 участников сходится за 10 секунд
Осталось разбить на группы и написать расчет доверительных интервалов. Но это уже совсем просто.
Также сделал ограничение разницы при стопроцентном результате - 800 пунктов Эло.

spaceman · 23 янв 2007

А почему у Елостата +/-600 пунктов при 100/0% ?
А исходники опубликовать можете?

NS · 23 янв 2007

Да, конечно, исходники выложу. Только сначала доделаю всякую мелочевку.
Разница в 600 - скорей всего только для эстетики.
Я сейчас сделал 800, на некоторых турнирах рейтинг уходит в минус - не очень красиво выглядит.

spaceman · 23 янв 2007

Может минус потому, что на группы не разбиты? А вообще средний рейтинг всегда поднять можно. В оффициальных правилах ведь 800.

Позиционер · 23 янв 2007

NS, дайте Movei 0.08.402 додумать до минимум 15 полуходов и вы удивитесь тому что творит эта программа, лично я удивился

NS · 23 янв 2007

Нет, минус потому что А набрал 0% против В, и больше ни с кем не играл,
а В набрал 0% против С, и тоже больше ни с кем не играл, а у С рейтинг 1400.
В итоге рейтинг В 600, а рейтинг А -200.
Средний поднять? Чтоб у Рыбы был 4000?
У меня средний задается, но обычно его выбирают таким чтоб рейтинги были похожи на реальные.

Официальные правила тут не причем. Программа считает рейтинг чтоб определить ранжирование и разницу в силе, а не чтоб следовать "официальным правилам"

По формуле Эло - при любой разнице в силе есть вероятность потери очков, поэтому при Нулевом результате разница равна бесконечности.

NS · 23 янв 2007

NS, дайте Movei 0.08.402 додумать до минимум 15 полуходов и вы удивитесь тому что творит эта программа, лично я удивился
Нажмите, чтобы раскрыть...

Такое бывает при
1. отсутствии отсечений, либо при малом количестве отсечений/сокращений.
2. При больших продлениях.
Если в Тоге отключить Хистори и NullMove, то при глубине в 15 полуходов она вообще чудеса творит
Рыбка просто отдыхает

spaceman · 23 янв 2007

NS пишет:

У меня средний задается, но обычно его выбирают таким чтоб рейтинги были похожи на реальные.
Официальные правила тут не причем.
Нажмите, чтобы раскрыть...

Так должны быть похожи на реальные/официальные или всё таки нет?
А насчёт Рыбы и 4000: уверен, что минусовые рейтинги получаются из-за их неточностей (маленькое количество партий).

NS · 23 янв 2007

Так что нам нужно - официальные правила или точные рейтинги?
По формуле Эло E:=1/(1+Exp(-D*Ln(10)/400));
При этом чтоб получить точные результаты мы не должны округлять ни сами рейтинги, ниразницу в рейтингах, ни полученное значение мат. ожидания.

Если нужны официальные правила - есть перфоманс Эло, и есть официальная формула пересчета рейтингов после каждой партии. Если погрешность в 100 и более пунктов устраивает - то можно пользоваться ими

А насчёт Рыбы и 4000: уверен, что минусовые рейтинги получаются из-за их неточностей (маленькое количество партий).
Нажмите, чтобы раскрыть...

Конечно из-за малого количества партий, но не только. Рейтинг (сила) например программы ЭтаБета реально отрицательный, она играет более чем на 3000 пунктов слабее рыбки, и проигрывает "в ноль" движкам с рейтингом 1000. Ну и что предлагаешь делать?

NS · 23 янв 2007

Для примера - возьми первый openWar, и посчитай рейтинги любой программой
http://loirechecs.chez-alice.fr/chesswar/OpenWar/OpenWar01/openwar.htm
http://loirechecs.chez-alice.fr/chesswar/OpenWar/OpenWar01/openwar01.zip

spaceman · 23 янв 2007

Только странно, что у людей на практике ни у кого рейтинга даже больше 3000 нет и не было. Интересно, как плохо эта ЭтаБета играет. Неужели у людей с рейтингом 1000 тоже ни разу не выиграет? Если так, тогда ничего не поделать, значит надо повышать средний рейтинг.

http://mitglied.lycos.de/iwc/blitzrangliste.html
Вот OpenWar с ЕлоСтат: нормирован на Spike 1.2 Turin (2791). Самый низкий рейтинг 1256.

NS · 23 янв 2007

Эта-бета проигрывает в два хода после окончания дебюта - она просто ставит фигуры под бой.
Выиграть она в принципе не может. Возможно только случайная ничья по Дебютной библиотеке

NS · 23 янв 2007

Доверительные интервалы... ЭлоСтат их считает неправильно - очень сильно сужает.
На самом деле доверительный интервал намного шире.
И БайесЭло их сужает.
Доверительные интервалы расчитываются исходя из формулы вероятности счета X:Y

p=MO_win^X*MO_lost^Y*C(X+Y)
где
MO_win Мат. ожидание результата
MO_lost = 1-MO_win

NS · 23 янв 2007

Версию без разбиения на непересекающиеся группы можно скачать тут:
http://rapidshare.com/files/13026256/NSRating001.rar.html

Считает максимизируя вероятность случившихся исходов,
При 100% результате разница в силе 800 пунктов Эло.
В качестве мат. ожидания используется формула Эло.

NS · 24 янв 2007

Версия 0.02
http://rapidshare.com/files/13094646/NSRating002.rar.html
Добавлена возможность чтения нескольких pgn,
и более жестко задано ограничение на максимальную разницу в рейтингах.

Tiger275 · 28 янв 2007

? ?????? Существует ли возможность определить рейтинг движка по показаниям Fritz Chess Benchmark, если отталкиватся от данных AMD 4200+ и соответственно CEGT рейтинга.
Понятно, что на большинстве компов данные Benchmark будут в разы ниже. А рейтинги?

spaceman · 28 янв 2007

Слышал, что с двух-кратным падением скорости процессора рейтинг движка падает на 70 Эло-пунктов. То же самое соответственно с возрастанием.

NIKMASTER · 29 янв 2007

NS-тебе бесплатный премиум доступ на рапид нужен???
Доступ действителен до 30-го февраля!!!!

immortal223 · 2 фев 2007

Скажите а почему на уважаемом мною ресурсе прекращено тестирование Fritz 10? Уже сколько ни смотрю (блиц) он всё время висит на 79 партиях...

Kirr · 2 фев 2007

immortal223 пишет:

Скажите а почему на уважаемом мною ресурсе прекращено тестирование Fritz 10? Уже сколько ни смотрю (блиц) он всё время висит на 79 партиях...
Нажмите, чтобы раскрыть...

Видимо некому тестировать. Почти никто из нас не купил Фрица 10. Я задал этот вопрос в нашем форуме, один Крис сказал что запустит тесты, остальные не хотят покупать фриц. Не пиратский же тестировать.

immortal223 · 2 фев 2007

"И дело не в том, что движок "взломаный" (хотя у меня он не взломан)" - immortal223
Нажмите, чтобы раскрыть...

... а зарегистрирован при помощи keygen

spaceman · 13 фев 2007

NS пишет:

Да, конечно, исходники выложу. Только сначала доделаю всякую мелочевку.
Нажмите, чтобы раскрыть...

Хотелось бы взглянуть.

NS · 14 фев 2007

Напиши в почту, вышлю исходники вместе с описанием.

Войти или зарегистрироваться

Рейтинги CCRL 40/40

NS Нефёдов Сергей

WinPooh В.М.

NS Нефёдов Сергей

WinPooh В.М.

NS Нефёдов Сергей

spaceman Новичок

NS Нефёдов Сергей

NS Нефёдов Сергей

spaceman Новичок

NS Нефёдов Сергей

NS Нефёдов Сергей

NS Нефёдов Сергей

spaceman Новичок

NS Нефёдов Сергей

spaceman Новичок

Позиционер Зарегистрирован

NS Нефёдов Сергей

NS Нефёдов Сергей

spaceman Новичок

NS Нефёдов Сергей

NS Нефёдов Сергей

spaceman Новичок

NS Нефёдов Сергей

NS Нефёдов Сергей

NS Нефёдов Сергей

NS Нефёдов Сергей

Tiger275 Зарегистрирован

spaceman Новичок

NIKMASTER Учаcтник

immortal223 Вячеслав

Kirr Администратор

immortal223 Вячеслав

spaceman Новичок

NS Нефёдов Сергей

Поделиться этой страницей