SPORTADATELEMZÉS

A játékosok kiemelkedő kvalitásai a nézők szubjektív szemüvegén keresztül egészen másfélék lehetnek, mint ami a jó az eredmény eléréséhez szükséges. Aki nem csak eredményes, hanem például szép cselekre is képes, népszerűbb lehet egy szürke robotosnál, aki viszont többet tehet hozzá a csapat teljesítményéhez. Nehéz megmondani, hogy kettejük közül ki az értékesebb. Szerencsére objektívebb mérésre és számításokra is van lehetőség.

Kardkovács Zsolt, Kovács Gábor

A sportolók összehasonlító értékelése nehéz feladat, általában kimerül a mérkőzésenkénti statisztikai adatok mérésében, illetve az összetett világkupa pontszámok számolásában. Az alábbiakban áttekintjük, hogy a puszta statisztikai adatok alapján készített indikátorokon túl maguk az adatok miként használhatók fel a teljesítmény és a teljesítmény változásának értékelésére hosszabb távon, ami lehetővé teszi a játékosok összevetését, és egy objektív értékelési rangsor felállítását. Az értékelési rangsor segít megválaszolni, hogy érdemes-e egy sportolóba befektetni, vagy hogyan lehet észlelni, kimutatni a tehetséget.

A hiányzó mérőszám

22Az egyéni sportágakban az egyes játékosok játékerejének („jóságának”), minősítésére régóta alkalmaznak különféle számítási modelleket (Gimpel, 2006; Knorr-Held, 2001; Tiwisina & Külpmann, 2014). Ezek közül a legismertebb, és legrégebb óta használt rendszer az Élő-pontszám, amelyet Élő Árpád amerikai-magyar fizikusnak köszönhetünk. Az Élő-pontszám nagyon sikeresen alkalmazható általában összemérhető egyéni teljesítmények, csapatok, számítógépes játékosok játékerejének meghatározására.

Az Élő-pont számítása (Élő, 2008) abból a hipotézisből indul ki, hogy egy vizsgált szereplő – legyen az a személy vagy csapat – teljesítménye a környezeti hatásoktól függően változó, de meghatározott várhatóértékű, normális eloszlással írható le. A keresett paraméter maga a várhatóérték, amelyet implicit módon, a szereplők páronkénti összehasonlításából, párharcából számíthatunk. Egészen pontosan egyes játékosok értéke az a várhatóérték, amely mellett a vizsgált eredmények entrópiája minimális. Két további feltétel is van: a párharcok eredményeinek összege és valószínűsége egyaránt 1 legyen, azaz véges összegű játékról beszélünk, ami zéró összegű játékot jelent, amint az egyik játékos a másik játékostól nyeri el az értékszámot.

Csapatsportágak esetén azonban a csapat játékosainak egyéni képességeire nincs érvényes, elérhető formula. De egy résztvevő adott sportágban, szakmában, vagy tanulásban értelmezhető értékének mérésére fontos lenne egy ilyen mutatót meghatározni, képezni. Ez lehet ugyanis az átlagos teljesítménynövekedés, teljesítményoptimalizálás és a potenciális haszonmaximalizálás alapja is. Az csapattagok eltérő szerepeket töltenek be a csapaton belül, így a hasznosságuk is eltérő mércével mérendő. Az egyéni értékelés alapját a csapaton belüli szerephez köthető egyéni párharcok kimeneteleiről készített statisztikák adhatják.

Kétszereplős versenyek értékelése

Kétszereplős párharcokban, mérkőzéseken, versenyeken két fél közvetlenül méri össze a tudását, ahol a céljuk a saját szempontjukból homogén, a másik legyőzése. Ilyen például egy sakkmérkőzés, baseballban egy dobás és egy ütés, vagy tetszőleges csapatsportágban egy mérkőzés. A minősítés minden esetben a párharc szereplőire vonatkozik: egyéni sportágak esetén magukat a játékosokat minősíthetjük, csapatsportágak esetén viszont a minősítés a csapattagokra nem vonatkozik.

Az Élő-pontrendszerben (Élő, 2008; Glickman M. E., 2001) egy játékost a korábbi teljesítményeinek kumulatív eredménye, az értékszáma jellemez. Mivel minden játékosnak van egy értékszáma, két játékos az adott mérkőzés előtt összehasonlítható, és előzetes valószínűség, más szóval elvárás fogalmazható meg a két fél számára a mérkőzés kimenetelét illetően. A magasabb értékszámú félnek az értékszám különbségtől függően, és azzal valamilyen arányban, többször kell egy párharcban felülkerekednie a párharc sokszori megismétlése során. Az egyéni teljesítmények nem egyenletesek, mérkőzésről mérkőzésre változnak. Élő hipotézise alapján az eloszlásuk normális, ahol az eloszlás várható értéke az a teljesítmény, amit a játékos hosszú idő átlagában nyújtani tud, vagyis a játékos értékszáma, a szórása pedig az összes játékosra azonos konstans. A párharcból való győztes kikerülés a priori valószínűsége (PA) a szereplők értékszáma ismeretében számítható, az A játékos esetében a következő formulával adható meg:

21_1
ahol RA az A játékos értékszáma, σ a fix szórás, és μ az RA és RB, vagyis a két játékos értékszámának átlaga. A formula nem csak egyetlen párharcra, hanem egy versenyen, mérkőzésen vagy akár egy elszámolási perióduson belüli összes párharcra is használható, a μ átlag ekkor az összes ellenfél értékszámának párharcok számával súlyozott átlaga, és a párharcokból való győztes kikerülések várható száma a párharcok száma szorozva a PA valószínűséggel. Noha ez tetszőleges számú párharcra alkalmazható, a tényleges tudás, és annak értékszámmal kifejezett értéke párharcról párharcra változik.

A párharc kimenetele új mintát szolgáltat a résztvevők értékszámának meghatározására, az értékszámot a valós és az elvárt teljesítmény különbségével arányosan, egy K korrekciós faktorral szorozva korrigáljuk. Az RA’ új értékszám az RA régi értékszámtól, az s megnyert párharcok számától és az m párharc során elvárt teljesítménytől függ.
21_2Egy játékos értékszámát bizonyos, előre meghatározott fix számú párharc megtörténtéig provizorikusnak kell tekintetnünk, az még nem jellemzi a valós tudást. A konvergencia gyorsítására a játékos teljesítményértékelésének e kezdeti fázisában a magasabb korrekciós faktort használnak.

Az Élő-pontrendszernek mindazonáltal vannak gyengéi is. Nem képes olyan külső tényezőket figyelembe venni, mint a hazai pálya előnye, ami az adott mérkőzésen várható teljesítményre általános tapasztalat szerint pozitív hatással van. Ezt azzal intézhetjük el, hogy statisztikailag a mérkőzések felét egy csapat otthon játssza, és így hosszú távon ezek az előnyök és hátrányok kiegyenlítődnek, és valós értékelést kapunk. A másik, a sakkban megfigyelt probléma az értékszámok inflációja. Ennek oka az, hogy a szereplők halmaza felülről korlátlan, és az újonnan belépő, de kevés mérkőzésen rossz teljesítményt nyújtó, majd a szereplők halmazából eltávozó játékosokkal szembeni jó teljesítmény is növeli egy játékos értékét. A következmény az, hogy bár egy adott időpillanatban a játékosok értéke helyes, az évtizedekkel korábbi értékszámok alulértékeltek a későbbi értékszámokkal szemben.

A hosszabb játékmentes időszakok befolyással vannak a játékos teljesítményének megbízhatóságára, ez Glickman hipotézise szerint a játékosra jellemző egyéni σ a szórással rendelkező gaussi eloszlással írható le. A párharc utáni értékszám korrekció két elemből áll: az értékszám és a szórás új értékének meghatározásából. A szórás az értékszámra csak a PA összefüggésen keresztül van hatással, így azok egymástól függetlenül számíthatók. A szórás új, σ‘ értéke a kihagyott mérkőzések, fordulók számától függ (m), és felülről korlátos, a felső korlát az értékszám nélküli játékosok kezdeti szórása (σ0).

21_3A c értéke konstans, ami egy tipikus játékos kihagyás utáni formaingadozását reprezentálja, és nagyszámú játékos adatai ismeretében számítható.

Többversenyzős értékszámrendszer

Többszereplős versenyek résztvevőinek minősítése egyéni versenyek (Glickman & Hennessy, 2015), például egy atlétikai verseny, vagy számítógépes játékok esetében (Herbrich & Graepel, 2006) merül fel, utóbbinál közel azonos képességű csapatok összeállítása céljából. Ez a probléma a kétszereplős versenyek általánosítása két szempontból: egyrészt nem csak két szereplő vehet részt egy versenyen, másrészt egy szereplő lehet egy több játékosból álló csapat is, például atlétikában egy váltóverseny vagy e-sportban egy csapatmérkőzés. A csapat sikere és az egyéni sikerek egybeesnek, a cél a verseny, mérkőzés megnyerése, és a sikertényező homogén az összes szereplőnél, ezért a csapat teljesítménye mind az elvárás, mind a megfigyelés szempontjából az egyéni teljesítmények összege lesz, egyfős csapat esetén pedig ez a játékos teljesítményére redukálódik.

A versenyzők megfigyelt teljesítménye felett az elért helyezés alapján egy rendezést végezhetünk el. Egy versenyző elvárt teljesítménye a mezőnyátlagos értékszámához képest fogalmazódik meg. A legmagasabb értékszámú versenyző elvárása nem a verseny megnyerése, hanem az értékszámának az átlagtól való eltérése függvényében a felső valamekkora percentilisben való végzés. Az értékszám korrekciója a verseny után annak alapján következik be, hogy a helyezést sikerült-e teljesítenie, továbbá az elvárt és a tényleges percentilis különbségével arányos értékben nyilvánul meg.

Csapattagok egyéni értékelése

A csapatsportágak mérkőzései kétszereplős párharcok, ahol a szereplők csapatok. A csapatokat értékelhetjük a mérkőzés végeredménye alapján, a játékosokat pedig a mérkőzésen belüli kétszereplős párharcok kimenete alapján. Tehát az egyéni teljesítmény és a csapat teljesítménye elkülönül egymástól. Ezért az a kérdés, hogyan fogalmazzuk meg a kétszemélyes párharcot egy mérkőzésen belül.

Baseballnál a dobó és az ütőjátékos szembeállítása nyilvánvaló választás, azonban egy labdarúgó mérkőzésen miként vethető össze egy kapus és egy védőjátékos teljesítménye, ha a mérkőzésen nem találkoznak kétszereplős párharcban? A probléma forrása, hogy az egyes játékosoknak eltérőek a sikertényezői. A kapus számára sikertényező lehet a gól elkerülése, míg egy védőjátékos számára a szerelés vagy labdaszerzés lehet ilyen. Azonban egy játékosnál több sikertényező is definiálható.

Ha egy csapatsport-mérkőzésen nincs lehetőség a páronkénti kimenetek összehasonló elemzésére, a teljesítmény szerinti rangsorolás meglehetősen bizonytalan. Az értékelési modell bizonytalanságai mögött több faktor is meghúzódhat. Ilyenek az aktuális időjárási körülmények, a statisztikai adatokat rögzítő személyek szubjektív értékelési szempontjai, vagy annak meghatározása, hogy mit is jelent egy sikeres átadás. Továbbá a mérkőzés egy véletlen időintervalluma nem reprezentálja a teljes mérkőzésen nyújtott teljesítményt, hiszen egy pillanatnyi rövidzárlat miatt kapott gól szubjektív értékelés alapján leronthatja a játékos teljesítményét, miközben a statisztikai adatok mást mutathatnak. A különböző szerepekben játszó játékosok értékelési szempontjai is eltérnek, és változhatnak akár mérkőzésen belül is.

Az értékelési modell kiindulási feltételezése, hogy csak olyan játékosokat hasonlítunk össze, akik azonos időben, azonos körülmények között játszottak. Egy mérkőzésről, versenyről több mintát veszünk figyelembe minden játékos esetére, így a mérkőzésen belüli holtpontok hatása kisebb lesz.

Az értékelési modell hipotézise az, hogy a mérkőzést több intervallumra osztjuk, és minden intervallumon belül rangsort állítunk fel a játékosok több véletlen részhalmazára, ami lehet akár két játékos is, a saját szempontjából releváns statisztikai adatai alapján, ha volt értékelhető adata. Ha az összehasonlítások száma kellően nagy minden játékosnál, akkor teljesítménymutató a mérkőzésen belüli értékéhez konvergál. Azt várjuk, hogy egy jobb tudásminőségű játékos jobb mutatókat szerez az adott időintervallumban, mint egy kevésbé jó értékelésű játékos. Ha páronkénti összehasonlítást végzünk, akkor a megoldandó feladatot a kétszereplős versenyek értékelésének problémájára redukáltuk, több játékosnál pedig a többszereplős értékszámrendszer problémájára.

Kiindulási állapotként tételezzük fel, hogy minden játékos értékszáma 1500. Tegyük fel továbbá, hogy az A játékosnak PA százalékos a mutatója egy saját szempontból releváns statisztikai mutató esetében, a B játékos pedig PB százalékos egy időintervallumban. Mivel a konkrét pontérték P-től függ, ráadásul nekünk csak a játékosok közötti érdekes, így a kérdés, hogy az A játékos esetében PA / (PA + PB), a B játékos esetében a PB / ( PA + PB ) arányt becsüljük meg, ha ismerjük A RA, valamint B RB értékét. A becslésünk az értékszámszámítás alapján legyen a következő:

21_4

ahol EA és EB az A, illetve a B játékos egymáshoz viszonyított pontszámainak várhatóértéke. A ténylegesen szerzett pontok alapján számítható a játékosok új értékszáma:
21_5ahol λ egy az összehasonlítások számától függő paraméter, a változás dinamizmusát szabályozó csillapító tényező (Élő, 2008). Az értékszámok változását csak az verseny, mérkőzés befejeztével könyveljük el.

Összefoglalás, értékelés

Egy mérkőzés statisztikai adataiból nem állapítható meg egy játékos értéke a többi játékoshoz képest. A cikkben arra adtunk egy módszert, hogy a csapat eredményétől függetlenül hogyan állapítható meg a csapat tagjainak hozzáadott értéke a sakkból ismert értékszámszámítás módszerével.

Felhasznált irodalom
Glickman, M. E. (2001). Dynamic paired comparison models with stochastic variances. Journal of Applied Statistics, 28, 673-689.
Glickman, M. E., & Hennessy, J. (2015). A stochastic rank ordered logit model for rating multi-competitor games and sports. Journal of Quantitative Analysis in Sports
Gimpel, K. (2006). Beating the NFL Football Point Spread. USA: Carnegie Mellon University.
Tiwisina, J., & Külpmann, P. (2014). Probabilistic Transitivity in Sports. Bielefeld, Germany: Center for Mathematical Economics, Bielefeld University.
Élő, E. Á. (2008). The Rating of Chess Players, Past and Present. USA: Ishi Press International.
Herbrich, R., & Graepel, T. (2006). TrueSkill: A Bayesian Skill Rating System. Microsoft Research.
Knorr-Held, L. (2001). Dynamic rating of sports teams. The Statistician, 49 (2), 261-276.