xG – A statisztika, ami megváltoztatta a futballt és a fogadást
A futball évtizedekig a gólok és a végeredmény nyelvén beszélt. Aztán megjelent az xG (Expected Goals) mutató és alapjaiban forgatta fel azt, ahogy a szakemberek, az edzők, a közvetítők és az adatalapú sportfogadók a mérkőzésekre tekintenek. Ma már Premier League közvetítéseinek grafikonján látható, Bundesliga-elemzők hivatkoznak rá, és egyre több fogadóirodai modelleket is épít az xG modellekre. De mit jelent valójában? Hogyan számítják ki? És miért lehet félrevezető?
Mi az xG és hogyan számítják ki?
Az xG (Expected Goals – várható gólok) azt fejezi ki, hogy egy adott lövési helyzetből mekkora valószínűséggel születik gól. Értéke 0 és 1 közé esik: például a 0.05-ös xG azt jelenti, hogy az adott szituáció 5%-os valószínűséggel végződik góllal, míg egy 0.80-as xG nagy valószínűségű gólhelyzetet jelöl. A gondolat nem egyik napról a másikra robbant be: az Opta, a StatsBomb és más elemzőcégek már a 2000-es évek második felétől kísérleteztek helyzet-alapú valószínűségi modellekkel. Az igazi áttörést azonban a gépi tanulás és a nagy adatbázisok elterjedése hozta el a 2010-es évek elején. A kiindulópontja egyszerű: a gól bináris esemény (tehát az értéke 0 vagy 1 lehet), ezért rendkívül zajos statisztika. Egy csapat valódi teljesítményét a gólok önmagukban rosszul mutathatják – az xG ezt a zajt próbálja szűrni.
A logisztikus regressziótól a gépi tanulásig
A számítás alapja a logisztikus regresszió, amelynek célja egy bináris kimenetel valószínűségének becslése több magyarázó változó alapján. A legfontosabb ezek közül a lövési távolság: a büntetőpont közeléből leadott kísérletek szignifikánsan magasabb gólvalószínűséggel bírnak, mint a büntetőterületen kívüliek. A kapcsolat nem lineáris, hanem exponenciálisan csökkenő. Ugyanilyen meghatározó a lövési szög – nemcsak az számít, milyen messze van a kapustól a játékos, hanem az is, milyen szögből látja a kaput. De a lövés típusa is számít – a fejesek azonos pozícióból alacsonyabb xG-t kapnak, mert statisztikailag ritkábban végződnek góllal. Az akció kontextusa szintén szerepet játszik: szögletből érkező labdát, keresztpasszt vagy egyéni befutást követ-e a lövés. Minden változóhoz egy súlyt rendelnek, amelyet historikus adatokon – több tízezer, olykor százezer rögzített lövésen – tanítanak be, az eredmény pedig egy 0 és 1 közötti valószínűségi érték. Ez maga az xG.
A mai fejlettebb modellek már messze túlmutatnak a logisztikus regresszión. A StatsBomb például bevezette az úgynevezett „freeze frame” adatokat. Ez azt jelenti, hogy a lövés pillanatában rögzítik az összes játékos pozícióját a pályán, így a modell azt is figyelembe veszi, hogy hány védő áll a lövő és a kapu között, illetve mennyire torlódott a tizenhatoson belüli terület. Ez drámaian megnöveli a pontosságot, de rendkívül adatigényes megközelítés. A gradient boosting algoritmusok és a neurális hálók pedig már nemlineáris összefüggések tanulására is képesek, amelyek a klasszikus regresszióból kicsúsznának.
Miért lehet félrevezető?
Az xG alapvetően pozíciófüggő statisztika: azt mondja meg, hogy egy átlagos játékos az adott helyzetből mekkora valószínűséggel szerez gólt. A topfutball azonban nem az átlagos játékosokról szól. Erling Haaland vagy Robert Lewandowski például szisztematikusan „felülteljesíti” az xG mutatóját, mert precizitásuk és hidegvérük messze átlag feletti. Egy szerényebb képességű támadó pedig ugyanolyan helyzetekből tartósan alulteljesíthet. Ha tehát pusztán az xG alapján ítélnénk meg egy csatár teljesítményét és a valódi egyéni képességektől elvonatkoztatnánk, az komoly értelmezési hiba lenne.
Ennél is alapvetőbb korlát, hogy egyetlen mérkőzésen az xG és a tényleges gólok közötti eltérés akár 2-3 gólnyi is lehet – és ez még semmit sem jelent. A mutató prediktív ereje csak nagyobb mintán (legalább 10-20 mérkőzés aggregálása után) válik statisztikailag megbízhatóvá. Aki egyetlen mérkőzés xG mutatója alapján von le messzemenő következtetéseket, az alapvetően rosszul használja az eszközt. Tovább bonyolítja a helyzetet, hogy nem minden modell egyforma: komoly módszertani különbség van az Opta, az Understat és a StatsBomb megközelítései között, főleg abban, hogy milyen változókat vesznek figyelembe és milyen adatbázison tanítják be a rendszert. Például ugyanarra a lövésre az egyik forrás 0.12-es, a másik 0.19-es xG-t adhat. Az összehasonlításhoz tehát mindig tudni kell, melyik forrásból dolgozunk.
Továbbá, az xG modell nem látja a kontextust: a mérkőzés állása, a pressing, a fáradtság és az ellenfél taktikája mind befolyásolják a gólszerzés valódi valószínűségét, ezeket azonban az alapmodellek nem kezelik. Egy 3-0-ra vezető csapat góllövőjének xG értéke formálisan azonos lehet egy döntetlenre álló találkozó azonos posztján játszó játékosáéval, holott a pszichológiai és taktikai közeg teljesen más.
Adatalapú stratégiák és korlátok
A professzionális adatalapú fogadók – a quant betting képviselői – régóta támaszkodnak várható gólszám-alapú modellekre. Az alaplogika: ha egy mérkőzés xG-adatai alapján a hazai csapatnak 1.84 várható gólszáma van, a vendégeknek pedig 0.92, akkor ebből szimulálható a kimenetel valószínűségi eloszlása. Ha a fogadóiroda által kínált odds ettől szignifikánsan eltér, value bet helyzet keletkezhet. A fejlettebb modellek az xG mellett az xGA-t (Expected Goals Against, vagyis az engedett várható gólokat) is figyelembe veszik. Ezt kombinálják azt a csapat aktuális formájával, a hiányzókkal és a pályaelőny-hatással.
Mire érdemes figyelni fogadói szempontból?
Kulcsfontosságú különbséget tenni az xG mint pillanatkép és az xG-trendek mint minta között. Ha egy csapat három mérkőzésen át rendre 2.0 feletti várható gólszámot produkál, mégis csupán egyetlen gólt rúg, a minta szignifikáns. Vagy a kapus nyújt kivételes teljesítményt, vagy a befejezés rendkívül gyenge. Az átlaghoz való visszatérés mindkét esetben valószínű. Az úgynevezett „xG-recovery” stratégia éppen erre épít. Azok a csapatok, amelyek tartósan alulteljesítenek xG értékükhöz képest, rövid távon value-t jelenthetnek gól-fogadásokban. Feltéve, hogy az xG-modell megbízható és a csapat minősége valóban indokolja az eltérést.
Ugyanakkor fontos látni, hogy a nagyobb fogadóirodák saját, xG-alapú komponenseket is tartalmazó modelleket futtatnak, így a tisztán erre épülő egyszerű stratégiák mára kevésbé adnak automatikus előnyt. Az oddsokba ezek az információk ugyanis részben már be vannak árazva. Az igazi edge ott keletkezik, ahol a fogadó képes a piaci konszenzusnál pontosabb modellt futtatni, vagy olyan szisztematikus torzításokat azonosítani, amelyeket a piac nem áraz be megfelelően.
Az xG helye a modern futball-elemzésben
Az xG ma már az élvonalbeli klubok elemzési munkájának alapköve – az edzők a mérkőzéselemzésben, a scouting során és a taktikai tervezésnél egyaránt támaszkodnak rá. Mindazonáltal érdemes megőrizni az egészséges kritikai szemléletet: ez a statisztikai mutató csupán egy eszköz, amelynek jól körülírható határai vannak. Helyes olvasatban nem azt mondja meg, hogy mi történt, hanem azt, hogy mi kellett volna, hogy történjen, ha a véletlen és az egyéni minőség nem torzítja a képet. Ez a különbség teszi értékessé, de egyben óvatosságra is int a felhasználásban. A statisztika mögött mindig emberi döntések, fizikai képességek és taktikai rendszerek állnak. Az xG ezeket méri, nem pedig a mérkőzést magát.
A www.tippmix.info weboldal és a hozzá tartozó közösségi terek az xG módszertanának elmélyült megértéséhez nyújtanak platformot. Így a quant betting szemlélete és a sportszakmai igényesség együtt válik elérhetővé a szélesebb fogadói közönség számára is.
