Az adat kincs, de mi van, ha nincs? – Statisztikai módszerekkel kezelhetők az adathiányok

Az adatpótlás a statisztika alkímiája: a semmiből egyszer csak valami lesz.

Döntéseinket – főleg az üzleti életben – számok, kimutatások és elemzések határozzák meg. Miből mennyit forgalmazzunk? Mikor és kiket célozzunk a kampányokkal? Fektessünk új területekbe, esetleg szüntessünk meg termékeket? Számos kérdés, amelyeket adatbázisokon alapuló statisztikák alapján válaszolunk meg. De mi a teendő akkor, ha ez az adatbázis hiányos? Hogyan kerülhetjük el, hogy torz, a valóságot nem pontosan tükröző kimutatásokkal dolgozzunk?

Hiányzó adatokkal csaknem minden adatbázis esetén találkozhatunk. Ez lehet egy hiba eredménye az adatgyűjtésnél, lehet adatvesztés következménye, vagy egyszerűen csak nem áll rendelkezésre maga az információ (például mikor egy kérdőívben a nem kötelező válaszoknál nem ír be semmit a kitöltő).

Gondolhatnánk, hogy a legegyszerűbb, ha az elemzéseknél a meglévő adatokra építünk, és nem foglalkozunk azzal, ami nincs. Hogy ez pontosan miért is vezethet nagyon torz eredményhez, azt jól példázza a következő történet a 90-es évekből:

1992-ben a közvéleménykutatók a Munkáspárt egyértelmű győzelmét jósolták meg Nagy-Britanniában, a választásokat ennek ellenére a Konzervatív Párt nyerte. Hogyan mentek ennyire félre az előrejelzések? Nos, utólag kiderült, hogy a felmérést végző kutatók egyszerűen kihagyták az elemzésekből azokat, akik nem válaszoltak, vagy a „még nem tudom” választ adták arra a kérdésre, hogy kire adják a voksukat. Ez az arány azonban elég magas volt ahhoz, hogy az eredményük torz képet mutasson a brit szavazókról.

A pontos elemzésekhez és statisztikákhoz tehát fontos megismerni az adathiányok hátterét és megfelelően kezelni őket.

Az adathiányokat három nagy csoportba sorolhatjuk:

Teljesen véletlenszerű (Missing Completely at Random – MCAR)
Véletlenszerű (Missing at Random – MAR)
Nem véletlenszerű (Missing Not At Random – MNAR)

MCAR

Teljesen véletlenszerű a hiány akkor, ha nincs semmilyen logikai összefüggés vagy rendszer a hiányzó adatokban. Olyan ez, mintha egy kérdőívnél a válaszadóink egy pénzérme feldobásával döntenék el, hogy válaszolnak-e az adott kérdésre vagy sem. Nincs tehát szándékosság vagy megfigyelhető minta a hiányzó adatokban. Ez a legkönnyebben kezelhető adathiány.

MAR

Véletlenszerű adathiányról akkor beszélhetünk, ha a hiányzó információk jellegzetességei nyomon követhetők és esetleg előre jelezhetők az adatbázis egyéb változói segítségével. Ilyen például, ha egy kérdőív esetén a magasabb jövedelműek kisebb arányban válaszolnak a fizetéseket érintő kérdésekre, ugyanakkor a fogyasztási szokásokra vonatkozó válaszokból következtetni lehet a jövedelmi szintre. Az elnevezésben szereplő véletlenszerűség tehát kicsit félrevezető, hiszen felfedezhető minta a hiányok mögött. Egy orvosi alkalmassági vizsgálat adatbázisánál szintén előfordulhat, hogy a fiataloknál ritkábban történik vérnyomásmérés, mint az idősebb korosztályban. Ebben az esetben tehát ha az adattáblánkban az „életkor” oszlopban alacsony érték szerepel, akkor nagy eséllyel lesz adathiány a „vérnyomás” oszlopban.

MNAR

Nem véletlenszerű az adathiány akkor, ha nincs más változó, amivel következtetni tudnánk a hiányzó adatra, nincs felismerhető minta. A hiány oka magában az adatban rejlik, ilyen lehet, amikor valakitől megkérdezik, hogy használ-e bármilyen kábítószert és nem válaszol, vagy egy beteg, akit mentővel visznek, nem adta meg, hogy dohányzik-e. Ezek az információk nagyon fontosak lennének a műtétek közbeni és az azt követő esetleges szövődmények miatt, hiányuk így súlyos problémákhoz vezet. Ugyanez a helyzet más területeken is, az MNAR hiányok okozzák a legnagyobb gondokat és ezek pótlása/kezelése a legnehezebb. De nem lehetetlen.

Adathiányok kezelése

Ha már felismertük és megvizsgáltuk, hogy milyen típusú adathiánnyal van dolgunk, a következő lépés, hogy eldöntsük, pontosan mit teszünk ennek kezelésére.

Törlés

Relatíve alacsony arányú MCAR-adathiány esetén dönthetünk úgy, hogy töröljük a hiányos eseteket (listwise vagy casewise adattörlés). Vagyis, ha egy kérdőív esetében egy kérdésre nem érkezett válasz, akkor a teljes kérdéssort kihagyjuk az elemzésből. Ez az ún. Complete Case analysis, azonban csak akkor működhet, ha a hiányok teljesen véletlenszerűek és viszonylag kis százalékban fordulnak elő. Minden más esetben az adathiány torzítást hozhat az eredményben.

Választhatunk egy kevesebb adatvesztéssel járó módszert is, ez az ún. Available Case analysis. Ebben az esetben minden változó esetén a meglévő adatokat elemezzük. Így csökkenthető az adatvesztés, hiszen ahol csak 1 információ/válasz hiányzik, ott a többit azért belevehetjük az elemzésbe. Ugyanakkor így az egyes változók szerinti elemzések más-más adatbázison történnek, így nehezen lesznek összehasonlíthatók.

Adatpótlás, imputáció

Az adathiányokból adódó torzulások elkerülésére jelent megoldás az imputáció, vagyis a hiányzó információk mesterséges pótlása. Ilyenkor egy vélhetően az eredetihez hasonló értékkel egészítjük ki az adatbázisunkat, így az elemzések a teljes adatmennyiségen elvégezhetők. Erre többféle módszer is létezik:

Logikai imputáció

Akkor alkalmazható, ha a hiányzó adat más adatokból (esetleg korábbi mérésekből) kikövetkeztethető. Egy nagyon egyszerű példával: ha valaki megadta a születési évét, de nem adott meg életkori sávot, akkor a hiány könnyen pótolható.

Pótlás átlaggal

A hiányos adatokat az adott változóhoz tartozó értékek átlagával vagy középértékével pótoljuk. Ez a módszer egyszerű, viszont csökkenti az adatok változékonyságát, így nagymértékű pótlás esetén torzíthatja az eredményt. Ha ezt a módszert választjuk, érdemes homogén csoportokra osztani a teljes adatbázist és azon belül részátlagokat használni a hiányok kitöltésére.

Regressziós pótlás

Regressziós imputáció esetén a hiányzó adatokat egy becsült értékkel pótoljuk. A becslés a meglévő teljes adatok kapcsolatán alapul, ezeket figyelembe véve visszakövetjük, hogy az adott változó értéke hogyan függ a többi változótól. Ezáltal ki tudjuk következtetni a hiányzó értékeket.

Hot deck vagy real donor imputáció

A hiányokat pótolhatjuk az adatbázisban lévő hasonló adatsorok adott tételével is. Ilyenkor megkeressük a hiányzó adatot tartalmazó megfigyeléshez leginkább hasonló hiánymentes esetet és ennek a megfelelő értékével pótoljuk a hiányt. A módszer hátránya, hogy nehéz az esetek hasonlóságát meghatározni, előfordulhat, hogy az elemzőnek magának kell megalkotni a programot erre. Ennek ellenére a hot deck imputáció nagyon népszerű technika.

Többszörös imputáció (Multiple Imputation – MI)

Talán a legbonyolultabb módszer a többszörös imputáció, amikor a hiányzó adatok helyére több lehetséges értéket illesztünk be (általában 3-10), így több teljes adatbázist készítünk. Majd mindegyiken elvégezzük a megfelelő műveleteket, a kapott eredményeket pedig összegyűjtjük és kombináljuk egyetlen elemzésbe.

A hiányzó adatok kezelésére a fenti lehetőségeken kívül számos komplex statisztikai módszer létezik még, azonban nincs „legjobb” megoldás. A legcélszerűbb persze a megelőzés, erre viszont nem mindig van lehetőség. Általánosságban elmondható, hogy az egyszerűbb eljárásoknál, mint a törlés vagy az átlagimputáció, valamivel jobb eredményeket lehet elérni a hot deck vagy többszörös imputációs módszerekkel. Fontos azonban, hogy ezeknél figyelembe vegyük az alkalmazott módszert, és a pótolt adatok „bizonytalanságát” is bevegyük az elemzésbe, minimálisra csökkentve a torzulást.

Megosztás:

Az adat kincs, de mi van, ha nincs? – Statisztikai módszerekkel kezelhetők az adathiányok

Az adatpótlás a statisztika alkímiája: a semmiből egyszer csak valami lesz.

MCAR

MAR

MNAR

Adathiányok kezelése

Törlés

Adatpótlás, imputáció