Mit takar az AI „feketedoboza”, és miért jelent a black box-probléma biztonsági és etikai gondokat?

Mintha azt próbálnánk megérteni, egy motor melyik csavarja felelős az autó gyorsulásáért: ezért nem látják át sokszor a fejlesztők sem az AI-rendszerek logikáját.

A mesterséges intelligencia (AI/MI) a rengeteg felhasználási mód mellett temérdek megválaszolandó kérdést is magával hoz. A plágiummal és szerzői joggal kapcsolatos konfliktusok és jogi dilemmák, esetleg téves információk terjesztése mellett, vagy éppen ezek mélyén az egyik fontos kérdés, hogy tulajdonképpen mi alapján is „dönt” egy ilyen rendszer. Ez azért merül fel, mert ezek jellemzően úgynevezett black box, azaz feketedoboz jelleggel működnek. Beteszünk egy inputot – egy promptot –, és kijön egy output, de hogy a kettő közt mi történt, és a parancsunkból hogyan született meg egy adott válasz, az gyakran még a rendszer fejlesztőinek sem egyértelmű.

Erről a problémáról szól Pavlo Kirnoz cikke ukrán társblogunkról. Az, hogy az AI „belseje” láthatatlan a felhasználó számára, a gyakorlatban olyasmit jelent, hogy a rendszerek nem mindig vagy nem érthetően mutatják meg, hogyan „gondolkodnak” és milyen adatokat használnak a döntéshozatal során, még ha ebben sok rendszer igen komoly javulást is mutatott az elmúlt pár évben. Ám ameddig ez a probléma létezik, ez érthető módon bizalmatlanságot okozhat.

Milyen feketedoboz?

A black box, azaz feketedoboz az AI olyan fajtáját jelöli, ahol a modell döntéshozatali mechanizmusa nem, vagy csak nehezen érthető a felhasználók számára. A mély neurális hálózatok (deep neural networks, DNN), a transzformerek, illetve az olyan együttes modellek (anszamblok, angolul ensembles), mint az XGBoost, tömérdek paraméterből építkező, összetett algoritmusok révén dolgozzák fel a beérkező adatokat. Éppen emiatt nem olyan egyszerű elmagyarázni a működésüket, és hogy miként jutnak valamilyen következtetésre.

Ezen megközelítés ellentéte a white box, azaz fehérdoboz AI, ahol a modell döntéshozatala elvileg átlátható, érthető és könnyen visszafejthető. A logisztikus és lineáris regressziók, a döntési fák (Decision Trees), valamint a szabályalapú rendszerek például ilyenek. Ezeknél közvetlen a kapcsolat a bemeneti adatok és a végeredmény között, így az adatfeldolgozás lépései mélyebb műszaki ismeretek nélkül is érthetők. Kevés AI-szolgáltatás épül azonban erre a logikára. Ezek közé tartozik a Microsoft-féle Explainable Boosting Machine (EBM), vagy a Google által fejlesztett What-If Tool.

Ezért átláthatatlanok: így épülnek fel a feketedoboz-modellek

A feketedoboz típusú AI átláthatatlanságának elsődleges oka a modern gépi tanulási (Machine Learning) modellek rendkívül összetett architektúrája. Ezek a rendszerek rengeteg paraméterre, továbbá nemlineáris transzformációkra és rejtett összefüggésekre támaszkodva működnek.

Mély neurális hálózatok (DNN)

A modellek alapját néhány tipikus felépítés jelenti, a legmeghatározóbbak ezek közül a már említett mély neurális hálózatok. Ezek a modellek akár több száz rétegből is állhatnak, amelyek mindegyike fokozatosan alakítja át a bemeneti adatokat, mintha egy sor szűrőn engednék át azokat. Az alkalmazott nemlineáris függvények miatt bonyolultabbak ugyan a számítások, de éppen ezek segítenek megérteni az ilyen rendszerek törvényszerűségeit. A rengeteg réteg és paraméter miatt az egyes elemeknek elenyésző és nehezen tetten érhető hatása van csak a végeredményre. Együtt azonban egy olyan komplex „logikát” hoznak létre, ami ránézésre lényegében értelmezhetetlen. Ahhoz, hogy megértsük, miért hozott meg a modell egy adott döntést, olyan speciális eljárásokra van szükség, mint a belső rétegek vizualizációja vagy a gradiensek elemzése.

Rekurrens hálózatok (RNN, LSTM) és transzformerek

Ezek szekvenciális adatok – például szövegek, hangfelvételek vagy idősorok – feldolgozására specializálódott modellek. Ez azt jelenti, hogy az információkat nem elszigetelten elemzik, hanem a kontextus, vagyis a megelőző szavak és események figyelembevételével is. Az RNN és LSTM hálózatok „emlékeznek” a korábban kapott információkra, és felhasználják a következő lépéseknél. Ez hatékonnyá, ám átláthatatlanná is teszi ezeket a rendszereket: nehéz pontosan megmondani, hogy melyik adatok gyakorolták a legnagyobb hatást a végső döntésre.

A transzformerek – mint amilyen a ChatGPT nevéből ismert GPT vagy a BERT – működése még összetettebb. Ezek egy úgynevezett figyelmi mechanizmust (attention mechanism) alkalmaznak. Ez azt jelenti, hogy kiszámítják, a bemeneti adatok mely részeire érdemes a leginkább fókuszálni, mondjuk egy beírt mondatban melyik a legfontosabb szó. Bár az ismert chatbotok jelzik a felhasznált forrásokat, és kommunikálnak is a „gondolkodási” folyamatukról, ezeknél a rendszereknél még nehezebb megmondani, pontosan miért született meg bennük egy válasz.

Együttes modellek

Az anszamblok több egyszerűbb modellt ötvöznek egyetlen komplex rendszerré. Ezek alapját leggyakrabban logikai szabályok (ha ez, akkor az) mentén működő döntési fák adják. A Random Forest algoritmus például több száz döntési fát foglal magában, amelyek mindegyike kicsit eltérően dolgozik. A végeredmény az összes fa döntésének átlagolásából születik meg. Az XGBoost is döntési fák sorozatát építi fel, ahol minden egyes új fa az előzőek hibáit igyekszik korrigálni.

Bár az ilyen együttes modellek rendkívül pontosak, belső logikájuk nehezen követhető. Hiába értelmezhető önmagában egy-egy döntési fa, a rendszer egésze már túl bonyolult ahhoz, hogy működése egyszerűen elmagyarázható legyen. Ezeknek az architektúráknak kivételes prediktív ereje van, különösen, ha összetett, rendszertelen vagy többdimenziós adathalmazokat kell elemezni. Ám ennek ára az átláthatóság: a modellek pont emiatt válnak valódi feketedobozokká még a saját fejlesztőik számára is.

Ezért olyan nehéz megérteni a modellek működését

Az értelmezhetőségi gondok a modellek struktúrájánál kezdődnek. Hiába látjuk a be- és kimenetet, a kettő közti utat három okból is nehéz követni.

1. A jellemzőtér (feature space) nemlineáris transzformációja

A legtöbb modern modell – különösen a neurális hálózatok – nemlineáris átalakításokat végez a bemeneti adatokon. Ez azt jelenti, hogy a jellemzőteret (feature space) olyan összetett és torzított módon formálják át, amelyben a távolságok, irányok és arányok elveszítik a hétköznapi logikán alapuló jelentésüket.

Egy képfelismerési feladatnál például a modell az olyan kézzelfogható jellemzőket, mint az „alakzat” vagy a „kontraszt”, olyan absztrakt koordinátákká alakíthatja, amelyeknek már nincs közvetlen, számunkra jelentéssel bíró értelme. Ezeket a tereket – különösen több száz vagy több ezer dimenzió esetén – szinte lehetetlen vizualizálni vagy logikailag értelmezni.

2. Extrém paraméterszám – a döntési út követhetetlensége

Az olyan modellek, mint a GPT vagy a nagyméretű konvolúciós hálózatok (aminek angol rövidítése pont egybeesik a tévécsatornával: CNN), több millió vagy akár több milliárd paramétert is tartalmazhatnak. Köztük súlyozásokat, eltolásokat és normalizációs értékeket, amelyek mind befolyásolják a végső számítást. Az egyes paraméterek hatása elenyésző, és csak a többivel kölcsönhatásban érvényesül, így a konkrét döntéshez vezető út „visszakövetése” szinte esélytelen.

Olyan ez, mintha azt próbálnánk megérteni, hogy egy motor melyik apró csavarja felelős az autó gyorsulásáért. Valójában nyilván egyik sem, hanem az összes alkatrész összehangolt működése.

3. A vektorok nem a mi nyelvünkön íródnak

Számos modell – főleg a természetes nyelvfeldolgozás (NLP) terén – a szavakat vagy kifejezéseket beágyazási vektorokká (embeddings) alakítja át. Ezek olyan számsorok, amelyek a gép számára hordozzák a „jelentést”, de az ember számára nem értelmesek. Például a „kutya” szó egy 768 számértékből álló vektorrá válhat, amelynek egyetlen eleme sem feleltethető meg olyan fogalmaknak, mint a mancs vagy a farok. A vektor ugyanis a kontextust és a kapcsolatokat tükrözi egy általunk lényegében elképzelhetetlen, többdimenziós térben.

Emiatt a beágyazások alapján szinte lehetetlen megmagyarázni, miért tett a modell egy adott feltételezést. Így a modell ugyan kiválóan „dolgozik”, de a gépi tanulással foglalkozó, tapasztalt mérnökök számára is hatalmas kihívás elmagyarázni a válaszai mögötti logikát. Épp emiatt vált az érthető mesterséges intelligencia (Explainable AI – XAI) az AI-kutatás egyik meghatározó irányvonalává, hiszen a technológia gyakorlati alkalmazhatósága és jogi szabályozhatósága ma már elválaszthatatlan az átláthatóságtól. Az XAI lényege pedig, hogy legalább lokális vagy leegyszerűsített magyarázatokkal szolgáljon az ilyen összetett rendszerek döntéseire.

Nem olyan könnyű dolog elmagyarázni

A modellek magyarázhatósága, vagyis amikor közérthető módon igyekszünk alátámasztani a rendszer döntéseit, komoly korlátokba ütközik. A komplex modellek – mint a mély neurális hálózatok vagy az anszamblok – egészét gyakran lehetetlen átlátni. Lokális szinten egy-egy döntést képesek lehetünk megmagyarázni, de a modell teljes, átfogó logikáját nem tudjuk feltárni. Ez különösen kritikus probléma olyan érzékeny területeken, mint az orvoslás, a pénzügy vagy az igazságszolgáltatás.

Ráadásul a legpontosabb modellek a legbonyolultabbak és a legátláthatatlanabbak is egyben. Az egyszerű modellek viszont könnyen értelmezhetők, de pontatlanabbak, ami szintén komoly dilemma elé állítja a fejlesztőket. Ezenkívül az olyan elterjedt módszerek, mint a SHAP vagy a LIME sem garantálják egy modell belső logikájának megértését. Ezek az eljárások ugyanis csak közelítő számításokon alapulnak, amelyek olykor félrevezetők lehetnek. Az eredmény így egy tetszetős, de néha hamis magyarázat lehet.

Szabályozási követelmények és felelősség

Kérdés, a feketedoboz típusú megoldások uralta AI-piacon ki vállalja a döntésekért a felelősséget? Főleg, ha egy az algoritmus az egészségünkről vagy szolgáltatásokhoz való hozzáférésünkről, esetleg alapvető jogainkról dönt. A magyarázhatóság emiatt jogszabályi kötelezettség is lehet.

GDPR és a „magyarázathoz való jog”

Az Európai Unió általános adatvédelmi rendelete, a GDPR garantálja a magyarázathoz való jogot (right to explanation) az automatizált döntéshozatali rendszereknél. Vagyis a cégeknek el kell tudniuk magyarázni, hogy miért született meg egy döntés, milyen adatokat használtak fel hozzá, és azok hogyan befolyásolták a végeredményt.

AI Act: transzparencia a magas kockázatú rendszerekben

2024-ben az EU elfogadta az AI Actet, azaz a blokk mesterséges intelligenciáról szóló jogszabályát. (Erről a Laba szakmai blogján itt írtunk részletesebben.) Az AI-szolgáltatásokat veszélyesség szerint kockázati kategóriákba soroló rendelet az uniós piacra történő belépéshez a magas kockázatú rendszereknél előírja a döntések magyarázhatóságát, az adatok dokumentálását és az alapvető emberi jogokra gyakorolt hatásvizsgálatot.

A cégek saját keretrendszerei

A technológiai óriások saját etikai standardokat is kialakítottak. Ilyen a Microsoft Responsible AI (Felelősségteljes AI) programja is, amely kötelezővé teszi a magyarázhatóságot és az emberi felügyeletet. Ahogyan az IBM Trusted AI (Megbízható AI) platformja is az átláthatóságra és a modellek auditálhatóságára fókuszál.

Van még mit kutatni

Bár a modellek oroszlánrésze továbbra is feketedoboz, a kutatók gőzerővel dolgoznak a transzparencián. A legígéretesebb irányok:

Interpretable-by-design modellek. Olyan rendszerek, amelyeket már eleve érthetőnek terveztek. Például a ProtoPNet vizuálisan hasonlítja össze a képrészleteket a már ismert prototípusokkal – pont úgy, ahogy az ember is felismeri a tárgyakat ismerős jegyek alapján.
Vizualizált figyelmi mechanizmusok. A transzformereknél – mint a GPT – láthatóvá tehető, mely szavakra „koncentrált” leginkább a modell. Ez segít közelebb kerülni a rendszer gondolatmenetéhez.
Szemantikai visszatérképezés. A nyelvfeldolgozás területén olyan eljárásokat is fejlesztenek, amelyek a gép számára értelmezhető vektorokat le tudják fordítani számunkra is érthető fogalmakra.

A mesterséges intelligencia folyamatosan tanul, és minél inkább részévé válik a mindennapjainknak, annál több kérdést és aggodalmat vet fel. A fejlesztők ezért egyre mélyebbre ásnak, hogy megértsék a saját munkájuk eredményét. Az XAI jelenleg úgy néz ki, hogy a hibrid megoldások felé tart, ahol a modellek képességei megmaradnak, de a működésük számunkra is világossá válhat. Mivel az AI adatokkal táplálkozik, azok nélkül sem megmagyarázni, sem megérteni nem lehet. Ez azt jelenti, hogy az AI különböző irányokból való tanulmányozása mellett ez arra is egy remek pillanat, hogy elkezdjünk adatokkal dolgozni. A robot_dreamsnél erre is számos képzést kínálunk az adattudománytól a geoinformatikán át a biostatisztikai adatelemzésig.

Szerző: Pavlo Kirnoz

Megosztás: