Afelől ma már semmi kétség, hogy fajunk – talán már a nem túl távoli jövőben – képes lesz olyan szerkezet előállítására, amelynek információfeldolgozási képessége meghaladja az emberi agyét. De addig még okosodniuk kell a gépeknek, például meg kell tanulniuk tanulni. És éppen ezt teszik.

Valósággá válhat HAL 9000 a 2001: Űrodüsszeiából, a Skynet a Terminátorból vagy a Mátrix gépek által uralt világa? Erre a kérdésre senki sem tudja a választ, de az biztos, hogy a tudósok már a 20. század ötvenes évei óta intenzíven foglalkoznak a mesterséges intelligencia kutatásával. Szerencsére az említett filmekben ábrázolt vészforgatókönyvek egyike sem vált valóra, ám a gépi intelligencia megteremtéséért folytatott kutatás egyik ága azóta hatalmas karriert futott be. Ennek köszönhetően ismeri fel szóban kiadott utasításunkat okostelefonunk, ez irányítja a már valós közúti forgalomban manőverező sofőr nélküli autókat, illetve ennek segítségével találhatjuk meg olyan gyorsan és egyszerűen a kérdéseinkre a releváns választ a keresőmotorokban. Ez a tudományterület a – közkeletű angol kifejezéssel – machine learning, vagy magyarul a gépi tanulás.

machine learning

Machine learning

A machine learning lehetővé teszi a számítógépek számára a tanulást anélkül, hogy explicit módon erre beprogramozták volna őket. Az élőlények világában magától értetődő tanulási folyamatok a gépek között még nem működnek a jelenlegi fejlettségi szinten. A gépek gondolkodás és mérlegelés nélkül, de villámgyorsan és pontosan hajtják végre a nekik kiadott parancsokat, és éppen ezért ideálisak a nagy számítási igényű feladatokra. Ám szabályokkal és törvényszerűségekkel nehezebben megfogható problémák esetén – például amikor arról van szó, hogyan szűrjék ki egy felhasználó postafiókjából a kéretlen üzeneteket – már korántsem teljesítenek ilyen fényesen.

A 8 legismertebb gépi tanuláson alapuló alkalmazás

1. Keresőmotorok
2. Vezető nélküli autók
3. Beszédfelismerés
4. Webáruházak termékajánló rendszerei
5. Spamszűrés
6. Kézírás felismerése
7. Gépi látás
8. Fényképezőgépek arcfelismerő rendszere

A machine learning megoldások azonban jó közelítéssel képesek feltárni az adatok mögött rejlő trendeket, mintákat, az adatok kategorizálásával és strukturálásával pedig a jövőre vonatkozó előrejelzések megalkotására is képesek. Mindehhez alapvetően két módszert használnak: felügyelt gépi tanulás során ismert kategóriákba sorolnak be eseményeket, megtörtént események példái alapján, nem felügyelt gépi tanulás során azonban nincs külső segítség (például adatok automatikus csoportosítása valamilyen hasonlóság vagy különbözőség alapján). A felügyelt gépi tanulásra jó példa az Amazon termékajánló rendszere, amely az adott felhasználó korábbi aktivitása és más hasonló felhasználók vásárlásai alapján azokat a termékeket – például történelmi könyveket vagy jazz CD-ket – ajánlja vásárlásra, amelyeket a legnagyobb valószínűséggel meg fog venni.

A gépi tanulás az informatikai biztonságban

A machine learning az utóbbi időben az IT biztonság világába is betette a lábát. Mind nyilvánvalóbb az a trend, amely a biztonság központi kérdésévé már nem az ellenőrzést, hanem a megfigyelést, és nem az eszközöket, hanem magát a felhasználót teszi.

Gépi tanulás és adatbányászat – mi a különbség?

A gépi tanulást általában az ismert adatokra alapozva jövőre vonatkozó előrejelzések megalkotására, illetve adatsorokban megtalálható ismeretlen összefüggések felfedezésére használják. A gépi tanulás egy az adatbányászok által előszeretettel alkalmazott módszerek közül.

A kontrollálásra fókuszáló alkalmazások ugyanis igen hatékonyak lehetnek már ismert vírusok vagy kártevők elfogásában, ám a legtöbb esetben tehetetlenek a manapság egyre elterjedtebb összetett, többféle támadási módszert ötvöző, úgynevezett APT-k (Advanced Persistent Threat) elhárításában. Tipikus APT-támadás például, amikor a támadó egy nulladik napi (0-day) sérülékenységet kihasználva billentyűzéskövetőt (keyloggert) telepít a felhasználó gépére, és belépési jelszavai megszerzése után titkos vállalati adatokat tölt le.

Mivel a 0-day sérülékenységek ellen a korábbi években népszerű SIEM rendszerek nem nyújtanak hatékony védelmet, ezért ez a támadás gyakorlatilag észrevehetetlen, és nehezen védhető ki hagyományos módszerek alkalmazásával. Ezt felismerve kezdték el kifejleszteni a felhasználók viselkedésének elemzésére (UBA – User Behavior Analytics) alapuló védelmi megoldásaikat az újdonságokra legérzékenyebb IT biztonsági cégek. Közéjük tartozik például a magyar gyökerű, de ma már a világ számos országában irodát működtető BalaBit is.

Viselkedéselemzés a gyakorlatban

A felhasználói viselkedést elemző rendszerek azon alapulnak, hogy – azokhoz a szülőkhöz hasonlóan, akik már a járásuk keltette hangok alapján felismerik gyerekeiket – azonosítják a felügyeletükre bízott informatikai rendszer felhasználóit bizonyos jellemzőik alapján. Emellett szokatlan tevékenységeiket is képesek felismerni, függetlenül attól, hogy valóban róluk vagy egy belépési adataikat megszerző rosszindulatú támadóról van-e szó.
Ehhez számos információ áll rendelkezésre a be- és kijelentkezés tipikus idejétől és helyétől kezdve a használt eszköz felbontásán és operációs rendszerén át a rendszeresen használt alkalmazások és protokollok listájáig, vagy a gépelés jellemző sebességéig. Ezek az információk azonban olyan nehezen kezelhető masszát alkotnak, amelyekkel a hagyományos szoftverek nem tudnak mit kezdeni, ellentétben a gépi tanulás módszerét alkalmazó rendszerekkel.

Komoly adatvesztések elkerülése

A BalaBit felhasználói viselkedéselemzésen alapuló alkalmazása, a Blindspotter például a felhasználói adatokból létrehozott profilok alapján észleli a megszokottól jelentősen eltérő tevékenységeket. Az előbbi példát folytatva, ha a támadó a 0-day sérülékenységet kihasználva bejut egy vállalati rendszerbe, ahol számos szervert látogat meg, és nagy mennyiségű adatot kezd letölteni, azt egy Blindspotterhez hasonló okos védelmi rendszer azonnal észleli, hiszen ez a tevékenység merőben eltér a profil valódi tulajdonosának munkamenetétől. Ezért aztán azonnal értesíti az IT biztonsággal foglalkozó csapatot, akik felfüggeszthetik a támadó által használt hozzáférést, és megszakíthatják a kapcsolatot, így megelőzve egy komoly adatvesztést.

A gépi tanulás legfontosabb ígéretei az IT biztonság számára

1. A külső támadók által feltört felhasználói fiókok felismerése.
2. Az ismeretlen külső és belső fenyegetések észlelése.
3. A hamis riasztások minimalizálása révén az IT biztonsági csapatok munkájának leegyszerűsítése.
4. Az IT biztonság fokozása az üzleti tevékenység ellenőrző jellegű korlátozása nélkül.

A felhasználói viselkedéselemzés akkor is jól jön, ha egyetlen illetéktelen személy sem jutott be a rendszerbe. Gyakran előfordul, hogy egy alkalmazott felmondása előtt nagy mennyiségű vállalati adatot – például forráskódot, ügyféllistát vagy más bizalmas információkat – tölt le, amelyet új munkahelyén kíván kamatoztatni.

Mivel ez a viselkedés nem illeszkedik a profiljába, ezért az előző esethez hasonlóan itt is riaszt az alkalmazás, amely az előírásoknak megfelelően (a compliance szempontokat betartva) tárolja az információkat, így még sikeres adatlopás esetén is jogilag cáfolhatatlan bizonyítékot ad a volt munkaadó kezébe.