Ha valaki elgondolkodott már rajta, hogy miért olyan rohadt ügyes a Facebook az arcfelismerésben, de fogalma sem volt, hogyan csinálja, akkor most megpróbálom röviden elmagyarázni a saját tanulmányuk és egyéb netes források alapján.
Kép forrása: pexels
Szóval az egész Deepface a mesterséges intelligenciával kezdődik, amiről tudnunk kell, hogy egy követő és tanuló mechanizmusnak köszönhetően növeli folyamatosan a tudását a világról. Ennek alapja egy úgynevezett mesterséges neuronháló, amiben nevéhez híven mesterséges neuronok kommunikálnak egymással különböző függvényeken keresztül. Több rétegük is lehet, sőt, háromnál általában csak több lehet nekik – innen a „Deep”=mély elnevezés is – és képesek bármilyen algoritmust megoldani, amit számítógéppel meg lehet oldani vagy le lehet futtatni.
Ezek a mesterséges neuronhálók igazából egy biológiai minta alapján működnek. A modell arra a megfigyelésre alapul, hogy a tanulást képesek voltak az ideghálózaton végbement ideiglenes vagy végleges változásokként leírni. Tehát mondjuk ha egy kisgyerek megégeti a kezét, akkor a legtöbb esetben valahol az ideghálóján véglegesen megváltozik valami, és legközelebb tudni fogja, hogy nem nyúl a forró kályhához. Viszont emellett párhuzamosan azt is elmondhatjuk, hogy csak abban az esetben következik be tényleges módosulás, ha átlép egy bizonyos küszöböt. Tehát ha nem elég forró az a kályha, akkor nem történik semmi (lényeges), legközelebb is teljes lelki nyugalommal fogja körbetaperolni.
A folyamat elég bonyolult, de nekünk igazából a végeredmény a lényeg: a fentiek segítségével sikerült egy olyan mély tanulási folyamatot kifejleszteniük, aminek az architektúrája összetett, neuronrétegek sorát és/vagy változatos elágazásokat tartalmaz. Minél mélyebb egy neurális hálózat, annál magasabb az absztrakciós képessége, tehát még összetettebb feladatokat képes ellátni.
Tanulási folyamat: a bemenet
A semmiből az AI sem tud tanulni, tehát adatokra, inputra van szüksége az első körben. Ebben a fázisban a kutatók rengeteg különböző fényképpel árasztották el testrészekről, ruhákról, frizurákról meg mindenről, ami egy ember felismerésében szerepet játszhat.
A modern arcfelismerésnek négy lépését különböztetik el, melyek sorrendben: érzékelés, igazítás, ábrázolás, osztályozás. Ezen technikák alkalmazása után a képek még átmennek egy 3D átalakításon meg még egy csomó folyamaton, hogy a végeredmény még pontosabb legyen.
Maga a végeredmény: az output
A folyamat eredménye egy olyan arcreprezentáció, amely egy 9 rétegű mesterséges neuronhálóból eredeztethető. Ennek a hálónak 120 millió változója van, ami lényegében emberi arcképek gyűjteménye. A további tanuláshoz persze még több adatra van szükség, amihez a Facebooknak nem kellett messzire menni, hisz ott volt az a masszív mennyiségű képanyag, amit a felhasználók töltöttek fel. 4000 felhasználó több mint 4 millió arcképét használták fel a folyamat során, melynek következtében a gépi arcfelismerés elérte az emberi szintet, magyarul olyan ügyesen ismeri fel az egyes arcokat, mint te vagy én.
Ez annyit jelent, hogy a Facebook lényegében képes felmérni, hogy két különböző képen szereplő személy megegyezik-e, és teszi ezt elég sikeresen. Csak hogy számokban is megmutassam: az algoritmus sikeressége 97,47%, míg egy emberi szem esetén ez 97,65%.
Persze a folyamat nagyban különbözik attól, ahogy a mi agyunk működik. Ha feltöltesz két képet ugyanarról az emberről, te tisztában vagy vele, hogy az ugyanaz a személy, de a mesterséges intelligencia nincs ezzel tisztában, neki le kell tesztelnie az összes tárolt képet és egyezést kell keresnie. Amint ez megvan, mindenki boldog, robot és ember egyaránt, és már fel is ajánlja a kép feltöltésekor, hogy valóban Kis Pista pózol-e melletted a kedvenc krimódban. Amennyiben nincs egyezés, úgy végigveszi az arc attribútumait és egyesével megvizsgálja. Tehát megnézi például a szem méretét, eldönti, hogy kicsi vagy nagy. Ha megvan, hogy nagy, akkor utána eldönti a színét. Ha látja, hogy barna, akkor utána már csak a nagy barna szemeket vizsgálja, megnézi a szem távolságát, a szemöldököt, majd rátér az arc többi részére, orr, száj, arcvonal és így tovább. Az emberi arcon 68 egyedi pontot keres és vizsgál meg, s ez alapján dönti el, hogy ismeri-e a képen látható személyt.
Jó az arcfelismerés vagy rossz?
Azt hiszem, biztonsággal kijelenthető, hogy az internetes és főleg a közösségi média feltörésével jellemezett éra legnagyobb kérdése a személyes adatok védelme. Már a Deep Face bemutatásakor várható volt, hogy nem mindenki fogja jóhiszeműen és jó szándékkal használni. Az arcfelismerés kétségkívül hasznos lehet mondjuk a rendőrség számára (a briteknél már ki is próbálták tavaly karácsonykor), forradalmi újításoknak adhat teret a látássérültek segítésében, hasznos lehet a filmeseknek vagy kutatások során, vagy épp segíthet a robotoknak felismerni a személyeket, akikkel együtt dolgoznak.
Az etikai kérdéseknek is köszönhető, hogy a Facebook nem rendezett túl nagy ünnepélyt a technológia bemutatásakor, mert már akkor több oldalról támadták őket. Egyrészt sokakban felmerült a kérdés, hogy mégis miért szeretné a Facebook felismerni a saját felhasználóit. Így a cég meg is próbálta úgy prezentálni az egészet, mint egy akadémiai újítást, egy projektet, ami érdekes és semmi több. Utólag azonban látszik, hogy a tudomány önmagában sohasem jó vagy rossz, ez mindig azon áll, hogy mire használják.
Deepface-ből Deepfake
A Deepfake kifejezés azokra a mesterséges intelligencia bevonásával készített hamisító technológiákra utal, amivel például ez a videó is készült:
Jennifer Buscemi... creepy
Az ijesztő talán nem is a legkifejezőbb jelző erre a torz alakra, amit Steve Buscemi arcából és Jennifer Lawrence testéből raktak össze. De igazából nem is ezek a videók a legijesztőbbek, amikben teljesen egyértelmű, hogy videó-manipulációról van szó, hanem inkább azok, amiknél nem tudjuk eldönteni, hogy amit látunk, az igaz-e.
A technológia a mezei felhasználók számára is elérhető, és nem, még véletlenül sem szeretném sem belinkelni sem terjeszteni, így is túl könnyű már használni és visszaélni vele, de ha továbbgondoljuk az egészet, rettentően ijesztő jövőkép tárul elénk. Amerikai törvényhozók és politikusok is felfedezték a technológia mögött rejlő veszélyeket, s félve a 2020-as választásokra gyakorolt hatásukra, máris sürgetik azon törvények meghozását, amik korlátozzák és esetenként büntetik az ilyen visszaéléseket.
Jelenleg egyébként a pornóipar az, amiben a leginkább elterjedt. A nézettségi adatok alapján létező igényeket elégít ki (bocs, muszáj volt) ez a fajta tartalomgyártás, ugyanis hihetetlen mennyiségű néző ül le egy-egy olyan video elé, amiben híres színésznők arcát montázsolják különböző 18+-os szexjelenetekben szereplő hölgyek testére. Persze nem csak híres emberekkel, hanem hétköznapi nők képeivel is visszaélnek, és az úgynevezett revenge porn, vagyis magyarul bosszú pornó műfaja új virágkorát éli a deepfakes technológiának köszönhetően. A legmegdöbbentőbb, hogy a videók kifejezetten jó minőségűek, tehát nagyon nehéz különbséget tenni a valóság és a manipulált képek között. Itt van rögtön egy példa erre:
Szerintem első ránézésre senki nem mondja meg, hogy nem Barack Obama beszél. De kering a neten video Putyinról és sok más emberről is. Lassan tehát eljutunk oda, hogy már annak sem hihetünk, amit látunk, és ismerve az emberek kóros vonzódását az összeesküvés-elméletekhez, illetve azt a sebességet, amivel az álhírek képesek terjedni, simán eljöhet az az idő, amikor már szinte lehetetlen lesz felvenni a kesztyűt a fake news iparral szemben.