Szász István Szilárd: Mindenki táncol

Bárki mestertáncossá válhat, mindehhez csak néhány perc videófelvételre van szükség, amelyben normál mozdulatokat végez. A Berkeley-i Kaliforniai Egyetem kutatói fejlesztettek ki egy olyan mesterséges intelligenciára (MI) épülő rendszert, amelyik képes egy videóból lemásolni egy táncos mozdulatait és rávetíteni egy másik személy mozgására. Ha tehát meg akarunk tanulni (legalább) virtuálisan táncolni, akkor mindössze két videóra van szükségünk: egy olyanra, ami azt a táncot tartalmazza, amit szeretnénk „elsajátítani” és egy rólunk készült videóra, amelyben legalább 20 percen keresztül átlagos mozgásokat végzünk (a minket vevő kamera pedig 120 képkockát kell rögzítsen másodpercenként, olvasható a Mindenki táncol(jon)/Everybody Dance Now című tanulmány leírásában). A kutatók által kifejlesztett MI számára ennyi információ elég, hogy elkészítse a táncoló videókat.

A videómanipulálás nem mai találmány, ma már a filmek jelentős részében alkalmazzák. Elég csak a CGI-re (computer-generated imagery-re, a „számítógépen létrehozott kép”-re), vagy a digitális mozgásrögzítésre (motion capture) gondolni, amelyek lehetővé teszik a szereplők és tárgyak megalkotását és mozgatását a virtuális térben. Csak míg korábban egy egész csapat felkészült szakember összehangolt munkájára és komoly számítógépes teljesítményre volt szükség egy-egy manipulált videó elkészítéséhez, addig mára a mesterséges intelligenciára épülő szoftverek sokkal hozzáférhetőbbé tették az eljárást.

Aki egy kicsit is kísérletezgetett az okostelefonjával, az már felfedezte az arccserélős alkalmazásokat, amelyek a telefonunk kamerája által „látott” képen az arcunkon virtuális elemeket, kalapokat, macska- és nyuszifüleket, varázscsákókat jelenítenek meg valós időben, de akár az is lehetséges, hogy két egymás mellett grimaszoló ember arcát cseréli ki a program. Vicces és jókat nevetünk rajta, elsőre ártatlan játéknak látszik a dolog, a háttérben meghúzódó technológia viszont némi aggodalomra ad okot.

Sok férfi fantáziált már híres színésznőkről, énekesnőkről, és fejben sokan levetkőztették Pamela Andersont vagy éppen Katy Perryt (bár sokszor nem feltétlenül kell túl jó fantázia ehhez…). Az elmúlt év során borzolta fel a kedélyeket a deepfake néven elhíresült botrány, amelynek lényege, hogy ismert nők arcát montírozták pornószínésznők arca helyére. De nem úgy ám, ahogyan internetes mémek esetében sokszor láthattuk az eljárást, hogy egy álló képpel cserélnek ki egy arcot, hanem valós fejmozgásokkal, mintha tényleg az adott világsztár szerepelne a pornóvideóban. Készültek így hamis videók „szeretkezés közben” Rihannáról, Scarlett Johanssonról, Taylor Swiftről, Katy Perryről… A deepfake szóösszetétel első fele, a „deep” a mély neurális hálózatra (deep neural network) utal, ami a mesterséges intelligencia, a mélytanuló algoritmus hátterében áll, míg a „fake” hamisítványt jelent. A deepfake tehát mesterséges intelligenciával készült, hamisított filmfelvételt jelent.

A mozgalom névadója egy deepfake nevű Reddit-felhasználó, aki nyílt forráskódú szoftvereket, Youtube-videókat, a Google képkeresőjét, stockfotókat használt az arccserélős kamuvideókhoz. Egy másik felhasználó elkészítette a FakeApp nevű programot, ami a civilek számára is könnyen hozzáférhető szoftver formájában lehetővé tette a hasonló videók készítését. Mindössze egy pornóvideóra, a kipécézett celeb arcfotóira és egy jobbacska számítógépre van szükség az „alkotáshoz”.

Hogy még közelebb kerüljünk az ebben rejlő társadalmi problémához, elég megnézni a Washingtoni Egyetem által készített rendszert, amelyik felhasználásával egy általuk készített videón Barack Obama volt amerikai elnök szájába adtak olyan mondatokat, amelyeket soha nem mondott. A korábban említett videók esetében egy gyakorlottabb szem felismeri, hogy hamisítványról van szó, lévén, hogy a videók még nem tökéletesek (sem a táncolós, sem a pornóvideók), azonban az Obamáról készült videó a megtévesztésig valóságosnak tűnik.

A hamis videók elkészítése mellett természetesen egy olyan programra is szükség van, ami valaki hangján képes olyan mondatokat „kimondani”, amire éppen csak kérik a rendszert. A képmanipulálásra tervezett Photoshopot kiadó Adobe például dolgozik (2016-ban legalábbis dolgozott) a „hangphotoshopon”, ami megfelelő mennyiségű hanganyag után bármit ki tud „mondani” egy adott személy hangján. De nem ők az egyetlen, akik hasonló programot készítenek.

Most képzeljünk el egy olyan világot, amelyben az álhírekhez szokott igazság utáni érában egy mezei felhasználó a közösségi médiában találkozik egy olyan videóval, amelyben mondjuk Orbán Viktor miniszterelnök egy tusványosi beszédében elmondja saját őszödi beszédét a maga „őszinteségében”: „hazudtunk reggel, éjjel meg este”. Vagy mi történik, ha futótűzként terjed majd az online médiában Putyin „videóüzenete”, amelyben háborúval fenyegeti Romániát? Vagy Trump atomháborúval Észak-Koreát? A rendelkezésre álló eszközök lehetővé teszik, hogy szinte bárki olyan kamuvideót készítsen, amelyik online térben való elterjedése által alkalmas arra, hogy besározzon, hiteltelenné, megalázottá tegyen embereket. Netán hatalmi konfliktusokat, ne adj’ isten háborúkat robbantson ki. Az álhírek elleni küzdelem még fel sem ocsúdott az első, igazságra alapozott világra mért jobbegyenesekből, de már olyan ellenfél közelít, amelyikkel felvenni a kesztyűt igencsak megpróbáltató feladat lesz.

Egyre közelebb a világ, amikor úgy táncolunk majd, ahogy fütyülnek nekünk. Kérdés, hogy ki fog fütyülni.

Kimaradt?