Vľavo Harrison Ford z filmu Indiana Jones, vpravo tvár herca Nicholasa Cage namontovaná na tento klip.montáž: Technet.cz

Počítač vie prelepiť tvár. Pozrite sa, ako neurónová sieť ohýba realitu

Realistické videomontáže, tzv. "deep fakes", sú výsledkom pokrokov v strojovom učení. Internetoví nadšenci takto zatiaľ produkujú predovšetkým falošnú pornografiu s tvárami známých celebrít.

Potenciál tejto techniky, ktorá je teraz dostupná prakticky každému, je ale omnoho závažnejšia, píše Technet.cz.

Pokroky v strojovom učení prinášajú pozoruhodne absurdné situácie. Po novom napríklad tú, že sa pornoherečky sťažujú na to, že ľudia na internete poškodzujú ich dôstojnosť. A že v tom majú v zásade pravdu. Rovnako ako sa oprávnene sťažujú celebrity, ktorých tváre sa objavujú "prilepené" na nahé telá týchto pornoherečiek.

Ako je vidieť, nejde len o nejakú hocijakú fotomontáž. Po webe sa šíri niečo, čomu budeme nateraz hovoriť "amatérske videomontáže". Niekde je ich faloš na prvý pohľad zrejmá a video vyzerá ako z hororu o zlodejovi tvárí. Inokedy sú ale výsledky až nečakane realistické.

V posledných mesiacoch totiž technológia, ktorá umožní nahradiť tváre, opustila laboratóriá expertov na strojové učenie, a vtrhla na internet presne takým spôsobom, aký vás ako prvý napadne. Keď príde na internetovú tvorivosť, môžete si byť istí, že sa čoskoro dostane za hranu...

Neurónové siete v službách nadržaných diskutérov
Prvé falošné video tohto typu, ktoré si získalo pozornosť širšieho publika, zobrazovalo tvár herečky Gal Gadotovej v pornografickom klipe. Tvár obľúbenej herečky cez tvár pornoherečky nasadil špeciálny počítačový program využívajúci prvky strojového učenia.

Autor tejto videomontáže na serveri Reddit.com vystupoval pod prezývkou deepfakes (jeho účet už nie je dostupný) a svojim fanúšikom vysvetlil, že klip vytvoril nie manuálne, ale šikovným využitím strojového učenia. Vytrénoval neurónovou sieť, ktorá potom snímkou po snímke nahradila pôvodnú tvár vo videu tvárou herečky. Nejde pritom len o nalepenie nejakej konkrétnej fotky, ale o generovanie úplne novej podoby herečky, ktorú sa neurónová siet "naučila" z trénovacích dát.

Podobné klipy začali zaplavovať internetové fóra v decembri 2017. Čoskoro sa okolo algoritmu užívateľa "deepfakes" zorganizovala komunita nadšencov. Niektorým išlo o technológiu, iným zjavne o pornografické splnenie fantázií, výsledkom bola podivná symbióza poháňajúca vznik nových, stále realistickejších montáží.

Niekto programoval, niekto ladil parametre učenia neurónovej siete, niekto hľadal obrázky celebrít pre toto trénovanie a niekto jednoducho využíval svoje špecifické schopnosti k vyhľadávaniu pornoherečiek, ktorých telo sa "hodí" k danej celebrite. Neskôr dokonca komunita vyvinula samostatnú aplikáciu, čo otvorilo tvorbu videomontáží prakticky komukoľvek, kto mal chuť alebo chúťky experimentovať.

Niektoré montáže sú vtipné a nevinné, ako napríklad tie, ktoré nalepujú tvár herca Nicholasa Cage do všetkých možných filmov a klipov. Jedna z podarenejších deep fakes montážou napríklad nasadila tvár Nicolasa Cagea herečke Amy Adamsovej spievajúcu pieseň "I Will Survive".

Prevažná väčšina montáží zdieľaných v tejto Reddit skupine bola však explicitne pornografického rázu. Diskusný server Reddit preto následne tento druh montáží zakázal, pretože ide podľa radu názorov o pornografiu bez súhlasu. V čase výmazu (na začiatku februára) mala komunita "deepfakes" necelých stotisíc odberateľov.

Ako neurónová sieť ohýba realitu?
Prečo sa tieto "deep fakes" videá objavili práve teraz? Dalo by sa povedať, že to súvisí so všeobecným rozvojom techník strojového učenia, konkrétne rozmachom nástrojov na vývoj aplikácií založených na trénovaní neurónových sietí.

Neurónové siete nie sú v oblasti manipulácie s obrazom žiadnymi nováčikmi. Už v minulosti vedci ukázali niekoľko spôsobov, ako možno strojové učenie využiť na úpravu videa. V článku o budúcnosti manipulácie s videom z augusta 2017 Technet spomínal aj tieto dva konkrétne projekty, na ktoré deep fakes nadväzujú: Projekt vedcov Face2Face zo Stanfordu (2016, PDF) a syntetizácia vedcov z Washingtonskej univerzity (2017, PDF).

Po novom ale vtipálkom aj manipulátorom stačí nainštalovať aplikáciu "Fake App", ktorá sa o manipulácii obrazu postará sama. Aplikácia využíva niekoľko známych metód strojového učenia. Podľa tvorcu aplikácie (ktorý zostáva v anonymite) využíva dostupné open-sourcové knižnice pre strojové učenie: Keras, TensorFlow alebo CUDA Toolkit. Podľa jeho vlastných slov to "nie je nič zložité". Využíva však zaujímavý fígeľ, ako podrobne vysvetľuje napríklad Siraj Raval, odborník na strojové učenie.

Vysvetlenie princípu montáží "deepfakes" (Siraj Raval, YouTube.com):

Hoci na prvý pohľad sa môže zdať, že aplikácia jednoducho hľadá jednu tvár a nahradzuje ho druhou, skutočnosť je o niečo zaujímavejšia. Aplikácia má vlastne dve časti. Jedna časť aplikácie sa vytrénuje v rozpoznávaní konkrétnej tváre a jeho "rekonštrukcii" v prípade obrazového poškodenia alebo neúplnosti.

K abstrakcii algoritmus využíva histogram orientovaných gradientov, čo sa potom hodí aj na nalepenie oka na oko a brady na bradu. Tak možno získať dostatočne abstraktný pohľad na ľudskú tvár.

Druhá časť aplikácie sa vytrénuje na tvári cieľovej osoby, ktorej tvár má byť nalepená cez pôvodnú tvár. Aplikácia akoby predpokladala, že na snímke osoby A bola v skutočnosti osoba B, a opravuje teda snímku osoby A podľa snímok osoby B.

To znamená, že vo výslednom videu je celkom dobre zachovaný výraz tváre. Je to zvláštny mix montáže, štatistiky a niečoho, čomu sa možno v budúcnosti bude hovoriť "počítačová fantázia".

Celý proces trénovania a "opravovania" videa môže aj u krátkeho klipu trvať aj desiatky hodín. Pretože sa neurónová sieť učila zo stoviek alebo tisícok fotiek cieľovej osoby, sú vo fotomontáži vidieť reálne ekvivalenty úsmevu, údivu a ďalších výrazov. Tým je videomontáž prekvapivo realistická.

Postupne sa začali objavovať realistickejšie a realistickejšie montáže. Najlepšie si aplikácie poradia s tvárou dívajúcou sa priamo do kamery. Naopak zvláštne pohyby hlavy, dlhé vlasy pred tvárou alebo netradičné uhly sú pre túto aplikáciu problém.

Naučíme sa nedôverovať videu?

Etické dopady automatického montovania tvárí do videa ale pochopiteľne nemôžu nástup tejto techniky zastaviť. Rovnako, ako sme sa museli naučiť žiť vo svete plnom fotomontáží, budeme si musieť zvyknúť aj na to, že aj veľmi realisticky vyzerajúce video môže byť v skutočnosti sfalšované. A že toto sfalšovanie nemusí byť produktom tímu odborníkov na vizuálne efekty, ale len napríklad hračka znudeného puberťáka.

Začnú vznikať kompromitujúce materiály, materiály určené na vydieranie, materiály určené na ponižovanie a dehonestáciu osôb. A hoci si budú diváci teoreticky uvedomovať, že všetko môže byť zmanipulované, bude veľmi ťažké neveriť veciam, ktoré uvidíme na vlastné oči a budeme počuť na vlastné uši.

Zatiaľ možno videomontáž typu deepfakes s trochou snahy rozpoznať, či už podľa neprirodzených artefaktov na okraji tváre, podivných "blikajúcich" výrazov alebo skrátka nájdením podkladového materiálu (pôvodného videa).

Príde ale možno doba, kedy budú videomontáže - vyladené pomocou automatických algoritmov strojového učenia - také lacné a uveriteľné, že prestane mať video dôkazotvorný význam, ktorý mu dnes pripisujeme. Namiesto toho bude video skôr takou pastelkou, ktorú budeme môcť kresliť rôzne vlastné verzie reality.

Pravdepodobne potom nastúpia nové technológie, ktoré budú naopak pravosť videí zabezpečovať a overovať. Vzniknú nové zákony, ktoré budú upravovať slobodu montáže a chrániť právo na podobu. A slávni herci budú prenajímať filmovým štúdiám svoju podobu, zatiaľ čo na pľaci sa budú potiť ich menej slávni kolegovia, ktorých tvár nakoniec vo filme neuvidíte.

Sme pripravení? Najskôr nie, ale zvykajme si. To, čo sa pred niekoľkými rokmi riešilo čisto teoreticky, sa stáva veľmi rýchlo realitou. Neurónové siete sa vedia učiť veľmi rýchlo, a my sa musíme pokúsiť držať s nimi krok.