youtube

Budúcnosť falošných správ? Za tri roky budú videá nedôveryhodné

Falošné správy neďalekej budúcnosti môžu obsahovať ľubovoľnú osobnosť, ktorá povie svojím hlasom čokoľvek, čo sa jej zadá.

Kvôli fotomontážam sa už dlho nedá len tak veriť fotografiám. Nové technológie povedú k rovnako presvedčivým manipuláciám aj v oblasti ľudského hlasu a dokonca aj videí.

Šíreniu falošných správ sa venuje pomerne dosť pozornosti, najmä v kontexte "ultrastranických" politických serverov. Na internete sa uchytí aj zjavný nezmysel, napríklad správa o tom, že sa dajú vedomosti do mozgu nahrať ako vo filme Matrix. S pribúdajúcim technologickým pokrokom a rozvojom umelej inteligencie budú však podvrhy čím ďalej tým presvedčivejšie a nebudú sa obmedzovať len na text alebo fotky upravené v grafickom editore.

Falošný Obama

Traja výskumníci z Washingtonskej univerzity nedávno predviedli, že to nie je nijako vzdialená budúcnosť. V článku "Synthesizing Obama: Learning Lip Sync from Audio" popisujú, ako zvládli pomocou využitia strojového učenia (machine learning) vytvoriť fotorealistické video minulého amerického prezidenta, ako prednáša niektorý zo svojich prezidentských prejavov. Ich výsledok je oveľa presvedčivejší ako doterajšie pokusy a zároveň potrebuje ako vstupné dáta len zvukovú nahrávku reči.

Podobný projekt zo Stanfordovej univerzity, Face2Face, dokázal v reálnom čase prenášať mimiku živého "herca" do videa, kde rovnaké pohyby tváre prevádzal napríklad George Bush alebo Arnold Schwarzenegger. Pri novej metóde potom nie je vôbec potrebné, aby žiadané pohyby niekto vykonával, sám ich vytvorí z nahraného slovného prejavu.

Najprv je však potrebné, aby sa algoritmus naučil, ako to má vyzerať. Preto bol k imitácii zvolený práve Barack Obama, u ktorého sú verejne dostupné hodiny videonahrávok prejavov vo vysokom rozlíšení. Program sa na nich učil, ako hýbe ústami pri ktorom fonéme, rovnako ako ďalšie prvky jeho mimiky. Potom dokázal tieto pohyby umelo vytvoriť len z audio nahrávky Obamovho prejavu.

Výskumníci si tu zjednodušili prácu tým, že tieto "syntetizované" ústa a ich okolie vložili do existujúceho videa Obamovho prejavu, a nevytvárali teda pohyby hlavy ani mimiku hornej časti tváre. Ale aj toto obmedzenie ponúkalo dosť využitia. Mohli napríklad vziať prejav z roku 2016 a veľmi presvedčivo ho vložiť do videa o mnoho rokov mladšieho alebo napríklad vziať zvukovú stopu z nejakého rozhovoru s prezidentom a urobiť z nej oficiálny televízny prejav. Možnosti podvrhu sú tu zatiaľ skôr obmedzené, je to skôr demonštrácia toho, ako môže vývoj ďalej postupovať.

Algoritmus nevytvoril úplne nové video, zmenil len jeho časť, a pracoval tak s originálnou nahrávkou osoby, časť mimiky ktorej mal imitovať. Synchronizovať pohyby úst jedného človeka s prejavom pochádzajúcim od niekoho s úplne odlišným spôsobom reči bude samozrejme oveľa zložitejšie, rovnako ako umelé vytvorenie celých pohybov hlavy a nielen samotných úst.

U väčšiny ľudí sa však nedá dostať k takému množstvo video materiálu, aby bolo možné dosiahnuť dosť dobrý výsledok. To je vidieť napríklad u podobného pokusu, keď boli slová poradkyne prezidenta Trumpa Kellyanne Conwayovej vložené do úst francúzskej speváčky Françoise Hardyovej.

Tu sa (odlišný) algoritmus učil len z jej hudobných videí, ktoré samozrejme nie sú tak dobrým zdrojom ako prezidentské prejavy a video výstup je oveľa menej kvalitný.

Ale už tieto prvotné úspechy ukazujú, že samotný princíp je funkčný a nie je nijak zvlášť zložitý. S pokrokmi strojového učenia potom budú videá čím ďalej viac kvalitnejšie a nároky na materiál potrebný na ich vytvorenie sa budú stále znižovať.

Umelý hlas

Všetko sa stáva ešte desivejšie v okamihu, keď k "umelému Obamovi" a Face2Face pridáme technológie na syntetizáciu ľudského hlasu, ktoré sú taktiež vo vývoji.

Spoločnosť Adobe, ktorej Photoshop spôsobil, že sa už nedá veriť fotografiám, teraz pracuje na VoCo, programe, ktorý má rovnako dobrú editáciu priniesť aj pre prácu s hlasom. Ten dokáže napríklad prehádzať slová vo vete, ktorú niekto povedal, alebo jeho hlasom predniesť aj úplne iné slová. Samozrejme po "natrénovaní".

Podobný projekt Lyrebird potom dokonca chce dosiahnuť to, že bude stačiť len minúta reči niekoho na to, aby program dokázal týmto hlasom predniesť čokoľvek. Už dnes ponúka ukážky toho, ako dokáže hlasom Trumpa, Obamu alebo Hillary Clintonovej predniesť jednu vetu v mnohých odlišných intonáciách.

Zatiaľ sa dá veľmi ľahko spoznať, že ide o počítačom syntetizovaný prejav, ale to sa celkom iste zmení. Bude potom teoreticky možné napísať úplne čokoľvek, vytvoriť z toho zvukovú nahrávku s hlasom amerického prezidenta a následne ju vložiť do programu, ktorý vytvorí zodpovedajúce pohyby pier a vloží ju do existujúceho videa či dokonca vytvoriť úplne nové. V tomto prípade už sú potenciálne podvrhy veľmi nebezpečné.

V budúcnosti teda bude ešte oveľa ťažšie rozoznať falošnú správu od tej pravdivej. Podľa niektorých odhadov je pritom doba presvedčivo pôsobiacich falošných videí vzdialená už len tri roky.

Budú samozrejme možnosti, ako autenticitu videa overiť. Okrem obrazových chýb sa hovorí o vyžadovaní metadát ukazujúcich, kedy a kde bolo video natočené, alebo kryptografickom podpise. Ale to všetko tiež nutne nemusí pomôcť v situácii, keď je šírenie falošnej správy priamo niečím cieľom.

Veľké množstvo ľudí bez dôkazu uverilo tomu, že CNN vysielalo porno alebo že je možné nahrať schopnosti pilotovania lietadla priamo do mozgu. Príchod realistických videí, kde ľubovoľná osobnosť hovorí svojím hlasom čokoľvek, čo sa tvorcovi falošnej správy zachce, bude potom obrovskou výzvou. Zvlášť ak to bude správa, ktorej ľudia budú chcieť veriť.

#FALOŠNÉ SPRÁVY #FALŠOVANIE #VIDEO #VÝSKUM #AUDIO