Budúcnosť má hlas roztržitej sekretárky. Google vie napodobniť telefonát

Umelá inteligencia a strojové učenie na prvom mieste - tak by sa dala zhrnúť úvodná reč Sundara Pichaia, šéfa spoločnosti Google, na vývojárskej konferencii Google I/O v kalifornskom Mountain View. Google samozrejme rôzne prvky používa v rade služieb: zapojil ju do prekladu textov alebo do rozpoznávania fotografií, píše Technet.cz.

Keď sa ale hovorí o umelej inteligencii, pozornosť budí predovšetkým digitálny asistent. Čiastočne je to nepochopenie toho, čo umelá inteligencia je. Keď sa ľudia bavia s digitálnou asistentkou typu Google Home alebo Alexa, veľkú časť onej "osobnosti" vytvorili programátori, scenáristi a odborníci na komunikáciu. To však neznamená, že by nebolo strojové učenie pri dialógu kľúčové. Žiadny scenárista nemôže predvídať všetky možné otázky a príkazy, a preto sa musí - aspoň v rámci nejakých mantinelov - stroj učiť základnému porozumeniu prirodzenej reči.

Prekvapivo dôveryhodná napodobenina telefonistky
A tým sa dostávame k nášmu obľúbenému momentu celej tohtoročnej Keynote. K momentu, kedy Pichai vysvetľuje, ako asistent ušetrí ľuďom čas tým, že za nich vybaví niektoré nudné alebo monotónne záležitosti. Trebárs rezerváciu u kaderníka.

"Dokonca aj v USA nemá 60 percent malých firiem žiadny on-line rezervačný systém," uviedol Pichai. "Myslíme si, že s týmto problémom môže pomôcť umelá inteligencia."

Prekvapenému publiku vzápätí púšťa "reálny telefonát", ktorý nahrali v rámci experimentov s asistentom. Požiadavka na Google Asistenta znela: rezervuj mi zostrih u kaderníka v utorok medzi desiatou a dvanástou.

Ukážku z hovoru medzi Google Asistentom a kaderníčkou nájdete na videu od 35 minúty:  

Priznáme sa, že máme pochopenie pre prekvapený potlesk prítomného publika. Hlas počítača neznie ani v najmenšom strojovo. Obsahuje pauzy, neisté odmlky, nádychy, hovorové frázy alebo neurčité "é" a vyčkávacie "m-hm". Sme presvedčení, že po telefóne by mal človek na druhej strane veľký problém spoznať, že nehovorí s iným človekom, ale s počítačom, zvlášť vzhľadom k pohotovým a zmysluplným odpovediam.

Preklad reálneho telefónneho rozhovoru AI a človeka

Kaderníčka: Dobrý deň, ako vám môžem pomôcť?
Google Assistant: Dobrý deň, volám ohľadom rezervácie dámskeho strihu pre svoju klientku. Ehm, rada by som rezervovala niečo na tretieho mája.
Kaderníčka: Iste, momentík, prosím...
Google Assistant: M-hm.
Kaderníčka: Takže, aký čas by sa vám hodil?
Google Assistant: O dvanástej hodine.
Kaderníčka: O dvanástej voľno nemáme. Najskôr potom až o štvrť na dve.
Google Assistant: Máte niečo medzi desiatou a, é, dvanástou?
Kaderníčka: Podľa toho, o akú službu ide. O akú službu má záujem?
Google Assistant: Len dámske strihanie, zatiaľ.
Kaderníčka: Dobre, máme voľno o desiatej.
Google Assistant: Desiata je v pohode.
Kaderníčka: Dobre, aké je jej krstné meno?
Google Assistant: Krstné meno je Lisa.
Kaderníčka: Super. Tak Lisu budeme čakať tretieho mája o desiatej.
Google Assistant: OK, výborne. Vďaka.
Kaderníčka: Výborne. Pekný deň, dovidenia.

Nie každý telefonát ide samozrejme takto ľahko. V reálnom svete telefonických konverzácií (aj tých obyčajných, medziľudských) existujú omyly, prepočutia, nedorozumenia a ďalšie bariéry. Ako si s tým nová služba, pomenovaná Google Duplex (súčasť Asistenta Google), poradí?

Zatiaľ len rezervácia. Asistent predstiera záujem aj omyl
Vytvoriť konverzačný program, ktorý je na nerozoznanie od človeka, je nesmierne zložitá a komplexná úloha. Služba Google Duplex si na začiatok stanovila veľmi konkrétny cieľ: ich konverzácie sa točia výhradne okolo vopred definovaných úloh, ktoré ľudia cez telefón vybavujú.

Konkrétne ide o rezerváciu termínu, pretože tam možno do značnej miery predvídať všetky predstaviteľné scenáre: majú voľno, nemajú voľno, majú voľno, ale pre menej osôb, nemajú ten deň otvorené, na daný čas nie je potreba rezervácia a pod.

Duplex je schopný vysporiadať sa s nepochopením - reaguje tak, že opakuje požiadavku inými slovami a potvrdzuje to, čomu osoba na druhej strane porozumela. Duplex dokázal reagovať aj na zmenu témy a nakoniec správne pochopil, že kvôli rezervácii volá zbytočne, pretože reštaurácia v tú dobu nie je plná a pre štyroch ľudí rezerváciu nepotrebuje.

Prirodzená a príjemná konverzácia je napokon málokedy stopercentne efektívna. Preto vývojári do služby Duplex zabudovali rôzne zdvorilosti, zažité frázy a hovorové "zlozvyky", ktoré celú komunikáciu poľudšťujú. Digitálny asistent (či asistentka, vývojári testujú viac rôznych hlasov) tak napríklad na otázku "Pre koľko ľudí" namiesto jednoduchého "4" odpovie "É, pre štyroch ľudí, prosím."

Rovnako tak je Duplex naprogramovaný na to, aby pre istotu zopakoval to, ako druhú stranu pochopil. Napríklad v angličtine "OK for four" môže znamenať ako "môžete prísť o štvrtej", tak "máme miesto pre štyroch ľudí", záleží na kontexte konverzácie.

Určitý problém má služba Duplex s uvravenými ľuďmi, ktorí používajú dlhé a zložité vety namiesto viet krátkych. Napríklad na otázku "Kedy máte otvorené?" dostal Duplex v rámci testu odpoveď: "No, takže, od utorka do štvrtka sme otvorení od jedenástej do druhej, a potom znovu otvárame od štvrtej do deviatej, a potom v piatok, sobotu a nedeľu... alebo v piatok a v sobotu máme otvorené od jedenástej do deviatej a v nedeľu od jednej do deviatej." V takom prípade umelej inteligencii nezostáva iné, než sa pýtať upresňujúce otázky a zvažovať desiatky rôznych scenárov aplikovateľných na danú situáciu.

Z týchto scenárov vyberá Google Duplex pomocou neurónovej siete (RRN) postavenej na platforme TensorFlow Extended.

Eh, ummm, Hneď sme tam!
Pre generovanie prirodzene znejúceho hlasu potom Google využíva syntézu reči Tacotron a WaveNet. Programátori vyvinuli spôsob, ako do výslednej reči vkladať "vypchávkové slová" typu eh, hm, aha. Tým zároveň - podobne ako ľudia - hrajú o čas v prípade, že ešte systém vyhodnocuje vstup z druhej strany. Hovor tak pôsobí ako prirodzenejší a plynulejší - najväčšie oneskorenie je desatina sekundy, čo je v porovnaní s konverzáciou s Alexou, Siri alebo Google Asistentom ohromný pokrok.

Okrem rezervácie termínov na želanie zákazníka chce Google využiť túto konverzačnú službu aj k doplňovaniu aktuálnych informácií. Napríklad otváracie hodiny mnohých podnikov na Mapách Google majú problém - obvykle nereflektujú sviatky. Ľudia tak nemôžu vedieť, či sa v štátny sviatok môžu na tieto údaje spoľahnúť, a nezostáva im iné, než do obchodu zavolať. Google plánuje využiť Duplex k automatickému obvolávaniu podnikov pred sviatkami: "Máte budúci pondelok, ako je sviatok, otvorené?" Podľa odpovede potom Google vyplní údaje v mapách, čo podľa šéfa Google ušetrí čas užívateľom i podnikom.

Budúcnosť, alebo prechodná fáza?
Nakoľko je služba použiteľná, to ukážu nasledujúce mesiace. Už to, že sme nevideli živú demonštráciu, ale len záznamy vybraných ukážok, svedčí o tom, že zatiaľ si vývojári nemôžu byť produktom stopercentne istí. Google bude službu cez leto ďalej testovať. Už teraz sú ale výsledky - hoci iste starostlivo vybrané - nečakane realistické.

Bude zaujímavé sledovať, ako táto služba zasiahne do komunikácie. Pretože rovnako tak si môžu podobného digitálneho asistenta zaobstarať aj kaderníci a reštaurácie. Budú si potom stroje odovzdávať informácie o objednávkach a rezerváciách ľudskou rečou? Alebo ide len o dočasné riešenie neefektívnych rezervácií, a v budúcnosti bude jeden robotický asistent komunikovať s druhým pomocou jednoznačných a presne definovaných požiadaviek?

Každopádne v budúcnosti bude otázka "hovorím prosím s človekom, alebo s počítačom?" možno bežnou súčasťou našej telefonickej konverzácie.