Domov audio Počujem mŕtvych ľudí? Technológia prirodzeného jazyka oživuje minulé a súčasné hlasy

Počujem mŕtvych ľudí? Technológia prirodzeného jazyka oživuje minulé a súčasné hlasy

Obsah:

Anonim

V dnešnej dobe je väčšina počítačových hlasov passé. Pravdepodobne vás nezaťaží kyborgov a robotov, keď v telefóne budete počuť „droida“, ktorý vám pomôže s platbou faktúry alebo s otázkou, aké oddelenie chcete. Ale čo keď si zrazu počuješ, ako ťa Kurt Cobain prosí o informácie o karte? Alebo vám John F. Kennedy hovorí o zázrakoch predčasného hlasovania? Alebo Elvis zbavil tvoje meno a adresu skôr, ako sa rozbil na „kus, kus horiacej lásky?“


To všetko by bolo … trochu divné, ale čo je ešte fascinujúcejšie je, že táto technológia je už v podstate tu. Asi pred desiatimi rokmi nás ohromila schopnosť počítača vôbec hovoriť. Teraz budeme mať podlahu voľným pohybom, počítačom generované hlasy, ktoré znejú rovnako ako ľudia, ktorých poznáme.

Veľké zmeny v NLP

Ak venujete pozornosť oblasti spracovania prirodzeného jazyka (NLP), možno ste už počuli o nedávnych pokrokoch, ktoré presahujú druhy konzervovaných hlasov virtuálneho asistenta, ktoré teraz počujeme v našich globálnych systémoch určovania polohy (GPS) a automatizovanom podnikaní. telefónne linky.


Začiatok NLP si vyžadoval veľa výskumu všeobecnej mechaniky ľudskej reči. Vedci a inžinieri museli identifikovať jednotlivé fonetiky, zložiť ich do väčších algoritmov na generovanie fráz a viet a potom sa ich pokúsiť zvládnuť všetko na metaúrovni, aby vygenerovali niečo, čo znelo skutočne. V priebehu času to vedúci NLP zvládli a začali budovať pokročilé algoritmy, aby pochopili, čo hovoria ľudia. Zjednotením týchto dvoch spoločností prišli spoločnosti s hnacími silami pre dnešných virtuálnych asistentov a plne digitálnych úradníkov s platbami za účet, ktorých spôsoby vedenia - hoci sú otravné - sú stále úžasné, keď prestanete premýšľať o práci, ktorá do nich prešla.


Teraz niektoré spoločnosti idú nad rámec bežného virtuálneho hlasu a vytvárajú konkrétnejší osobný výsledok. Vyžaduje si to prehliadanie lexikónu konkrétnej osoby a zhromažďovanie veľkého množstva jedinečného hlasového videa, potom použitie tohto archívu na zložité rytmy pre fonetiku, dôraz, kadenciu a všetky ďalšie drobné narážky, ktoré lingvisti často zoskupujú pod širokú hlavičku „prozódie“.


Vychádza hlas, ktorý poslucháči považujú za „vlastníctvo“ určitej osoby - buď niekoho, koho poznajú a hovorili s ním, alebo niekoho, ktorého hlas uznávajú v dôsledku slávy osoby.


Od Elvisa po Martina Luthera Kinga je teraz možné takto klonovať kohokoľvek - za predpokladu, že bude zaznamenaný výrazný záznam jeho reči. Aplikáciou ešte podrobnejšej analýzy a manipulácie na jednotlivé malé zvuky sú spoločnosti schopné vytvoriť virtuálnu uhlíkovú kópiu niekoho hlasu, ktorý znie podobne ako skutočná vec.

Vzrušujúce výtvory „Text to Voice“ vo VivoText

Napríklad VivoText je jednou spoločnosťou, ktorá pracuje na revolúcii v používaní umelých ľudských hlasov pre všetky druhy kampaní, od zvukových kníh až po interaktívne hlasové reakcie (IVR). Vo VivoTexte výskumné a produkčné tímy pracujú na procesoch, ktoré by teoreticky mohli konkrétne replikovať hlasy zosnulých celebrít, ako napríklad Ol 'Blue Eyes sám.


„Na klonovanie hlasu Franka Sinatru by sme skutočne prešli jeho zaznamenaným odkazom, “ hovorí generálny riaditeľ VivoText Gershon Silbert, ktorý hovorí o tom, ako by tento druh technológie mohol fungovať.


Momentálne VivoText pracuje na archivovaní hlasov tých, ktorí sú stále s nami, napríklad korešpondenta NPR Neala Conana, ktorý sa podpísal ako model tohto druhu projektu priekopníkov v oblasti IT. Propagačné video ukazuje, že pracovníci spoločnosti VivoText starostlivo vytvárajú moduly fonetického kódu pomocou poskytnutého hlasového vstupu od spoločnosti Conan. Potom vytvoria modely pre nástroje na prevod textu na reč (TTS), ktoré vyvolávajú dramaticky ľudský a zosobnený výsledok.


Podľa Ben Feiblemana, viceprezidenta pre stratégiu a obchodný rozvoj spoločnosti VivoText, počítač pracuje na fonémovej úrovni (s použitím najmenších jedinečných častí reči), aby sa prispôsobil prozodickému modelu individuálneho ľudského hlasu.


„Vie, ako hlasové hovory hovoria, “ hovorí Feibleman a dodáva, že pomocou „výberu jednotky“ si počítač vyberie niekoľko kusov, ktoré dajú jedno krátke slovo, napríklad, kde slovo „piatok“ obsahuje päť komponentov, ktoré pomáhajú rozvíjať osobitný dôraz a tonálny výsledok.

Umelý hlas v marketingu

Ako to teda funguje v marketingu? Produkty spoločnosti VivoText by mohli byť veľmi užitočné pri vytváraní produktov, ako sú zvukové knihy, ktoré by mohli osloviť cieľové publikum. Napríklad, o koľko účinnejšia by bola hlasnosť Elvisu v porovnaní s jedným z dnešných generických, mŕtveho automatizovaného hlasu, ak by sa používal na predaj zábavných produktov?


Alebo čo v politike? Feibleman pracuje na rôznych nápadoch na využitie podobných projektov na zlepšenie marketingu pre spoločnosti alebo iné strany, ktoré potrebujú efektívnejšie zasielanie správ.


„Ak viete, že niektorí politici kandidujú na prezidenta, mohlo by to viesť k tomu, že 10 miliónov voličov z swingového štátu dostane osobné volanie od kandidáta, poďakovanie im za ich podporu, pričom im povie, kam musia hlasovať, o počasí a orezaní. noc pred voľbami, “povedal Feibleman.

Váš hlas žije ďalej

Existuje ďalšia zrejmá aplikácia na všetky tieto technológie. Spoločnosti v prirodzenom jazyku, ako je VivoText, by mohli vytvoriť osobnú službu, ktorá by nahrala všetky hlasové údaje zákazníka do produktu, ktorý by tejto osobe umožnil „hovoriť navždy“.


Praktická implementácia by pravdepodobne vyvolala množstvo otázok o tom, ako počujeme a internalizujeme hovorené hlasy. Napríklad, čo je potrebné, aby zvukový tok znel presne ako niekto iný? Ako dobre musíme poznať osobu, ktorá rozpozná konkrétny hlas? A čo je zaujímavé, čo sa stane, ak služba v prirodzenom jazyku vytvára surovú karikatúru, a nie presvedčivé mimikry?


Hodnotenie výsledkov, hovorí Feibleman, často závisí od zváženia kontextu. Napríklad hovorí, že deti sa zvyčajne nepýtajú, kto hovorí, keď počúvajú príbeh. Chcú viac. Mnohí dospelí však tiež nemusia premýšľať o tom, kto s nimi hovorí, vzhľadom na konkrétny scenár, napríklad pasívne vysielanie alebo telefónnu správu. Je tiež ľahšie oklamať počítačom cez telefón, pretože tlmený zvuk môže maskovať závady alebo iné nezrovnalosti medzi výsledkami počítača a ľudským hlasom.


„Nezdá sa vám, že by ste spochybňovali autenticitu hlasu, “ hovorí Feibleman.

V roku 2525

Keď spoločnosti napredujú vo vývoji produktov a služieb a odpovedajú na tieto otázky, technológie „živej reči“ by nás mohli posunúť smerom k zblíženiu technológie a ľudskej mysle, ktorá sa klasicky nazýva umelá inteligencia (AI).


Ak počítače dokážu hovoriť ako my, môžu podvádzať ostatných používateľov, aby si mysleli, že si myslíme, že sme my, a tak sa pridávajú k väčšiemu princípu jedinečnosti, ktorý do nášho lexikónu uviedol John von Neumann, technologický priekopník v 50-tych rokoch, ktorý evanjelizovali spisovatelia a myslitelia ako Ray Kurzweil. Kurzweilova kniha z roku 2005 „Singularity is Near“ („Singularity is Near“), niektoré vzrušuje a iných vydesí. Kurzweil predpovedal, že do roku 2045 sa „inteligencia“ ako fenomén z ľudského mozgu značne vymaní a migruje do technológie, čím sa stlmia hranice medzi strojmi a ich ľudskými pánmi.


Zvečnený v textoch Zager & Evansovej „V roku 2525“ (nikto strašidelné sci-fi balady ako títo chlapci)…


V roku 4545

Nepotrebuješ zuby, nepotrebuješ

tvoje oči

Nenájdete veci na žuvanie

Nikto sa na teba nebude pozerať


V roku 5555

Vaše ruky visia po vašich bokoch

Vaše nohy nemajú čo robiť

Niektoré stroje to robia za vás


Sú počítačové hlasy krokom týmto smerom? Ako nový spôsob outsourcingu niektorých funkcií ľudského tela (alebo bežnejšie ich simulovanie) je tento druh technického pokroku jedným z najväčších - a pravdepodobne nedostatočne nahlásených - pokrokov na obzore, keď sa pozrieme na jedinečnú budúcnosť, (o „jedinečnosti“ v Bude počítač schopný napodobniť ľudskú myseľ?)

Počujem mŕtvych ľudí? Technológia prirodzeného jazyka oživuje minulé a súčasné hlasy