Domov softvér Technológia rozpoznávania hlasu: užitočná alebo bolestivá?

Technológia rozpoznávania hlasu: užitočná alebo bolestivá?

Obsah:

Anonim

Už ste niekedy zavolali nejakej spoločnosti, aby vám pomohli alebo zaplatili váš účet, aby vás uvítal príjemný nahratý hlas, ktorý s vami chce viesť rozhovor - ale nerozumie polovici toho, čo hovoríte? Alebo možno vlastníte iPhone, a hoci Siri sa najskôr zdala byť dobrým spojencom, uvedomila si si, že niekedy (OK, buďme úprimní, často) to jednoducho nechápe? Technológia rozpoznávania hlasu (VRT), známa tiež ako reč na text, spadá do bežnej pasce: má potenciál byť neuveriteľne chladný (a chlapec, za ktorý sme zakorenení), ale častejšie je to brúsenie zubov. cvičte frustrovane.


Kedysi myšlienka, ktorá patrila do oblasti sci-fi, rozoznávala hlas od detstva v 50. rokoch, keď bol systém Bell Laboratories Audrey navrhnutý tak, aby rozpoznával číslice hovorené jedným hlasom, do modernej siete konverzačnej elektroniky, s ktorou teraz komunikujeme. na dennej báze - so zmiešanými výsledkami.

Ak chcete hovoriť s človekom, stlačte tlačidlo 0

Mnoho dnešných firiem v súčasnosti využíva na spracovanie hovorov služieb zákazníkom systémy nazývané interaktívna hlasová reakcia (IVR). Najbežnejšie sa používa pre hlasové menu, ale niektoré spoločnosti používajú systémy IVR, ktoré majú prístup k informáciám o účtoch zákazníkov a odpovedajú na menšie otázky. Softvér Menu IVR má zvyčajne obmedzenú slovnú zásobu, ktorá môže byť obmedzená na „áno“, „nie“ a čísla. Zložitejšie systémy dokážu rozpoznať slová a frázy špecifické pre spoločnosť.


Tieto systémy sú čoraz obľúbenejšie - aspoň pre podniky - z jednoduchého dôvodu: sú nákladovo efektívne. Podľa správy časopisu Wall Street Journal z roku 2010 typický zákaznícky hovor, ktorý dosahuje agenta, stojí medzi 3 a 9 dolármi, zatiaľ čo hovor uskutočnený prostredníctvom automatizovaného systému stojí iba päť až sedem centov. Počítačové programy sa, samozrejme, neunavujú, nevoľia sa, ani nie sú frustrovaní so zákazníkmi (hoci zákazníci s nimi určite frustrujú!).


Našťastie to neznamená vždy, že IVR odoberie prácu ľuďom alebo aspoň že všetci ľudia zmiznú z call centier. Tieto pomocníci aktivovaní hlasom umožňujú opakovanie ľudských služieb pre zákazníkov tým, že smerujú hovory a odpovedajú na jednoduché otázky.


Pre ľudí, ktorí s týmito technológiami interagujú, samozrejme, nie je to vždy plynulá plavba. Technológia pomáha zlepšovať bežné problémy v technológii IVR, ako sú problémy s prízvukmi, ale prepúšťanie automatizovaných systémov je stále online téma online. Vyskúšajte komédiu o výťahu vybavenom rozpoznaním hlasu, čo poukazuje na frustráciu, ktorú môžu spôsobiť poruchy v systémoch IVR.

Aplikácie pre osobné telefóny: ​​Siri, Asistent Google

Väčšina ľudí pozná rozpoznávanie hlasu pre smartfóny. Zatiaľ čo väčšina najnovších modelov telefónov prichádza s VR, ich popularita - a známosť - sa zväčšila, keď spoločnosť Apple v roku 2011 predstavila Siriho, mierne sarkastického, hlasom aktivovaného „osobného asistenta“ pre Google. Google čoskoro vytvoril priameho konkurenta: Google Teraz pre operačný systém Android Jelly Bean. Oba systémy sú vybavené ženskými hlasmi a prepracovanými funkciami rozpoznávania, vďaka ktorým môžu používatelia „hovoriť“ do svojich telefónov pomocou neformálneho jazyka.


Tieto systémy sú síce podstatne sofistikovanejšie a funkčnejšie ako ich predchodcovia, zároveň však dokazujú, že táto technológia má pred sebou ešte dlhú cestu. Vtipy o zlyhaní Siriho sa stali populárnym internetovým systémom. Jeden muž dokonca žaloval Apple za falošnú reklamu týkajúcu sa schopností Siriho.


Možno to je dôvod, prečo spoločnosť Apple vytvorila Siri, aby bol pokročilý a poučný, ale softvér VR je tiež trochu na drzej strane. Napríklad, ak hovoríte jednou z najznámejších technologických línií spravodajských technológií v histórii kina z filmu z roku 1968 „2001: A Space Odyssey“ - „otvorte dvere pod zátokou“ - Siri odpovie buď odpoveďovou linkou z filmu, “ Je mi ľúto (vaše meno), obávam sa, že to nemôžem urobiť, "alebo tým viac sarkasticky, " my, spravodajskí agenti, to zrejme nikdy nebudeme žiť. "


Volanie vás menom je iba jednou z funkcií, ktoré sa snažia Siriho ľahšie milovať a trochu viac človeka. Asistent VR môže sledovať hlasové povely na uskutočňovanie hovorov, diktovanie a posielanie textov, na vyhľadávanie informácií na internete, na vyhľadanie obchodov v okolí, na vedenie trasy jazdy a ďalšie, všetko bez toho, aby ste sa museli ničoho dotknúť. Odpovede sú súčasne hovorené telefónom a zobrazujú sa na obrazovke.


Asistent Google, VR časť platformy Android Jelly Bean, je veľmi podobný Siri. Systém ponúka rovnaké možnosti rozpoznávania tým, že prevádza príležitostné reči na príkazy, ktoré umožňujú používateľom telefonovať, odosielať texty, vyhľadávať, vykonávať výpočty a konverzie, definovať slová, nastavovať budíky, prehrávať piesne a získavať mapy a smery.


Výhody s osobnými hlasovými asistentmi, ako sú Siri a Asistent Google, sú zrejmé. Všetko od volania a posielania textových správ po vyhľadávanie a zábavu je rýchlejšie a ľahšie. Stačí povedať, čo chcete, a (väčšinou) aplikácia VR vás vezme za vás. Hands-off technológia VR je obzvlášť užitočná pri šoférovaní. A zatiaľ čo mnoho ľudí odsúdilo nedostatky Siriho a autori tvrdia, že schopnosť služby Asistent Google v podstate prevádzkovať životy používateľov je strašidelne trochu urážlivá, väčšina ľudí si však stále myslí, že tieto futuristické technológie sú celkom v pohode.


Samozrejme, osobné telefónne aplikácie ako Siri a Asistent Google nie sú ani zďaleka dokonalé - hoci ukazujú, kam by táto technológia mohla v budúcnosti smerovať. To znamená, že aj keď Siri zistí nesprávnu odpoveď, pravdepodobne sa budeme smiať a odpustiť jej, pretože vieme, že budúca verzia bude oveľa lepšia.

Kde VR padá na rovinu

Ak ste sa niekedy stretli s IVR, keď ste zavolali do firmy, možno ste si všimli určité prekážky v komunikácii. Niektoré programy používajú robotický hlas na prevod textu na reč, ktorý nesprávne interpretuje slová a sťažuje porozumenie veci. Iní majú problémy s citlivosťou, ktoré vedú k tomu, že softvér nedokáže spracovať to, čo hovoríte, ak ste príliš nahlas, príliš mäkko alebo opatrne.


Navyše, veľa ľudí sa stále jednoducho necíti dobre hovoriť so strojom. Ak na IVR spustíte niekoľko vyhľadávaní, narazíte na zoznamy, ktoré ľudia zostavili, ako obísť systémy IVR a dostať sa k „skutočnej osobe“. Tieto riešenia siahajú od „neustále stláčajte 0 pre operátora“ až po „prisahajú na stroj, kým nezíska ľudskú bytosť“. Výsledkom je, že veľká časť nedávneho vývoja systémov IVR sa točila okolo toho, aby boli pre ľudí chutnejšie; čím sú hlasy viac sympatickejšie a menej robotické, uľahčuje navigáciu v systéme a dáva volajúcim vedieť, ako dlho bude celá vec trvať od začiatku do konca. To naznačuje, že lepšia technológia je tu iba polovicou bitky; druhá polovica privádza používateľov na palubu pri rozhovore so strojom.

Čo drží budúcnosť

Napriek týmto výzvam sa technológia rozpoznávania hlasu neustále zlepšuje. Aplikácie ako Siri a Asistent Google - nedostatky a všetky - sú stále mimoriadne výkonné a niekoľko spoločností rozširuje možnosti VR o ďalšie aplikácie.


Napríklad spoločnosť Nuance, tvorcovia softvéru na prevod textu na reč Dragon NaturallySpeaking, už vyvinula hlasové ovládanie televízorov a automobilov a verzie tejto technológie sú začlenené do niektorých televízorov Samsung a do zábavných systémov SYNC používaných v niektorých vozidlách Ford.


A keďže spoločnosť Google a Apple stále nachádzajú nové spôsoby použitia svojich technológií na rozpoznávanie hlasu, je pravdepodobné, že budeme stále častejšie hovoriť so všetkými druhmi bežných strojov, od našich televízorov až po naše hriankovače. A opäť to vyzerá, že sci-fi mala pravdu. Budeme musieť len dúfať, že títo šikovní spisovatelia sa mýlili v jednej veci. Ak tieto stroje preberajú, mohli by ste mať ďalšie problémy, keď nabudúce požiadate Siriho, aby „otvoril dvere pod stojanmi“.

Technológia rozpoznávania hlasu: užitočná alebo bolestivá?