Hallom halott embereket? A Natural Language Tech életre kelti a múlt és a jelen hangját

Szerző: Judy Howell
A Teremtés Dátuma: 5 Július 2021
Frissítés Dátuma: 19 Június 2024
Anonim
Hallom halott embereket? A Natural Language Tech életre kelti a múlt és a jelen hangját - Technológia
Hallom halott embereket? A Natural Language Tech életre kelti a múlt és a jelen hangját - Technológia

Tartalom


Elvitel:

Felejtsd el a hangos hangot; a természetes nyelvi feldolgozás új célja a valódi reprodukció.

Manapság a legtöbb számítógépes hang passzív. Valószínűleg nem túlságosan lelkesedik a kiborgok és a robotok kérdésében, amikor a telefonján megszólal a „droid”, amely segít számlafizetésben, vagy megkérdezi tőle, hogy melyik osztályt szeretné. De mi van, ha hirtelen hallotta, hogy Kurt Cobain megkérdezi a kártya adatait? Vagy John F. Kennedy mesélt a korai szavazás csodáiról? Vagy Elvis lekérdezi a nevét és címét, mielőtt "darabokra, égő szerelem darabjaira" fordulna.

Mindez ... kissé furcsa, de még izgalmasabb az, hogy a technológia alapvetően már itt van. Körülbelül egy évtizeddel ezelőtt elképesztettünk egy számítógépes képességgel, hogy egyáltalán beszéljünk is. Most már szabadon álló, számítógép által generált hangok fognak felszívódni, amelyek ugyanúgy hangzanak, mint az ismert emberek.

Nagy változások az NLP-ben

Ha figyelmet fordít a természetes nyelvfeldolgozás (NLP) területére, akkor hallhatott néhány olyan közelmúltbeli haladásról, amely túlmutat azon konzervált virtuális asszisztens hangokon, amelyeket a globális helymeghatározó rendszerekben (GPS) és az automatizált üzletben most hallunk. telefonvonalak.

Az NLP kezdete nagyon sok kutatást igényelt az emberi beszéd általános mechanikájában. A kutatóknak és a mérnököknek meg kellett határozniuk az egyes fonetikákat, össze kell hajtaniuk azokat a nagyobb algoritmusokba a mondatok és mondatok előállításához, majd mindezt meta-szinten kell megkísérelni kezelni, hogy valami valósnak hangzik. Az idő múlásával az NLP vezetői elsajátították ezt és fejlett algoritmusokat kezdtek el építeni az emberek mondásának megértéséhez. Ezeket a kettőt összekapcsolva a vállalatok jöttek létre a mai virtuális asszisztensek és a teljesen digitális számlafizető ügyintézők mozgatórugóival, akiknek módszerei - bár bosszantóak - még mindig csodálatosak, ha nem gondolkodnak a bennük lévő munkára.

Most néhány vállalat túllép az általános virtuális hangon, hogy pontosabb, személyre szabott eredményt készítsen. Ehhez szükség van egy adott személy lexikonjának átgyűjtésére és nagy mennyiségű egyedi hang video összegyűjtésére, majd ezt az archívumot alkalmazni kell a fonetika, a hangsúly, a kadencia és az összes többi apró jelszó összetett ritmusára, amelyeket a nyelvészek gyakran a "prosódia" széles címe alatt csoportosítanak.

Kiderül egy olyan hang, amelyet a hallgatók egy adott személy "tulajdonában" tartanak - akár valakit, akit ismernek és beszélgettek, vagy valaki, akinek a hangját az emberek hírneve miatt felismerik.

Elvistől Martin Luther Kingig mindenki hangját így "klónozhatjuk" - feltéve, hogy beszédünk jelentős előre rögzített felvétele van. Az egyes kisebb hangok még részletesebb elemzésének és manipulációjának alkalmazásával a cégek képesek virtuális szén-másolatot készíteni valaki hangjáról, amely nagyon hasonlít az igazihoz.

Izgalmas "Voice" alkotások a Vivo-n

Például a Vivo olyan vállalat, amelynek célja a mesterséges emberi hangok forradalmasítása mindenféle kampányban, az audiokönyvektől az interaktív hangválaszig (IVR). A Vivo-nál a kutató- és produkciós csoportok azon folyamatokon dolgoznak, amelyek elméletileg kifejezetten megismételhetik az elhunyt hírességek hangját, mint például maga Ol Blue Eyes.

"Ha Frank Sinatra hangját klónozzuk, akkor valójában átlépjük a rögzített örökségünket" - mondja Gershon Silbert a Vivo vezérigazgatója és arról beszélt, hogy egy ilyen technológia hogyan működhetne.

Jelenleg a Vivo azon személyek hangjainak archiválásán dolgozik, akik még velünk vannak, például Neal Conan, az NPR tudósítója, aki mintát írt alá egy ilyen informatikai úttörő projekt számára. Egy promóciós videó bemutatja, hogy a Vivo munkavállalói gondosan hozzanak létre fonetikus kódmodelleket a Conan által biztosított hangbemenet felhasználásával. Ezután elkészítik a beszéd (TTS) eszközök modelleit, amelyek drámai módon emberi és személyes eredményt eredményeznek.

Ben Feibleman, a Vivo stratégiai és üzleti fejlesztési alelnöke szerint a számítógép foném szinten működik (a beszéd legkisebb egyedi részeit használva), hogy megfeleljen az egyéni emberi hang proszodikus modelljének.

"Tudja, hogyan beszél a hang" - mondja Feibleman, és hozzáteszi, hogy az "egységek kiválasztása" segítségével a számítógép számos darabot választ, hogy egyetlen rövid szót összeállítson, például amikor a "péntek" szó öt összetevőt ad, amelyek segítenek a fejlődésben különös hangsúly és tonális eredmény.

Mesterséges hang a marketingben

Szóval, hogyan működik ez a marketingben? A Vivo termékei rendkívül hasznosak lehetnek olyan termékek létrehozásában, mint például hangoskönyvek, amelyek elérhetik a célközönséget. Például, mennyivel hatékonyabb lenne az Elvis hangja a mai általános, holtpontos, automatizált hangokhoz, ha szórakoztatással kapcsolatos termékek eladására használnák?

Vagy mi lenne a politikában? A Feibleman különféle ötleteken dolgozott az ilyen projektek felhasználásával, hogy fokozza a hatékonyabb üzenetküldést igénylő cégek vagy más felek marketingjét.

"Ha tud valamelyik elnököt képviselő politikát, akkor 10 millió swing-állampolgár kaphat egy személyes felhívást egy jelölttől, megköszönve támogatásaikat, megmondja nekik, hova kell szavazniuk, az időjárás és az összes aprólék. éjjel a választások előtt "- mondta Feibleman.

A hangod tovább él

Van egy másik nyilvánvaló alkalmazás erre a technológiára. Az olyan természetes nyelvű társaságok, mint a Vivo, létrehozhatnak egy személyes szolgáltatást, amely feltölti az ügyfél összes hanginformációját egy termékbe, amely lehetővé teszi az adott személy számára, hogy "örökké beszéljen".

A gyakorlati megvalósítás valószínűleg számos kérdést vet fel azzal kapcsolatban, hogyan halljuk és internalizáljuk a beszélt hangokat. Például, mi szükséges ahhoz, hogy egy hangfolyam pontosan úgy hangzzon, mint valaki? Mennyire kell tudnunk egy embert, hogy felismerje egy adott hangot? És érdekes módon mi történik, ha a természetes nyelvi szolgálat nyers karikatúrát készít, nem pedig kényszerítő utánozást?

Feibleman szerint az eredmények értékelése gyakran függ a megfontolásoktól. Például azt mondja, hogy a gyerekek általában nem kérdeznek arról, hogy ki beszél, amikor egy történetet hallgatnak. Csak többet akarnak. Ugyanakkor sok felnőtt nem gondol arra, hogy ki beszél vele, adott forgatókönyv, például passzív adás vagy telefon. Ezenkívül könnyebb megtéveszteni egy számítógépet telefonon keresztül, mivel a tompa hang elfedheti a számítógép eredményeinek és az emberi hang közötti csillogásokat vagy egyéb eltéréseket.

"Önnek nem előfordul, hogy megkérdőjelezi a hang hitelességét" - mondja Feibleman.

A 2525-ös évben

Ahogy a vállalatok haladnak a termékek és szolgáltatások fejlesztésében, és ezekre a kérdésekre válaszolnak, az „élő beszéd” technológiák előreléphetnek a technológia és az emberi elme azon konvergenciája felé, amelyet klasszikusan mesterséges intelligenciának (AI) hívnak.

Ha a számítógépek úgy beszélnek, mint mi, akkor becsaphatják a többi felhasználót arra, hogy azt gondolják, hogy úgy gondolnak, mint mi, és belemennek a szingularitás nagyobb elvébe, ahogyan John von Neumann, az 1950-es évek korszakában az írók által evangelizált műszaki úttörő bevezette a lexikomba. és olyan gondolkodók, mint Ray Kurzweil. Kurzweils 2005, "Az egyediség közel áll" könyv izgatja és megijeszti másoktól. Kurzweil azt jósolta, hogy 2045-re az "intelligencia" mint jelenség nagymértékben megszabadul az emberi agytól, és a technológiába vándorol, és elmossa a vonalakat a gépek és embereik között.

Halhatatlanná tette a Zager & Evans dalszövegében az "Az 2525-ös évben" dalszöveget (senki sem csinál olyan hátborzongató sci-fi balladákat, mint ezek a srácok) ...

4545-ben
Nem kell fogaid, nem is kell
a szemeid
Nem találsz rágni kívánt dolgot
Nobodys rád néz

5555-ben
A karod lóg az oldalaidon
A lábadat nem kell tennie
Néhány gép ezt csinálja neked

A számítógépes hangok egy lépés ebben az irányban? Az emberi test egyes funkcióinak kiszervezésének új módjaként (vagy még inkább szimulációként) az ilyen típusú technológiai fejlődés az egyik legnagyobb - és valószínűleg kevésbé bejelentett - előrelépés a láthatáron, amikor egy egyedi jövőbe tekintünk. . (Tudjon meg többet a „szingularitásról” című cikkben, a Számítógépek képesek-e utánozni az emberi elmét?)