Intelligens hangfelismerés a mindennapjainkban

Az egészséges ember hallása rendkívül fejlett. A mindennapokban akár a látás segítsége nélkül (pl. telefonbeszélgetések során) is képes kiszűrni a zajból a számára fontos hangokat, meg tudja becsülni a beszélő nemét, életkorát, érzelmi állapotát, valamint értelmezni tudja az üzenetet és válasz reakciókat is tud adni.

Ha az ember ennyire jó ebben, akkor mit tudhat ma a gépi hangfelismerésen alapuló technológia? Érdemes segítségül hívni?

Az ember hallása

Az ember fő érzékszervei a látás, a hallás, a szaglás, az ízlelés és a tapintás. Ezek sorrendjét az érzékelés távolsága alapján szokás meghatározni. Az egyén tiszta időben több tíz kilométerre is ellát, pár kilométerről képes hallani, a szaglás pár méteres távolságon belül működik, az ízlelés és a tapintás pedig csak közvetlen közelről alkalmazható. Az érzékszervek csak rögzítik ingereket, ezek feldolgozását és értelmezését az agy végzi el.

A hallás a vizuális ingereket (látás) leginkább kiegészítő, azzal sokszor együttműködő érzékelés, amely nagyon fejlett „technológia”. A hallásban sokszor a látás is besegít, például beszédre utaló ajakmozgás esetén automatikusan aktiválódik a hallóközpont akkor is, ha egyébként teljes csend van.

Az egészséges ember hallástartománya 20 és 20 000 Hertz között van és képes akár 400 000 hangot megkülönböztetni.

Hangfelismerés

A hallás soha nem kapcsol ki teljesen, még alvás közben sem. A hallóközpont az agy a pihenését támogatva képes kizárni minden hangot, azonban azonnal riaszt, ha az egyén számára fontos inger érkezik, ilyen például az édesanyáknál a gyermekük felsírása, vagy bárkinél az életet veszélyeztető hangok.

Beszédértelmezés

A beszélt nyelv a fülek által érzékelt hanghullámok egyvelege, amit az agy óriási munkával alakít értelmes információkká. Az egyveleget olyan részekre bontja, amelyeket az emlékekben tárolt mintákkal összehasonlítva képes megérteni.

A beszédértelmezés összetettségét leginkább az un. koktélparti-jelenség mutatja meg. Egy zsúfolt koktélpartin rengeteg, egymáshoz közel kommunikáló ember hangja bombázza az emberi fület, mégis képes pusztán mentális eszközökkel kiválasztani és figyelni a számára érdekes beszélgetést. Ekkor az összes többi ingert háttérbe helyezi, azonban azonnal érzékeli, amint más irányból számára fontos információ hangzik el (például elhangzik a neve).

Gépi hangfelismerés – itt tart most a technológia

Az emberi hang többet elárul az emberről, mint gondolnánk. Az ember a hallása segítségével képes közelítő információkat megállapítani a beszélő hangulatáról, életkoráról és neméről.

A gépi hangfelismerés a hangok értelmezéséhez a mesterséges intelligenciát (AI - Artificial Intelligence) hívja segítségül. Az AI-val támogatott hangfelismerés bizonyos esetekben eléri, sőt meg is haladja az emberi képességeket, azonban több területeken még lényeges lemaradásban van.

Mára a mesterséges intelligencia segítségével képes a technológia még jobban felmérni a beszélőt a beszéde alapján, életkorra, nemre, etnikai hovatartozásra, társadalmi státuszra, aktuális érzelmi és akár egészségi állapotra vonatkozóan is.

A gépi hangfelismerés és a beszédértelmezés rendszerei

A hangfelismerés és a beszédértelmezés fogalmát sokszor összekeverik. A hangfelismerés a beszélő személy és az elhangzó szöveg azonosítására képes, míg a beszédértelmezés a beszélt nyelv megértését jelenti.

Az első hangfelismerő rendszert a Bell Laboratories 1952-ben jelentette meg. Audrey névre hallgatott és a kimondott számok felismerésére volt képes. Ezt követően több ehhez hasonló megoldás is napvilágot látott, de ezek még elég rossz pontossággal működtek.

A deep learning elterjedése jelentős áttörést hozott a hangfelismerés és a beszédértelmezés területén, azonban jelenleg is számos kihívást kell leküzdeni. A háttérzajok kiszűrése, az emberi nyelv komplexitásának kezelése, valamint a beszélgetők hangjainak szétválasztása továbbra is nehéz feladatok. Hazánkban mindezt tovább nehezíti a magyar nyelv használata, annak bonyolultsága, azaz a többi nyelvtől eltérő szóalkotási és ragozási módszerei miatt.

Az AI-nak köszönhetően a gépi hangfelismerés és a beszédértelmezés pontossága ma már a 95%-ot is elérheti.

Hétköznapi megoldások

Hangfelismerésen alapú megoldásokkal a hétköznapokban is lehet találkozni. Az okostelefonok világában már régóta jelen van az Alexa, a Siri, ezen az elven működik a zeneszámokat felismerő Shazam, illetve a Youtube is így készít feliratozásokat videókhoz.

Az emberekhez hasonlóan a gépi hangfelismerő rendszereket is tanítani kell, elsősorban a jellemző szókészletre, a hangok paramétereire, valamint a kiejtések szabályaira (pl. a Bravonet cégnév kiejtése nem „bravoné” ).

A jelenlegi hangfelismerő és beszédértelmező rendszerek nem dobozos megoldások, a felhasználási területhez igazítva, személyre szabott tanítást igényelnek, hiszen teljesen más nyelvezetet használnak például a pénzintézetek, vagy az egészségügyi intézmények, de még egy adott szektoron belül is felfedezhetők jelentős eltérések.

Hangfelismerés alkalmazása az ügyfélszolgálatoknál  

A gépi hangfelismerést az ügyfélszolgálatok jelenleg a bemondott szöveg leiratozására, valamint a beszélő azonosítására, elemzésére használhatják.

Leiratozás

Az ügyfélszolgálatokon zajló nagyszámú beszélgetésről a hangfelismerés segítségével nagy pontosságú leirat készíthető, akár valós időben is.

Beszélő azonosítása

A hangfelismerés segítségével a telefonáló hangjának spektruma hasonlítható össze a korábban tárolt hangmintájával. Adatvédelmi szempontból nagyon fontos, hogy a hangazonosításkor nem a szövegek tartalma, hanem a hang jellemző paraméterei kerülnek összevetésre a korábban tárolt hang paramétereivel. Minden ember hangjának más a hang spektruma, így ez a technológia alkalmas a beszélők megkülönböztetésére, azonosítására.

Hangfelismerés alapú beszédértelmezés alkalmazása az ügyfélszolgálatoknál

A hangfelismerésből kiinduló beszédértelmezés a mesterséges intelligencia segítségével képes egy leiratozott szöveg tartalmát értelmezni, arra válaszolni, illetve a leirat alapján egyszerű utasításokat végrehajtani. Az ügyfélszolgálatok ezt a telefonáló beszédének elemzésére, valamint hangalapú virtuális személyi asszisztensként használhatják.

Beszédelemzés

A beszédelemzés alkalmazható az ügyfelek elégedettségének, valamint az ügyfélszolgálati munkatárs munkájának mérésére is. Az ügyfél hanglejtéséből következtetni lehet az aktuális érzelmi állapotára, azaz meg lehet állapítani, hogy a telefonáló elégedett, ingerült, boldog, vagy éppen szomorú-e. Ezek az információk pedig nagy számú ügyfél esetén is lehetőséget biztosítanak a személyre szabott ügyfélkezelésre.

Hangalapú virtuális személyi asszisztens

Jelenleg ez a technológia a hangfelismerésen alapuló megoldások csúcsa. Egy jól betanított virtuális személyi asszisztens képes a betelefonáló ügyfél azonosítására, érzelmi állapotának folyamatos detektálására, a teljes beszélgetés valós idejű leiratozására, az elhangzott beszéd értelmezésére, egyszerűbb utasítások végrehajtására, valamint az ügyfélnek történő hang alapú válaszadásra. A gyakorlatban ezzel gyors ügyfélirányítást lehet megvalósítani, amivel kiválthatók a sokszor irritáló, szerteágazó IVR (Interactive Voice Response) rendszerek, valamint az egyszerűbb ügyféligények emberi beavatkozás nélkül, automatikusan kezelhetők.

virtuális személyi asszisztens

A hangalapú virtuális személyi asszisztens alkalmazásával jelentősen növelhető a betelefonáló ügyfelek elégedettsége, hiszen az ügyintézők gyors elérését, valamint egyszerűbb ügyek esetén, várakozás nélküli, azonnali ügyintézést kapnak. Az ügyfélszolgálati munkatársak pedig mentesülnek a gépies ügyfélkezelési munkafolyamatoktól, így több energiájuk marad a tényleges szakértelmet igénylő ügyek intézésére.

Nagyon fontos, hogy az itt vázolt megoldásoknál kiemelt figyelmet kell fordítani az ügyfelek megfelelő adatvédelmére.

Intelligens hangfelismerés alapú megoldások az ügyfélszolgálatoknál – valóban csökkentik a költségeket

A BLOG címében feltett kérdésre ezek után az egyértelmű válaszunk, hogy IGEN. A hangfelismerésen alapuló technológiák még egy ideig nem képesek kiváltani az embert az ügyfélszolgálatokon, azonban nagymértékben javíthatják és komfortosabbá tehetik a munkáját. A jobban működő ügyfélszolgálatok pedig kimutathatóan nagyobb hatékonyságot, azaz olcsóbb működést és jobb teljesítményt produkálnak. Mindezt úgy, hogy az ügyfelek sokkal nagyobb élményben részesülnek az ügyintézés során.

Amennyiben szeretne többet megtudni a hangfelismerésen alapuló ügyfélszolgálati megoldásokról, keressen bennünket.

© 2022 Bravonet Kft. All rights reserved | Adatvédelmi téjékoztató