Kombinationen af lyd og kamera forbedrer lydoplevelsen for høreapparatbrugere

Kombinationen af lyd og kamera forbedrer lydoplevelsen for høreapparatbrugere

Ny banebrydende forskning skal gøre livet lettere for mennesker med nedsat hørelse. Ph.d.-studerende Daniel Michelsanti fra Aalborg Universitet (AAU) anvender visuelle input i en ny algoritme, som skal forbedre talesignaler og gøre det nemmere for høreapparatbrugere at deltage aktivt i samtaler i støjfyldte omgivelser.

Mennesker med normal hørelse kan i de fleste tilfælde forstå hinanden uden de store anstrengelser, når de kommunikerer i et støjfyldt miljø. Hvis man derimod har nedsat hørelse, er det ofte et stort problem at forstå og følge samtaler og her kan et høreapparat ofte være til hjælp. Ved at tilføje visuelle input, vha. af et kamera, kan en ny banebrydende algoritme løse svære kommunikationssituationer for personer med nedsat hørelse.

Visuelle input kombineres med lyd

I samarbejde med høreapparatproducenten Oticon er der, på centeret for Acoustic Signal Processing Research (CASPR), midlertidigt forsket og udviklet algoritmer med fokus på andre inputkilder end lyd. Det visuelle input er interessant, da det er tæt knyttet til den måde, som mennesker opfatter lyd på:

-Når vi kommunikerer bruger vi vores øjne til at navigere og finde ud af, hvor lyde kommer fra. Dette gælder for alle, ikke kun mennesker med nedsat hørelse. Derfor er der et stort potentiale i at inkorporere en visuel kilde i høreapparater, forklarer Jesper Jensen, professor ved Institut for Elektroniske Systemer AAU og seniorforsker ved Oticon

Hvad sker der, når man tilføjer et visuelt element til et høreapparat?

For personer med nedsat hørelse kan det være svært at deltage aktivt i samtaler i støjfyldte omgivelser. Problemet er kendt som ”cocktailparty-problemet”, og det er et meget aktivt forskningsområde, eftersom problemet også opstår i mange andre dagligdagssituationer. Daniel Michelsantis projekt er et vigtigt skridt mod at designe algoritmer, som kan løse sådanne scenarier. Der findes brugbar visuel information i enhver samtalesituation, fx talerens mundbevægelser og ansigtsudtryk. Derfor kan kombinationen af visuelle og akustiske input anvendes til at designe taleforbedringsalgoritmer til brug i støjfyldte situationer. Løsningen er en maskinlæringsalgoritme, som er i stand til at kombinere de visuelle og akustiske input, således at talesignalet forbedres.

-Da vi fandt ud af, at det visuelle input kunne anvendes til at forbedre talesignaler, designede vi et system der kan mundaflæse. Systemet kan rekonstruere en persons tale udelukkende ved at bruge video, forklarer Daniel Michelsanti, ph.d.-studerende ved Institut for Elektroniske Systemer AAU

Daniel Michelsanti har desuden udarbejdet diverse demonstrationstest, som indikerer markant stigning i talekvaliteten og -forståelsen, når der tilføjes visuelle input til det akustiske input. Således kan man i den nye algoritme, hjælpe med at få identificeret, hvem blandt de mange stemmer, man skal præsentere høreapparatbrugeren for.

-Hvis du forestiller dig, at du har et kamera i høreapparatet, så får vi adgang til uopnåelig information, som kan bruges i høreapparatet. I dag anvendes signalbehandling for at finde ud af, hvem der taler i støjfyldte omgivelser. Hvis du har et kamera, vil du øjeblikkeligt være i stand til at udpege, hvem der taler. Derfor er et visuelt input en åbenlys måde at få informationer, der ellers ville være vanskelige at opnå, forklarer Jesper Jensen

-Et visuelt input indeholder informationer, der komplementerer det tilsvarende akustiske signal. Men de to signaler er meget forskellige, hvilket gør det udfordrende at kombinere dem i en algoritme. Derudover er visuelle signaler immune overfor akustisk støj og er derfor særligt nyttige at anvende i høreapparater, tilføjer Zheng-Hua Tan, professor ved Institut for Elektroniske Systemer AAU

Et kig ind til fremtidens høreapparat

Daniel Michelsantis projekt har vist stort potentiale og han vil nu arbejde med at udvide og modne algoritmer, der anvender både akustiske og visuelle input.

-Det er interessant at undersøge hvordan vi oplever og opfatter verden på ved at kombinere vores sanser. Den måde mennesker oplever verden, der omgiver os på, er multisensorisk. Med andre ord, vores oplevelse af verden er en kombination af, hvad vores sanser opfatter. Jeg synes det er fascinerende at udvikle systemer, der på den måde efterligner mennesker, siger Daniel Michelsanti

-Projektet giver anledning til flere spørgsmål, fx vedrørende de økonomiske aspekter, da et kamera vil være et relativt dyrt komponent. Og ønsker du faktisk at have et kamera tilsluttet et høreapparat? Men med Daniels projekt tager vi et kig ind i fremtiden for at finde ud af, hvordan vi bruger et visuelt input og viser fordelene ved det. Og det er gavnligt for den fremtidige forskning i taleforbedring og for at forbedre livskvaliteten hos høreapparatbrugere, tilføjer Jesper Jensen

 

Kontakt

Daniel Michelsanti, Ph.d.-studerende, Institut for Elektroniske Systemer, Aalborg Universitet, danmi@es.aau.dk

Zheng-Hua Tan, professor og vejleder, CASPR, Aalborg Universitet, zt@es.aau.dk tlf. 9940 8686


Jesper Jensen, professor og vejleder, CASPR, Aalborg Universitet, samt seniorforsker, Oticon A/S, jje@es.aau.dk, tlf. 3913 8981

Camilla Klindt Thorup, Communication Officer, Institut for Elektroniske Systemer, Aalborg Universitet

ckt@es.aau.dk

All news

See the list