Vedci z Washingtonskej univerzity vyvinuli systém AI, ktorý umožňuje slúchadlám s potlačením hluku izolovať a zosilniť jeden hlas v preplnenom, hlučnom prostredí.
Technológia s názvom Target Speech Hearing (TSH) umožňuje používateľom vybrať si konkrétnu osobu, ktorú bude počúvať, jednoduchým pohľadom na ňu na niekoľko sekúnd.
Systém TSH rieši bežnú výzvu, ktorej čelia slúchadlá s potlačením hluku: hoci účinne znižujú okolitý hluk, robia to bez rozdielu, čo používateľom sťažuje počutie konkrétnych zvukov, na ktoré by sa možno chceli zamerať.
Ako povedal Shyam Gollakota, profesor na Washingtonskej univerzite a vedúci výskumník projektu, vysvetľuje„Počúvanie konkrétnych ľudí je základným aspektom toho, ako komunikujeme a ako komunikujeme s inými ľuďmi. Ale môže byť naozaj náročné, aj keď nemáte žiadne problémy so stratou sluchu, zamerať sa na konkrétnych ľudí, pokiaľ ide o hlučné situácie.“
Ako to funguje
The štúdium inteligentne kombinuje slúchadlá s potlačením hluku a AI, aby sa začlenil do jednotlivých hlasov v hlasnom a preplnenom prostredí.
- Počas fázy „registrácie“ sa používateľ na niekoľko sekúnd pozerá na cieľový reproduktor, čo umožňuje binaurálnym mikrofónom na slúchadlách zachytiť zvukovú vzorku obsahujúcu vokálne charakteristiky reproduktora, a to aj v prítomnosti iných reproduktorov a zvukov.
- Zachytený binaurálny signál je spracovaný neurónovou sieťou, ktorá sa učí charakteristiky cieľového reproduktora, pričom oddeľuje jeho hlas od rušivých reproduktorov pomocou smerových informácií.
- Naučené charakteristiky cieľového rečníka, reprezentované ako vektor vloženia, sa potom vložia do inej neurónovej siete navrhnutej na extrahovanie cieľovej reči z kakofónie rečníkov.
- Keď sa počas registračnej fázy naučia charakteristiky cieľového rečníka, používateľ sa môže pozerať akýmkoľvek smerom, pohybovať hlavou alebo chodiť, pričom stále počúva cieľového rečníka.
- Systém TSH nepretržite spracováva prichádzajúci zvuk, pričom využíva naučené zabudovanie reproduktora na izoláciu a zosilnenie hlasu cieľového reproduktora a zároveň potláča ostatné hlasy a hluk v pozadí.
Aktuálny prototyp dokáže efektívne zaregistrovať iba cieľového rečníka, ktorého hlas je najhlasnejší v určitom smere, ale tím pracuje na zlepšenie systému tak, aby zvládol zložitejšie scenáre s rôznymi, rôznorodými zdrojmi zvuku.
Samuele Cornell, výskumník Inštitútu jazykových technológií na Carnegie Mellon University, chváli výskum pre jeho jasné aplikácie v reálnom svete a uvádza: „Myslím si, že je to krok správnym smerom. Je to závan čerstvého vzduchu.“
Zatiaľ čo systém TSH je v súčasnosti dôkazom konceptu, výskumníci rokujú o začlenení tejto technológie do populárnych značiek slúchadiel s potlačením hluku a jej sprístupnení pre načúvacie pomôcky.
Spolu s vylepšenou analýzou zvuku a reči, ktorá poskočila dopredu s GPT-4otí so zrakovým aj sluchovým postihnutím sa budú môcť lepšie napojiť na zmyslový svet okolo nich.