在當今喧囂的世界中,在人群中隔離出單一的聲音對聽力受損者來說是一個巨大的挑戰。傳統的降噪耳機雖然在減少背景噪音方面有效,但並不能完全消除噪音,使得在嘈雜環境中的對話變得困難。華盛頓大學(University of Washington,簡稱UW)的研究人員開發出了一種創新的解決方案,通過將人工智能(AI)集成到現成的降噪耳機中,解決了這一問題。
這項突破性的系統被稱為目標語音聽覺(Target Speech Hearing,簡稱TSH),利用AI根據佩戴者的視覺焦點單獨識別一個說話者的聲音。該技術在耳機上安裝了兩個麥克風,並通過機器學習算法識別和隔離所需的說話者的聲音。用戶只需看著他們想聽到的人並按下按鈕幾秒鐘,就能訓練系統識別並放大該說話者的聲音,同時過濾掉背景噪音。
華盛頓大學保羅·G·艾倫計算機科學與工程學院的Shyam Gollakota教授解釋道:“在這個項目中,我們開發了AI來根據佩戴耳機者的偏好修改他們的聽覺感知。通過我們的設備,即使在嘈雜的環境中有很多人說話,你也能清晰地聽到單個說話者的聲音。”
TSH系統實時處理說話者的聲音,端到端延遲僅為18.24毫秒,確保用戶的視覺焦點與聽覺隔離之間幾乎沒有延遲。這個延遲時間比眨眼的時間(300至400毫秒)要短得多。
TSH的工作原理
TSH系統的操作從用戶看向他們想要隔離的說話者開始。耳機通過雙麥克風捕捉說話者聲音的聲波。AI軟件分析這些聲波,學習說話者的聲紋,使系統能夠即使在說話者移動時也能隔離並放大其聲音。系統還通過實時音頻數據不斷提高其準確性。
在實際測試中,TSH系統表現出了顯著的效果。用戶報告說,通過TSH系統處理後,說話者的聲音清晰度幾乎是未處理時的兩倍。AI功能確保一旦鎖定了說話者的聲音,用戶即使移動或看向不同方向也不會失去音頻清晰度。
未來前景與可及性
目前,TSH系統一次只能隔離一個目標說話者,並且在沒有其他大聲說話者從同一方向傳來的情況下效果最佳。然而,研究人員對改進系統以處理多個聲音並將其集成到耳塞和助聽器中充滿信心。TSH系統的代碼已在GitHub上公開,允許其他開發者在此創新技術的基礎上進行開發。
這項技術的潛力遠不止於方便性,對於聽力受損者來說具有重要意義。通過使用戶能夠在嘈雜的環境中集中注意力於單個說話者,TSH可以顯著改善部分聽力損失者的生活質量。