在当今喧嚣的世界中,在人群中隔离出单一的声音对听力受损者来说是一个巨大的挑战。传统的降噪耳机虽然在减少背景噪音方面有效,但并不能完全消除噪音,使得在嘈杂环境中的对话变得困难。华盛顿大学(University of Washington,简称UW)的研究人员开发出了一种创新的解决方案,通过将人工智能(AI)集成到现成的降噪耳机中,解决了这一问题。
这项突破性的系统被称为目标语音听觉(Target Speech Hearing,简称TSH),利用AI根据佩戴者的视觉焦点单独识别一个说话者的声音。该技术在耳机上安装了两个麦克风,并通过机器学习算法识别和隔离所需的说话者的声音。用户只需看着他们想听到的人并按下按钮几秒钟,就能训练系统识别并放大该说话者的声音,同时过滤掉背景噪音。
华盛顿大学保罗·G·艾伦计算机科学与工程学院的Shyam Gollakota教授解释道:“在这个项目中,我们开发了AI来根据佩戴耳机者的偏好修改他们的听觉感知。通过我们的设备,即使在嘈杂的环境中有很多人说话,你也能清晰地听到单个说话者的声音。”
TSH系统实时处理说话者的声音,端到端延迟仅为18.24毫秒,确保用户的视觉焦点与听觉隔离之间几乎没有延迟。这个延迟时间比眨眼的时间(300至400毫秒)要短得多。
TSH的工作原理
TSH系统的操作从用户看向他们想要隔离的说话者开始。耳机通过双麦克风捕捉说话者声音的声波。AI软件分析这些声波,学习说话者的声纹,使系统能够即使在说话者移动时也能隔离并放大其声音。系统还通过实时音频数据不断提高其准确性。
在实际测试中,TSH系统表现出了显著的效果。用户报告说,通过TSH系统处理后,说话者的声音清晰度几乎是未处理时的两倍。AI功能确保一旦锁定了说话者的声音,用户即使移动或看向不同方向也不会失去音频清晰度。
未来前景与可及性
目前,TSH系统一次只能隔离一个目标说话者,并且在没有其他大声说话者从同一方向传来的情况下效果最佳。然而,研究人员对改进系统以处理多个声音并将其集成到耳塞和助听器中充满信心。TSH系统的代码已在GitHub上公开,允许其他开发者在此创新技术的基础上进行开发。
这项技术的潜力远不止于方便性,对于听力受损者来说具有重要意义。通过使用户能够在嘈杂的环境中集中注意力于单个说话者,TSH可以显著改善部分听力损失者的生活质量。