News Image

AudioSep:用自然语言描述实现任意音频分离

AudioSep是一个基于自然语言查询的开放领域声音分离的基础模型。其目标是根据自然语言查询从音频混合中分离目标声音,为数字音频应用提供一个自然且可扩展的接口。AudioSep在大规模的多模态数据集上进行训练,并在多个任务上进行评估,包括音频事件分离、乐器分离和语音增强。AudioSep展示了强大的分离性能和使用音频标题或文本标签作为查询的零射击泛化能力。

2023-10-15