为推动后续研究与实际应用落地,Meta 同步发布了“全语种 ASR 语料库”(Omnilingual ASR Corpus)—— 一个包含 350 种代表性不足语言的、大规模转录语音数据集。该语料库采用知识共享署名许可协议(CC-BY)开放获取,旨在支持开发者与研究人员针对特定本地语言需求,构建或适配定制化的语音识别模型。
Omnilingual ASR 的一项关键创新在于其“自带语言”(Bring Your Own Language)功能,该功能依托上下文学习(in-context learning)机制实现。受大型语言模型技术启发,用户仅需提供少量配对的语音与文本样本,系统即可直接从中学习,无需重新训练或依赖高算力资源,就能添加新的语言。
Meta 指出,理论上该方法可将 Omnilingual ASR 的语言支持能力扩展至 5400 余种,远超当前行业标准。尽管对极低资源语言的识别质量尚不及完全训练的水平,但该技术已首次为众多此前完全缺乏语音识别能力的语言社区提供了切实可行的解决方案。
Meta 以 Apache 2.0 开源许可协议发布 Omnilingual ASR 全部模型,允许研究人员与开发者自由使用、修改及商用;配套数据集则采用 CC-BY 协议开放。Omnilingual ASR 模型家族涵盖从适用于低功耗设备的轻量级 3 亿参数版本,到追求“顶尖精度”的 70 亿参数版本,满足不同应用场景需求。所有模型均基于 FAIR 自主研发的 PyTorch 框架 fairseq2 构建。