#AI Meta 刚刚发布了开源SpiritLM,第一个 支持混合文本和语音的开源多模式语言模型。完全开源,成本可以立马打到不要钱。
官方介绍:目前,许多现有的 AI 语音体验都使用 ASR 技术来处理语音,然后使用 LLM 进行合成以生成文本 - 但这些方法损害了语音的表达能力。使用语音、音高和声调标记,Spirit LM 模型可以克服输入和输出的这些限制,以生成听起来更自然的语音,同时还可以学习 ASR、TTS 和语音分类方面的新任务。 我们希望分享这项工作将使研究界能够进一步探索文本和语音集成的新方法。
https://github.com/facebookresearch/spiritlm
官方介绍:目前,许多现有的 AI 语音体验都使用 ASR 技术来处理语音,然后使用 LLM 进行合成以生成文本 - 但这些方法损害了语音的表达能力。使用语音、音高和声调标记,Spirit LM 模型可以克服输入和输出的这些限制,以生成听起来更自然的语音,同时还可以学习 ASR、TTS 和语音分类方面的新任务。 我们希望分享这项工作将使研究界能够进一步探索文本和语音集成的新方法。
https://github.com/facebookresearch/spiritlm