Moshi – 一个实时对话的语音-文本基础模型和全双工口语对话框架

Moshi是一个实时对话的语音-文本基础模型和全双工口语对话框架,使用先进的流式神经音频编解码器Mimi。Mimi能够以1.1kbps的带宽处理24kHz的音频,实现12.5Hz的表示,并且性能优于现有的非流式编解码器。Moshi通过预测文本标记来改善生成质量,同时使用小型深度变换器和大型7B参数时间变换器来处理时间依赖性。Moshi在L4 GPU上的实际整体延迟低至200ms。该框架支持Python和Rust版本,并提供了三个模型:Mimi、Moshiko和Moshika。

特点说明

  • Moshi介绍: Moshi是一个实时对话的语音-文本基础模型,使用Mimi编解码器,以80ms的延迟处理音频,预测文本标记,提升生成质量。
  • 技术细节: Mimi基于之前的神经音频编解码器,通过Transformer编码器和解码器,实现12.5Hz的帧率,减少Moshi中的自回归步骤。
  • 版本和模型: 存储库中包含Python(PyTorch和MLX)和Rust版本的Moshi推理栈,以及客户端代码。发布了三个模型:Mimi、Moshiko和Moshika。
  • 安装和使用: 需要Python 3.10或更高版本,可以通过pip安装PyTorch和MLX客户端。对于Rust后端,需要安装CUDA和nvcc。
  • 开发和贡献: 克隆存储库后,可以使用pip安装开发依赖,并运行本地服务器进行交互式模式测试。
  • 许可证: Python部分采用MIT许可证,Rust后端采用Apache许可证,模型权重采用CC-BY 4.0许可证。

Moshi地址

© 版权声明
THE END
喜欢就支持一下吧
点赞0 分享
评论 抢沙发

请登录后发表评论

    暂无评论内容