Moshi是一个实时对话的语音-文本基础模型和全双工口语对话框架,使用先进的流式神经音频编解码器Mimi。Mimi能够以1.1kbps的带宽处理24kHz的音频,实现12.5Hz的表示,并且性能优于现有的非流式编解码器。Moshi通过预测文本标记来改善生成质量,同时使用小型深度变换器和大型7B参数时间变换器来处理时间依赖性。Moshi在L4 GPU上的实际整体延迟低至200ms。该框架支持Python和Rust版本,并提供了三个模型:Mimi、Moshiko和Moshika。
特点说明
- Moshi介绍: Moshi是一个实时对话的语音-文本基础模型,使用Mimi编解码器,以80ms的延迟处理音频,预测文本标记,提升生成质量。
- 技术细节: Mimi基于之前的神经音频编解码器,通过Transformer编码器和解码器,实现12.5Hz的帧率,减少Moshi中的自回归步骤。
- 版本和模型: 存储库中包含Python(PyTorch和MLX)和Rust版本的Moshi推理栈,以及客户端代码。发布了三个模型:Mimi、Moshiko和Moshika。
- 安装和使用: 需要Python 3.10或更高版本,可以通过pip安装PyTorch和MLX客户端。对于Rust后端,需要安装CUDA和nvcc。
- 开发和贡献: 克隆存储库后,可以使用pip安装开发依赖,并运行本地服务器进行交互式模式测试。
- 许可证: Python部分采用MIT许可证,Rust后端采用Apache许可证,模型权重采用CC-BY 4.0许可证。
Moshi地址
© 版权声明
版权声明:本文内容采用 CC BY-NC-SA 4.0 协议许可,转载请注明
根据《计算机软件保护条例》第十七条规定“为了学习和研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软件等方式使用软件的,可以不经软件著作权人许可,不向其支付报酬。”本站所有内容资源均来源于网络,仅供用户交流学习与研究使用,版权归属原版权方所有,版权争议与本站无关,用户本人下载后不能用作商业或非法用途,需在24小时内从您的设备中彻底删除下载内容,否则一切后果请您自行承担,如果您喜欢该程序,请购买注册正版以得到更好的服务。
THE END
暂无评论内容