Moshi – 一个实时对话的语音-文本基础模型和全双工口语对话框架-齐朵屋

Moshi – 一个实时对话的语音-文本基础模型和全双工口语对话框架

7个月前发布

0600

Moshi是一个实时对话的语音-文本基础模型和全双工口语对话框架，使用先进的流式神经音频编解码器Mimi。Mimi能够以1.1kbps的带宽处理24kHz的音频，实现12.5Hz的表示，并且性能优于现有的非流式编解码器。Moshi通过预测文本标记来改善生成质量，同时使用小型深度变换器和大型7B参数时间变换器来处理时间依赖性。Moshi在L4 GPU上的实际整体延迟低至200ms。该框架支持Python和Rust版本，并提供了三个模型：Mimi、Moshiko和Moshika。

特点说明

Moshi介绍: Moshi是一个实时对话的语音-文本基础模型，使用Mimi编解码器，以80ms的延迟处理音频，预测文本标记，提升生成质量。
技术细节: Mimi基于之前的神经音频编解码器，通过Transformer编码器和解码器，实现12.5Hz的帧率，减少Moshi中的自回归步骤。
版本和模型: 存储库中包含Python（PyTorch和MLX）和Rust版本的Moshi推理栈，以及客户端代码。发布了三个模型：Mimi、Moshiko和Moshika。
安装和使用: 需要Python 3.10或更高版本，可以通过pip安装PyTorch和MLX客户端。对于Rust后端，需要安装CUDA和nvcc。
开发和贡献: 克隆存储库后，可以使用pip安装开发依赖，并运行本地服务器进行交互式模式测试。
许可证: Python部分采用MIT许可证，Rust后端采用Apache许可证，模型权重采用CC-BY 4.0许可证。

Moshi地址

此处内容已隐藏，请评论后刷新页面查看.

© 版权声明

版权声明：本文内容采用 CC BY-NC-SA 4.0 协议许可，转载请注明
根据《计算机软件保护条例》第十七条规定“为了学习和研究软件内含的设计思想和原理，通过安装、显示、传输或者存储软件等方式使用软件的，可以不经软件著作权人许可，不向其支付报酬。”本站所有内容资源均来源于网络，仅供用户交流学习与研究使用，版权归属原版权方所有，版权争议与本站无关，用户本人下载后不能用作商业或非法用途，需在24小时内从您的设备中彻底删除下载内容，否则一切后果请您自行承担，如果您喜欢该程序，请购买注册正版以得到更好的服务。

THE END

工具
# Github仓库 # AI工具

喜欢就支持一下吧

相关推荐

评论抢沙发

请登录后发表评论

暂无评论内容