SenseVoice:具有音频理解能力的音频基础模型-齐朵屋

SenseVoice:具有音频理解能力的音频基础模型

5个月前更新

0390

这是一个多语言语音理解模型，具有以下特点和功能：

简介

SenseVoice 是一个包含多种语音理解能力的语音基础模型，涵盖自动语音识别（ASR）、口语语言识别（LID）、语音情感识别（SER）和音频事件检测（AED）。

亮点

专注于高精度多语言语音识别、语音情感识别和音频事件检测。
支持超过50种语言，识别性能超越了Whisper模型。
具备出色的情感识别能力，并且在测试数据上达到了当前最佳情感识别模型的效能。
提供声音事件检测能力，支持检测多种常见的声音事件。
高效的推理能力，SenseVoice-Small模型使用非自回归端到端框架，推理延迟极低。
提供便捷的微调脚本和策略，便于用户根据业务场景解决长尾样本问题。
提供服务部署流程，支持多并发请求。

最新更新

2024年7月，开源了SenseVoice-Small语音理解模型，支持普通话、粤语、英语、日语和韩语的高精度多语言语音识别、情感识别和音频事件检测。
介绍了CosyVoice，这是一个自然语音生成工具，具有多语言、音色和情感控制功能。
介绍了FunASR，这是一个基础语音识别工具包，包含多种功能。

基准测试

在多语言语音识别方面，SenseVoice与Whisper在开源基准数据集上进行了性能比较。
在语音情感识别方面，由于缺乏广泛使用的基准和方法，SenseVoice在多个测试集上进行了评估，并与多个最新基准的结果进行了全面比较。
在音频事件检测方面，尽管SenseVoice仅在语音数据上训练，但仍然可以作为独立的事件检测模型。

计算效率

SenseVoice-Small模型的推理速度非常快，比Whisper-Small快5倍，比Whisper-Large快15倍。

使用方法

提供了Python代码示例，展示如何使用SenseVoice模型进行推理。

微调

提供了微调的代码示例和数据准备指南。

该项目是一个开源项目，由FunAudioLLM组织维护，提供了丰富的文档和代码示例，以帮助用户使用和微调模型。

此处内容已隐藏，请评论后刷新页面查看.

© 版权声明

版权声明：本文内容采用 CC BY-NC-SA 4.0 协议许可，转载请注明
根据《计算机软件保护条例》第十七条规定“为了学习和研究软件内含的设计思想和原理，通过安装、显示、传输或者存储软件等方式使用软件的，可以不经软件著作权人许可，不向其支付报酬。”本站所有内容资源均来源于网络，仅供用户交流学习与研究使用，版权归属原版权方所有，版权争议与本站无关，用户本人下载后不能用作商业或非法用途，需在24小时内从您的设备中彻底删除下载内容，否则一切后果请您自行承担，如果您喜欢该程序，请购买注册正版以得到更好的服务。

THE END

工具
# Github仓库

喜欢就支持一下吧

相关推荐

评论抢沙发

请登录后发表评论

暂无评论内容