这是一个多语言语音理解模型,具有以下特点和功能:
简介
- SenseVoice 是一个包含多种语音理解能力的语音基础模型,涵盖自动语音识别(ASR)、口语语言识别(LID)、语音情感识别(SER)和音频事件检测(AED)。
亮点
- 专注于高精度多语言语音识别、语音情感识别和音频事件检测。
- 支持超过50种语言,识别性能超越了Whisper模型。
- 具备出色的情感识别能力,并且在测试数据上达到了当前最佳情感识别模型的效能。
- 提供声音事件检测能力,支持检测多种常见的声音事件。
- 高效的推理能力,SenseVoice-Small模型使用非自回归端到端框架,推理延迟极低。
- 提供便捷的微调脚本和策略,便于用户根据业务场景解决长尾样本问题。
- 提供服务部署流程,支持多并发请求。
最新更新
- 2024年7月,开源了SenseVoice-Small语音理解模型,支持普通话、粤语、英语、日语和韩语的高精度多语言语音识别、情感识别和音频事件检测。
- 介绍了CosyVoice,这是一个自然语音生成工具,具有多语言、音色和情感控制功能。
- 介绍了FunASR,这是一个基础语音识别工具包,包含多种功能。
基准测试
- 在多语言语音识别方面,SenseVoice与Whisper在开源基准数据集上进行了性能比较。
- 在语音情感识别方面,由于缺乏广泛使用的基准和方法,SenseVoice在多个测试集上进行了评估,并与多个最新基准的结果进行了全面比较。
- 在音频事件检测方面,尽管SenseVoice仅在语音数据上训练,但仍然可以作为独立的事件检测模型。
计算效率
- SenseVoice-Small模型的推理速度非常快,比Whisper-Small快5倍,比Whisper-Large快15倍。
使用方法
- 提供了Python代码示例,展示如何使用SenseVoice模型进行推理。
微调
- 提供了微调的代码示例和数据准备指南。
该项目是一个开源项目,由FunAudioLLM组织维护,提供了丰富的文档和代码示例,以帮助用户使用和微调模型。
© 版权声明
版权声明:本文内容采用 CC BY-NC-SA 4.0 协议许可,转载请注明
根据《计算机软件保护条例》第十七条规定“为了学习和研究软件内含的设计思想和原理,通过安装、显示、传输或者存储软件等方式使用软件的,可以不经软件著作权人许可,不向其支付报酬。”本站所有内容资源均来源于网络,仅供用户交流学习与研究使用,版权归属原版权方所有,版权争议与本站无关,用户本人下载后不能用作商业或非法用途,需在24小时内从您的设备中彻底删除下载内容,否则一切后果请您自行承担,如果您喜欢该程序,请购买注册正版以得到更好的服务。
THE END
暂无评论内容