功能特点
■ 支持多种语音类型
包括清晰的标准普通话、方言(如粤语、四川话)、外语(如英语、日语),方言、外语和实时转写需定制。
■ 语义优化与格式规整
根据语气停顿(如 “嗯”“啊” 等语气词)和语义逻辑,添加逗号、句号、问号等,使文字更通顺。
■ 角色区分与标识
在电话对话场景中,自动区分双方并标注(如 “发言人 1”“发言人 2”),清晰呈现对话逻辑。
■ 语音识别准确率高
标准普通话转写准确率在98%以上,标准英语识别准确率95%以上。
■ 支持多种录音文件格式
支持pcm/wav/opus/mp3/mp4/m4a/amr/3gp/aac等格式的音频。
■ 适应复杂环境
通过降噪算法,减少背景噪音(如会议室杂音、街道喧闹声)、回声对转写的影响,提升模糊语音的识别精度。
■ 支持私有化部署
支持私有化部署,服务器最低配置为:
CPU:主频3.0以上, 8核16线程,内存:16G DDR4,操作系统:Linux,国产操作系统。