培训对象: 语音算法工程师、智能语音产品经理、呼叫中心系统开发者、人机交互设计人员。
培训目标:
理解语音识别(ASR)和语音合成(TTS)的基本原理。
掌握Whisper、FunASR等开源ASR模型的使用。
熟练使用VITS、Edge-TTS等TTS引擎生成语音。
能够构建语音交互系统并优化体验。
培训内容介绍:
二、 OpenAI Whisper模型原理: 了解Whisper的多任务训练和弱监督学习,支持多语言和翻译的特点。
三、 Whisper本地部署与使用: 安装Whisper,使用命令行和Python API进行语音识别,选择不同模型尺寸。
四、 Whisper参数调优: 调整温度、最佳候选数等参数,处理长音频的切分和合并,提升识别准确率。
五、 FunASR框架实战: 使用阿里开源的FunASR,体验中文场景下的优化效果,进行实时语音识别。
六、 语音端点检测(VAD): 使用WebRTC VAD或Silero VAD检测说话起止,优化长音频处理。
七、 TTS技术演进: 了解传统拼接合成与神经网络合成(Tacotron、FastSpeech)的差异。
八、 Edge-TTS快速使用: 使用微软Edge-TTS在线服务,集成多种音色,控制语速和音调。
九、 VITS端到端合成: 部署VITS模型,体验端到端的高质量合成,使用不同声优模型。
十、 语音克隆技术: 使用GPT-SoVITS或OpenVoice实现少样本语音克隆,合成指定人声。
十一、 语音交互系统设计: 结合ASR、LLM和TTS构建语音对话系统,处理唤醒、打断和对话管理。
十二、 实战项目:智能语音助手开发: 开发完整的语音交互应用(如语音查询、有声阅读),实现从语音输入到语音输出的闭环。