Step-Audio介绍
*
*
*
Step-Audio是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统,支持多语言对话(如中文、英文、日语),语音情感(如开心、悲伤),方言(如粤语、四川话),可控制语速及韵律风格,支持RAP和哼唱等。其核心技术突破体现在以下四大技术亮点:
-
1300亿多模态模型:单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能,开源千亿参数多模态模型Step-Audio-Chat
-
高效数据生成链路:基于130B突破传统TTS对人工采集数据的依赖,生成高质量的合成音频数据,并同步开源首个基于大规模合成数据训练,支持RAP和哼唱的指令加强版语音合成模型Step-Audio-TTS-3B
-
精细语音控制:支持多种情绪(如生气、高兴、悲伤)、方言(包括粤语、四川话等)和唱歌(包括RAP、干声哼唱)的精准调控,满足用户对多样化语音生成的需求
-
扩展工具调用:通过ToolCall机制和角色扮演增强,进一步提升其在Agents和复杂任务中的表现
在Step-Audio系统中,音频流采用Linguistic tokenizer(码率16.7Hz,码本大小1024)与Semantice tokenizer(码率25Hz,码本大小4096)并行的双码本编码器方案,双码本在排列上使用了2:3时序交错策略
通过音频语境化持续预训练和任务定向微调强化了130B参数量的基础模型(Step-1),最终构建了强大的跨模态语音理解能力。为了实现实时音频生成,系统采用了混合语音解码器,结合流匹配(flow matching)与神经声码技术

安装和使用
*
*
*
Step-Audio目前已经可以在ComfyUI中进行使用,官方提供了一个样例工作流。生成6秒的语音内容只需要15秒左右,显存占用也不高,10G左右显存就可以了。
-
项目主页: https://github.com/stepfun-ai/Step-Audio/blob/main/README_CN.md
gitclonehttps://github.com/billwuhao/ComfyUI_StepAudioTTS
pip install -r requirements.txt
Step-Audio-Tokenizer模型:https://modelscope.cn/models/stepfun-ai/Step-Audio-Tokenizer/files
Step-Audio-TTS-3B模型:https://modelscope.cn/models/stepfun-ai/Step-Audio-TTS-3B/files
下载后存放在/ComfyUI/models/TTS/目录中
最终目录结构如下:
ComfyUImodelsTTS
├── Step-Audio-Tokenizer
├── Step-Audio-TTS-3B

工作流
*
*
*
LIBLIBAI在线体验:
例句:背景展示一个城市天际线,带有高大、光滑的建筑物,其中一些灯光闪烁,增强了未来感
个性化语音生成:根据用户的不同需求,生成具有特定情感、语速和韵律风格的语音,为数字人、虚拟主播等提供个性化语音服务。