[ComfyUI]Step-Audio:多语言产品级开源语音对话系统,数字人必备!!!

最近阶跃星辰开源的Step-Audio项目爆,作为一个集语音理解与生成控制一体化的产品级开源实时语音对话系统,引起了业界广泛关注。本文将探讨Step-Audio的核心技术及应用场景。

Step-Audio介绍

*

*

*

Step-Audio是业界首个集语音理解与生成控制一体化的产品级开源实时语音对话系统,支持多语言对话(如中文、英文、日语),语音情感(如开心、悲伤),方言(如粤语、四川话),可控制语速及韵律风格,支持RAP和哼唱等。其核心技术突破体现在以下四大技术亮点:

  • 1300亿多模态模型:单模型能实现理解生成一体化完成语音识别、语义理解、对话、语音克隆、语音生成等功能,开源千亿参数多模态模型Step-Audio-Chat

  • 高效数据生成链路:基于130B突破传统TTS对人工采集数据的依赖,生成高质量的合成音频数据,并同步开源首个基于大规模合成数据训练,支持RAP和哼唱的指令加强版语音合成模型Step-Audio-TTS-3B

  • 精细语音控制:支持多种情绪(如生气、高兴、悲伤)、方言(包括粤语、四川话等)和唱歌(包括RAP、干声哼唱)的精准调控,满足用户对多样化语音生成的需求

  • 扩展工具调用:通过ToolCall机制和角色扮演增强,进一步提升其在Agents和复杂任务中的表现

在Step-Audio系统中,音频流采用Linguistic tokenizer(码率16.7Hz,码本大小1024)与Semantice tokenizer(码率25Hz,码本大小4096)并行的双码本编码器方案,双码本在排列上使用了2:3时序交错策略

通过音频语境化持续预训练和任务定向微调强化了130B参数量的基础模型(Step-1),最终构建了强大的跨模态语音理解能力。为了实现实时音频生成,系统采用了混合语音解码器,结合流匹配(flow matching)与神经声码技术

Architecture

安装和使用

*

*

*

Step-Audio目前已经可以在ComfyUI中进行使用,官方提供了一个样例工作流。生成6秒的语音内容只需要15秒左右,显存占用也不高,10G左右显存就可以了。

  • 项目主页: https://github.com/stepfun-ai/Step-Audio/blob/main/README_CN.md

插件安装
ComfyUI插件地址:https://github.com/billwuhao/ComfyUI_StepAudioTTS
下载插件到/ComfyUI/custom_nodes/目录中
gitclonehttps://github.com/billwuhao/ComfyUI_StepAudioTTS
进入到ComfyUI_StepAudioTTS目录中,执行下面的代码安装插件
pip install -r requirements.txt
模型下载

Step-Audio-Tokenizer模型:https://modelscope.cn/models/stepfun-ai/Step-Audio-Tokenizer/files

Step-Audio-TTS-3B模型:https://modelscope.cn/models/stepfun-ai/Step-Audio-TTS-3B/files

下载后存放在/ComfyUI/models/TTS/目录中

最终目录结构如下:

ComfyUImodelsTTS├── Step-Audio-Tokenizer├── Step-Audio-TTS-3B

工作流

*

*

*

LIBLIBAI在线体验:

https://www.liblib.art/modelinfo/bfea50ab658143ecb536abcfde8df277
Step-Audio的应用场景广泛,从个人助理、在线教育到娱乐游戏,都展现了其强大的语音生成与编辑能力。无论是稳定长视频的生成,还是风格化非真实人类和多种分辨率比例的案例,Step-Audio都展现了良好的适应性。
其中,StepAudioRun节点是通过模拟内置的人物语音,实现语音看快速生成;而StepAudioClone节点,则是通过输入一段音频及对应文字,模型通过采集输入的音频及对应文字,进而输出我们想要的音频,就是进行实时克隆,StepAudioClone节点中,上面的文本框中是输入你想让模型最终输出的音频的文本,下面的文本框中是输入被克隆的音频的文字。

例句:背景展示一个城市天际线,带有高大、光滑的建筑物,其中一些灯光闪烁,增强了未来感

个性化语音生成:根据用户的不同需求,生成具有特定情感、语速和韵律风格的语音,为数字人、虚拟主播等提供个性化语音服务。

多语言及方言支持:支持中英文、日语韩语等多种语言以及方言,如四川话、粤语等,满足不同地区用户的需求。
情感丰富的对话体验:通过设置语音的情感,如开心、悲伤、撒娇等,提供更加丰富和真实的对话体验。