劳动报-又一国产多模态大模型开源，突破AI交互“低双商”瓶颈

又一国产多模态大模型开源，突破AI交互“低双商”瓶颈

来源：劳动观察作者：陈宁发布时间：2025-09-02 14:50

摘要： 近日，阶跃星辰正式发布开源端到端语音大模型Step-Audio 2 mini。

近日，阶跃星辰正式发布开源端到端语音大模型Step-Audio 2 mini，该模型在通用多模态音频理解等多个国际基准测试集上取得SOTA（State-of-The-Art，即当前最佳水平）成绩。Step-Audio 2 mini将语音理解、音频推理与生成统一建模，在音频理解、语音识别、跨语种翻译、情感与副语言解析、语音对话等任务中表现较好，并支持语音原生的Tool Calling能力，可实现联网搜索等操作。

根据测评，Step-Audio 2 mini可以从引擎声中听出汽车正在加速，可以联网搜索国内外资讯，还可以像聊天一样和用户实时讨论没有标准答案的哲学问题。目前，该模型现已上线阶跃星辰开放平台、GitHub、Hugging Face、魔搭社区等平台下载并体验。

随着语音交互成为人机主要交互方式，智能终端设备对语音模型的智商及情商水平提出了更高要求。据了解，Step-Audio 2 mini首创了音频推理能力，能对情绪、语调、音乐等副语言和非语音信号进行精细理解、推理并自然回应，由此让AI听懂人类的“弦外之音”；同时，该模型率先支持语音原生的Tool Calling能力，可实现联网搜索等操作，有效解决模型幻觉问题，并让语音模型像文本模型一样具有更强大的知识储备和推理能力。

在此之前，吉利发布了搭载阶跃星辰端到端语音大模型的吉利银河M9，这是行业内端到端语音大模型首次实现量产上车。据阶跃星辰相关人士介绍，自去年发布国内首个千亿参数端到端语音大模型Step-1o Audio 以来，该公司持续迭代模型性能，并跟吉利、鲸鱼机器人、TCL、Cyan青心意创等头部终端厂商达成深度合作，让语音大模型在生活场景中为消费者提供更加智能、便捷的互动体验。

头图来源：图虫

责任编辑：李蓓

劳动观察新闻，未经授权不得转载