新闻中心

联系方式

海南省民企服务中心

电话：18508932366

手机：18508932366

地址：海南海口市龙华区紫荆路2-1号紫荆信息公寓B座8楼

豆包语音识别模型2.0发布：能听懂字看懂图支持

今日，火山引擎发布豆包语音识别模型2.0（Doubao-Seed-ASR-2.0），依托Seed混合专家大语言模型架构构建。据介绍，2.0版本模型推理能力提升，可以通过深度理解上下文完成精准..

18508932366 立即咨询

豆包语音识别模型2.0发布：能听懂字看懂图支持

发布时间：2025-12-05 热度：

12月5日，火山引擎正式推出其新一代语音识别系统——豆包语音识别模型2.0。新版本在核心架构与技术能力上实现了显著升级。

据悉，该2.0版本大幅提升了系统的推理与理解能力。通过深度分析对话的上下文语境，其整体关键词的准确捕捉率较以往提升了20%。这意味着系统能够更精准地把握用户表达的真实意图。

此次升级的另一大亮点是引入了多模态识别技术。新系统不仅能处理音频信息，还能结合单张或多张图片等视觉信息进行综合判断，从而实现“既听声音，也看内容”的识别效果，进一步提高了文字转写的准确性。

豆包语音识别模型2.0支持多模态识别

在语种支持方面，新版模型的服务范围进一步扩大，新增了对日语、韩语、德语、法语等共计13种外语的精准识别能力，以满足更广泛的国际化应用需求。

模型支持13种外语识别

针对日常识别中的难点，2.0版本进行了专项优化。系统在处理专有名词、人名、地名、品牌名称以及容易混淆的多音字时，表现出更强的鲁棒性和准确性。

以一个具体场景为例：在讨论历史人物生平时，若用户提到“苏辙贬谪地筠（yún）州”，传统识别技术可能因同音字问题误判为“云州”或“郓州”。而新一代系统能够依据对话中关于“苏轼、苏辙”的背景信息进行逻辑推理，即使前文未出现“筠州”，也能准确锁定这一特定历史地名，实现精准识别。

模型在复杂专有名词识别上的应用示例

目前，豆包语音识别模型2.0已在火山引擎的“火山方舟”体验中心正式上线，并通过API接口向企业和开发者开放服务。

（举报）

相关推荐

关键词：

语音识别
豆包模型
多模态识别
海外语种

荐AI日报：字节推StoryMem系统；月之暗面再推多模态新模型；AI眼镜Pickle 1发布

本期AI日报聚焦多项AI领域进展：字节跳动推出StoryMem系统，提升AI生成视频角色一致性28.7%；月之暗面计划2026年推出多模态模型K2.1/K2.5；智能眼镜Pickle 1实现“无限记忆”与主动交互；清华与OpenBMB开源音频模型评测框架UltraEval-Audio；OpenAI押注语音交互，整合团队重构音频系统；开源工具Antigravity支持多账号切换，突破AI使用限制；元象开源面向泛娱乐场景的大模型XVERSE-Ent；苹果回应“国行版AI功能阉割”传闻，提醒用户勿通过第三方强行激活。

AI视频生成角色一致性字节跳动
它石智航 WIYH 数据集正式开源：全球首个具身 VLTA 多模态数据，加速具身智能真实世界落地

它石智航开源了全球首个大规模真实世界具身多模态数据集WIYH，填补了高质量、可泛化、大规模真实世界数据的空白。该数据集采用以人为中心的新范式，破解了数据采集成本高、仿真数据迁移难等痛点，为具身基座模型实现Scaling Law提供了关键语料。WIYH数据集具备真实可靠、丰富多元、全面多模态、规模化等特征，并拥有海量数据，覆盖10余种核心场景全链路任务。它石还�

具身智能多模态数据集 VLTA
英国一边牧能识别220个单词：获封最聪明狗狗称号

《每日邮报》报道，英国7岁边境牧羊犬哈维能记住220个玩具的名字，并按指令准确找回对应物品，被称为英国最聪明的狗狗”。研究人员称，全球仅约10只狗具备类似能力，目前哈维已受到布达佩斯、朴次茅斯等多家天才犬”研究机构关注。哈维的主人、52岁的艾琳休

边境牧羊犬聪明狗狗玩具识别
英国一只7岁边牧能识别220个玩具主人回应

，近日，英国7岁边境牧羊犬能记住220个玩具的名字引发热议。据狗狗主人艾琳介绍，它能按指令准确找回对应物品，还被称为英国最聪明的狗狗”。研究人员称，全球仅约10只狗具备类似能力，目前它已受到布达佩斯、朴次茅斯等多家天才犬”研究机构关注。艾琳表示，从幼犬时期起，她就以游戏方式训练它识别单词。

边境牧羊犬聪明狗狗玩具记忆
小米MIX 5来了！真全面屏回归：支持屏下3D人脸识别

小米MIX系列即将回归，依然主打真全面屏设计。发布时间会比iPhone 18系列更早一些，也就是在9月之前，抢先一步实现屏下3D人脸识别。从时间段来看，小米MIX 5有望在明年举行的雷军年度演讲上正式亮相。回顾小米MIX系列，自2021年8月小米MIX 4发布以来，该系列已有较长时间未进行更新。小米MIX 4搭载了高通骁龙888 Plus芯片，并首次引入了屏下摄像头技术，实现了正面无开�

小米MIX 真全面屏屏下3D人脸识别
不露脸，只出声，语音厅怎么就成了300亿黑马？

不露脸，只出声，直播日均流水超200万元，一款周边爆卖20.6万元。当团播还在卷生卷死的时候，纯靠声音的语音厅却悄悄拿下了一个300亿的市场，并捧出了“

海南省民企服务中心提供海南公司注册、海南代理记账、海南企业股权变更、减资等服务！欢迎来电咨询！

上一篇：联想moto X70 Air云上舞白冰钻限定版官宣：自带1
下一篇：没有了

海南公司注册首选海南省民企服务中心！提供海南自贸岛公司注册、海南公司代理记账、海南公司地址托管、免税政策咨询、海南园区地址提供、海南公司异常解除、海南公司注销、三亚海口个体户注册注销服务！

全部服务分类

新闻中心

联系方式

豆包语音识别模型2.0发布：能听懂字看懂图支持

豆包语音识别模型2.0发布：能听懂字看懂图支持

荐AI日报：字节推StoryMem系统；月之暗面再推多模态新模型；AI眼镜Pickle 1发布

它石智航 WIYH 数据集正式开源：全球首个具身 VLTA 多模态数据，加速具身智能真实世界落地

英国一边牧能识别220个单词：获封最聪明狗狗称号

英国一只7岁边牧能识别220个玩具主人回应

小米MIX 5来了！真全面屏回归：支持屏下3D人脸识别

不露脸，只出声，语音厅怎么就成了300亿黑马？

相关阅读

分脚色语音识别讯飞智能办公本X2一连热卖--财富资讯_海南公司注册

海南公司注册首选海南省民企服务中心！提供海南自贸岛公司注册、海南公司代理记账、海南公司地址托管、免税政策咨询、海南园区地址提供、海南公司异常解除、海南公司注销、三亚海口个体户注册注销服务！

全部服务分类

新闻中心

联系方式

豆包语音识别模型2.0发布：能听懂字看懂图 支持

豆包语音识别模型2.0发布：能听懂字看懂图 支持

荐AI日报：字节推StoryMem系统；月之暗面再推多模态新模型；AI眼镜Pickle 1发布

它石智航 WIYH 数据集正式开源：全球首个具身 VLTA 多模态数据，加速具身智能真实世界落地

英国一边牧能识别220个单词：获封最聪明狗狗称号

英国一只7岁边牧能识别220个玩具 主人回应

小米MIX 5来了！真全面屏回归：支持屏下3D人脸识别

不露脸，只出声，语音厅怎么就成了300亿黑马？

相关阅读

分脚色语音识别 讯飞智能办公本X2一连热卖--财富资讯_海南公司注册

豆包语音识别模型2.0发布：能听懂字看懂图支持

豆包语音识别模型2.0发布：能听懂字看懂图支持

英国一只7岁边牧能识别220个玩具主人回应

分脚色语音识别讯飞智能办公本X2一连热卖--财富资讯_海南公司注册