火山引擎豆包大模型升级，视频理解与3D生成能力惊艳亮相！

发布时间：2024-12-18 14:16:59 浏览量：73

近日，火山引擎宣布其豆包大模型家族迎来全面升级，新增视频理解模型与3D生成模型，并对文生图模型、音乐模型以及通用模型pro进行了显著优化。同时，公司预告将在2025年春季推出豆包视频生成模型1.5版，该版本将具备更强的长视频生成能力，而豆包端到端实时语音模型也即将上线。

火山引擎此次推出的豆包·视频理解模型，在价格上极具竞争力，其输入价格定为每千Tokens 0.003元，相比行业平均水平降低了85%。这一价格意味着，用户仅需1元即可同时处理约284张720P分辨率的图片。目前，该模型已接入豆包App及PC端产品。

与此同时，豆包·3D生成模型也正式亮相。该模型与火山引擎的数字孪生平台veOmniverse结合使用，能够高效完成智能训练、数据合成以及数字资产制作，从而形成了一套支持AIGC创作的物理世界仿真模拟器。用户通过输入文本，即可实时生成3D场景和模型，极大地提升了创作效率与协作体验。

豆包家族的其他模型也迎来了不同程度的升级。通用模型pro已全面对齐GPT-4o的能力，但其使用价格仅为后者的1/8。音乐模型现已能够生成3分钟的完整音乐作品。而文生图模型2.1版本则在业界首次实现了精准生成汉字和一句话P图的产品化能力，并已接入即梦AI和豆包App。

火山引擎还对其火山方舟、扣子以及HiAgent三款平台产品进行了升级。火山方舟推出了大模型记忆方案、Prefix Cache和Session Cache API以及全域AI搜索，旨在帮助企业构建自身的AI能力中心，并高效开发AI应用。扣子1.5版本则提供了全新的AI应用开发环境、更强的多模态能力以及精品模板商店，进一步降低了构建AI应用的难度。HiAgent 1.5版本则提供了100多个行业应用模板以及全新的GraphRAG能力，使得可视化效果更加清晰。

火山引擎总裁谭待在会上公布了豆包大模型的最新成绩单。数据显示，豆包大模型的日均tokens增长使用量已超过4万亿，较首次发布时增长了33倍。大模型应用正加速向各行业渗透，豆包大模型已与八成主流汽车品牌合作，并在过去7个月内，汽车行业日均Tokens消耗增长了50倍。豆包大模型还已接入多家手机、PC等智能终端，覆盖终端设备约3亿台，来自智能终端的豆包大模型调用量在半年时间内增长了100倍。

豆包·视频理解模型不仅支持输入文本和图像问题，还能精准识别和理解视觉内容，并具备强大的推理能力。它可根据图像信息进行复杂的逻辑计算，完成分析图表、处理代码、解答学科问题等任务。在火山引擎Force大会的现场演示中，豆包视频理解模型展示了其强大的功能，如识物解答、读报告、读代码、解读画作、找物品推荐穿搭等。

豆包·3D生成模型与veOmniverse的结合使用，使得用户可以通过输入文本快速搭建工厂车间等场景，显著提升创作效率。该模型支持文生3D、图生3D以及多模态生成，1分钟内即可生成高保真高质量的3D资产，并可实现复杂物品、物品组合大规模场景生成以及多模态3D资产编辑。

在文生图模型方面，火山引擎升级后的模型支持一键P图和一键海报功能。用户只需输入简单的自然语言，即可对图像进行换装、美化、涂抹、风格转化等修图工作。特别是“一句话轻松生成海报”功能，首次实现了精准中文文字生成，并能够生成更全面的描述、更精美的画面和排版。音乐模型也进行了升级，支持输入歌词生成完整的3分钟音乐作品，并合理运用旋律、节奏、和声等信息，使全曲保持连贯性。

火山引擎豆包大模型升级，视频理解与3D生成能力惊艳亮相！

相似文章