科金社2025年10月01日 22:40消息,豆包大模型1.6-vision发布,首次支持调用工具的视觉深度思考,开启AI新纪元。
10月1日消息,火山引擎昨日正式发布豆包大模型1.6-vision,这是该模型家族中首款具备工具调用能力的视觉深度思考模型。该版本在通用多模态理解和推理方面表现出更强的能力,并支持ResponsesAPI,能够以更具性价比的方式满足用户对视觉理解精准度的更高要求。 从技术发展角度看,豆包大模型1.6-vision的推出标志着多模态AI在实际应用中的进一步深化。视觉与语言的结合,不仅提升了模型的理解力,也为其在复杂场景下的应用打开了更多可能性。尤其是在需要精准识别与分析的行业,如医疗、安防、电商等领域,这一升级将带来更高效、更智能的解决方案。
据官方介绍,豆包大模型1.6-vision凭借其在工具调用方面的独特能力,能够将图像有效融入其思维链中,实现对图片的定位、裁剪、选择、绘制线条、缩放及旋转等精细化操作。同时,该模型通过模拟人类“从整体观察到局部深入”的视觉推理过程,在提升推理过程可解释性的同时,也能够高效且精准地完成各类图像处理任务。
与上一代Doubao-1.5-thinking-vision-pro相比,豆包大模型1.6-vision综合成本下降约50%。在用户最常使用的32K输入输出场景下,成本由5.25元降至2.6元。
注意到,今年6月,火山引擎曾发布豆包大模型1.6版本,通过增强多模态思考能力,提升了对复杂场景的理解与处理能力。
留言评论
(已有 0 条评论)暂无评论,成为第一个评论者吧!