智谱宣布开源视觉推理模型GLM-4.5V正式上线并开源

来自: 和讯财经 收藏 邀请

凤凰网科技讯 8月11日,智谱AI推出全球100B级效果最佳的开源视觉推理模型 GLM-4.5V(总参数 106B,激活参数 12B),并同步在魔搭社区与Hugging Face开源。此外,API调用价格低至输入2元/M tokens,输出6元/M tokens。

GLM-4.5V基于智谱新一代旗舰文本基座模型GLM-4.5-Air,延续GLM-4.1V-Thinking 技术路线,在41个公开视觉多模态榜单中综合效果达到同级别开源模型SOTA性能,涵盖图像、视频、文档理解以及GUI Agent等常见任务。比如,GLM-4.5V能够根据用户提问,精准识别、分析、定位目标物体并输出其坐标框。

据介绍,多模态推理被视为通向通用人工智能(AGI)的关键能力之一,让AI能够像人类一样综合感知、理解与决策。其中,视觉-语言模型(Vision-Language Model, VLM)是实现多模态推理的核心基础。

(责任编辑:董萍萍 )

【免责声明】本文仅代表作者本人观点,与和讯网无关。和讯网站对文中陈述、观点判断保持中立,不对所包含内容的准确性、可靠性或完整性提供任何明示或暗示的保证。请读者仅作参考,并请自行承担全部责任。邮箱:news_center@staff.hexun.com


鲜花

握手

雷人

路过

鸡蛋
相关推荐
实时动态
焦点话题
热门排行

在线客服(服务时间 9:00~18:00)

在线QQ客服
公司地址:广州市黄埔区康富路32号101房
客服电话:13326565461
电子邮箱:30376048757@qq.com

Powered by 广州丁冬科技有限公司 © 2025 aiwsw.com Inc.( 粤ICP备2024347580号-3 )