全球多模态推理新标杆,GLM-4.5V正式上线并开源
多模态推理被视为通向通用人工智能(AGI)的关键能力之一,让 AI 能够像人类一样综合感知、理解与决策。其中,视觉-语言模型(Vision-Language Model, VLM)是实现多模态推理的核心基础。
今年 7 月,智谱发布并开源了全球 10B 级效果最强的 VLM——GLM-4.1V-9B-Thinking。该模型以小搏大,展现了小体积模型的极限性能潜力,上线后迅速登上 Hugging Face Trending 榜首,并累计获得超过 13 万次下载。
今天,智谱推出全球 100B 级效果最佳的开源视觉推理模型 GLM-4.5V(总参数 106B,激活参数 12B),并同步在魔搭社区与 Hugging Face 开源。这是智谱在通向 AGI 道路上的又一探索性成果。
开源列表:
GitHub:https://github.com/zai-org/GLM-V
Hugging Face:https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102
魔搭社区:https://modelscope.cn/collections/GLM-45V-8b471c8f97154e
在线体验:欢迎前往 z.ai,选择 GLM-4.5V 模型,上传图片或视频,即刻体验;或前往智谱清言APP/网页版,上传图片,开启“推理模式”进行体验。
此外,在保持高精度的同时,GLM-4.5V 兼顾推理速度与部署成本,为企业与开发者提供高性价比的多模态 AI 解决方案。
API 调用价格:低至输入 2 元/M tokens,输出 6 元/M tokens
响应速度:达到 60-80 tokens/s
API 接口文档:http://docs.bigmodel.cn/api-reference
GLM-4.5V API 现已上线智谱开放平台 BigModel.cn,智谱为所有新老用户准备了 2000 万 Tokens 的免费资源包。领取链接:https://zhipuaishengchan.datasink.sensorsdata.cn/t/bv
开源多模态 SOTA
GLM-4.5V 基于智谱新一代旗舰文本基座模型 GLM-4.5-Air,延续 GLM-4.1V-Thinking 技术路线,在 41 个公开视觉多模态榜单中综合效果达到同级别开源模型 SOTA 性能,涵盖图像、视频、文档理解以及 GUI Agent 等常见任务。
在多模态榜单之外,智谱更重视模型在真实场景下的表现与可用性。GLM-4.5V 通过高效混合训练,具备覆盖不同种视觉内容的处理能力,实现全场景视觉推理,包括:
图像推理(场景理解、复杂多图分析、位置识别)
视频理解(长视频分镜分析、事件识别)
GUI 任务(屏幕读取、图标识别、桌面操作辅助)
复杂图表与长文档解析(研报分析、信息提取)
Grounding 能力(精准定位视觉元素)
同时,模型新增“思考模式”开关,用户可灵活选择快速响应或深度推理,平衡效率与效果。
为帮助开发者直观体验 GLM-4.5V 的模型能力,打造专属于自己的多模态应用,智谱同步开源了一款桌面助手应用。
该桌面应用可实时截屏、录屏获取屏幕信息,并依托 GLM-4.5V 处理多种视觉推理任务,日常处理如代码辅助、视频内容分析、游戏解答、文档解读等多类视觉任务,成为一个能看着屏幕和你一起工作娱乐的伙伴。智谱也希望通过模型开源和API服务,赋能更多有想法的开发者,基于多模态基座模型发挥创意和想象,把过去科幻电影中的场景变为现实。
1.视觉定位:精准识别和定位目标物体,应用潜力强大
GLM-4.5V 能够根据用户提问,精准识别、分析、定位目标物体并输出其坐标框。该能力在现实世界拥有广阔的应用场景,例如安全与质量检查、高空遥感监测分析。相较于传统的基于视觉模型的物体识别,GLM-4.5V 凭借更丰富的世界知识与更强大的语义理解能力,能够通过推理理解更复杂的定位指令。
2.前端复刻:输入网页截图或交互视频,即可复刻网页
GLM-4.5V具备强大的推理与代码生成能力,能够对上传的网页截图进行分析,并将其转化为结构化的网页代码。与简单的图像元素识别不同,GLM-4.5V能够深入理解并推断元素间的逻辑关系、布局规则和交互意图,从而生成高度准确且功能完整的网页代码。
值得注意的是,GLM-4.5V在未对视频输入进行专门训练的情况下,也能结合视频理解与代码生成能力,通过其强大的泛化能力对网页交互视频进行分析,输出相应的网页代码,成功复刻视频中展示的网页内容。
在以下示例中,GLM-4.5V能够通过分析用户浏览知乎的视频,精准识别网页中所有元素的内容、样式与布局,并还原其背后的HTML、CSS和JavaScript代码,确保运行效果与原始视频高度一致。同时,模型会分析视频帧间的动态变化,建模并实现网页交互逻辑,最终复刻出真正可交互的前端页面。此外,用户可通过圈选标记方式向模型提出修改需求,模型据此进一步优化页面,实现真正的视觉交互闭环。
3.图像识别与推理:视觉神探,精准识别图像细节并推理背景信息
GLM-4.5V具备强大的感知与推理能力。一个典型应用是:在不依赖搜索工具的情况下,模型能通过图像中的细微线索推理出背景信息。例如,上传任意风景或街拍图片后,GLM-4.5V可分析植被特征、气候痕迹、建筑风格等要素,精准推测图片拍摄地点及大致经纬度。
为验证GLM-4.5V的地点识别能力,智谱让其参与"图寻游戏"全球积分赛,与国内两万余名顶尖人类玩家同台竞技。该游戏要求玩家在限定时间内,根据风景街景图片推测拍摄地的经纬度,比拼速度与精度。
- 参赛16小时:GLM-4.5V击败99%的人类玩家
- 参赛7天:模型攀升至全球第66名
这一结果充分证明了GLM-4.5V在复杂视觉推理任务中的卓越表现。
4.复杂文档深度解读: 不止擅长信息提取、总结和翻译,也能表达自己的见解
GLM-4.5V可以阅读长达数十页、含有大量图表的复杂长文本,能够对文本进行总结、翻译、图表提取等操作;此外,还能在给定信息的基础上输出自己的"观点"。与传统的OCR信息提取+文本模型解读的方式不同,GLM-4.5V会像人类一样,以视觉方式读取文档中的每一页图片,避免了信息提取过程中的错误传递,实现了文字与图像的同时理解,因此对于图表、表格等视觉化、结构化信息的保留和解读会更加准确。
例如,智谱可以给GLM-4.5V上传一份图文并茂的技术报告,让它翻译并解读其中的技术亮点。
5.强大的 GUI Agent 能力,为 Agent 任务打基础
基于强大的视觉推理能力,GLM-4.5V 能够识别和处理电子屏幕画面,在 GUI 环境中进行对话问答、图标定位等任务。同时,智谱将 GUI Agent 的能力融合到基座模型,模型能够结合当前 GUI 界面与用户指令输出相应操作,配合相应的 Agent 软件能够完成复杂的 GUI Agent 任务,为广大 Agent 项目提供可靠的基座模型支持。
例如,智谱可以给 GLM-4.5V 传入一张陈列了数十个商品的电商页面,让它识别商品图中的折扣价格与标题中的原价,并且计算出折扣比例。
GLM-4.5V 由视觉编码器、MLP 适配器和语言解码器三部分组成,支持 64K 多模态长上下文,支持图像与视频输入,并通过三维卷积提升视频处理效率。模型采用双三次插值机制,有效增强了模型对高分辨率及极端宽高比图像的处理能力与稳健性;同时,引入三维旋转位置编码(3D-RoPE),显著强化了模型对多模态信息的三维空间关系的感知与推理能力。
GLM-4.5V 采用三阶段策略:预训练、监督微调(SFT)和强化学习(RL)。其中,在预训练阶段,智谱结合大规模图文交错多模态语料和长上下文内容,强化了模型对复杂图文及视频的处理能力;在 SFT 阶段,智谱引入了显式“思维链”格式训练样本,增强了 GLM-4.5V 的因果推理与多模态理解能力;最后,RL 阶段,智谱引入全领域多模态课程强化学习,通过构建多领域奖励系统(Reward System),结合可验证奖励强化学习(RLVR)与基于人类反馈的强化学习(RLHF),GLM-4.5V 在 STEM 问题、多模态定位、Agent 任务等方面获得全面优化。
通视光电获陆石投资Pre-IPO轮投资
近日,陆石投资完成对长春通视光电技术股份有限公司(下称“通视光电”,“公司”)的Pre-IPO轮投资,在全球无人装备与低空经济加速发展背景下,陆石投资关注综合光电系统领域的长期发展潜力。经过对赛道企业的细致筛选和行业趋势的审慎研判,陆石投资与通视光电达成深度互信并展开投资合作,未来双方将深化协作、共赢发展。
通视光电是一家由原中科院长春光机所光电领域专家团队创立,专注于综合光电系统研发、制造和服务的国家级专精特新重点“小巨人”企业。公司对标国际领先光电技术和前沿应用趋势,持续推进产品研发迭代,已形成航空机载光电吊舱、车船载光电转台、无人机侦测反制系统等领域近百款产品,广泛应用于侦察监测、警务航空、应急救援、森林防火、电力巡线、黑飞搜跟等场景,填补国家多项技术空白。
新声半导体完成2.88亿元B+轮融资
近日,滤波器企业 “新声半导体” 宣布已完成 2.88 亿元 B + 轮融资。本轮融资由洪泰基金领投,其他投资方包括泓生资本、滕华投资、中山金控、合肥市建投集团及滨湖金投集团。本轮融资后,新声半导体将依托重庆、合肥和中山三地国资基金资源,进一步强化研发能力,加快海外业务布局。
新声半导体成立于 2021 年,是一家专注于声学滤波器及射频前端模组研发、生产和销售的高新技术企业,核心产品包括 BAW(体声波)、SAW(表面声波)、TC-SAW(温度补偿型表面声波)等滤波器及 FEM 模组。其法定代表人为邹洁,企业注册资本 2278.1607 万人民币。
硅基智能获数亿D轮融资
近日,AIGC独角兽南京硅基智能科技集团股份有限公司宣布完成数亿元D轮融资,投资方为嘉兴高新区产业基金。本轮资金将重点投入技术研发创新、产品市场化应用以及区域产业深度融合,进一步巩固公司在数字人技术领域的领先地位。司马华鹏表示,硅基智能正积极推动AI从“工具型产品”迈向“结果导向的智能合伙人”,探索数字人技术在全球产业生态中的可持续商业模式。
长晶科技完成亿元新一轮融资
近日,国内头部功率半导体企业长晶科技完成新一轮战略融资,融资规模达亿元级别,本轮投资方包括江苏省节能环保战新产业基金、蓝天投资等。
江苏长晶科技股份有限公司成立于2018年11月7日,是一家以自主研发、销售服务为主体的半导体产品研发、设计和销售公司,公司在深圳、上海、北京、香港等地设立子公司、分公司及办事处。公司主营二极管、三极管、MOSFET、IGBT单管/模块、LDO、DC-DC、频率器件、功率器件等产品的研发、设计和销售,拥有20000多个产品系列和型号,产品广泛应用于消费电子、工业控制、汽车电子和新能源领域。长晶科技已连续六年(2019年至2024年)入选“中国功率器件十强企业”,并获评国家级专精特新“小巨人”企业。
奥达生物完成3000万元A轮融资
近日,成都高新区生物医药企业成都奥达生物科技有限公司(以下简称“奥达生物”)自主研发的GLP-1R/GCG双受体激动剂AOD113408注射液(用于非酒精性脂肪肝治疗)正式获得国家药监局临床试验批准;同时公司A轮融资获道远资本3000万元领投。
此次获批临床的AOD113408注射液,是奥达生物基于自主研发的长效化修饰技术的又一成果。该技术通过精准突变肽链关键位点保护降低氨基酸抗酶解,联合应用多种修饰显著延长多肽血浆半衰期。相较于传统PEG、融合蛋白等修饰技术,该技术长效化修饰后保留多肽活性、延长半衰期,临床用药量低、成本大幅降低,为慢病患者便捷用药、长期用药提供保障。
目前,奥达生物正推进包括AOD113408注射液在内的13个I类多肽创新药项目,其中8项已完成成药性研究,3项获I期临床默示许可。
砺博生物完成近亿元Pre-A轮融资
近日,专注于靶向RNA小分子创新药物研发的砺博生物宣布完成近亿元Pre-A轮融资,走出隐匿模式。砺博生物本轮融资由天士力资本和磐霖资本共同领投,元生创投、浙江省“4+1”生物医药与高端器械产业基金、诚信创投跟投。浩悦资本担任本轮融资的独家财务顾问。
砺博生物成立于2022年9月,同年11月便获得了创新工场和红杉中国种子基金的天使轮投资。公司拥有一支经验丰富、优势互补的创始团队,科学创始人周耀旗教授在结构计算领域深耕近30年,是RNA结构预测方向的国际领军人物,做出了MARS数据库、RNA-MSM语言模型、Spot-RNA二级结构预测方法和BRiQ-RNA三级结构预测方法等一系列开创性的工作。公司创始人、CEO詹剑博士长期从事RNA三级结构的发现、探测和预测工作,是CODA、Mobi-Seq等“干湿闭环”的RNA稳定三级结构发现方法的核心发明人。公司创始人方超博士长期从事小分子药物开发,拥有超过8年的靶向RNA小分子产业化开发经验。
聆动通用完成数亿元天使+轮融资
近日,安徽聆动通用机器人科技有限公司(以下简称 “聆动通用”)宣布完成数亿元人民币天使+轮融资。此次融资由元禾璞华战略领投,讯飞创投持续战略加码,投资方还涵盖优势资本、盈科投资、天智投资、合肥高投等头部市场化及地方国资机构。据悉,本轮融资主要用于加速公司行业级具身 VLA 大模型和具身通用机器人的研发及产业化。
聆动通用成立于 2024 年 12 月,此前已成功完成两轮数千万元的天使轮融资。公司聚焦于打造高泛化性的具身大模型和通用鲁棒的机器人本体。在技术路线上,采取全栈自研的 “多模态通用大模型基座 + 行业级 Linden_VLM 具身基础模型 + Linden_VLA 技能操作模型” 分层端到端架构。
消息称软银砸3.75亿美元接盘富士康美国电动汽车工厂
据彭博社,软银集团买下了富士康在美国俄亥俄州的电动汽车工厂,此举旨在启动软银与OpenAI、甲骨文公司合作的5000亿美元“星际之门”数据中心项目。本周早些时候,富士康母公司鸿海表示,已同意以3.75亿美元将该电动车工厂出售给Crescent Dune LLC,但未透露该实体背后的公司。知情人士称,软银正是富士康此次交易的买方。 鸿海曾投资软银第一期愿景基金,它的参与将有助于软银创始人孙正义 (Masayoshi Son) 实现其雄心勃勃的计划:在蓬勃发展的AI硬件投资浪潮中占据核心地位。
消息称华为即将发布 AI 推理领域突破性成果
据《科创板日报》,华为将于 8 月 12 日在 2025 金融 AI 推理应用落地与发展论坛上,发布 AI 推理领域的突破性技术成果。据透露,这项成果或能降低中国 AI 推理对 HBM(高带宽内存)技术的依赖,提升国内 AI 大模型推理性能,完善中国 AI 推理生态的关键部分。
迅路创新完成数千万元新一轮融资
近日,E-cargo bike(载货电助力自行车)厂商迅路创新完成新一轮数千万元融资,本轮融资由红杉中国种子基金领投,顺为资本等多家老股东持续跟投。融资资金将用于首款产品的量产和新一代产品的研发。
迅路创新于2023年7月成立,2年间已完成4轮融资,历史股东包括顺为资本、德迅投资、XBOTPARK基金、Brizan Ventures、初心资本以及高秉强教授。
摩漾生物完成数亿元新一轮融资
近日,上海摩漾生物科技有限公司宣布成功完成新一轮数亿元融资,蓝驰创投参与投资。本轮融资为摩漾生物在再生生物材料领域的持续深耕注入了强大动力,加速推进优法兰™魔法CC针等核心产品的商业布局,在生产、销售、品牌建设等各方面都提供了坚实的助力,为企业的研发创新和市场扩张、全球布局提供强劲资金支持。
本次融资资金将主要用于进一步扩充营销团队,提升全球市场覆盖率,同步加速下一代产品的研发进程,推动摩漾生物在再生医美领域的产业化布局,助力其朝着成为医美行业“再生医美领域领导企业”的目标全速迈进。
上海摩漾生物成立于2018年,拥有完全自主专利,是国际领先的高科技、专精特新企业。旗下aphranel优法兰™作为中国人自主研发一款高端注射用羟基磷酸钙微球面部填充剂,是首款中国NMPA批准的医疗美容适应症三类医疗器械注册认证产品,不仅同时斩获了欧盟 MD、五国 MDSAP证书、墨西哥COFEPRIS审核后的产品注册证等国际权威认证,更是全球首个实现 CaHA 微球粒径、孔径及降解速率精准调控,并实现自主研发、生产与销售的头部医美品牌之一。摩漾生物的专利CaHA材料凭借其安全、可完全降解、效果自然深受全球专家与求美者的信任与喜爱。秉承“让医美回归医疗本真”的使命,始终坚持创新科技带动产品应用,为医生和消费者提供安全优质的产品以及严谨专业的服务。
跨越星辰,时空道宇携手中联重科探索空天地一体化工程机械新生态
北京时间8月9日00时31分,吉利星座第四个轨道面,在山东日照附近海域,以一箭11星方式成功发射,11颗卫星顺利进入预定轨道,所有卫星状态正常,发射任务取得圆满成功。
此次发射的11颗卫星中,其中一颗被命名为“中联重科号”。
据悉,吉利星座是时空道宇规划建设的全球低轨物联通信星座,通过轨道面级发射部署实现快速建设,星座一期72颗卫星组网,实现全球实时物联通信,提供全球商用低轨卫星通信服务。时空道宇已完成基于吉利该星座的自研卫星通信芯片、模组、终端系列产品的研发和量产,并完成商用POC测试,实现终端、卫星、地球站、应用平台等系统节点的业务闭环。
作为中国工程机械与商业航天领域的代表企业,中联重科与时空道宇始终秉持开放共赢的合作理念,积极拥抱前沿科技与创新模式。吉利星座拥有覆盖全球的低轨卫星物联通信能力,可围绕工程机械行业设备状态监测、远程运维、复杂工况通信保障等核心应用场景,打造稳定、可靠、广覆盖的全球智能设备互联服务网络。
此次“中联重科号”卫星发射,是国内工程机械行业首次与商业航天企业携手合作冠名卫星项目,不仅刷新了行业与航天跨界合作的新高度,更将助力中联重科持续强化“科技+智造”品牌形象,塑造国际工程装备智能互联新标杆,拓展设备出海与全球运维服务新空间。
精灵生命完成近亿元天使轮融资
近日,专注于影像流式细胞仪原创研发的精灵生命科学(武汉)有限公司(以下简称:精灵生命)完成近亿元天使轮融资。本轮融资由明熙资本和君联资本联合领投、湖北科投跟投,资金将用于公司独创的 LASE(Linear Array Spot Excitation)光谱影像流式细胞仪的开发,推动国产高端流式技术的全球普及。
精灵生命以“光谱影像流式全球普及”为使命,围绕高通量成像与高维参数获取这一行业核心痛点,提出了独创性的线阵结构光LASE影像流式技术平台,在成像速度、图像质量、参数通道数、数据成本及系统架构复杂度等方面全面突破。