
智谱官方于6月15日通过港交所公告确认,已推出最新一代旗舰模型GLM-5.2,模型提供达到1M的长上下文处理能力,并将在下周遵循MIT协议全面开源。
这是智谱自今年2月发布GLM-5以来的又一次重要产品迭代。
从参数来看,GLM-5.2延续了MoE稀疏混合专家架构与动态稀疏注意力技术路线,总参数达744B,激活参数约40B,训练数据截止至2025年11月,目前仅支持纯文本与代码模态,不含多模态能力。
与5.1版本约200K的上下文窗口相比,5.2将上限提升至1M tokens,官方强调这一提升经过了工程验证而不仅仅是参数表上的数字。
在真实场景测试中,GLM-5.2成功处理了74万条服务器日志的根因分析,并能单次会话完成跨四份合同文档的条款冲突识别。工具调用能力方面,模型在正确率、JSON格式合法性等测试中保持了100%通过率。
代码能力是本轮升级的核心方向之一,在非官方的LLM Benchmark Code V3私有评测中,GLM-5.2取得了第三名的综合成绩,维护者评价其可用性持平Claude Opus 4.8,在国内厂商中首次拉开了代差。
实测中,模型能一次性生成包含五大同心圆层、七颗齿轮的机械天文钟,产出925行无外部依赖的纯前端代码;在处理A*、Dijkstra与BFS三种寻路算法的可视化时,模型能自主实现优先队列组件而非调用库函数。
模型引入了High与Max两档思考强度设定,复杂编码任务推荐使用Max档以确保架构级逻辑严谨。
但GLM-5.2也存在几处明显短板。其一是推理速度问题,在相同复杂任务中,GLM-5.2耗时45分钟,而Claude Opus 4.8仅用33分钟就完成,更慢的处理节奏影响了实时交互体验。有用户反馈其响应速度打破了DeepSeek此前的最慢记录。
其二是指令遵循表现出现分化,盲测显示GLM-5.2在多步指令执行中偶尔缺失分隔符,否定约束下首次调用输出为空,暴露出\"过度思考挤占输出空间\"的倾向。
第三,模型在复杂推理层面仍存在差距,HLE人类终极考试与GPQA等测试中,与顶尖模型存在约5%的差距。
此外,智谱官方未公布GLM-5.2在SWE-bench等标准化基准上的官方评测数据,第三方验证需要等待API正式上线后展开。
从市场格局看,1M上下文已成为各大旗舰模型的标配入场券。Anthropic的Claude Opus 4.8、OpenAI的GPT-5.5与DeepSeek V4 Pro均标称百万级窗口,但\"标称\"与\"有效可用\"之间存在明显距离。
多跳推理测试中,Claude与Gemini表现稳定,GPT-5.5在50万到100万token区间出现能力腰斩,DeepSeek V4 Pro在多针检索测试中仅有约60%的通过率。
GLM-5.2发布时并未公布相关第三方测试结果,其真实的长上下文保持力能否经受住多针检索与多跳推理的检验,仍是一个待验证的问题。
定价策略层面,GLM-5.2延续了智谱持续涨价的路线。自2月GLM-5发布以来,智谱已对Coding Plan套餐进行了三轮价格调整,整体涨幅超过30%,海外版API调用价格上涨67%至100%。
目前国内市场对高价模型态度谨慎,企业采购方会高度权衡Token定价与业务转化之间的投入产出比。
价格战另一端,DeepSeek V4-Pro在经历多轮降价后已宣布永久降价75%,每百万tokens输出价格处于行业最低水平;OpenAI也在6月启动了首轮大规模API降价。
行业定价明显分化,以每百万tokens输出价格3美元为分界线,之上为生产力核心场景,价格敏感度相对较低;之下则以性价比为主要竞争维度。
从行业趋势看,大模型正从参数竞赛走向算账时代。2026年以来,成本效率取代参数规模成为厂商对外竞争的新卖点,中国日均Token调用量已突破140万亿次,较2024年初增长超千倍。
编程场景率先跑通了商业化路径,Anthropic凭借编程订阅实现年化经营性收入440亿美元并首次盈利。与此同时,头部玩家融资门槛大幅抬升,DeepSeek估值推高至450亿美元以上,Kimi完成20亿美元融资,资本正加速向少数头部企业集中。
开源生态层面,GLM-5.2的MIT协议开源策略为开发者提供了本地部署与商用修改的自由度,在Claude系列模型因出口管制对美国境外用户暂停访问的背景下,智谱此举被部分开发者视为国产替代方案的重要补充。
天天优配提示:文章来自网络,不代表本站观点。