智谱发布新旗舰模型GLM-5.2

智谱官方于6月15日通过港交所公告确认，已推出最新一代旗舰模型GLM-5.2，模型提供达到1M的长上下文处理能力，并将在下周遵循MIT协议全面开源。

这是智谱自今年2月发布GLM-5以来的又一次重要产品迭代。

从参数来看，GLM-5.2延续了MoE稀疏混合专家架构与动态稀疏注意力技术路线，总参数达744B，激活参数约40B，训练数据截止至2025年11月，目前仅支持纯文本与代码模态，不含多模态能力。

与5.1版本约200K的上下文窗口相比，5.2将上限提升至1M tokens，官方强调这一提升经过了工程验证而不仅仅是参数表上的数字。

在真实场景测试中，GLM-5.2成功处理了74万条服务器日志的根因分析，并能单次会话完成跨四份合同文档的条款冲突识别。工具调用能力方面，模型在正确率、JSON格式合法性等测试中保持了100%通过率。

代码能力是本轮升级的核心方向之一，在非官方的LLM Benchmark Code V3私有评测中，GLM-5.2取得了第三名的综合成绩，维护者评价其可用性持平Claude Opus 4.8，在国内厂商中首次拉开了代差。

实测中，模型能一次性生成包含五大同心圆层、七颗齿轮的机械天文钟，产出925行无外部依赖的纯前端代码；在处理A*、Dijkstra与BFS三种寻路算法的可视化时，模型能自主实现优先队列组件而非调用库函数。

模型引入了High与Max两档思考强度设定，复杂编码任务推荐使用Max档以确保架构级逻辑严谨。

但GLM-5.2也存在几处明显短板。其一是推理速度问题，在相同复杂任务中，GLM-5.2耗时45分钟，而Claude Opus 4.8仅用33分钟就完成，更慢的处理节奏影响了实时交互体验。有用户反馈其响应速度打破了DeepSeek此前的最慢记录。

其二是指令遵循表现出现分化，盲测显示GLM-5.2在多步指令执行中偶尔缺失分隔符，否定约束下首次调用输出为空，暴露出\"过度思考挤占输出空间\"的倾向。

第三，模型在复杂推理层面仍存在差距，HLE人类终极考试与GPQA等测试中，与顶尖模型存在约5%的差距。

此外，智谱官方未公布GLM-5.2在SWE-bench等标准化基准上的官方评测数据，第三方验证需要等待API正式上线后展开。

从市场格局看，1M上下文已成为各大旗舰模型的标配入场券。Anthropic的Claude Opus 4.8、OpenAI的GPT-5.5与DeepSeek V4 Pro均标称百万级窗口，但\"标称\"与\"有效可用\"之间存在明显距离。

多跳推理测试中，Claude与Gemini表现稳定，GPT-5.5在50万到100万token区间出现能力腰斩，DeepSeek V4 Pro在多针检索测试中仅有约60%的通过率。

GLM-5.2发布时并未公布相关第三方测试结果，其真实的长上下文保持力能否经受住多针检索与多跳推理的检验，仍是一个待验证的问题。

定价策略层面，GLM-5.2延续了智谱持续涨价的路线。自2月GLM-5发布以来，智谱已对Coding Plan套餐进行了三轮价格调整，整体涨幅超过30%，海外版API调用价格上涨67%至100%。

目前国内市场对高价模型态度谨慎，企业采购方会高度权衡Token定价与业务转化之间的投入产出比。

价格战另一端，DeepSeek V4-Pro在经历多轮降价后已宣布永久降价75%，每百万tokens输出价格处于行业最低水平；OpenAI也在6月启动了首轮大规模API降价。

行业定价明显分化，以每百万tokens输出价格3美元为分界线，之上为生产力核心场景，价格敏感度相对较低；之下则以性价比为主要竞争维度。

从行业趋势看，大模型正从参数竞赛走向算账时代。2026年以来，成本效率取代参数规模成为厂商对外竞争的新卖点，中国日均Token调用量已突破140万亿次，较2024年初增长超千倍。

编程场景率先跑通了商业化路径，Anthropic凭借编程订阅实现年化经营性收入440亿美元并首次盈利。与此同时，头部玩家融资门槛大幅抬升，DeepSeek估值推高至450亿美元以上，Kimi完成20亿美元融资，资本正加速向少数头部企业集中。

开源生态层面，GLM-5.2的MIT协议开源策略为开发者提供了本地部署与商用修改的自由度，在Claude系列模型因出口管制对美国境外用户暂停访问的背景下，智谱此举被部分开发者视为国产替代方案的重要补充。

天天优配提示：文章来自网络，不代表本站观点。

配资平台官方兽医简稚澄，安乐死700多条流浪狗，被网暴后：最后一针打给自己