2026年为什么智谱清言从2023国内领先做到现在越来越难用？

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

如题，以前最喜欢的AI 国内首个应用代码解释器的大众产品现在成路边一条了（

用户角度的主观体验感受。想知道为什么没有越做越好？

关键是现在理解问题的能力完全比不上豆包核dpsk

update，换上qwen并浅试了几百块钱api后，接到了阿里云团队的回访电话，除了想让我加钉钉之外，还是比较负责的解决了一些问题，记录了一些意见的。客观的讲qwen系列的**性能个人认为比glm旗舰还是差不少，但是对于agent设计的友好程度更好，性能足够高。或者说，你在设计时应该考虑到供应商不稳定的情况，所以起码要有4个能替换的，所以对其任务的设计，每个环节的难度不能超过性能第5的难度。在性能不如的情况下，定价大概是2-3倍，而我依然觉得更值得用。

而我用了glm那么多，没接到过电话，工单还是非常不耐心的未解决问题的回复。

属实是惹到我了。

我基于glm-4.6 开发了4个月的agent，刚调试完出原型，结果满意，发布4.7后并发度砍到1，工作流直接搞崩了。

本来就需要3-5小时能跑完，现在更换到其他llm需要10+小时，这个项目没有经济性了。

4.5 air 本身结果还可以的，但是会在流程中卡死，而且不能上复杂prompt。没法用。所以高级逻辑应用的agent 主要能用的就是qwen glm deepseek 三家旗舰模型。如果你要处理大量的实物文本，基本上离不开这些。

并不是因为只有glm能完成所以就要跪着求你高并发度，而是我直接就不干agent了（并没有地上捡起来接着吃）。

一个agent 本质上就是ai +常规编程。即使是对话模式，背后的很多运转依然需要ai处理，否则跟传统程序也没什么两样，想象力空间没有那么高（文本领域）。文本领域中典型情况要有对大量文本的处理、多段整合分析能力，可以说高并发是必然的。你可以涨价，但是并发5以下，都没有应用价值，何况毫无商誉的无通知降低。其实就是只想让你吹捧他牛逼，他去资本市场拉投资变现，用户是成本项。glm并不指望从市场中、从用户中赚钱，也就是不会用户觉得用着很舒服、买token值，我看他们就是这个业务逻辑或者说项目模式。这不是个市场性的商业项目，而是资本项目。而我国资本市场从来不基于真实市场。

对应替换方式就是，5并发，部署起码10B模型如Falcon，拆解任务，就算量化4 也要至少48GB显存。或者q6 3并发，但其实无法处理大规模文本。比如很多应用场景就是要处理多个文件一共约上千页。任何agent应用，如果基于大量文本的理解、审查、交叉引用的话，没有高能力模型做不了。

也就是目前我的判断是，文本领域涉及大量文本资料（还不说专业资料）、真正有价值、节省人工工时愿意购买你产品的这种场景，应该是很难有经济性的（4核8G服务器连续跑24小时，中间还可能断、人工debug、人工审核过程和结果），不管项目书怎么吹。除非你能获得高逻辑能力且中文优化好的模型，5-10个并发度。没有这个的话，不管是在市场上还是在时间效率上，大概率商业模式都无法成立。

所以作为个人用户而言，用他等于薅资本羊毛。而对于开发者，glm旗舰模型除了当个头脸之外没有应用价值。毕竟，如果没有后面的高性能处理，一个头脸也就是一个对话机。在个用自用方面肯定有价值，但是，无法建立起生态，其实ai这种重技术重资产、高竞争的行业也做不起来。

现在智谱清言强制把他们的‘高智能’模型，变成了娱乐对话机。擅长：

糊弄小孩儿
虚拟女友
不严格按指令执行的添加代码、称用户指出的语法是旧语法、捏造不存在的库、给你安排接下来1-3年的工作任务。
当小丑陪聊，全自动拍马屁一绝。也就丧失了gpt、claude拥有的给你逻辑纠偏的能力、同时又不提供任务依附性，除非你明示。gpt claude则是非常好的依附你的指令，而在讨论时又非常好的逻辑纠偏能力。glm则是按他自己的听不懂人话的方式理解你的指令，而在讨论时又非常偏向你。仿佛他的目的是‘要把傻逼培养成大傻逼’。
跟你讲的都是他不知道哪里生成的‘**实践’‘理想情况’‘代表情况’，你在他默认的嘴里得不到真实世界的情况。作为一个350B规模的模型，这么大的量是如何做到巧妙避开所有事实真相的，也是很难了。
咬文嚼字、偏激、夸张化处理你的输入。可能是试图通过这种方式强化对中文应用的优化（直到被国资收编？），但是实际应用体感是需要大量prompt工程进行价值观校准。价值观校准本身又会占用逻辑资源、导致性能下降，这一点他们没考虑过吗。还是只是针对评分榜优化？这个方面deepseek 和qwen家族普遍没有这个问题。
虚拟人格、极高自尊、犯错死不承认、狡辩、打压用户制造价值。暗戳戳pua用户。就tm差跟你打女权了。

智谱清言glm旗舰2款模型已经没有了生产力价值，主要因为严格限制并发1，也就是对话机。

智谱清言提供的其他模型都属于是给你表演个绝活、不保证不出错的所谓性价比模型。前期测试结果中主要问题不是质量不佳，而是不稳定、卡死。这是工程化大忌。所以实际上也只能当对话机。

更严重的问题是，作为一个经常看后台的人，我没接到任何通知降低并发度。

可见这个公司并不是想从市场中挣钱的，大概是想从投资人手里挣钱的。

但问题是，既然不能提供可信可靠的、承诺的服务，那我开发就不会用了。事实上所以开发文字类agent的人都不可能用了，就是因为限制并发+高性价比模型结果不可靠。其他模型的性能有大量替代品，没必要用智谱清言。

至于缺显卡的说法，这是当然缺啊，不止你因为政治缺，全球都缺。所以你猜为什么DS要搞高效率模型？所以你猜为什么qwen3基础模型为什么叫235b a22？为啥要moe？为啥都在搞高效率模型？以为自己是字节么。

作为开发者，选择基础的llm的策略应该考虑到，选择背后有大资本撑腰的模型。不只是稳定的服务，而是相对更可相信他们会提供更好的通知服务和并发度。token费用没有大幅变更架构重要。

在架构和流程上，要考虑到需要替换不同性能的llm的可能。也就是考虑把llm环节相对独立出来、容易修改。

我更希望看到的是他们价格*5~10，然后给并发度到5-10，稳定持续提供服务，我依然会使用。因为在业务逻辑上完全可以替代Cluade 也就是依然有经济性。

现在这种，其实你用户在他们眼里什么都不是，你只是他们用来跟资本和政府谈判的筹码。

然而，政府目前在国际谈判则把显卡采购当成筹码，这一点跟他们限制并发也有关系。

那我他妈作为开发者，我用你干鸡毛。

那我他妈开发者，盯国内市场干鸡毛、盯中文应用干鸡毛。

（很多任务比如针对关键词的SEO，性能依然被国际模型吊打，实际最好用的则是Claude）。

一般来说，大模型应用会侧重B端或者C端，偏置程度或多或少。比如DeepSeek的B端和C端用户都不少，但是C端用户大多都用的免费的或者极低成本；主要赚钱的还是卖API。

但是智谱不一样，它可以说是“国家队”的大模型公司。

智谱坐落在北京，核心成员都是清华系的。

北京智谱华章科技有限公司（简称“智谱AI”）成立于2019年6月11日，总部位于北京海淀区中关村东路1号院9号。该公司源自清华大学计算机系知识工程实验室，由清华教授唐杰团队孵化，是中国最早投入大模型研究的机构之一。

关键是融资方面非常牛逼，几乎能看到所有的顶级投资机构：红杉资本、高瓴资本、启明创投、光速光合、君联资本等。

还有大量的互联网巨头也投了，阿里巴巴、腾讯、美团、小米、金山、顺为资本等。这个很容易理解，大模型竞争没有人知道谁会走到最后，比如阿里本身有Qwen系列，按理说是竞争关系，但实际上大多数的公司认为LLM市场并非赢者通吃，多个基础模型将共存；另一方面，通过投资，他们可以获得对关键竞争对手的洞察，确保在自身模型研发不及预期时，仍能接触到顶级的替代模型，从而将纯粹的竞争关系转变为复杂的合作与竞争并存的格局。

最重要的是来自国家队的投资。

2024年3月，北京市人工智能产业投资基金领投一笔C+轮；

5月31日，智谱获得来自沙特阿美旗下Prosperity7基金约4亿美元（折合约27亿元人民币）的战略投资。