LLM前途末路，未来发展何去何从

我们先来看一下市面上主流LLM：

目前最热门的ai产品之一 chatgpt 名称简单，易于消费者口口相传，GPT3.5时期性能强大，一举成名，用户激增，但无论是后来的4o还是5，提升幅度递减严重，尤其是5，一些场景可能不如全精度4o。code方面gpt5擅长HTML可以做一些小的静态网页。但其他编程语言可能就不太适合了。GPT的代码总是写的很混乱，改起来都烧脑。日常对话，5更理性，4o更有情感。逻辑一般，open ai的GPT产品多模态还是不错的。用户基数大，open ai的方向从强转稳。
　　

接下来是我最喜欢LLM之一Claude4系列，我是从Claude3-4入坑的，Claude的代码非常强，逻辑清晰，会多种编程语言，可能是目前最强大的ai编程工具。尤其是Claude code。在日常问题对话也是逻辑清晰，理性，不同于gpt5的白开水，Claude人味更足。但LLM幻觉问题还是有的。Claude专注编程领域，有替代中小企业大量程序员的可能性。
　　
　　Gemini是Google推出的一款LLM产品，但是好久没发布新品了，目前的2.5flash体感上可能干不过我电脑上跑的qwen3 8b小模型，flash不太聪明不实用。免费用户每天flash限制次数25次好像？2.5pro限制3到5次左右？竞争不过端侧LLM。很多国外的手机出厂语音助手就是Gemini。Gemini2.5pro编码强，Google的Gemini主要是为了自家生态体验吧，一些连接器到自家邮箱，理论上方便些（ai连接器，隐私安全问题十分重要，否则用户不信任，不使用，开发浪费）。这么个连接器方便Google卖全家桶订阅计划。
　　
　　然后是前段时间爆火的deepseek，中文能力强，早期版本可以根据用户喜号调成跟从贴吧里放出来的一样，且展现了极强的中文素养，小惊艳。后来的版本降本增效。但到现在不开深度思考干不过国外LLM，开思考正文内容的首字延时又太高了，DeepSeek-V3.2-Exp的api确实便宜，约3.1性能，API价格降50%+ 大家搓软件可以加个ds玩玩
　　
　　国内的阿里 qwen 也超强，发布了很多不同专业的ai产品，因此有个梗：Qwen3-235B-A22B-Instruct-Max-Plus-Turbo-Flash-Coder-Math-VL-Audio-Chat-MoE-Base-RM-Preview-nothinking-2025-09-23。可见其产品命名多样（混乱）。但不可否认qwen的性能，且有很多开源甚至可以商用的模型，如果自己服务器运行不了LLM也可以买api，价格也很便宜（Qwen-Max输入0.0016美元/千令牌，输出0.0064美元）。
　　（deepseek，qwen两家想在大陆市场通过低廉api价格快速抢占中小企业后做垄断？）
　　
　　Perplexity想做替代Google的搜索引擎。但普通问题联网过渡，首字延时高，多端交互混沌，api精度低，上下文短，给自定义提示词是好的（加上自定义推理参数：温度，最大生成长度，Top k，Top p等功能会更好玩些）功能很多，看起来都很实用，Perplexity据说有Nvidia、Jeff Bezos、SoftBank等顶级投资者支持，但Perplexity现在体验像半成品，不好用。传言之前也送过会员，但玩不起撤回过。
　　
　　Grok，Elon Musk的ai，gork一登场就备受瞩目，x这个社交媒体就是Elon Musk的，宣发不差。用起来是一个超级搜索引擎，太全面了，适合喜欢做研究的，这LLM感觉是论文堆出来的，现在堆x上面的信息。早期搜索一个问题搜集上千个网页（果然世界首富不差钱）现在“为了信息准确”只能搜索特定网站。gork4也知道自己搜一遍网络速度慢，所以有个fast版本，体验不错，输出长度也缩减，适合现代喜欢碎片化高信息密度的人。
　　
　　看完这些产品后您应该可以结合自我需求清楚什么样的LLM适合您。现阶段很多人认ai适合做搜索引擎，但中小企业软件开发（一天开发几百块钱），部分LLM也不错的。
　　

但这里我想说：

ai发展至今，市面上主流的大语言模型（LLM）为Transformer架构，堆人类高质量文本形成的LLM，但人类所产生的高质量文本是有限的，可能在2026-2028年出发严重的边际效益。（堆数据必然对显存需求增大，对硬盘需求也增长，还有大量的电力，效益显然不高。）长久看不可持续。LLM幻觉问题极难根源性解决。现在也有很多方法降本增效比如投机解码用同架构小模型快速输出草稿大模型接着输出填肉。或者蒸馏，大模型教小模型问题就是这个答案，原理是什么小模型不知道。
　　到时候人类该如何抉择？市场会给出答案，现在ai刚开始发展，更新换代极为频繁，讨论不同架构优缺点不适合放在朋友圈动态做研讨，意义也不大，谁知道下一秒诞生哪个引领未来10年20年的主流框架呢？当然，Transformer架构下的LLM也有延续性可能：做优化，让ai会用计算器，会用工具，也能大幅提升一些领域的使用体验。（我认为换架构或者目前架构做优化是未来两种可比性）现阶段ai被英伟达显卡捆绑过重，期待未来新产品。

免责声明：

本文仅代表作者个人观点和使用体验，不构成任何投资建议、购买建议或专业技术指导。
主观性声明：文中所有评价均基于作者个人使用经验和主观感受，不同用户在不同场景下可能获得完全不同的体验结果。
时效性限制：AI技术发展日新月异，本文所述产品性能、功能、定价等信息均以撰写时为准，可能随时发生重大变化，请读者以官方最新信息为准。
准确性说明：文中涉及的技术细节、产品功能、商业模式等描述可能存在理解偏差或信息滞后，作者已尽力确保内容真实，但不对其完整性和准确性作出保证。
无利益关联：本文不接受任何AI公司赞助，不构成任何形式的广告或推广，作者与文中提及的公司、产品无任何商业利益关系。
使用风险：读者基于本文内容做出的任何决策（包括但不限于产品选择、API购买、商业应用等）所产生的后果由读者自行承担，作者不承担任何直接或间接责任。
隐私提示：文中关于数据隐私的讨论仅为个人推测，具体隐私政策请以各平台官方声明为准。
技术预测：文中关于AI未来发展趋势的预测纯属个人观点，不构成任何确定性判断，技术发展存在高度不确定性。
请读者理性阅读，独立思考，审慎决策。如有专业需求，建议咨询相关领域专家。
　　
这是一篇概括，后面大概率还会细写单个LLM。（每个平台看到的文章不完全相同）

aigc使用说明：

“2.5pro限制3到5次左右？”为根据ai查询到的数据二次概括。3次是我前些日子测试到的数据
“DeepSeek-V3.2-Exp的api确实便宜，约3.1性能，API价格降50%+。”为ai查询到的数据我去了ds官方核验后小改删减再粘贴来的
“（Qwen-Max输入0.0016美元/千令牌，输出0.0064美元）”为ai联网查询后得出的数据
“deepseek，qwen两家想在大陆市场通过低廉api价格快速抢占中小企业后做垄断？”为总结ai长篇大论
免责声明为aicg
本文使用ai工具辅助完成，可能会出现不准确信息。
本文章想法构思为原创，支持任何形式保留作者名字的转载转发，第一次写这类文不完善，接受任何批评，指点。