2026年【CGS-NDI观察】斯坦福《2026年人工智能指数报告》

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。
 登录新浪财经APP 搜索【信披】查看更多考评等级
 （来源：证券新发展研究院）
摘要
在生成式人工智能加速扩散、模型能力持续演进的背景下，2026年4月，斯坦福大学以人为本人工智能研究所（Stanford University Human-Centered Artificial Intelligence）发布《2026年人工智能指数报告》，对全球AI发展态势进行系统评估。报告显示，2025年AI能力持续跃升，中美模型性能差距基本收敛；全球算力与资本投入加速集中，推动技术与应用快速扩散。与此同时，生成式AI实现历史级普及，经济、科研、医疗与教育等领域渗透加深，生产率提升与就业结构调整并存。在快速扩张过程中，AI治理体系明显滞后，安全事件上升、模型透明度下降、责任框架不完善等问题逐步显现，公众态度亦呈现乐观与焦虑并存的分化趋势。整体来看，人工智能正处于能力突破、应用扩展与制度调整交织推进的发展阶段。
正文
一、 研究与开发
2025年全球AI研发资源持续扩张，但前沿模型的发布数量较上年有所减少，核心能力愈发集中在少数机构手中。产业界主导AI模型研发，全年产出超过90%的知名前沿模型，同时头部企业的模型透明度持续降低，OpenAI、Anthropic、谷歌等均不再公开训练代码、参数规模、数据集大小与训练时长。
从地区分布来看，中美依旧是知名模型发布量最多的两个国家。2025年美国共发布50款知名AI模型，中国以30款位居第二，韩国为5款，整体模型发布量在主要地区均出现同比下滑。模型的开放程度持续降低，API访问成为最主流的发布形式，训练代码的公开率大幅下降，95款知名模型中有80款未附带训练代码，限制了外部研究的复现、审计与安全验证。
图1  2025年按地理区域划分的著名人工智能模型数量 
  
    
     
      
    
图2  2025年按领域划分的著名人工智能模型数量 
  
    
     
      
    
模型参数规模近三年来稳定在万亿级别，实际训练算力仍在高速增长。2022年以来全球AI算力以年均3.3倍的速度扩张，总量达到1710万片H100等效算力，其中英伟达占据超过60%的份额。基础设施层面，美国拥有5427个AI数据中心，数量超过其他所有国家的总和，而全球几乎所有前沿AI芯片均由台积电独家制造，导致供应链高度单一且脆弱。
伴随算力扩张，AI的环境影响持续扩大。2025年全球AI数据中心供电容量达到29.6GW，相当于纽约州的峰值用电量。举例来看，Grok 4的训练过程产生72816吨二氧化碳当量，GPT-4o的年度推理耗水量超过1200万人口的饮用水需求。
科研产出方面，中国在AI论文发表总量、引用份额、专利授权量上保持全球领先。美国则在高价值专利与顶级模型研发上占据优势，韩国的人均AI专利数量位居世界第一。开源生态保持高速增长，GitHub上的AI相关项目达到560万个，Hugging Face模型上传量三年内增长三倍，美国项目仍获得最高关注度，但全球开发者分布正在走向多元化。
人才格局出现明显变化。其中，美国吸引全球AI人才的能力大幅下降，2017年以来AI研发人才流入量下降89%，2025年单年降幅就达到80%。全球AI人才的性别差距却没有任何改善，各国的AI人才性别不均衡现象仍较为严重，女性从业者比例最高的国家也仅为32.3%。
数据层面，高质量真实文本数据接近枯竭，合成数据尚无法完全替代真实数据用于模型预训练，仅在微调、小模型训练与低资源语言场景中有效。2025年1月起，全网新增内容中有超过51.72%由AI生成，行业开始转向数据质量优化，通过去重、精选、裁剪等方式提升模型效果，小参数模型依靠数据优化可在部分基准上匹敌万亿参数大模型。
二、 技术性能
AI模型在2025年实现全面能力跃升，前沿模型的能力差距持续收窄，中美模型之间的性能差距基本抹平。2026年3月美国顶尖模型仅领先2.7%，双方在2025年多次交替占据榜首。头部模型性能高度收敛，排名前四的模型分数差距不足25个Elo积分，竞争焦点从单纯能力转向成本、可靠性与实际场景效果。闭源模型与开源模型的差距在2025年重新扩大，顶尖闭源模型领先开源模型3.3%，排名前十的模型中有6个为闭源模型。
图3  美国顶级模型与中国的顶级模型在Arena上的表现 
  
    
     
      
    
在专业领域，AI在税务、法律、公司金融、数学竞赛、软件开发等任务上的表现达到60%至90%，头部模型之间的差距仅3个百分点。AI的编码能力提升尤为显著，SWE-bench Verified任务的性能从60%快速提升至接近100%，但端到端自主开发完整网页应用仍是难题，**模型正确率仅56.5%。
智能体能力是2025年的一个重要进展方向。模型开始从单纯生成文本，转向执行更完整的任务流程。在OSWorld这类跨操作系统的真实计算机任务基准中，AI 智能体的成功率从约12%提升至约66%，说明模型在处理多步骤任务、调用工具以及与环境交互方面能力明显增强。不过，这一能力仍存在不稳定性，在多次尝试中仍有较高失败率，尚未达到可靠执行的水平。
与此同时，评测体系本身也在发生变化。随着模型能力不断提升，部分基准测试逐渐接近饱和，区分不同模型能力的效果减弱。再加上前沿模型披露信息减少，独立测试难度增加，使得模型性能的比较不再像以往那样清晰。模型能力仍在进步，但用于衡量这种进步的工具正在面临新的限制。
三、 负责任的人工智能
人工智能责任治理与技术发展之间的鸿沟日益扩大，安全评测体系不完善、透明度下降、安全事件数量快速上升。2025年记录在案的AI安全事件达到362起，较2024年的233起大幅增长，几乎所有前沿模型都会披露能力基准数据，但负责任AI相关基准的披露率极低。
图4  2020年以来新闻报道的人工智能负面事件数量 
  
    
     
      
    
模型的事实可靠性也存在明显短板。26款主流模型的幻觉率在22%到94%之间，远未达到高风险场景所要求的可信赖标准；且普遍无法区分“知识”与“信念”，在面对第一人称虚假信念时，性能会出现断崖式下跌，GPT-4o从98.2%降至64.4%，DeepSeek R1从90%以上降至14.4%。
企业层面的负责任AI建设持续推进，但落地仍面临多重障碍。没有制定负责任的AI相关政策的企业比例从24%降至11%，AI专项治理岗位数量增长17%；但同时也存在一些挑战，例如知识缺口（59%）、预算限制（48%）和监管不确定性（41%）等。在监管影响中，GDPR仍是最主要依据，ISO/IEC 42001与NIST AI风险管理框架的影响力也快速提升。
模型透明度在2025年不升反降，基础模型透明度指数从2024年的58分回落至40分，训练数据、算力消耗、部署影响等关键信息披露严重不足。语言公平性问题突出，AI在英语场景表现最优，在小语种与方言上性能大幅下滑，在斯洛文尼亚方言测试中，模型准确率损失接近一半。
安全性方面，模型在常规安全测试中表现良好，但在对抗性越狱攻击下防护能力显著下降。更严峻的是，负责任AI各维度之间存在天然冲突，提升安全、公平、隐私中的任意一项，都会导致其他维度的性能退化，目前行业尚无成熟的权衡框架。
图5  基于AA-Omniscience测算的幻觉率 
  
    
     
      
    
四、产业渗透：经济、科学、医疗与教育
生成式AI实现历史级普及速度，三年内全球人口渗透率达到53%，超过个人电脑与互联网的普及速度。同时，渗透率的高低与人均GDP高度相关，新加坡61%、阿联酋54%，美国以28.3%位列第24位。AI与经济、科学、医疗与教育等领域的深度融合表现如下：
（一）经济领域：人工智能的经济影响，已经从“技术热度”逐步转向“可量化扩散”
2025年，美国仍然是私人AI投资最集中的国家，投资规模达到2859亿美元，远高于其他主要经济体；新获融资的AI企业数量也继续领先。资本仍在向头部国家和头部企业集中，前沿能力、基础设施和商业化机会之间的绑定关系进一步加强。
应用层面的扩散也在加快。组织层面的AI采用率升至88%，生成式人工智能在三年内达到53%的人口级采用率，扩散速度快于个人电脑和互联网早期阶段。与此同时，消费者端的价值已经开始被估算。到2026年初，美国消费者从生成式人工智能工具中获得的年化价值达到1720亿美元，而且这一价值相当一部分来自免费或低价工具带来的时间节省和效率改善。人工智能不再只是企业内部提效工具，也开始形成更明确的消费福利。
不过，人工智能对劳动力市场的结构性冲击已经显现。生产率提升更多集中在结构化、可度量的任务中，例如客户支持和软件开发，而在更依赖判断和情境理解的工作中，效果并不稳定。与此相伴，劳动力市场已经出现早期变化。例如，在软件开发领域，美国22至25岁开发者的就业人数较2024年下降近20%。虽然并不意味着人工智能已经完成大规模替代，但至少说明，效率提升和初级岗位承压可能在同一时期同时出现。
图6  2013-2025年全球人工智能投资情况 
  
    
     
      
    
（二）科学领域：人工智能正在更深入地进入科学研究流程
2025年，一个突出的变化是，AI不再只是加快科研流程中的单个环节，而是开始尝试替代更完整的工作流，从天气预测到多智能体假设生成、实验设计，都出现了更系统的应用。
从研究规模看，Web of Science 数据显示，2025年自然科学领域与AI相关的论文约为80,150篇，较2024年的63,547篇增长约26%；物理科学和生命科学相关论文分别约为33,000篇和29,000篇，地球科学约20,460篇。按学科总产出占比看，AI相关研究在地球科学、自然科学、生命科学和物理科学中的占比都已升至5.8%—8.8%，而2010年这些比例都还不到1%。说明AI方法正在从少数前沿团队的尝试，逐步变成更常规的科研工具。
但这一进展并不意味着人工智能已经能够稳定完成高质量科学研究。严格基准测试显示，模型虽然能生成“看起来合理”的答案，却未必能完成可靠的科学工作。以化学、天体物理和地球科学为例，前沿模型在 ChemBench 上平均已超过人类化学家，但在论文级复现任务上仍然很弱：在ReplicationBench 的天体物理复现实验中得分不足20%，在UnivEarth的地球观测问答中准确率仅33%，生成代码的失败率则达到58%。
图7  自然科学领域的人工智能出版物数量 
  
    
     
      
    
（三）医疗领域：医疗是人工智能落地最明显、同时也最需要谨慎理解的领域之一
在医疗领域，多智能体系统在复杂病例诊断中取得了85.5%的准确率，远超未使用人工智能辅助的医生（20%）。人工智能临床记录工具在多家医院系统获得广泛采用，医生书写病历的时间减少达83%。
在基础研究方面，模型能力继续向更细分、更专业的方向发展。分子生物学相关任务中，一些规模较小但针对性更强的模型，已经能够在特定基准上取得较好表现。与此同时，“虚拟细胞模型”成为新的研究前沿。
但医疗AI最突出的限制也很清楚，即证据基础仍然偏弱。斯坦福—哈佛 ARISE Network 在2026年初发布的临床AI报告回顾了500多项研究，发现接近一半使用的是考试式问题而不是真实患者数据，真正使用真实临床数据的只有5%。这意味着，当前很多关于医疗AI能力的结论，仍然建立在模拟场景之上，而不是实际医疗环境之中。
图8  2018-2025年有关人工智能用于药物发现的论文数量 
  
    
     
      
    
（四）教育领域
AI已在教育场景中广泛普及，但教育体系的适配与调整明显滞后。美国高中和大学中已有80%以上学生在学习相关任务中使用AI，但中学阶段只有大约一半学校建立了AI政策，且仅有6%的教师认为这些政策足够清晰。
2025年，各国都在谈AI教育，但真正把“AI教育”系统落地的国家并不多，中国和阿联酋是较突出的两个。多数国家更常见的做法，是把AI技术引入教育，而不是把AI本身作为教育内容系统推进。中国在2025年5月发布中小学人工智能教育与生成式人工智能使用相关指南后，北京、广东和杭州在2025—2026学年开始把AI教育纳入必修要求，并设置了最低课时和分年级递进课程安排。相比之下，韩国推出小学AI教材后不久又因家长和教师反对而调整，希腊和爱沙尼亚更多是在教师培训和试点项目层面推进。
课堂之外，AI技能学习则呈现高速增长态势。阿联酋、智利、南非成为AI工程技能提升最快的国家。美国与加拿大的AI专业博士毕业生数量在2022至2024年间增长22%，且这批新增博士更多选择进入学术界而非工业界。
五、政策与治理
2025年全球各国AI监管方向呈现显著分化。欧盟AI法案首批禁令正式落地实施，美国转向放松监管导向，日本、韩国、意大利相继出台国家级AI法案；全球新增国家AI战略中，半数以上来自首次发布相关政策的发展中国家，AI主权已成为全球AI政策的核心指导原则。同时，全球AI治理格局走向多元化，不同国家诉求差异明显。欧盟的AI监管模式获得全球最高信任度，美国民众对本国政府监管AI的信任度仅31%，在受访国家中排名最低。全球AI安全研究院数量快速增长，成为各国开展技术监管、风险评估的核心支撑，数据隐私、算法问责、安全审查成为监管核心方向。
各国纷纷加大对本土AI超算的投入，试图实现对本国AI生态的自主掌控，但高端模型研发仍高度集中在美国与中国。开源AI的发展开始重新分配全球参与权，GitHub上非欧美地区的贡献量已经超过欧洲并逼近美国，也推动了多语言模型与评测基准的发展。
图9  2016-2025年G20 国家通过的人工智能相关法案数量 
  
    
     
      
    
》
六、公众舆论
2025年，公众对人工智能的态度呈现出明显分化。Ipsos对30个国家的调查显示，59%的受访者认为人工智能产品利大于弊（较2024年上升4个百分点），但同时有52%的人表示人工智能让他们感到紧张，乐观与不安同步增长。人工智能越是进入日常生活，公众的感受越趋复杂，不再是简单的支持或反对，而是同时包含期待与担忧。并且这种分化在不同国家之间表现得更加明显。东南亚等地区整体更为乐观，对人工智能改变生活的预期较高；而在部分发达经济体中，公众态度相对更为谨慎。
在新兴经济体中，人工智能在职场中的使用率反而高于发达国家，印度、中国、尼日利亚、阿联酋和沙特阿拉伯的员工定期使用人工智能的比例超过80%。
此外，AI专家与普通公众对AI的未来认知存在巨大鸿沟。73%的专家认为AI会对工作产生积极影响，而持相同观点的公众仅23%，差距达到50个百分点。类似分歧也存在于对经济增长和医疗影响的判断上。专家更多基于长期技术潜力进行判断，而公众更关注现实不确定性，这种差异短期内难以弥合。
公众对治理能力的信任也呈现出明显差异。不同国家公众对本国政府能否有效监管人工智能的信任程度并不一致，其中美国受访者的信任度相对较低，而欧盟整体获得更高信任。意味着，公众态度不仅取决于技术本身，也与制度信任密切相关。
图10  2025 年全球各国对使用人工智能的产品和服务看法 
  
    
     
      
    
                                                  编译：数字经济研究团队
 
  
    
     
      
    
本公众订阅号为中国银河证券股份有限公司（以下简称“银河证券”）研究院依法设立、运营的研究官方订阅号（“中国银河证券研究”“中国银河宏观”“中国银河策略”“中国银河固收”“中国银河科技”“中国银河先进制造”“中国银河消费”“中国银河能源周期”“中国银河证券新发展研究院”）。其他机构或个人在微信平台以中国银河证券股份有限公司研究院名义注册的，或含有“银河研究”，或含有与银河研究品牌名称等相关信息的其他订阅号均不是银河研究官方订阅号。
本产品中的信息是基于公众媒体或其它第三方公开披露的信息编制而成。银河证券对所转发信息以及数据的准确性、可靠性、时效性及完整性不作任何明示或默示的保证。本产品不属于银河证券的证券研究报告，不构成买卖任何投资工具或者达成任何交易的推荐，亦不构成财务、法律、税务、投资建议、投资咨询意见或其他意见。本产品所提供信息仅供接收者参考，任何人依赖本产品中任何信息、观点以及数据行事而造成的一切后果由行事者自负，与银河证券无关。本产品内容的版权归银河证券或相关方所有，未经书面许可任何机构和个人不得以任何形式转发、翻版、复制、刊登、发表或引用。
投资有风险，入市请谨慎。
2026年【CGS-NDI观察】斯坦福《2026年人工智能指数报告》

相关推荐