2026年AI大模型排行榜&Skill主流网站汇总

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

但实际看下来，反而是最混乱的一块。

网址：https://lmarena.ai/leaderboard

简介与特点：
这个榜单是由 UC Berkeley（加州大学伯克利分校）团队主导的。伯克利在AI领域的地位非常高，可以类比国内的清华、北大，甚至在某些方向上更强一点。

它和传统“跑分榜单”最大的区别在于：不测题，而是测人。
具体做法是把两个模型的回答放在一起，让用户盲选哪个更好，最后通过大量投票形成排名（类似Elo评分机制）。

这意味着它衡量的其实是：

输出是否自然
回答是否有用
是否符合人类直觉

而不是单纯的“做题能力”。

怎么用：
如果你是做应用（写代码助手、客服、Agent等），这个榜单的参考价值很高，因为它更接近真实用户体验。

局限性：

主观性强，不同用户偏好差异大
对“数学推理 / 极限能力”不敏感
容易受到提示方式影响

在这里插入图片描述

网址：https://superclueai.com/homepage

简介与特点：
这是国内比较成体系的一套评测框架，它把模型能力拆成两大类：

推理能力（数学 / 科学 / 代码）
应用能力（Agent / 指令遵循 / 幻觉控制）

这种划分其实挺“接地气”的——因为真实场景里，你既需要模型会算，也需要它不胡说、能听话、能干活。

另外一个特点是：它对中文支持比较友好，这点在很多国外榜单里是缺失的。

怎么用：
如果你的主要场景是中文（比如国内业务、中文客服、中文Agent），这个榜单比纯英文评测更有参考价值。

局限性：

评测数据和方法透明度有限
有些任务设计更偏“考试”，而非真实复杂场景
榜单之间横向对比困难（和国外榜单不统一）

在这里插入图片描述

网址：https://vellum.ai/llm-leaderboard

简介与特点：
这个榜单明显是“给工程师看的”。
它不仅关注模型强不强，还把几个关键因素一起放进来：

推理能力（用高难题，比如 AIME）
成本（调用价格）
上下文长度（能处理多长输入）
精度与稳定性

怎么用：
如果你在做系统设计，比如：

要不要换模型
是用强模型还是便宜模型
长上下文是否值得付费

这个榜单非常有参考意义。

局限性：

更偏“理性指标”，缺少用户体验维度
对非推理类任务（比如创意写作）覆盖不足

在这里插入图片描述

网址：https://vellum.ai/open-llm-leaderboard

简介与特点：
这是 Vellum 针对开源模型单独做的榜单。

开源模型和闭源模型（比如GPT、Claude）有一个本质区别：

闭源模型：强，但你控制不了
开源模型：可以自己部署、微调、改造

怎么用：
适用于以下场景：

企业内网部署（数据不能外传）
成本敏感（不想一直付API费用）
需要深度定制（微调 / 私有知识）

局限性：

开源模型整体上限通常低于顶级闭源模型
部署和调优成本不低

在这里插入图片描述

网址：https://lm-stats.com/benchmarks/llm-leaderboard-full

简介与特点：
这个站和传统排行榜不太一样，它不太关心“谁第一”，而是把模型的关键参数全部摊开：

推理速度
价格（token成本）
上下文长度
各类基准测试成绩

你可以把它理解为一个“模型参数对比数据库”，而不是一个简单排名。

怎么用：
当你在做选型时，比如：

是选便宜模型跑大规模任务，还是用强模型跑关键路径
上下文到底要不要上128k / 1M
这种场景下，它比排行榜更有价值。

局限性：

信息多但不做结论，需要你自己判断
对非技术用户不太友好

在这里插入图片描述

网址：https://scale.com/leaderboard

简介与特点：
由 Scale AI 推出，这家公司本身就是做数据标注起家的，可以理解为“给AI公司打地基的人”。

这个榜单的核心思路不是测“聪明”，而是测：

模型在复杂任务中是否稳定
是否容易出错
在长链路任务中是否会崩

很多评测是通过专家人工评审 + 私有数据集完成的。

怎么用：
如果你的系统是要上线的（比如风控、客服、自动化Agent），这种榜单非常重要，因为现实问题不是“做对一次”，而是“能不能一直做对”。

局限性：

数据不公开，透明度相对较低
更偏企业视角，不一定适合个人开发者

在这里插入图片描述

网址：https://livebench.ai

简介与特点：
这个榜单主打一个概念：“无污染（Contamination-free）”。

推理
编程
数学

并且是定期更新的。

怎么用：
当你怀疑某些榜单“被刷分”时，可以参考这个榜单来做一个对照。

局限性：

覆盖面相对较窄（偏理科能力）
实际应用能力体现不够

在这里插入图片描述

网址：https://huggingface.co/open-llm-leaderboard

简介与特点：
Hugging Face 可以理解为“AI界的GitHub”，开源模型基本都在这里发布、流通。

这个榜单基于 EleutherAI 的评测框架，对模型进行标准化测试，比如：

MMLU
HellaSwag
ARC 等

最大的优势是：统一标准 + 可复现。

怎么用：
当你需要横向比较开源模型（比如选一个7B / 13B模型部署），这个榜单是最基础的参考。

局限性：

和真实用户体验有差距
容易被“针对性优化”

在这里插入图片描述

网址：https://huggingface.co/spaces/mteb/leaderboard

简介与特点：
专门评测Embedding模型（文本向量模型），覆盖：

检索
分类
聚类
多语言任务

规模很大（几十个数据集，上百种语言）。

怎么用：
如果你在做：

RAG（检索增强生成）
向量数据库搜索
推荐系统

这个榜单的重要性，甚至不亚于大模型排行榜。

局限性：

和生成模型能力无关
实际效果还受数据质量影响很大

在这里插入图片描述

网址：https://rank.opencompass.org.cn/home

简介与特点：
国内做得比较系统的多语言评测平台之一，支持：

中文任务
英文任务
安全与合规测试

在中文语境下，比很多国外榜单更贴近实际。

怎么用：
适合用来判断：

中文能力
多语言表现
一些本地化需求

局限性：

不同榜单之间难以直接对齐
仍然偏“评测场景”，不是生产环境

在这里插入图片描述

网址：https://eqbench.com/

简介与特点：
专门评估模型的“情商”，包括：

情绪理解
共情能力
对语境的把握

基于大量对话提示构建。

怎么用：
如果你做的是：

客服
心理陪伴
社交类AI

这种能力比“数学推理”更关键。

局限性：

主观性强
不同文化背景下结果可能不同

在这里插入图片描述

网址：https://gorilla.cs.berkeley.edu/leaderboard.html

简介与特点：
同样来自伯克利团队，专门评测模型的：

函数调用能力
工具使用能力
API理解能力

这是Agent时代的核心能力之一。

怎么用：
如果你在做：

Agent系统
自动化工作流
Copilot

这个榜单的参考价值非常高。

局限性：

偏工程能力，对通用对话意义不大

在这里插入图片描述

能不能真的把事情做完。

在当前主流 Agent / 工程体系里，Skill 并不是一个模糊概念，而是已经比较固定的一套结构化方式。你可以把它简单理解成：

Skill = 大模型可以调用的一组“标准能力模块”

它通常包含三部分：

做什么（能力描述）
怎么做（执行步骤 / prompt / 规则）
需要什么（工具 / API / 资源）

换句话说，Skill不是“让模型更聪明”，而是让模型具备可复用的行为能力。

Skill已经变成“决定系统能不能落地”的关键组件，但它的来源非常分散。

结果就是一个很现实的问题：

你知道 Skill 很重要，但不知道去哪找“靠谱的 Skill”。

网址：http://skillsmp.com

简介与特点：
SkillsMP 是目前规模最大的 Skill 聚合平台之一，收录超过 8 万个 Skill。它的内容主要来自 GitHub 等开源仓库，通过自动抓取 + 分类索引的方式形成数据库。

SkillsMP 做的事情，本质是：

把全世界散落在 GitHub 上的 Skill “汇总成搜索引擎”

它支持按分类、热度、标签检索，并且每天同步更新。

在这里插入图片描述

网址：https://skills.homes

简介与特点：
skills.homes 是一个偏“Agent生态整合”的 Skill 平台，收录约 7 万+ Skill，特点是支持多种 Agent 系统（例如部分基于 Eloquen / Claude Code / Cursor 的扩展生态）。

它的另一个特点是提供中文界面，并且整体稳定性比纯 GitHub 聚合更好一些。

在这里插入图片描述

网址：https://skills.sh

简介与特点：
skills.sh 是目前更偏“官方工程风格”的 Skill 平台，整体生态与 Vercel 相关开发体系关系较强。

它的 Skill 数量不多（几千级），但强调：

一键安装
工程可用性
质量控制（而不是数量堆积）

在这里插入图片描述

网址：https://skillhub.club

简介与特点：
SkillHub Club 更像一个“带评分系统的 Skill 市场”，核心特点是引入了 AI 评分机制，对 Skill 做排序和筛选。

SkillHub Club 的做法是：

给 Skill 打分（质量 / 实用性 / 热度）
提供排序机制
帮用户做初筛

本质上是在尝试解决一个问题：

“如何从海量 Skill 里快速找到可用的那一小部分”

在这里插入图片描述

网址：https://github.com/ComposioHQ/awesome-claude-skills

简介与特点：
这是目前 GitHub 上规模最大、最系统的 Claude Skills 汇总仓库之一，目前 Star 数已经超过 2.6 万。

它收集的不是某一个平台的 Skill，而是整个社区生态的集合，覆盖从文档处理、代码开发、数据分析，到营销、创意、系统安全等几乎所有方向。

在这里插入图片描述

📌 文档处理

Skill 作用地址 docx 用追踪修改、批注和格式化功能，轻松创建、编辑和分析 Word 文档。 https://github.com/anthropics/skills/tree/main/skills/docx pdf 提取文本、表格、元数据，合并与标注 PDF 文件。 https://github.com/anthropics/skills/tree/main/skills/pdf pptx 读取、生成和调整幻灯片、布局与模板。 https://github.com/anthropics/skills/tree/main/skills/pptx xlsx 电子表格操作：公式、图表、数据转换。 https://github.com/anthropics/skills/tree/main/skills/xlsx Markdown to EPUB Converter 将 Markdown 文档和聊天摘要转换为专业的 EPUB 电子书文件。 https://github.com/smerchek/claude-epub-skill

📌 开发与代码工具

Skill 作用地址 artifacts-builder 一套利用现代前端 Web 技术（React、Tailwind CSS、shadcn/ui）构建复杂 Claude.ai HTML 资产的工具集。 https://github.com/anthropics/skills/tree/main/skills/web-artifacts-builder aws-skills 结合 CDK **实践的 AWS 开发，包含成本优化的 MCP 服务器和无服务器/事件驱动架构模式。 https://github.com/zxkane/aws-skills Changelog Generator 通过分析 Git 提交历史，自动生成面向用户的变更日志。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/changelog-generator Claude Code Terminal Title 动态设置终端标题，显示当前任务状态。 https://github.com/bluzername/claude-code-terminal-title D3.js Visualization 生成 D3 图表与交互式可视化。 https://github.com/chrisvoncsefalvay/claude-d3js-skill FFUF Web Fuzzing 执行 Web 模糊测试并分析漏洞。 https://github.com/jthack/ffuf_claude_skill finishing-a-development-branch 引导开发任务收尾流程。 https://github.com/obra/superpowers/tree/main/skills/finishing-a-development-branch iOS Simulator 与 iOS 模拟器交互进行测试。 https://github.com/conorluddy/ios-simulator-skill jules 将编码任务交给 Google Jules 异步处理。 https://github.com/sanjay3290/ai-skills/tree/main/skills/jules LangSmith Fetch 自动获取 LangChain/LangGraph 执行轨迹用于调试。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/langsmith-fetch MCP Builder 构建 MCP 服务器，将外部 API 接入 LLM。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/mcp-builder move-code-quality-skill Move 语言代码质量检查。 https://github.com/1NickPappas/move-code-quality-skill Playwright Browser Automation Web 自动化测试与验证。 https://github.com/lackeyjb/playwright-skill prompt-engineering 提示工程技巧与模式优化。 https://github.com/NeoLabHQ/context-engineering-kit/tree/master/plugins/customaize-agent/skills/prompt-engineering pypict-claude-skill 生成组合测试用例。 https://github.com/omkamal/pypict-claude-skill reddit-fetch 替代 WebFetch 获取 Reddit 内容。 https://github.com/ykdojo/claude-code-tips/tree/main/skills/reddit-fetch Skill Creator 指导创建高质量 Skill。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/skill-creator Skill Seekers 将网站转为 Claude Skill。 https://github.com/yusufkaraaslan/Skill_Seekers software-architecture 软件架构与设计模式实践。 https://github.com/NeoLabHQ/context-engineering-kit/tree/master/plugins/ddd/skills/software-architecture subagent-driven-development 子代理驱动开发流程。 https://github.com/NeoLabHQ/context-engineering-kit/tree/master/plugins/sadd/skills/subagent-driven-development test-driven-development TDD 测试驱动开发流程。 https://github.com/obra/superpowers/tree/main/skills/test-driven-development using-git-worktrees Git 工作树管理。 https://github.com/obra/superpowers/blob/main/skills/using-git-worktrees/ Connect 连接 Gmail/Slack/GitHub/Notion 等服务。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/connect Webapp Testing Web 应用测试与截图验证。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/webapp-testing

📌 数据与分析

Skill 作用地址 CSV Data Summarizer 无需用户提示，自动分析 CSV 文件并生成包含可视化图表的全面洞察。 https://github.com/coffeefuelbump/csv-data-summarizer-claude-skill deep-research 使用 Gemini 深度研究代理执行自主的多步骤研究，适用于市场分析、竞争格局分析和文献综述。 https://github.com/sanjay3290/ai-skills/tree/main/skills/deep-research postgres 支持多连接的 PostgreSQL 数据库安全只读 SQL 查询，具备纵深防御安全机制。 https://github.com/sanjay3290/ai-skills/tree/main/skills/postgres root-cause-tracing 当执行过程中出现深层错误时，用于回溯查找最初的触发点。 https://github.com/obra/superpowers/tree/main/skills/root-cause-tracing

📌 商业与营销

Skill 作用地址 Brand Guidelines 将 Anthropic 官方的品牌配色和字体应用到各类设计素材中，确保视觉形象统一，达到专业级的设计标准。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/brand-guidelines Competitive Ads Extractor 从广告库中抓取并分析竞争对手的广告内容，帮你搞清楚哪些传播话术和创意形式真正能打动人。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/competitive-ads-extractor Domain Name Brainstormer 生成创意十足的域名想法，并一键检查 .com、.io、.dev、.ai 等多个顶级域名的可用性。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/domain-name-brainstormer Internal Comms 帮你撰写内部沟通内容，比如第三方更新、公司通讯、常见问题解答、状态报告和项目更新，还能根据公司特定格式来排版。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/internal-comms Lead Research Assistant 通过分析你的产品、搜索目标公司，帮你识别和筛选高质量的潜在客户，并提供可执行的 outreach 策略。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/lead-research-assistant

📌 沟通与写作

Skill 作用地址 article-extractor 从网页中提取完整文章内容和元数据。 https://github.com/michalparkola/tapestry-skills-for-claude-code/tree/main/article-extractor brainstorming 通过结构化提问和多角度探索，把零散的点子打磨成完整的设计方案。 https://github.com/obra/superpowers/tree/main/skills/brainstorming Content Research Writer 帮你搞定高质量内容创作，从调研、引用、优化开头，到逐段反馈。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/content-research-writer family-history-research 协助规划家族历史和家谱研究项目，帮你挖出那些被遗忘的家族故事。 https://github.com/emaynard/claude-family-history-research-skill Meeting Insights Analyzer 分析会议录音，扒出行为模式，比如回避冲突、发言比例、口头禅，还有领导风格，一目了然。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/meeting-insights-analyzer NotebookLM Integration 让 Claude Code 直接与 NotebookLM 对话，基于上传的文档提供有据可依的答案。 https://github.com/PleasePrompto/notebooklm-skill Twitter Algorithm Optimizer 利用推特开源的算法洞察，分析并优化推文，实现最大传播效果。重写和编辑推文，提升互动率和曝光度 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/twitter-algorithm-optimizer

📌 创意与媒体

Skill 作用地址 Canvas Design 通过设计哲学和美学原则，为海报、设计和静态作品创作精美的 PNG 和 PDF 视觉艺术。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/canvas-design imagen 利用 Google Gemini 的图像生成 API，生成 UI 原型、图标、插图和视觉资产。 https://github.com/sanjay3290/ai-skills/tree/main/skills/imagen Image Enhancer 通过提升分辨率、清晰度和锐度，优化图像和截图质量。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/image-enhancer Slack GIF Creator 专为 Slack 优化的动画 GIF 生成工具，内置尺寸限制校验和可组合的动画基础组件。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/slack-gif-creator Theme Factory 一键为幻灯片、文档、报告和 HTML 首页等文件应用专业字体和配色主题，提供 10 种预设风格。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/theme-factory Video Downloader 支持从 YouTube 及其他平台下载视频，方便离线观看、剪辑或存档，兼容多种格式和清晰度。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/video-downloader youtube-transcript 自动抓取 YouTube 视频字幕并生成摘要。 https://github.com/michalparkola/tapestry-skills-for-claude-code/tree/main/youtube-transcript

📌 效率与组织

Skill 作用地址 File Organizer 通过理解上下文智能整理文件和文件夹，自动识别重复文件，并推荐更合理的组织结构。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/file-organizer Invoice Organizer 自动整理发票和收据，用于税务准备，能读取文件、提取信息并统一命名。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/invoice-organizer kaizen 基于日本精益管理和 Kaizen 哲学，采用多种分析方法，持续优化流程，实现不断改进。 https://github.com/NeoLabHQ/context-engineering-kit/tree/main/plugins/kaizen/skills/kaizen n8n-skills 让 AI 助手直接理解并操作 n8n 工作流。 https://github.com/haunchen/n8n-skills Raffle Winner Picker 从列表、表格或 Google Sheets 中随机选出中奖者，用于抽奖和比赛，用的是加密安全的随机数。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/raffle-winner-picker Tailored Resume Generator 分析职位描述，自动生成突出相关经验、技能和成就的定制简历，帮你把面试机会最大化。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/tailored-resume-generator ship-learn-next 一个帮你迭代下一步该做什么或学什么的技能，基于反馈循环不断优化。 https://github.com/michalparkola/tapestry-skills-for-claude-code/tree/main/ship-learn-next tapestry 把相关文档串联起来，自动生成知识网络，就像织出一张智慧之网。 https://github.com/michalparkola/tapestry-skills-for-claude-code/tree/main/tapestry

📌 协作与项目管理

Skill 作用地址 git-pushing 自动化 Git 操作和仓库交互，省心又高效，再也不用手动推代码了。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/engineering-workflow-plugin/skills/git-pushing google-workspace-skills 一套 Google Workspace 集成工具：Gmail、日历、聊天、文档、表格、幻灯片和云端硬盘，支持跨平台 OAuth 登录。 https://github.com/sanjay3290/ai-skills/tree/main/skills outline 在 Outline 维基实例（云端或自托管）中搜索、阅读、创建和管理文档。 https://github.com/sanjay3290/ai-skills/tree/main/skills/outline review-implementing 评估代码实现方案，并确保与需求 specs 对齐。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/engineering-workflow-plugin/skills/review-implementing test-fixing 检测失败的测试用例，并提出补丁或修复方案。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/engineering-workflow-plugin/skills/test-fixing

📌 安全与系统

Skill 作用地址 computer-forensics 数字取证分析与调查技术。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/computer-forensics-skills/skills/computer-forensics file-deletion 安全删除文件和数据清理方法。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/computer-forensics-skills/skills/file-deletion metadata-extraction 提取并分析文件元数据，用于取证目的。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/computer-forensics-skills/skills/metadata-extraction threat-hunting-with-sigma-rules 利用 Sigma 检测规则来追踪威胁并分析安全事件。 https://github.com/jthack/threat-hunting-with-sigma-rules-skill

2026年AI大模型排行榜&Skill主流网站汇总

📌 文档处理

📌 开发与代码工具

📌 数据与分析

📌 商业与营销

📌 沟通与写作

📌 创意与媒体

📌 效率与组织

📌 协作与项目管理

📌 安全与系统

相关推荐