2026年AI大模型排行榜&Skill主流网站汇总

AI大模型排行榜&Skill主流网站汇总svg xmlns http www w3 org 2000 svg style display none svg

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 
  
    
     
      
     

但实际看下来,反而是最混乱的一块。

网址:https://lmarena.ai/leaderboard

简介与特点
这个榜单是由 UC Berkeley(加州大学伯克利分校)团队主导的。伯克利在AI领域的地位非常高,可以类比国内的清华、北大,甚至在某些方向上更强一点。

它和传统“跑分榜单”最大的区别在于:不测题,而是测人
具体做法是把两个模型的回答放在一起,让用户盲选哪个更好,最后通过大量投票形成排名(类似Elo评分机制)。

这意味着它衡量的其实是:

  • 输出是否自然
  • 回答是否有用
  • 是否符合人类直觉

而不是单纯的“做题能力”。

怎么用
如果你是做应用(写代码助手、客服、Agent等),这个榜单的参考价值很高,因为它更接近真实用户体验。

局限性

  • 主观性强,不同用户偏好差异大
  • 对“数学推理 / 极限能力”不敏感
  • 容易受到提示方式影响

在这里插入图片描述

网址:https://superclueai.com/homepage

简介与特点
这是国内比较成体系的一套评测框架,它把模型能力拆成两大类:

  • 推理能力(数学 / 科学 / 代码)
  • 应用能力(Agent / 指令遵循 / 幻觉控制)

这种划分其实挺“接地气”的——因为真实场景里,你既需要模型会算,也需要它不胡说、能听话、能干活

另外一个特点是:它对中文支持比较友好,这点在很多国外榜单里是缺失的。

怎么用
如果你的主要场景是中文(比如国内业务、中文客服、中文Agent),这个榜单比纯英文评测更有参考价值。

局限性

  • 评测数据和方法透明度有限
  • 有些任务设计更偏“考试”,而非真实复杂场景
  • 榜单之间横向对比困难(和国外榜单不统一)

在这里插入图片描述

网址:https://vellum.ai/llm-leaderboard

简介与特点
这个榜单明显是“给工程师看的”。
它不仅关注模型强不强,还把几个关键因素一起放进来:




  • 推理能力(用高难题,比如 AIME)
  • 成本(调用价格)
  • 上下文长度(能处理多长输入)
  • 精度与稳定性

怎么用
如果你在做系统设计,比如:

  • 要不要换模型
  • 是用强模型还是便宜模型
  • 长上下文是否值得付费

这个榜单非常有参考意义。

局限性

  • 更偏“理性指标”,缺少用户体验维度
  • 对非推理类任务(比如创意写作)覆盖不足

在这里插入图片描述

网址:https://vellum.ai/open-llm-leaderboard

简介与特点
这是 Vellum 针对开源模型单独做的榜单。

开源模型和闭源模型(比如GPT、Claude)有一个本质区别:

  • 闭源模型:强,但你控制不了
  • 开源模型:可以自己部署、微调、改造

怎么用
适用于以下场景:

  • 企业内网部署(数据不能外传)
  • 成本敏感(不想一直付API费用)
  • 需要深度定制(微调 / 私有知识)

局限性

  • 开源模型整体上限通常低于顶级闭源模型
  • 部署和调优成本不低

在这里插入图片描述

网址:https://lm-stats.com/benchmarks/llm-leaderboard-full

简介与特点
这个站和传统排行榜不太一样,它不太关心“谁第一”,而是把模型的关键参数全部摊开:

  • 推理速度
  • 价格(token成本)
  • 上下文长度
  • 各类基准测试成绩

你可以把它理解为一个“模型参数对比数据库”,而不是一个简单排名。

怎么用
当你在做选型时,比如:

  • 是选便宜模型跑大规模任务,还是用强模型跑关键路径
  • 上下文到底要不要上128k / 1M
    这种场景下,它比排行榜更有价值。

局限性

  • 信息多但不做结论,需要你自己判断
  • 对非技术用户不太友好

在这里插入图片描述

网址:https://scale.com/leaderboard

简介与特点
由 Scale AI 推出,这家公司本身就是做数据标注起家的,可以理解为“给AI公司打地基的人”。

这个榜单的核心思路不是测“聪明”,而是测:

  • 模型在复杂任务中是否稳定
  • 是否容易出错
  • 在长链路任务中是否会崩

很多评测是通过专家人工评审 + 私有数据集完成的。

怎么用
如果你的系统是要上线的(比如风控、客服、自动化Agent),这种榜单非常重要,因为现实问题不是“做对一次”,而是“能不能一直做对”。

局限性

  • 数据不公开,透明度相对较低
  • 更偏企业视角,不一定适合个人开发者

在这里插入图片描述

网址:https://livebench.ai

简介与特点
这个榜单主打一个概念:“无污染(Contamination-free)”

  • 推理
  • 编程
  • 数学

并且是定期更新的。

怎么用
当你怀疑某些榜单“被刷分”时,可以参考这个榜单来做一个对照。

局限性

  • 覆盖面相对较窄(偏理科能力)
  • 实际应用能力体现不够

在这里插入图片描述

网址:https://huggingface.co/open-llm-leaderboard

简介与特点
Hugging Face 可以理解为“AI界的GitHub”,开源模型基本都在这里发布、流通。

这个榜单基于 EleutherAI 的评测框架,对模型进行标准化测试,比如:

  • MMLU
  • HellaSwag
  • ARC 等

最大的优势是:统一标准 + 可复现

怎么用
当你需要横向比较开源模型(比如选一个7B / 13B模型部署),这个榜单是最基础的参考。

局限性

  • 和真实用户体验有差距
  • 容易被“针对性优化”

在这里插入图片描述

网址:https://huggingface.co/spaces/mteb/leaderboard

简介与特点
专门评测Embedding模型(文本向量模型),覆盖:

  • 检索
  • 分类
  • 聚类
  • 多语言任务

规模很大(几十个数据集,上百种语言)。

怎么用
如果你在做:

  • RAG(检索增强生成)
  • 向量数据库搜索
  • 推荐系统

这个榜单的重要性,甚至不亚于大模型排行榜。

局限性

  • 和生成模型能力无关
  • 实际效果还受数据质量影响很大

在这里插入图片描述

网址:https://rank.opencompass.org.cn/home

简介与特点
国内做得比较系统的多语言评测平台之一,支持:

  • 中文任务
  • 英文任务
  • 安全与合规测试

在中文语境下,比很多国外榜单更贴近实际。

怎么用
适合用来判断:

  • 中文能力
  • 多语言表现
  • 一些本地化需求

局限性

  • 不同榜单之间难以直接对齐
  • 仍然偏“评测场景”,不是生产环境

在这里插入图片描述

网址:https://eqbench.com/

简介与特点
专门评估模型的“情商”,包括:

  • 情绪理解
  • 共情能力
  • 对语境的把握

基于大量对话提示构建。

怎么用
如果你做的是:

  • 客服
  • 心理陪伴
  • 社交类AI

这种能力比“数学推理”更关键。

局限性

  • 主观性强
  • 不同文化背景下结果可能不同

在这里插入图片描述

网址:https://gorilla.cs.berkeley.edu/leaderboard.html

简介与特点
同样来自伯克利团队,专门评测模型的:

  • 函数调用能力
  • 工具使用能力
  • API理解能力

这是Agent时代的核心能力之一。

怎么用
如果你在做:

  • Agent系统
  • 自动化工作流
  • Copilot

这个榜单的参考价值非常高。

局限性

  • 偏工程能力,对通用对话意义不大

在这里插入图片描述

能不能真的把事情做完。

在当前主流 Agent / 工程体系里,Skill 并不是一个模糊概念,而是已经比较固定的一套结构化方式。你可以把它简单理解成:

Skill = 大模型可以调用的一组“标准能力模块”

它通常包含三部分:

  • 做什么(能力描述)
  • 怎么做(执行步骤 / prompt / 规则)
  • 需要什么(工具 / API / 资源)

换句话说,Skill不是“让模型更聪明”,而是让模型具备可复用的行为能力

Skill已经变成“决定系统能不能落地”的关键组件,但它的来源非常分散。

结果就是一个很现实的问题:

你知道 Skill 很重要,但不知道去哪找“靠谱的 Skill”。

网址:http://skillsmp.com

简介与特点
SkillsMP 是目前规模最大的 Skill 聚合平台之一,收录超过 8 万个 Skill。它的内容主要来自 GitHub 等开源仓库,通过自动抓取 + 分类索引的方式形成数据库。

SkillsMP 做的事情,本质是:

把全世界散落在 GitHub 上的 Skill “汇总成搜索引擎”

它支持按分类、热度、标签检索,并且每天同步更新。

在这里插入图片描述

网址:https://skills.homes

简介与特点
skills.homes 是一个偏“Agent生态整合”的 Skill 平台,收录约 7 万+ Skill,特点是支持多种 Agent 系统(例如部分基于 Eloquen / Claude Code / Cursor 的扩展生态)。

它的另一个特点是提供中文界面,并且整体稳定性比纯 GitHub 聚合更好一些。

在这里插入图片描述

网址:https://skills.sh

简介与特点
skills.sh 是目前更偏“官方工程风格”的 Skill 平台,整体生态与 Vercel 相关开发体系关系较强。

它的 Skill 数量不多(几千级),但强调:

  • 一键安装
  • 工程可用性
  • 质量控制(而不是数量堆积)

在这里插入图片描述

网址:https://skillhub.club

简介与特点
SkillHub Club 更像一个“带评分系统的 Skill 市场”,核心特点是引入了 AI 评分机制,对 Skill 做排序和筛选。

SkillHub Club 的做法是:

  • 给 Skill 打分(质量 / 实用性 / 热度)
  • 提供排序机制
  • 帮用户做初筛

本质上是在尝试解决一个问题:

“如何从海量 Skill 里快速找到可用的那一小部分”

在这里插入图片描述

网址:https://github.com/ComposioHQ/awesome-claude-skills

简介与特点
这是目前 GitHub 上规模最大、最系统的 Claude Skills 汇总仓库之一,目前 Star 数已经超过 2.6 万。

它收集的不是某一个平台的 Skill,而是整个社区生态的集合,覆盖从文档处理、代码开发、数据分析,到营销、创意、系统安全等几乎所有方向。

在这里插入图片描述

📌 文档处理

Skill 作用 地址 docx 用追踪修改、批注和格式化功能,轻松创建、编辑和分析 Word 文档。 https://github.com/anthropics/skills/tree/main/skills/docx pdf 提取文本、表格、元数据,合并与标注 PDF 文件。 https://github.com/anthropics/skills/tree/main/skills/pdf pptx 读取、生成和调整幻灯片、布局与模板。 https://github.com/anthropics/skills/tree/main/skills/pptx xlsx 电子表格操作:公式、图表、数据转换。 https://github.com/anthropics/skills/tree/main/skills/xlsx Markdown to EPUB Converter 将 Markdown 文档和聊天摘要转换为专业的 EPUB 电子书文件。 https://github.com/smerchek/claude-epub-skill

📌 开发与代码工具

Skill 作用 地址 artifacts-builder 一套利用现代前端 Web 技术(React、Tailwind CSS、shadcn/ui)构建复杂 Claude.ai HTML 资产的工具集。 https://github.com/anthropics/skills/tree/main/skills/web-artifacts-builder aws-skills 结合 CDK **实践的 AWS 开发,包含成本优化的 MCP 服务器和无服务器/事件驱动架构模式。 https://github.com/zxkane/aws-skills Changelog Generator 通过分析 Git 提交历史,自动生成面向用户的变更日志。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/changelog-generator Claude Code Terminal Title 动态设置终端标题,显示当前任务状态。 https://github.com/bluzername/claude-code-terminal-title D3.js Visualization 生成 D3 图表与交互式可视化。 https://github.com/chrisvoncsefalvay/claude-d3js-skill FFUF Web Fuzzing 执行 Web 模糊测试并分析漏洞。 https://github.com/jthack/ffuf_claude_skill finishing-a-development-branch 引导开发任务收尾流程。 https://github.com/obra/superpowers/tree/main/skills/finishing-a-development-branch iOS Simulator 与 iOS 模拟器交互进行测试。 https://github.com/conorluddy/ios-simulator-skill jules 将编码任务交给 Google Jules 异步处理。 https://github.com/sanjay3290/ai-skills/tree/main/skills/jules LangSmith Fetch 自动获取 LangChain/LangGraph 执行轨迹用于调试。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/langsmith-fetch MCP Builder 构建 MCP 服务器,将外部 API 接入 LLM。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/mcp-builder move-code-quality-skill Move 语言代码质量检查。 https://github.com/1NickPappas/move-code-quality-skill Playwright Browser Automation Web 自动化测试与验证。 https://github.com/lackeyjb/playwright-skill prompt-engineering 提示工程技巧与模式优化。 https://github.com/NeoLabHQ/context-engineering-kit/tree/master/plugins/customaize-agent/skills/prompt-engineering pypict-claude-skill 生成组合测试用例。 https://github.com/omkamal/pypict-claude-skill reddit-fetch 替代 WebFetch 获取 Reddit 内容。 https://github.com/ykdojo/claude-code-tips/tree/main/skills/reddit-fetch Skill Creator 指导创建高质量 Skill。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/skill-creator Skill Seekers 将网站转为 Claude Skill。 https://github.com/yusufkaraaslan/Skill_Seekers software-architecture 软件架构与设计模式实践。 https://github.com/NeoLabHQ/context-engineering-kit/tree/master/plugins/ddd/skills/software-architecture subagent-driven-development 子代理驱动开发流程。 https://github.com/NeoLabHQ/context-engineering-kit/tree/master/plugins/sadd/skills/subagent-driven-development test-driven-development TDD 测试驱动开发流程。 https://github.com/obra/superpowers/tree/main/skills/test-driven-development using-git-worktrees Git 工作树管理。 https://github.com/obra/superpowers/blob/main/skills/using-git-worktrees/ Connect 连接 Gmail/Slack/GitHub/Notion 等服务。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/connect Webapp Testing Web 应用测试与截图验证。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/webapp-testing

📌 数据与分析

Skill 作用 地址 CSV Data Summarizer 无需用户提示,自动分析 CSV 文件并生成包含可视化图表的全面洞察。 https://github.com/coffeefuelbump/csv-data-summarizer-claude-skill deep-research 使用 Gemini 深度研究代理执行自主的多步骤研究,适用于市场分析、竞争格局分析和文献综述。 https://github.com/sanjay3290/ai-skills/tree/main/skills/deep-research postgres 支持多连接的 PostgreSQL 数据库安全只读 SQL 查询,具备纵深防御安全机制。 https://github.com/sanjay3290/ai-skills/tree/main/skills/postgres root-cause-tracing 当执行过程中出现深层错误时,用于回溯查找最初的触发点。 https://github.com/obra/superpowers/tree/main/skills/root-cause-tracing

📌 商业与营销

Skill 作用 地址 Brand Guidelines 将 Anthropic 官方的品牌配色和字体应用到各类设计素材中,确保视觉形象统一,达到专业级的设计标准。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/brand-guidelines Competitive Ads Extractor 从广告库中抓取并分析竞争对手的广告内容,帮你搞清楚哪些传播话术和创意形式真正能打动人。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/competitive-ads-extractor Domain Name Brainstormer 生成创意十足的域名想法,并一键检查 .com、.io、.dev、.ai 等多个顶级域名的可用性。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/domain-name-brainstormer Internal Comms 帮你撰写内部沟通内容,比如第三方更新、公司通讯、常见问题解答、状态报告和项目更新,还能根据公司特定格式来排版。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/internal-comms Lead Research Assistant 通过分析你的产品、搜索目标公司,帮你识别和筛选高质量的潜在客户,并提供可执行的 outreach 策略。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/lead-research-assistant

📌 沟通与写作

Skill 作用 地址 article-extractor 从网页中提取完整文章内容和元数据。 https://github.com/michalparkola/tapestry-skills-for-claude-code/tree/main/article-extractor brainstorming 通过结构化提问和多角度探索,把零散的点子打磨成完整的设计方案。 https://github.com/obra/superpowers/tree/main/skills/brainstorming Content Research Writer 帮你搞定高质量内容创作,从调研、引用、优化开头,到逐段反馈。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/content-research-writer family-history-research 协助规划家族历史和家谱研究项目,帮你挖出那些被遗忘的家族故事。 https://github.com/emaynard/claude-family-history-research-skill Meeting Insights Analyzer 分析会议录音,扒出行为模式,比如回避冲突、发言比例、口头禅,还有领导风格,一目了然。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/meeting-insights-analyzer NotebookLM Integration 让 Claude Code 直接与 NotebookLM 对话,基于上传的文档提供有据可依的答案。 https://github.com/PleasePrompto/notebooklm-skill Twitter Algorithm Optimizer 利用推特开源的算法洞察,分析并优化推文,实现最大传播效果。重写和编辑推文,提升互动率和曝光度 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/twitter-algorithm-optimizer

📌 创意与媒体

Skill 作用 地址 Canvas Design 通过设计哲学和美学原则,为海报、设计和静态作品创作精美的 PNG 和 PDF 视觉艺术。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/canvas-design imagen 利用 Google Gemini 的图像生成 API,生成 UI 原型、图标、插图和视觉资产。 https://github.com/sanjay3290/ai-skills/tree/main/skills/imagen Image Enhancer 通过提升分辨率、清晰度和锐度,优化图像和截图质量。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/image-enhancer Slack GIF Creator 专为 Slack 优化的动画 GIF 生成工具,内置尺寸限制校验和可组合的动画基础组件。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/slack-gif-creator Theme Factory 一键为幻灯片、文档、报告和 HTML 首页等文件应用专业字体和配色主题,提供 10 种预设风格。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/theme-factory Video Downloader 支持从 YouTube 及其他平台下载视频,方便离线观看、剪辑或存档,兼容多种格式和清晰度。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/video-downloader youtube-transcript 自动抓取 YouTube 视频字幕并生成摘要。 https://github.com/michalparkola/tapestry-skills-for-claude-code/tree/main/youtube-transcript

📌 效率与组织

Skill 作用 地址 File Organizer 通过理解上下文智能整理文件和文件夹,自动识别重复文件,并推荐更合理的组织结构。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/file-organizer Invoice Organizer 自动整理发票和收据,用于税务准备,能读取文件、提取信息并统一命名。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/invoice-organizer kaizen 基于日本精益管理和 Kaizen 哲学,采用多种分析方法,持续优化流程,实现不断改进。 https://github.com/NeoLabHQ/context-engineering-kit/tree/main/plugins/kaizen/skills/kaizen n8n-skills 让 AI 助手直接理解并操作 n8n 工作流。 https://github.com/haunchen/n8n-skills Raffle Winner Picker 从列表、表格或 Google Sheets 中随机选出中奖者,用于抽奖和比赛,用的是加密安全的随机数。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/raffle-winner-picker Tailored Resume Generator 分析职位描述,自动生成突出相关经验、技能和成就的定制简历,帮你把面试机会最大化。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/tailored-resume-generator ship-learn-next 一个帮你迭代下一步该做什么或学什么的技能,基于反馈循环不断优化。 https://github.com/michalparkola/tapestry-skills-for-claude-code/tree/main/ship-learn-next tapestry 把相关文档串联起来,自动生成知识网络,就像织出一张智慧之网。 https://github.com/michalparkola/tapestry-skills-for-claude-code/tree/main/tapestry

📌 协作与项目管理

Skill 作用 地址 git-pushing 自动化 Git 操作和仓库交互,省心又高效,再也不用手动推代码了。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/engineering-workflow-plugin/skills/git-pushing google-workspace-skills 一套 Google Workspace 集成工具:Gmail、日历、聊天、文档、表格、幻灯片和云端硬盘,支持跨平台 OAuth 登录。 https://github.com/sanjay3290/ai-skills/tree/main/skills outline 在 Outline 维基实例(云端或自托管)中搜索、阅读、创建和管理文档。 https://github.com/sanjay3290/ai-skills/tree/main/skills/outline review-implementing 评估代码实现方案,并确保与需求 specs 对齐。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/engineering-workflow-plugin/skills/review-implementing test-fixing 检测失败的测试用例,并提出补丁或修复方案。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/engineering-workflow-plugin/skills/test-fixing

📌 安全与系统

Skill 作用 地址 computer-forensics 数字取证分析与调查技术。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/computer-forensics-skills/skills/computer-forensics file-deletion 安全删除文件和数据清理方法。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/computer-forensics-skills/skills/file-deletion metadata-extraction 提取并分析文件元数据,用于取证目的。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/computer-forensics-skills/skills/metadata-extraction threat-hunting-with-sigma-rules 利用 Sigma 检测规则来追踪威胁并分析安全事件。 https://github.com/jthack/threat-hunting-with-sigma-rules-skill

小讯
上一篇 2026-04-19 22:57
下一篇 2026-04-19 22:55

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/271261.html