大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。
但实际看下来,反而是最混乱的一块。
网址:https://lmarena.ai/leaderboard
简介与特点:
这个榜单是由 UC Berkeley(加州大学伯克利分校)团队主导的。伯克利在AI领域的地位非常高,可以类比国内的清华、北大,甚至在某些方向上更强一点。
它和传统“跑分榜单”最大的区别在于:不测题,而是测人。
具体做法是把两个模型的回答放在一起,让用户盲选哪个更好,最后通过大量投票形成排名(类似Elo评分机制)。
这意味着它衡量的其实是:
而不是单纯的“做题能力”。
怎么用:
如果你是做应用(写代码助手、客服、Agent等),这个榜单的参考价值很高,因为它更接近真实用户体验。
局限性:
- 主观性强,不同用户偏好差异大
- 对“数学推理 / 极限能力”不敏感
- 容易受到提示方式影响

网址:https://superclueai.com/homepage
简介与特点:
这是国内比较成体系的一套评测框架,它把模型能力拆成两大类:
- 推理能力(数学 / 科学 / 代码)
- 应用能力(Agent / 指令遵循 / 幻觉控制)
这种划分其实挺“接地气”的——因为真实场景里,你既需要模型会算,也需要它不胡说、能听话、能干活。
另外一个特点是:它对中文支持比较友好,这点在很多国外榜单里是缺失的。
怎么用:
如果你的主要场景是中文(比如国内业务、中文客服、中文Agent),这个榜单比纯英文评测更有参考价值。
局限性:
- 评测数据和方法透明度有限
- 有些任务设计更偏“考试”,而非真实复杂场景
- 榜单之间横向对比困难(和国外榜单不统一)

网址:https://vellum.ai/llm-leaderboard
简介与特点:
这个榜单明显是“给工程师看的”。
它不仅关注模型强不强,还把几个关键因素一起放进来:
- 推理能力(用高难题,比如 AIME)
- 成本(调用价格)
- 上下文长度(能处理多长输入)
- 精度与稳定性
怎么用:
如果你在做系统设计,比如:
- 要不要换模型
- 是用强模型还是便宜模型
- 长上下文是否值得付费
这个榜单非常有参考意义。
局限性:
- 更偏“理性指标”,缺少用户体验维度
- 对非推理类任务(比如创意写作)覆盖不足

网址:https://vellum.ai/open-llm-leaderboard
简介与特点:
这是 Vellum 针对开源模型单独做的榜单。
开源模型和闭源模型(比如GPT、Claude)有一个本质区别:
- 闭源模型:强,但你控制不了
- 开源模型:可以自己部署、微调、改造
怎么用:
适用于以下场景:
- 企业内网部署(数据不能外传)
- 成本敏感(不想一直付API费用)
- 需要深度定制(微调 / 私有知识)
局限性:
- 开源模型整体上限通常低于顶级闭源模型
- 部署和调优成本不低

网址:https://lm-stats.com/benchmarks/llm-leaderboard-full
简介与特点:
这个站和传统排行榜不太一样,它不太关心“谁第一”,而是把模型的关键参数全部摊开:
- 推理速度
- 价格(token成本)
- 上下文长度
- 各类基准测试成绩
你可以把它理解为一个“模型参数对比数据库”,而不是一个简单排名。
怎么用:
当你在做选型时,比如:
- 是选便宜模型跑大规模任务,还是用强模型跑关键路径
- 上下文到底要不要上128k / 1M
这种场景下,它比排行榜更有价值。
局限性:
- 信息多但不做结论,需要你自己判断
- 对非技术用户不太友好

网址:https://scale.com/leaderboard
简介与特点:
由 Scale AI 推出,这家公司本身就是做数据标注起家的,可以理解为“给AI公司打地基的人”。
这个榜单的核心思路不是测“聪明”,而是测:
- 模型在复杂任务中是否稳定
- 是否容易出错
- 在长链路任务中是否会崩
很多评测是通过专家人工评审 + 私有数据集完成的。
怎么用:
如果你的系统是要上线的(比如风控、客服、自动化Agent),这种榜单非常重要,因为现实问题不是“做对一次”,而是“能不能一直做对”。
局限性:
- 数据不公开,透明度相对较低
- 更偏企业视角,不一定适合个人开发者

网址:https://livebench.ai
简介与特点:
这个榜单主打一个概念:“无污染(Contamination-free)”。
并且是定期更新的。
怎么用:
当你怀疑某些榜单“被刷分”时,可以参考这个榜单来做一个对照。
局限性:
- 覆盖面相对较窄(偏理科能力)
- 实际应用能力体现不够

网址:https://huggingface.co/open-llm-leaderboard
简介与特点:
Hugging Face 可以理解为“AI界的GitHub”,开源模型基本都在这里发布、流通。
这个榜单基于 EleutherAI 的评测框架,对模型进行标准化测试,比如:
最大的优势是:统一标准 + 可复现。
怎么用:
当你需要横向比较开源模型(比如选一个7B / 13B模型部署),这个榜单是最基础的参考。
局限性:

网址:https://huggingface.co/spaces/mteb/leaderboard
简介与特点:
专门评测Embedding模型(文本向量模型),覆盖:
规模很大(几十个数据集,上百种语言)。
怎么用:
如果你在做:
这个榜单的重要性,甚至不亚于大模型排行榜。
局限性:

网址:https://rank.opencompass.org.cn/home
简介与特点:
国内做得比较系统的多语言评测平台之一,支持:
在中文语境下,比很多国外榜单更贴近实际。
怎么用:
适合用来判断:
局限性:
- 不同榜单之间难以直接对齐
- 仍然偏“评测场景”,不是生产环境

网址:https://eqbench.com/
简介与特点:
专门评估模型的“情商”,包括:
基于大量对话提示构建。
怎么用:
如果你做的是:
这种能力比“数学推理”更关键。
局限性:

网址:https://gorilla.cs.berkeley.edu/leaderboard.html
简介与特点:
同样来自伯克利团队,专门评测模型的:
这是Agent时代的核心能力之一。
怎么用:
如果你在做:
这个榜单的参考价值非常高。
局限性:

能不能真的把事情做完。
在当前主流 Agent / 工程体系里,Skill 并不是一个模糊概念,而是已经比较固定的一套结构化方式。你可以把它简单理解成:
Skill = 大模型可以调用的一组“标准能力模块”
它通常包含三部分:
- 做什么(能力描述)
- 怎么做(执行步骤 / prompt / 规则)
- 需要什么(工具 / API / 资源)
换句话说,Skill不是“让模型更聪明”,而是让模型具备可复用的行为能力。
Skill已经变成“决定系统能不能落地”的关键组件,但它的来源非常分散。
结果就是一个很现实的问题:
你知道 Skill 很重要,但不知道去哪找“靠谱的 Skill”。
网址:http://skillsmp.com
简介与特点:
SkillsMP 是目前规模最大的 Skill 聚合平台之一,收录超过 8 万个 Skill。它的内容主要来自 GitHub 等开源仓库,通过自动抓取 + 分类索引的方式形成数据库。
SkillsMP 做的事情,本质是:
把全世界散落在 GitHub 上的 Skill “汇总成搜索引擎”
它支持按分类、热度、标签检索,并且每天同步更新。

网址:https://skills.homes
简介与特点:
skills.homes 是一个偏“Agent生态整合”的 Skill 平台,收录约 7 万+ Skill,特点是支持多种 Agent 系统(例如部分基于 Eloquen / Claude Code / Cursor 的扩展生态)。
它的另一个特点是提供中文界面,并且整体稳定性比纯 GitHub 聚合更好一些。

网址:https://skills.sh
简介与特点:
skills.sh 是目前更偏“官方工程风格”的 Skill 平台,整体生态与 Vercel 相关开发体系关系较强。
它的 Skill 数量不多(几千级),但强调:

网址:https://skillhub.club
简介与特点:
SkillHub Club 更像一个“带评分系统的 Skill 市场”,核心特点是引入了 AI 评分机制,对 Skill 做排序和筛选。
SkillHub Club 的做法是:
- 给 Skill 打分(质量 / 实用性 / 热度)
- 提供排序机制
- 帮用户做初筛
本质上是在尝试解决一个问题:
“如何从海量 Skill 里快速找到可用的那一小部分”

网址:https://github.com/ComposioHQ/awesome-claude-skills
简介与特点:
这是目前 GitHub 上规模最大、最系统的 Claude Skills 汇总仓库之一,目前 Star 数已经超过 2.6 万。
它收集的不是某一个平台的 Skill,而是整个社区生态的集合,覆盖从文档处理、代码开发、数据分析,到营销、创意、系统安全等几乎所有方向。

📌 文档处理
Skill 作用 地址 docx 用追踪修改、批注和格式化功能,轻松创建、编辑和分析 Word 文档。 https://github.com/anthropics/skills/tree/main/skills/docx pdf 提取文本、表格、元数据,合并与标注 PDF 文件。 https://github.com/anthropics/skills/tree/main/skills/pdf pptx 读取、生成和调整幻灯片、布局与模板。 https://github.com/anthropics/skills/tree/main/skills/pptx xlsx 电子表格操作:公式、图表、数据转换。 https://github.com/anthropics/skills/tree/main/skills/xlsx Markdown to EPUB Converter 将 Markdown 文档和聊天摘要转换为专业的 EPUB 电子书文件。 https://github.com/smerchek/claude-epub-skill
📌 开发与代码工具
Skill 作用 地址 artifacts-builder 一套利用现代前端 Web 技术(React、Tailwind CSS、shadcn/ui)构建复杂 Claude.ai HTML 资产的工具集。 https://github.com/anthropics/skills/tree/main/skills/web-artifacts-builder aws-skills 结合 CDK **实践的 AWS 开发,包含成本优化的 MCP 服务器和无服务器/事件驱动架构模式。 https://github.com/zxkane/aws-skills Changelog Generator 通过分析 Git 提交历史,自动生成面向用户的变更日志。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/changelog-generator Claude Code Terminal Title 动态设置终端标题,显示当前任务状态。 https://github.com/bluzername/claude-code-terminal-title D3.js Visualization 生成 D3 图表与交互式可视化。 https://github.com/chrisvoncsefalvay/claude-d3js-skill FFUF Web Fuzzing 执行 Web 模糊测试并分析漏洞。 https://github.com/jthack/ffuf_claude_skill finishing-a-development-branch 引导开发任务收尾流程。 https://github.com/obra/superpowers/tree/main/skills/finishing-a-development-branch iOS Simulator 与 iOS 模拟器交互进行测试。 https://github.com/conorluddy/ios-simulator-skill jules 将编码任务交给 Google Jules 异步处理。 https://github.com/sanjay3290/ai-skills/tree/main/skills/jules LangSmith Fetch 自动获取 LangChain/LangGraph 执行轨迹用于调试。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/langsmith-fetch MCP Builder 构建 MCP 服务器,将外部 API 接入 LLM。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/mcp-builder move-code-quality-skill Move 语言代码质量检查。 https://github.com/1NickPappas/move-code-quality-skill Playwright Browser Automation Web 自动化测试与验证。 https://github.com/lackeyjb/playwright-skill prompt-engineering 提示工程技巧与模式优化。 https://github.com/NeoLabHQ/context-engineering-kit/tree/master/plugins/customaize-agent/skills/prompt-engineering pypict-claude-skill 生成组合测试用例。 https://github.com/omkamal/pypict-claude-skill reddit-fetch 替代 WebFetch 获取 Reddit 内容。 https://github.com/ykdojo/claude-code-tips/tree/main/skills/reddit-fetch Skill Creator 指导创建高质量 Skill。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/skill-creator Skill Seekers 将网站转为 Claude Skill。 https://github.com/yusufkaraaslan/Skill_Seekers software-architecture 软件架构与设计模式实践。 https://github.com/NeoLabHQ/context-engineering-kit/tree/master/plugins/ddd/skills/software-architecture subagent-driven-development 子代理驱动开发流程。 https://github.com/NeoLabHQ/context-engineering-kit/tree/master/plugins/sadd/skills/subagent-driven-development test-driven-development TDD 测试驱动开发流程。 https://github.com/obra/superpowers/tree/main/skills/test-driven-development using-git-worktrees Git 工作树管理。 https://github.com/obra/superpowers/blob/main/skills/using-git-worktrees/ Connect 连接 Gmail/Slack/GitHub/Notion 等服务。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/connect Webapp Testing Web 应用测试与截图验证。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/webapp-testing
📌 数据与分析
Skill 作用 地址 CSV Data Summarizer 无需用户提示,自动分析 CSV 文件并生成包含可视化图表的全面洞察。 https://github.com/coffeefuelbump/csv-data-summarizer-claude-skill deep-research 使用 Gemini 深度研究代理执行自主的多步骤研究,适用于市场分析、竞争格局分析和文献综述。 https://github.com/sanjay3290/ai-skills/tree/main/skills/deep-research postgres 支持多连接的 PostgreSQL 数据库安全只读 SQL 查询,具备纵深防御安全机制。 https://github.com/sanjay3290/ai-skills/tree/main/skills/postgres root-cause-tracing 当执行过程中出现深层错误时,用于回溯查找最初的触发点。 https://github.com/obra/superpowers/tree/main/skills/root-cause-tracing
📌 商业与营销
Skill 作用 地址 Brand Guidelines 将 Anthropic 官方的品牌配色和字体应用到各类设计素材中,确保视觉形象统一,达到专业级的设计标准。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/brand-guidelines Competitive Ads Extractor 从广告库中抓取并分析竞争对手的广告内容,帮你搞清楚哪些传播话术和创意形式真正能打动人。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/competitive-ads-extractor Domain Name Brainstormer 生成创意十足的域名想法,并一键检查 .com、.io、.dev、.ai 等多个顶级域名的可用性。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/domain-name-brainstormer Internal Comms 帮你撰写内部沟通内容,比如第三方更新、公司通讯、常见问题解答、状态报告和项目更新,还能根据公司特定格式来排版。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/internal-comms Lead Research Assistant 通过分析你的产品、搜索目标公司,帮你识别和筛选高质量的潜在客户,并提供可执行的 outreach 策略。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/lead-research-assistant
📌 沟通与写作
Skill 作用 地址 article-extractor 从网页中提取完整文章内容和元数据。 https://github.com/michalparkola/tapestry-skills-for-claude-code/tree/main/article-extractor brainstorming 通过结构化提问和多角度探索,把零散的点子打磨成完整的设计方案。 https://github.com/obra/superpowers/tree/main/skills/brainstorming Content Research Writer 帮你搞定高质量内容创作,从调研、引用、优化开头,到逐段反馈。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/content-research-writer family-history-research 协助规划家族历史和家谱研究项目,帮你挖出那些被遗忘的家族故事。 https://github.com/emaynard/claude-family-history-research-skill Meeting Insights Analyzer 分析会议录音,扒出行为模式,比如回避冲突、发言比例、口头禅,还有领导风格,一目了然。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/meeting-insights-analyzer NotebookLM Integration 让 Claude Code 直接与 NotebookLM 对话,基于上传的文档提供有据可依的答案。 https://github.com/PleasePrompto/notebooklm-skill Twitter Algorithm Optimizer 利用推特开源的算法洞察,分析并优化推文,实现最大传播效果。重写和编辑推文,提升互动率和曝光度 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/twitter-algorithm-optimizer
📌 创意与媒体
Skill 作用 地址 Canvas Design 通过设计哲学和美学原则,为海报、设计和静态作品创作精美的 PNG 和 PDF 视觉艺术。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/canvas-design imagen 利用 Google Gemini 的图像生成 API,生成 UI 原型、图标、插图和视觉资产。 https://github.com/sanjay3290/ai-skills/tree/main/skills/imagen Image Enhancer 通过提升分辨率、清晰度和锐度,优化图像和截图质量。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/image-enhancer Slack GIF Creator 专为 Slack 优化的动画 GIF 生成工具,内置尺寸限制校验和可组合的动画基础组件。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/slack-gif-creator Theme Factory 一键为幻灯片、文档、报告和 HTML 首页等文件应用专业字体和配色主题,提供 10 种预设风格。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/theme-factory Video Downloader 支持从 YouTube 及其他平台下载视频,方便离线观看、剪辑或存档,兼容多种格式和清晰度。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/video-downloader youtube-transcript 自动抓取 YouTube 视频字幕并生成摘要。 https://github.com/michalparkola/tapestry-skills-for-claude-code/tree/main/youtube-transcript
📌 效率与组织
Skill 作用 地址 File Organizer 通过理解上下文智能整理文件和文件夹,自动识别重复文件,并推荐更合理的组织结构。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/file-organizer Invoice Organizer 自动整理发票和收据,用于税务准备,能读取文件、提取信息并统一命名。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/invoice-organizer kaizen 基于日本精益管理和 Kaizen 哲学,采用多种分析方法,持续优化流程,实现不断改进。 https://github.com/NeoLabHQ/context-engineering-kit/tree/main/plugins/kaizen/skills/kaizen n8n-skills 让 AI 助手直接理解并操作 n8n 工作流。 https://github.com/haunchen/n8n-skills Raffle Winner Picker 从列表、表格或 Google Sheets 中随机选出中奖者,用于抽奖和比赛,用的是加密安全的随机数。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/raffle-winner-picker Tailored Resume Generator 分析职位描述,自动生成突出相关经验、技能和成就的定制简历,帮你把面试机会最大化。 https://github.com/ComposioHQ/awesome-claude-skills/blob/master/tailored-resume-generator ship-learn-next 一个帮你迭代下一步该做什么或学什么的技能,基于反馈循环不断优化。 https://github.com/michalparkola/tapestry-skills-for-claude-code/tree/main/ship-learn-next tapestry 把相关文档串联起来,自动生成知识网络,就像织出一张智慧之网。 https://github.com/michalparkola/tapestry-skills-for-claude-code/tree/main/tapestry
📌 协作与项目管理
Skill 作用 地址 git-pushing 自动化 Git 操作和仓库交互,省心又高效,再也不用手动推代码了。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/engineering-workflow-plugin/skills/git-pushing google-workspace-skills 一套 Google Workspace 集成工具:Gmail、日历、聊天、文档、表格、幻灯片和云端硬盘,支持跨平台 OAuth 登录。 https://github.com/sanjay3290/ai-skills/tree/main/skills outline 在 Outline 维基实例(云端或自托管)中搜索、阅读、创建和管理文档。 https://github.com/sanjay3290/ai-skills/tree/main/skills/outline review-implementing 评估代码实现方案,并确保与需求 specs 对齐。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/engineering-workflow-plugin/skills/review-implementing test-fixing 检测失败的测试用例,并提出补丁或修复方案。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/engineering-workflow-plugin/skills/test-fixing
📌 安全与系统
Skill 作用 地址 computer-forensics 数字取证分析与调查技术。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/computer-forensics-skills/skills/computer-forensics file-deletion 安全删除文件和数据清理方法。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/computer-forensics-skills/skills/file-deletion metadata-extraction 提取并分析文件元数据,用于取证目的。 https://github.com/mhattingpete/claude-skills-marketplace/tree/main/computer-forensics-skills/skills/metadata-extraction threat-hunting-with-sigma-rules 利用 Sigma 检测规则来追踪威胁并分析安全事件。 https://github.com/jthack/threat-hunting-with-sigma-rules-skill
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/271261.html