
从“手动挡”到“智能驾驶”:数据分析的范式革新
想象一下,你正驾驶一辆高性能跑车,却不得不频繁停车,手动调整引擎参数、更换轮胎,甚至在每次转弯前下车勘测路况。这听起来荒谬,却正是当前许多 AI 在复杂数据分析任务中的真实写照:尽管拥有强大的计算能力,却依然被繁琐的人工干预所束缚。
KDD Cup 2026 正式发布全新赛道:Data Agents for Complex Data Analysis。本次大赛由香港科技大学(广州)数据智能与分析实验室 联合 清华大学数据库组 共同承办,并由 ACM/IEEE Fellow 清华李国良教授和港科广骆昱宇教授领衔。这不仅是一场全球顶尖的数据挖掘赛事,更是一次面向未来的技术挑战:我们能否构建出真正意义上的“智能驾驶”AI,彻底告别人工干预,自主定义数据分析的能力边界?

01
传统的数据分析自动化,更多是“脚本化”的:预设流程、固定工具、单一数据源。一旦任务超出预设范围,或数据环境发生变化,人工干预便不可避免。Data Agents 的核心价值,在于让 AI 从“执行者”升级为“思考者”:
场景模拟:假设你是一名数据科学家,需要评估一家跨国公司在全球各区域的季度销售表现,并找出异常波动的原因。这需要你:
1.理解问题:从一份高层报告中提炼出“评估销售表现”和“找出异常原因”这两个核心目标。
2.数据寻源:在全球多个数据库(SQL)、本地文件(CSV、JSON)、甚至邮件附件(PDF 报告)中寻找相关销售数据、市场报告、汇率信息等。
3.工具选择:根据数据类型和分析需求,选择合适的工具:SQL 查询数据库、Python 脚本处理 CSV、PDF 解析器提取报告内容。
4.逻辑推理:将不同来源的数据整合,进行复杂的计算(如汇率转换、同比环比),识别异常模式,并结合市场报告进行归因分析。
5.结果呈现:将分析结果以清晰的图表和文字形式呈现。
目前,这一系列步骤仍需大量人工协调。而 Data Agent 的目标,正是要自主完成这一切。
02
突破“人工天花板”的核心能力

KDD Cup 2026 Data Agents 赛道,旨在推动 AI 具备以下“告别人工干预”的关键能力:
1.自主任务分解与策略生成:不再依赖人类指令,Agent 能够将复杂的高层级目标,自主拆解为一系列可执行的子任务,并动态规划最优的执行路径。
2.跨模态工具链编排:Agent 能够智能识别并调用多样化的工具(数据库操作、编程语言执行、外部 API 交互),并将其灵活编排,形成高效的工作流。
3.异构信息融合与推理:Agent 能够无缝处理来自结构化、半结构化、非结构化甚至多模态数据源的信息,进行深度关联与逻辑推理,构建全面的数据视图。
4.自适应决策与结果验证:在执行过程中,Agent 能够根据中间结果进行自适应调整,并对最终分析结果进行自我验证,确保准确性和可靠性。
03
丈量 AI 自主分析的“能力边界”

为了精确丈量 AI 在自主数据分析方面的“能力边界”,本次大赛推出了核心基准测试平台DataAgent-Bench。它通过构建一系列精心设计的任务,挑战 Agent 的极限:
▪真实场景模拟:任务设计深度还原企业级数据分析场景,数据源涵盖数据库、文档、图表等异构模态。
▪非线性推理挑战:任务包含顺序链、分支与合并、迭代循环等多种推理模式,要求 Agent 具备高级的逻辑判断和策略调整能力。
▪难度梯度分级:从 Easy 到 Extreme 四个难度级别,通过控制“模态数量”与“干扰项规模”,系统性地评估 Agent 在不同复杂程度下的表现。
一个 Phase 1 任务示例:
任务:分析公司 2025 年 Q3 季度销售数据,识别出实际销售额超出预算目标 20% 的地区,并归因其驱动因素。
Agent 需处理的数据:
▪sales_transactions.sqlite:交易数据库。
▪region_mapping.json:地区映射文件。
▪Company_Ops_Manual.md:预算计算规则。
▪Market_Report_Q3.md:市场分析报告。
Agent 需完成的推理:
1.从手册中提取预算公式,结合映射文件,解析数据库中的地区信息。
2.对交易数据进行复杂查询和计算,筛选出高增长地区。
3.结合市场报告,对增长原因进行自动化归因。
重要信息:Phase 1 Demo 数据集及官方 Starter Kit 已发布!包含 Easy、Medium、Hard 和 Extreme 四个难度级别,并配套 GitHub 基准代码与工具链。立即前往官网 https://dataagent.top/ 下载,挑战 AI 自主分析的极限!
04
激发创新,共塑未来
KDD Cup 2026 采用两阶段赛制,旨在全面激发参赛者的创新潜力:
▪Phase 1(单一主赛道):所有队伍在公共排行榜上竞技,通过自动化评估,考验基础能力与算法效率。
▪ Phase 2(双子赛道):晋级队伍可选择:
Leaderboard Subtrack(排行榜赛道):追求极致准确率,挑战包含数据图像、数据视频等更具挑战性的新模态数据,推动性能极限。
Creative Subtrack(创意赛道):更注重系统设计与用户体验,鼓励构建成熟、交互友好且决策透明的 Data Agent 系统,探索应用边界。
本次大赛设立总额120,000 元人民币的丰厚奖金池,并提供:
▪大厂 Offer 直通车:助力职业发展,连接顶尖人才与产业需求。
▪ KDD Cup Workshop 专属演讲机会:在国际学术舞台展示成果,提升个人与团队影响力。
官方获奖证书:为学术履历增添价值,彰显技术实力。

05
本次大赛由香港科技大学(广州)和清华大学联合组织,汇聚了数据智能领域的学者。组织委员会成员包括:
General Chairs 阵容:

▪李国良,ACM Fellow,IEEE Fellow,清华大学计算机系教授、副主任,国家杰出青年科学基金获得者(并延续资助),国家重点研发计划项目首席科学家,数据智能北京市重点实验室主任,计算机学会数据库专委会副主任。
▪骆昱宇,香港科技大学(广州)助理教授,研究兴趣为Data Agents、LLM Agents。在 SIGMOD、VLDB、KDD、ICML 等顶会发表论文40 余篇。曾获世界人工智能大会云帆奖、福布斯中国U30、华为火花奖。领导 OpenManus 和 DeepEye 开源智能体项目(GitHub 5.5万+ Stars),获日内瓦发明展银奖。
▪汤南,香港科技大学(广州)副教授,ACM Distinguished Member,国家高层次人才计划入选者。研究聚焦 AI4DB 与数据中心化 AI,曾获 VLDB **论文奖及 SIGMOD 2024 Research Highlight Award。
▪李伯岩,香港科技大学(广州)博士生。研究方向聚焦于Text-to-SQL 和 Data Agents,在SIGMOD、KDD、VLDB、ICML等CCF-A类会议发表论文10余篇,领导DeepEye数据智能体开源项目,获日内瓦发明展银奖。
Committee Chairs 阵容:

除上述专家外,大赛还汇聚了一批活跃在数据智能体、文档智能、信息提取、数据可视化、数据库系统及以数据为中心的 AI等前沿领域的青年学者。他们将出任本次大赛的 Committee Chairs,深度参与并统筹赛事的注册流程、全球宣传、数据构建及评估标准制定,从多维度为大赛的公平性、权威性与技术专业度保驾护航。
06
把握机遇,共赴前沿 (AoE 时区)
▪ 3月22日 - 4月23日:全球队伍注册阶段(机会稍纵即逝,立即组队,抢占先机!)
▪ 4月24日 - 5月23日:Phase 1 激烈角逐
▪ 5月28日 - 6月30日:Phase 2 激烈角逐
▪ 8月9日:KDD 2026 现场公布最终获奖名单

07
Data Agents 的时代已然来临,KDD Cup 2026 正是你告别人工干预、定义数据智能未来的**舞台!
▎大赛官网(数据集下载 & 赛事详情):复制链接 https://dataagent.top/ 到浏览器访问,或点击文末左下角“阅读原文”直达。
▎加入官方交流社区,与全球精英同行:为方便参赛者交流、获取最新动态及组队信息,我们开通了官方交流渠道。关注“数据智能与分析实验室 DIAL”微信公众号,回复关键词即可获取:
▪回复KDD大赛:获取官方 Discord 交流社区(KDD Cup 2026 | DataAgents)、X (Twitter) 账号链接及赛事 FAQ 快速入口。
您也可以直接复制链接 https://discord.gg/7eFwJQN3Fx 加入我们的 Discord 社区,与全球开发者共同探讨 Data Agents 的前沿技术!
让我们相约 KDD 2026,共同告别人工干预,塑造数据分析的未来!

未经「AI科技评论」授权,严禁以任何方式在网页、论坛、社区进行转载!
公众号转载请先在「AI科技评论」后台留言取得授权,转载时需标注来源并插入本公众号名片。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/258663.html