人在回路的数据准备技术研究进展

人在回路的数据准备技术研究进展人在回路的数据准备技术研究进展 范举 1 2 陈跃国 1 2 杜小勇 1 2 1 中国人民大学数据工程与知识工程教育部重点实验室 北京 2 中国人民大学信息学院 北京 摘要 随着数据分析技术的迅猛发展 数据准备越来越成为一个瓶颈性问题 以真实的数据分析场景为背景 分析了数据准备的两大核心挑战 人力成本高与时间周期长 在此基础上

大家好,我是讯享网,很高兴认识大家。

人在回路的数据准备技术研究进展

范举1,2, 陈跃国1,2, 杜小勇1,2

1 中国人民大学数据工程与知识工程教育部重点实验室,北京

2 中国人民大学信息学院,北京

摘要随着数据分析技术的迅猛发展,数据准备越来越成为一个瓶颈性问题。以真实的数据分析场景为背景,分析了数据准备的两大核心挑战:人力成本高与时间周期长。在此基础上,介绍了人在回路数据准备技术的研究进展。交互式数据准备技术面向终端用户,通过与用户的交互预测其意图,并通过有效的预测算法来节省数据准备的时间。基于众包的数据准备技术引入互联网上的海量用户作为众包工人扩展计算能力,从而支持数据准备的基本任务,并研究如何对众包做质量控制与成本优化。最后,对人在回路的数据准备做出总结并探讨未来的挑战性问题。

关键词 数据治理 ; 数据准备 ; 众包 ; 交互机制


讯享网

论文引用格式:

范举, 陈跃国, 杜小勇.人在回路的数据准备技术研究进展. 大数据[J], 2019, 5(6):3-18

FAN J, CHEN Y G, DU X Y.Progress on human-in-the-loop data preparation.Big Data Research[J], 2019, 5(5):3-18


1 引言

近年来,以机器学习特别是深度学习为代表的大数据驱动的分析技术取得了突飞猛进的进展,在很多重要的领域(如图像识别、自然语言处理与无人驾驶等)得到了成功的应用。然而,开发一个数据驱动的分析应用并非易事,图1给出了一个典型的流程示例。首先,需要通过数据准备步骤将原始数据转换为训练数据;进而,通过训练数据上的模型训练,得到预测模型;然后,通过预测模型在真实场景数据上进行预测,并记录预测日志;最后,通过预测日志不断监控模型预测效果,如果预测的偏差超过了一定限度,则需要重新回到数据准备阶段,准备新的数据以更新模型。

数据准备(data preparation)也被称为数据整理(data wrangling),是上述流程的第一步,其作用是将具体某个领域的原始数据转换成机器学习算法可以使用的训练数据 。包括数据的结构化、清洗与转换、集成、标注和开放共享等多个阶段。数据准备看似无足轻重,只完成了前期的“预处理”工作,但在绝大多数机器学习应用中,已越来越成为影响整个开发流程的瓶颈性问题。有调查研究表明,很多机器学习或大数据分析应用80%以上的工作花在了数据准备上,而模型训练与预测的工作量往往相对小些。

图1   一个典型机器学习应用的开发流程

传统的数据准备技术,如数据库领域的ETL,即抽取(extract)、转换(transform)、加载(load),多面向数据库管理员或IT专家。这类用户熟悉数据处理技术、了解数据底层模式,并有着丰富的编程经验。然而,随着大数据分析的普及,从数据中发现价值的主体已经变成了领域用户,如金融分析师或分析病人数据的医生。领域用户相对缺乏数据管理与处理的能力,但对数据背后的领域知识更为了解,对数据分析的趋势更为洞察。因此,如何赋予领域用户数据准备的能力变得十分迫切,也颇具挑战。具体来说,有以下2个问题。

一是人力成本大。数据准备工作难以由机器自动完成,需要大量的人力介入。这方面典型的例子是数据标注。众所周知,深度学习技术在显著提高数据分析能力的同时,也对数据提出了更高的要求:很多深度学习模型需要标注大量的数据,从而达到让人满意的效果与避免模型过拟合(over-fitting)。例如,深度学习在图像识别领域的突破性进展在很大程度上得益于ImageNet数 据集。截至2018年,该数据集包含了超过1 400万张的标注图片。不难想象,标注的过程需要投入大量的人力成本。因此,很多数据分析设想因为难以承担数据准备阶段的人力成本投入,而被迫最终放弃。

二是时间周期长。不同应用的数据通常千差万别,这给数据准备带来了很大的不确定性,导致其过程冗长。以应用深度神经网络(如卷积神经网络或循环神经网络)做文本分析为例,其数据准备包括分词、规范大小写、去除停用词、删除特殊符号、填充(padding)、单词嵌入(embedding)等步骤。不同任务需要对上述步骤做不同的组合,而且每步都需要用户选择合适的参数(如单词嵌入的维度)。用户需要反复尝试才能确定更优的步骤与参数,这使得数据准备过程十分耗时。针对上述挑战,人在回路(human-in-theloop)的技术路线近年来备受学术界和工业界的关注。本文将系统性地介绍人在回路的数据准备技术的研究进展。传统的数据准备,如上文介绍的 ETL,本身就是一个人在回路的过程。然而,面向大数据分析的数据准备使人在回路的方式产生了深刻的变革,这既体现在终端用户的技术背景上,也体现在人参与计算的方式上。因此,本文首先分析人在回路与数据准备的内在关联,并将现有人在回路的数据准备工作分类为交互式数据准备与众包数据准备。前者面向的是需要进行数据准备的终端用户,目的是通过尽可能少的交互预测用户的意图;而后者面向的是互联网上海量的众包工人,目的是借助他们的识别能力提升数据准备的效果。基于上述分类,本文深入地梳理了交互式数据准备和众包数据准备

小讯
上一篇 2025-03-23 08:42
下一篇 2025-02-26 11:12

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/64465.html