2025年Tabular特征选择基准

Tabular特征选择基准学术实验中的表格基准通常是一小组精心选择的特征 相比之下 工业界数据科学家通常会收集尽可能多的特征到他们的数据集中 甚至从现有的特征中设计新的特征 为了防止在后续的下游建模中过拟合 数据科学家通常使用自动特征选择方法来获得特征子集 Tabular 特征选择的现有基准建立在经典的下游模型 合成的 toy 数据集上 在 Tabular 深度学习日益普及的激励下 该文构建了一个具有挑战性的全新特征选择基准

大家好,我是讯享网,很高兴认识大家。

学术实验中的表格基准通常是一小组精心选择的特征。相比之下,工业界数据科学家通常会收集尽可能多的特征到他们的数据集中,甚至从现有的特征中设计新的特征。为了防止在后续的下游建模中过拟合,数据科学家通常使用自动特征选择方法来获得特征子集。Tabular特征选择的现有基准建立在经典的下游模型,合成的toy数据集上。在Tabular深度学习日益普及的激励下,该文构建了一个具有挑战性的全新特征选择基准,在包括Transformer在内的下游网络上进行评估。还提出了一种基于输入梯度的Lasso模型,它在具有挑战性的问题上优于经典的特征选择方法。

来自:A Performance-Driven Benchmark for Feature Selection in Tabular Deep Learning
项目地址:https://github.com/vcherepanova/tabular-feature-selection


讯享网

目录

  • 背景概述
  • 相关工作
    • 表格深度学习
    • 特征选择
    • 特征选择的benchmark
  • 实验设置
  • 噪声对Deep model和GBDT的影响
  • 特征选择benchmark
  • 基准测试特征选择方法
  • 结果
小讯
上一篇 2025-01-11 12:56
下一篇 2025-04-04 08:49

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/126838.html