揭示自注意力机制在运输成本预测中的作用：相关研究

作者：

（1）P Aditya Sreekar、亚马逊和这些作者对本文做出了同等贡献 {[email protected]}；

（2）Sahil Verm、亚马逊和这些作者对本文做出了同等贡献 {[email protected];}

（3）Varun Madhavan，印度理工学院，Kharagpur。在亚马逊实习期间完成的工作{[email protected]}；

（4）Abhishek Persad，亚马逊{[email protected]}。

链接表

2.相关工作

基于树的算法在表格数据的机器学习中被广泛使用。决策树基于轴对齐的超平面将数据递归地分成多个部分（Hastie 等人，2009 年）。随机森林 (RF)（Breiman，2001 年）和梯度提升决策树 (GBDT)（Friedman，2001 年）是最常用的基于树的集成。RF 在数据的随机子集上拟合多个决策树，并对预测进行平均/轮询，以缓解决策树的过度拟合特性。GBDT、XGBoost（Chen 和 Guestrin，2016 年）和 CatBoost（Prokhorenkova 等人，2018 年）是增强集成模型，它们按顺序构建决策树以纠正先前树的错误，从而提高具有非线性关系的复杂数据集的性能。

最近，人们对表格数据的深度学习模型产生了浓厚的兴趣。一些方法引入了决策树中使用的决策函数的可微分近似值，使其可微分（Hazimeh 等人，2020 年；Popov 等人，2019 年）。对于某些问题陈述，这些方法的表现优于纯基于树的问题，但它们并不总是更好（Gorishniy 等人，2021 年）。其他方法使用注意力机制将 DL 方法适应表格数据（Arik 等人，2019 年；Huang 等人，2020 年；Gorishniy 等人，2021 年；Somepalli 等人，2021 年；Chen 等人，2022 年）。TabNet（Arik 等人，2019 年）提出了一种稀疏注意力机制，该机制堆叠在多层中以模拟决策树的递归分裂。受自注意力转换器 (Vaswani 等人，2017) 在许多领域 (Devlin 等人，2019；Dosovitskiy 等人，2021；Gong 等人，2021) 的成功启发，提出了 TabTransformer (Huang 等人，2020)、FT-Transformer (Gorishniy 等人，2021) 和 SAINT (Somepalli 等人，2021) 等方法。TabTransformer 将所有分类变量嵌入到统一的嵌入空间中，并将分类嵌入的句子传递到自注意力转换器层。FT-Transformer 通过使用连续嵌入进一步扩展了这一点，同时关注数值特征。SAINT 在 FT-Transformer 的基础上提出了一种新的注意力机制，可以捕捉一批样本之间的相互作用。但是，对于我们的问题陈述而言，SAINT 并没有比 FT-Transformer 提供任何优势，因为样本间注意力仅在维数高于样本数时才有效，因此我们不将 RCT 与 SAINT 进行比较（Somepalli 等人，2021 年）。

该论文可在 arxiv 上根据 CC BY-NC-ND 4.0 DEED 许可获取。

揭示自注意力机制在运输成本预测中的作用：相关研究

太長; 讀書

链接表

2.相关工作

About Author

標籤

这篇文章刊登在...

Categories

Trending Topics

揭示自注意力机制在运输成本预测中的作用：相关研究

太長; 讀書

链接表

2.相关工作

About Author

標籤

这篇文章刊登在...

相關故事

Categories

Trending Topics