当前位置：主页 > 学术动态 >

同时提取样例间关系和标签间相关性的稀疏多标签学习

点击数: 更新日期: 2021-12-06

论文标题: Abstracting Inter-instance Relations and Inter-label Correlation Simultaneously for Sparse Multi-label

发表会议: International Conference on Neural Information Processing (ICONIP2021) CCF-C类会议

作者列表:

1) 连思铭中国石油大学(北京) 信息科学与工程学院自动化系博16

2) 刘建伟中国石油大学(北京) 信息科学与工程学院自动化系

背景与动机:

多标签分类在计算机视觉、语音识别和推荐系统等领域有着广泛的应用。对于多标签分类任务，与其它分类任务最显著的不同之处在于，多标签分类需要找到一对多的关系，可能存在于样例和多标签中，标签之间存在正相关和负相关，样例之间不同的相似关系也是可能的和常见的。特别是，每个样例的不同分量还可能涉及多个标签的信息，这也可能在其它分量的多标签学习中起到关键作用。不用说，在一个样例中获取这种共享信息以帮助学习具有多标签的其它样例是可行的。因此，我们尝试在深度网络中创建核化层，并借助高斯核函数，通过计算核空间中样例之间的距离来提取相似关系。

不幸的是，当我们实现我们的设想时，我们遇到了两个棘手的问题：特性和标签的稀疏性。为了解决这个问题，我们可能有两种方法来处理稀疏性问题。对于样例特征稀疏的情况，通常会阻碍特征表示的有效提取，我们不是直接提取样例关系，而是通过考虑标签相关性来推断样例关系。另一方面，在标签信息稀疏的情况下，可以利用样例特征之间的关系提取多标签相关信息。通过这种方式，我们弥合了稀疏样例特征和多标签之间的差距和不完整性，通过综合融合这些多方面的依赖关系，我们设想通过这种方式导出的特征表示应该反映多标签数据中更完整和精确的信息。

考虑高阶标签相关性对多标签学习有很大的帮助。对于稀疏多标签数据集，引入的标签相关性受到分类器链思想的启发，标签相关性信息有助于传递样例关系。然而，对于稀疏多标签数据集，仅通过引入标签信息可能无法捕获完整的标签相关性，因此需要引入样例关系来推断输出空间的这种相关性。

此外，基于图的扩散函数有利于传递相似性关系，保持相似样例具有相似的标签集。最近对深度神经网络的研究表明，大多数新提出的分类方法（包括多标签学习）重新引起了对图网络和流形的浓厚兴趣。在成功的图方法中，社交网络中的特征可以建模为深度网络中图顶点上的信号。其它图模型也利用时间相关信号作为图的顶点，如传感器网络。在计算机视觉领域，像黎曼流形这样的流形也被用于建模分类任务，并赋予表面的颜色纹理。此外，一些方法在缺少特征向量或特征向量过于复杂的结构化对象上提出了新的思路。具体来说，特征信息分为无关部分和相关部分。

受上述讨论的启发，我们提出了一种核高斯神经网络稀疏多标签学习（GNN-SML）。GNN-SML从简单的深前向网络中的最简单形式开始，随后加入一些特征转换层，例如基于图学习技术的核化层和扩散映射层。

本文的主要贡献如下：

（1）提出的GNN-SML方法将标签信息作为监督项，并通过图学习技术进一步获取样例关系，利用双向关系填充稀疏多标签分类任务所需的信息。

（2）为了更好地推断多标签数据的隐分布，增强网络的可解释性，在神经网络中加入高斯过程，可以得到保持拓扑结构的中间隐表示。

（3）我们引入注意力机制向量来权衡不同特征的重要性。我们对标签的每个分量的隐向量的权重进行微调，并通过注意力机制的对齐权重融合每种类型标签分量的特征，这有利于填补稀疏多标签学习中的缺失信息，这对于提高模型的性能至关重要。

设计与实现:

图1 新型GNN-SML扩散网络的图示

实验结果:

图2 基于六个数据集在标签独立性假设下的GNN-SML的比较结果

图3 部分标记依赖假设下基于GNN-SML的六个数据集的比较结果

图4 基于六个数据集在all标签下依赖性假设的GNN-SML的比较结果

作者简介：

刘建伟，副教授，博士生导师/硕士生导师。长期从事模式识别与智能系统、复杂系统分析与智能控制、机器学习和数据挖掘方面的研究工作。美国数学会《数学评论》评论员，中国人工智能学会机器学习分会高级会员。在计算机学报，自动化学报、计算机研究与发展、Neurocomputing、TNNLS等期刊上和国内国际会议上发表学术研究论文200多篇，其中三大检索150多篇。联系方式：liujw@cup.edu.cn