点击数: 更新日期: 2023-10-09
中文题目:结合碎片信息过滤的知识图谱历时性层级嵌入
论文题目:Hierarchical Diachronic Embedding of Knowledge Graph combined with Fragmentary Information Filtering
录用期刊/会议:International Conference on Artificial Neural Networks (CCF C类)
录用/见刊时间:2023年6月29日
封面图片:
封面摘要:
我们提出了两种方法:首先,我们提出了词频过滤方法来检测碎片信息。其次,我们提出了动态知识图谱的历时性层级嵌入,它提供了一个实体在不同时间层次上的特征。我们在静态知识图谱嵌入模型“SimplE”中加入碎片过滤和层级时间嵌入的考虑,得到了新的知识图谱补全模型--HDF-ASimplE(Hierarchical Diachronic Embedding of Knowledge Graph with Fragmentary Information Filtering for Average SimplE)。
作者列表:
1)刘凯 中国石油大学(北京)信息科学与工程学院 计算机科学与技术专业 硕 22
2)王智广 中国石油大学(北京)信息科学与工程学院 计算机系教师
3)杨逸萱 中国石油大学(北京)信息科学与工程学院 计算机技术专业 硕 22
4)黄超 中国石油大学(北京)信息科学与工程学院 计算机技术专业 硕 21
5)牛敏 中国石油勘探开发研究院
6)鲁强 中国石油大学(北京)信息科学与工程学院 计算机系教师
摘要:
知识图谱(KG)嵌入常用于链接预测、三元组分类和知识图谱补全(KGC),对知识关系提取和推荐算法设计至关重要。前人在KG嵌入方面的工作在KGC中取得了很好的成果,但是忽略了KG中的碎片信息和时间信息的层次结构。时间信息的层次结构表明,年、月、日等不同维度的信息对事实信息的影响程度不同。碎片信息通常与主要信息弱相关或不相关,降低了KG嵌入学习效率。为了解决这些问题,我们提出了两种方法:首先,我们提出了词频过滤方法来检测碎片信息。其次,我们提出了动态知识图谱的历时性层级嵌入,它提供了一个实体在不同时间层次上的特征。我们在静态知识图谱嵌入模型SimplE中加入碎片过滤和层级时间嵌入的考虑,得到了新的知识图谱补全模型--HDF-ASimplE(Hierarchical Diachronic Embedding of Knowledge Graph with Fragmentary Information Filtering for Average SimplE)。实验结果表明,HDF-ASimplE模型优于前人关于KGC的一些工作,KGC的评价参数平均提高了14%,其中Hit@10参数达到了81.7%。这证明了我们方法的有效性。
背景与动机:
随着知识嵌入技术的不断发展,人们越来越关注低维空间的知识嵌入模式,其中知识记录的质量和动态知识的使用在知识嵌入中起着至关重要的作用。以往的工作大多没有对知识数据集的质量进行评价,直接使用原始的时态知识数据集进行动态知识嵌入。然而,由于原始时态KG中存在大量碎片化信息,这可能会学习到不相关或不重要的知识特征。这些片段是指与中心知识信息无关的信息,如外交新闻知识图谱中的社会新闻信息,这些信息涉及到KG的嵌入训练,可能对数据训练产生不可靠的影响。
受SimplE模型历时性改进的启发,我们尝试将时间信息以不同的方式融入到实体嵌入中。为了更好地利用时序知识图谱中的动态信息,我们考虑了时间层次,重新制定了历时嵌入方法。
主要内容:
碎片信息过滤和处理
我们研究总结了各类知识图谱数据集的规律,提出了一种基于实体词频的碎片信息过滤方法,如图1所示。
图1. 基于词频的碎片信息过滤
图中实体的计算样例如下:在由6个三元组组成的知识图谱中,计算出蓝色实体总数为3,实体总数为12,因此蓝色实体词频为3/12。在该方法中,使用在整个三元组集合中出现的实体数,即每个实体在知识图谱中的频率值,来检测三元组集合中的碎片信息。如算法1所示。
算法1. 词频过滤算法
在算法1中,参数a为实体词频阈值,由知识图谱的结构和类别决定。假设一个知识图谱中有N个实体,频率最高的实体的词频值为p,频率最低的实体的词频值为m,则a的公式函数如下式所示。
历时性层级嵌入
在DE-SimplE的基础上,提出了一种新的时间嵌入方法:历时性层级嵌入(HDE)。HDE对时间信息中不同量级的信息加入相应的时间偏移参数,以区分不同层次的时间信息对实体和关系信息的不同影响。我们在低维向量空间中嵌入不同层次的时间信息、实体信息和关系信息,增强了知识信息在模型中的表示。本文模型的历时实体嵌入函数定义为HDE(v, )。利用时间信息与实体v之间的历时关联,将时间信息嵌入到实体向量维度中。设为实体层次历时嵌入维向量表示(HDEKG(v, ))=()),定义如下式所示。
为学习参数向量,为激活函数,为时间偏移参数,为控制时间特征百分比的超参数。在实体历时嵌入向量中,维度参数捕获时态信息特征,其余维度捕获静态信息特征。
我们在实体关系嵌入过程中使用HDE方法,表示如下:
和分别是三元组正序和三元组反序的嵌入向量表示。
实验结果及分析:
本文提出了一种基于碎片过滤和处理的历时性层级知识图嵌入模型HDF-ASimplE。实验模型为HDF-ASimplE模型,对照组为6个基线模型。此外,F-TransE模型和HD-TransE模型分别是采用词频过滤和历时层级嵌入的TransE模型,作为第7和第8个对照。上述模型使用数据集ICEWS14、ICEWS05-15和GDELT进行知识图谱嵌入训练以及知识图谱补全任务评价,评价结果如表1所示。
表1. ICEWS14、ICEWS05-15和GDELT知识图谱补全评测结果(最佳成绩用粗体显示)。
从表中各模型的评价参数与图2的对比可以看出,本文提出的HDF-ASimplE模型在知识图谱补全中具有显著的优势。通过对比TransE模型与F-TransE模型、TransE模型与HD-TransE模型的评价参数,验证了词频过滤方法和历时性层级嵌入方法能够提高知识图谱嵌入训练模型的性能。
图2. ICEWS14上的模型评价柱状图。我们显示了每个模型的MRR、Hit@1、Hit@3和Hit@10参数,这清楚地表明我们的方法可以更准确地完成缺失的三元组
结论:
本文提出了一种结合片段信息过滤的时间KG嵌入模型HDF-ASimplE,并证明该模型具有足够的表达能力,具有高效的知识学习模式。HDF-ASimplE的实验对比和评估表明,与现有的动态知识图谱补全模型相比,该模型达到了最先进的性能,并且在训练中是稳定的。在未来,我们将致力于提高碎片信息的过滤效率和更好的历时嵌入方法来提高HDF-ASimplE的性能。
通讯作者简介:
王智广,男,博士,教授,博士生导师,北京市教学名师。中国计算机学会(CCF)高级会员,全国高校实验室工作研究会信息技术专家指导委员会委员,全国高校计算机专业(本科)实验教材与实验室环境开发专家委员会委员,北京市计算机教育研究会常务理事。长期从事分布式并行计算、三维可视化、计算机视觉、知识图谱方面的研究工作,主持或承担国家重大科技专项子任务、国家重点研发计划子课题、国家自然科学基金、北京市教委科研课题、北京市重点实验室课题、地方政府委托课题以及企业委托课题20余项,在国内外重要学术会议和期刊上合作发表学术论文70余篇,培养了100余名硕士博士研究生。