当前位置: 主页 > 学术动态 >

三个变送器的霍克斯过程:三个臭皮匠顶一个诸葛亮

作者:   文章来源:   点击数:   更新日期: 2021-11-24

论文标题: Tri-Transformer Hawkes Process: Three Heads are better than one

发表会议: International Conference on Neural Information Processing (ICONIP2021) CCF-C类会议

作者列表:

1) 宋志妍 中国石油大学(北京) 信息科学与工程学院 自动化系 控制科学与工程 19

2) 刘建伟 中国石油大学(北京) 信息科学与工程学院 自动化系

3) 张鲁宁 中国石油大学(北京) 信息科学与工程学院 自动化系 控制科学与工程 17

4) 韩亚楠 中国石油大学(北京) 信息科学与工程学院 自动化系 控制科学与工程 19


背景与动机:

随着科技的发展,人们的研究重点逐渐转移到处理真实世界产生的数据。而现实世界的数据大多都是异步事件序列的形式,如金融数据,基因组分析,犯罪行为,地震序列,电子病历。社交网络,投资信用风险等。

想要从这些异步事件序列数据中获取有效信息,分析事件之间的关系并预测未来某个时间可能发生的事件,最常用也是最有效的方法就是点过程模型,而Hawkes过程及其变体能够以其清晰、定量的方式捕捉到复杂序列中不同事件之间的自触发和互触发模式,因此被广泛应用。

霍克斯过程可分为参数非参数霍克斯过程。对于神经Hawkes过程,Du等人提出了递归标记时间点过程(RMTPP)。肖等人介绍了强度RNN。Mei等人建立了神经Hawkes过程(NHP)。

2017年,transformer结构取得了良好的效果,引起了广泛关注。transformer采用的这种结构完全摆脱了其他神经网络结构,如RNN和CNN,只将注意机制用于处理顺序任务。鉴于此,Zhang等人设计了自我注意Hawkes过程(SAHP),该过程利用历史事件的影响,通过自我注意机制发现下一事件的概率。Zuo等人提出了transformer霍克斯过程(THP),他们将变压器结构整合到点过程中。

然而,以往基于注意机制的Hawkes过程模型没有充分地利用异步事件序列中存在的内在事件和时间信息,只是简单地将事件类型编码和时间编码添加到编码器中。同时,我们推测,由单个变压器构建的学习器可能存在学习偏差。在集成学习和Transformer XL的推动下,我们设计了一个三变压器霍克斯过程模型(Tri-THP),在该模型中,事件和时间信息作为辅助信息循环添加到点积注意中,形成一个新的多头注意。结果表明,与现有模型相比,我们的Tri-THP模型的性能有了很大的提高。我们研究的主要贡献如下:

1) 所提出的三种不同的THP:事件类型编码THP(ETE-THP)、主THP(PRI-THP)和时间编码THP(TE-THP)被融合成一个整体,它们相互关联,相互补充,用于提取异步事件序列中的事件类型和时间编码信息。

2) 我们设计了两个新的点注意操作,据我们所知,还没有任何关于这方面的研究报告。

3) 最后,在真实和合成异步事件序列上的实验结果验证了我们的Tri-THP算法的有效性。

设计与实现:

我们构建了三个不同的学习:ETE-THP、PRI-THP和TE-THP,它们相互补充,能更加全面和多样化的进行隐状态提取。左边的学习器,我们称之为ETE-THP,是一个向基本THP模型的多头注意模块提供事件类型嵌入辅助信息的学习中间的学习器,我们称为PR-THP,是基本的学习器,只是在多头注意力的查询向量中加了一个偏置来提高模型稳定性右边的学习器,我们称之为TE-THP时间辅助信息循环加入到基本THP模型的多头注意力中。三个不同的学习分别学习三个隐藏状态,然后用训练得到的三个权重对学习到的三个隐藏状态进行加权,得到最终的隐藏状态。为了防止过度拟合并提高模型的稳定性和性能,我们还加入了dropout、层正则残差连接操作

实验结果:

我们利用两个人工数据集和四个事件序列的真实数据集进行实验。为了验证该方法的性能,我们选择了个度量标准来衡量预测效果:对数似然、事件预测准确率和时间均方根误差

下表的实验结果可以清楚地看出,与其他一些先进方法相比,我们的方法具有明显的优势,验证了Tri-THP的效果

Table 1. The value of log-likelihood function on the test datasets for different models.

Datasets

RMTPP

NHP

SAHP

THP

Tri-THP

Synthetic

\

-1.33

0.52

0.834

6.036

NeuralHawkes

\

-1.02

0.241

0.966

6.601

Retweets

-5.99

-5.06

-5.85

-4.69

2.611

StackOverflow

-2.6

-2.55

-1.86

-0.559

-0.544

MIMIC-II

-1.35

-1.38

-0.52

-0.143

-0.081

Financial

-3.89

-3.6

\

-1.388

-0.651

Table 2. Predict accuracies of different models on various datasets.

Dataset

RMTPP

NHP

THP

Tri-THP

StackOverflow

45.9

46.3

46.79

46.81

MIMIC-II

81.2

83.2

83.2

84.1

Financial

61.95

62.2

62.23

62.31

Table 3. RMSE of different models on various datasets.

Dataset

RMTPP

NHP

THP

Tri-THP

StackOverflow

9.78

9.83

4.99

3.89

MIMIC-II

6.12

6.13

0.859

0.858

Financial

1.56

1.56

0.02575

0.02550

作者简介:

刘建伟副教授,博士,博士生导师/硕士生导师。长期从事模式识别与智能系统、复杂系统分析与智能控制、机器学习和数据挖掘方面的研究工作。美国数学会《数学评论》评论员,中国人工智能学会机器学习分会高级会员。在计算机学报,自动化学报、计算机研究与发展、Neurocomputing、TNNLS等期刊上和国内国际会议上发表学术研究论文200多篇,其中三大检索150多篇。联系方式:liujw@cup.edu.cn