BLOG

个人博客,记录学习与生活

[KDD2015]PTE

Published Aug. 9, 2020, 5:11 p.m. by kkk

1和LINE出自同一团队,处理特定的一类数据(异质文本网络),目的是学习针对给定分类任务进行优化的文本表示,可以建立端到端的方案。不同以往的embedding方法,PTE采用半监督方法,不仅学习元素的表示,而且通过元素的标签数据进行训练,使之直接能进行分类任务。

方法简介

PTE(Predictive Text Embedding):给定一个大规模的文本数据集,其中部分带标签,通过对文本数据集构成的异质网络进行学习,学习到低维度的embedding表示。

从名字就可以理解,text embedding表示是为了学习文本的embedding,和predictive表示这些学习到的embedding是带类别预测功能的。

数据网络:

结构描述:有多个文档,每个文档内有多个预料,而部分文档本身是具有标签的

Word-Word网络:词、词共现网络,$G_{ww} = (V, E_{ww})$,描述了局部上下文间单词的共现信息,$V, E_{ww}$分别是总词汇和单词间的边集,边的权重定义为给定上下文窗口尺寸下,上下文窗口内两词共同出现的次数。

Word-Document网络:词、文档网络,$G_{wd}=(V\cup D, E_{wd})$,$V,D,E_{wd}$分别为总词汇、文档集、单词与文档间的边集,权重定义为单词出现在文档中的次数,描述了文档级别的单词共现信息。

Word-Label网络:词、标签网络,$G_{wl}=(V\cup L, E_{wl})$,$V,L,E_{wl}$分别是总词汇、标签集,单词和标签的边集,权重定义为$\sum_{(d:l_d=j)}n_{di}$,$n_{di}$是单词$v_i$出现在文档$d$中的频次,$l_d$是文档$d$的标签(参考结构描述)。描述了分类层次的单词共现信息。

异质文本网络:是上面三个网络的集合,而这三个网络由无标签和有标签(即部分带标签)数据生成。可以看作一个三层的网络结构,中间层是单词,上下层则是文档和标签。

具体措施

1. BIpartile Network Embedding

给定对分网络$G=(V_A\cup V_B, E)$,$V_A,V_B$是两个不相交的不同类型节点集合,$E$为两者之间的边集。采用LINE论文中二阶相似度的处理步骤

最后需要优化的目标函数为: $$ O = - \sum_{(i,j)\in E}w_{ij}\log p(v_j\vert v_i) $$ 通过LINE,Word-Word、Word-Document、Word-Label三个网络中的embedding都可以学习到。

注:Word-Word网络本来是无向图,但是可以将无向边拆为两个有向边,那么可以将出度节点构成$V_A$,入度节点构成$V_B$,以此形成对分网络。

2. Heterogeneous Text Network Embedding

对于整个异质网络的学习,直观方法是将三个图联合起来进行embedding,整体优化函数为: $$ O_{pte} = O_{ww} + O_{wd} + O_{wl} $$ $O_{ww},O_{wd},O_{wl}$通过前面的式子进行计算。

现在问题在于如何对该问题进行训练和学习,有两个思路:

  1. 联合训练(Joint training)。同时使用带标签数据和不带标签数据训练
  2. 预训练、调优(Pre-training+Fine-tunning)。先通过无标签数据进行训练得到embedding,然后使用代标签数据进行调优

3. Text Embedding

当词向量都学完之后,任何一段文字的表示都可以简单的采用包含的所有单词embedding的平均。即对于文本$d=w_1 w_2 \cdots,w_n$,其embedding为

$$ d = \frac{1}{n} \sum^n_{i=1}u_i $$

结论

通过在几个长、短文本数据集上的实验,在数据集十分稀疏时,CNN效果优于PTE,特别是在短文本,PTE的优势主要在于计算便利无需调参。当标记数据丰富时,PTE的性能可以与CNN相媲美,并且通常优于CNN。



  1. Tang J, Qu M, Mei Q. Pte: Predictive text embedding through large-scale heterogeneous text networks[C]//Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2015: 1165-1174. 


Share this post
< Pre: [KDD2017]Struc2Vec Pos: [AAAI2016]DNGR >
1282 comments
Similar posts
Add a new comment