1. 介绍

TextRank由Mihalcea与Tarau于EMNLP'04 [1]提出来，其思想非常简单：通过词之间的相邻关系构建网络，然后用PageRank迭代计算每个节点的rank值，排序rank值即可得到关键词。PageRank本来是用来解决网页排名的问题，网页之间的链接关系即为图的边，迭代计算公式如下：

$PR(V_i) = (1-d) + d * \sum_{j \in In(V_i)} \frac{1}{|Out(V_j)|}PR(V_j)$

$WS(V_i) = (1-d) + d * \sum_{j \in In(V_i)} \frac{w_{ji}}{\sum_{V_k \in Out(V_j)} w_{jk}} WS(V_j)$

2. 评估

$Precision = \frac{1}{N} \sum_{i=0}^{N-1} \frac{\left|P_i \cap T_i\right|}{\left|P_i\right|}$

$Recall = \frac{1}{N} \sum_{i=0}^{N-1} \frac{\left|P_i \cap T_i\right|}{\left|T_i\right|}$

$F1 = \frac{2*Precision*Recall}{Precision + Recall}$

import jieba.analyse
import json
import codecs

def precision_recall_fscore_support(y_true, y_pred):
"""
evaluate macro precision, recall and f1-score.
"""
doc_num = len(y_true)
p_macro = 0.0
r_macro = 0.0
for i in range(doc_num):
tp = 0
true_len = len(y_true[i])
pred_len = len(y_pred[i])
for w in y_pred[i]:
if w in y_true[i]:
tp += 1
p = 1.0 if pred_len == 0 else tp / pred_len
r = 1.0 if true_len == 0 else tp / true_len
p_macro += p
r_macro += r
p_macro /= doc_num
r_macro /= doc_num
return p_macro, r_macro, 2 * p_macro * r_macro / (p_macro + r_macro)

file_path = 'data/163_chinese_news_dataset_2011.dat'
with codecs.open(file_path, 'r', 'utf-8') as fr:
y_true = []
y_pred = []
content = d['content']
true_key_words = [w for w in set(d['tags'])]
y_true.append(true_key_words)
# for w in true_key_words:
key_word_pos = ['x', 'ns', 'n', 'vn', 'v', 'l', 'j', 'nr', 'nrt', 'nt', 'nz', 'nrfg', 'm', 'i', 'an', 'f', 't',
'b', 'a', 'd', 'q', 's', 'z']
extract_key_words = jieba.analyse.extract_tags(content, topK=2, allowPOS=key_word_pos)
# trank = jieba.analyse.TextRank()
# trank.span = 5
# extract_key_words = trank.textrank(content, topK=2, allowPOS=key_word_pos)
y_pred.append(extract_key_words)
prf = precision_recall_fscore_support(y_true, y_pred)
print('precision: {}'.format(prf[0]))
print('recall: {}'.format(prf[1]))
print('F1: {}'.format(prf[2]))


TFIDF 0.2697 0.2256 0.2457
TextRank span=5 0.2608 0.2150 0.2357
TextRank span=7 0.2614 0.2155 0.2363

TFIDF 0.3145 0.2713 0.2913
TextRank span=5 0.2887 0.2442 0.2646
TextRank span=7 0.2903 0.2455 0.2660

// TFIDF, TextRank, labelled
['文强', '陈洪刚'] ['文强', '陈洪刚'] {'文强', '重庆'}
['内贾德', '伊朗'] ['伊朗', '内贾德'] {'制裁', '世博', '伊朗'}
['调控', '王珏林'] ['调控', '楼市'] {'楼市', '调控'}
['罗平县', '男子'] ['男子', '罗平县'] {'被砍', '副局长', '情感纠葛'}
['佟某', '黄玉'] ['佟某', '黄现忠'] {'盲井', '伪造矿难'}
['女生', '聚众淫乱'] ['女生', '聚众淫乱'] {'聚众淫乱', '东莞', '不雅视频'}
['马英九', '和平协议'] ['马英九', '推进'] {'国台办', '马英九', '和平协议'}
['东帝汶', '巡逻艇'] ['东帝汶', '中国'] {'东帝汶', '军舰', '澳大利亚'}
['墨西哥', '警方'] ['墨西哥', '袭击'] {'枪手', '墨西哥', '打死'}


• TextRank与TFIDF均严重依赖于分词结果——如果某词在分词时被切分成了两个词，那么在做关键词提取时无法将两个词黏合在一起（TextRank有部分黏合效果，但需要这两个词均为关键词）。因此是否添加标注关键词进自定义词典，将会造成准确率、召回率大相径庭。
• TextRank的效果并不优于TFIDF。
• TextRank虽然考虑到了词之间的关系，但是仍然倾向于将频繁词作为关键词。

3. 参考资料

[1] Rada, Mihalcea, and Paul Tarau. "TextRank: Bringing Order into Texts." empirical methods in natural language processing (2004): 404-411.

posted @ 2017-03-27 13:06  Treant  阅读(10644)  评论(4编辑  收藏