摘要:
语料库 本文语料库特指文本分类语料库,对应IDataSet接口。而文本分类语料库包含两个概念:文档和类目。一个文档只属于一个类目,一个类目可能含有多个文档。比如搜狗文本分类语料库迷你版.zip,下载前请先阅读搜狗实验室数据使用许可协议。 用Map描述 这种关系可以用Java的Map<String, 阅读全文
posted @ 2019-02-20 14:24 左手中倒影 阅读(484) 评论(0) 推荐(0)
|
|||
|
摘要:
语料库 本文语料库特指文本分类语料库,对应IDataSet接口。而文本分类语料库包含两个概念:文档和类目。一个文档只属于一个类目,一个类目可能含有多个文档。比如搜狗文本分类语料库迷你版.zip,下载前请先阅读搜狗实验室数据使用许可协议。 用Map描述 这种关系可以用Java的Map<String, 阅读全文
posted @ 2019-02-20 14:24 左手中倒影 阅读(484) 评论(0) 推荐(0)
摘要:
TextRank是在Google的PageRank算法启发下,针对文本里的句子设计的权重算法,目标是自动摘要。它利用投票的原理,让每一个单词给它的邻居(术语称窗口)投赞成票,票的权重取决于自己的票数。这是一个“先有鸡还是先有蛋”的悖论,PageRank采用矩阵迭代收敛的方式解决了这个悖论。本博文通过hanlp关键词提取的一个Demo,并通过图解的方式来讲解TextRank的算法。 阅读全文
posted @ 2019-02-20 09:34 左手中倒影 阅读(802) 评论(0) 推荐(0) |
|||