随笔档案「2019年10月16日」：利用pointer-network进行文本摘要 ... - 石头木

2019年10月16日

摘要：文本摘要主要分为抽取式和生成式，抽取式就是从文章中抽取重要的句子作为文章的核心，之前也利用该方法做过相关工作，方法也较简单和直接，但往往不够连贯；生成式即根据文章自动生成文章核心内容，一般训练语料的格式为:标题-文章，和机器翻译有点像，这种方法需要大量的训练语料并不断的调优，但这种方法有时候会产生莫阅读全文

posted @ 2019-10-16 22:17 石头木阅读(525) 评论(0) 推荐(0)

single-pass单遍聚类方法

摘要：一.通常关于文本聚类也都是针对已有的一堆历史数据进行聚类，比如常用的方法有kmeans,dbscan等。如果有个需求需要针对流式文本进行聚类(即来一条聚一条)，那么这些方法都不太适用了，当然也有很多其它针对流式数据进行动态聚类方法，动态聚类也有很多挑战，比如聚类个数是不固定的，聚类的相似阈值也不好设阅读全文

posted @ 2019-10-16 22:12 石头木阅读(6194) 评论(1) 推荐(1)

利用pyltp进行实体识别

摘要：一.实体识别作为信息抽取中基础的也是重要的一步，其技术可以分为三类，分别是其于规则的方法、其于统计模型的方法以及基于深度学习的方法。基于规则的方法，主要依靠构建大量的实体抽取规则，一般由具有一定领域知识的专家手工构建。然后将规则与文本进行匹配，识别出实体。基于统计的方法，需要一定的标注语料进行训阅读全文

posted @ 2019-10-16 21:55 石头木阅读(1500) 评论(0) 推荐(0)

石头木

https://jiangnanboy.github.io

公告