19-09 【github 自动提取项目的topic】

【github-提取项目的topic】
1,获取reademe,并清理(移除不想要的block,文本分词);
2,生成candidate topic(定义了stop word来切分词组单元);
3,消除noisy topic(使用逻辑斯蒂回归来剔除bad topic,移除不满足最小频度约束的topic)
4,给topic打分(打分使用:tf-idf得分,topic频次,n-gram size)
5,规范化topic(使用内部词典(in-house))
6,消除相近的topic(jacard 相似性算法来做)
7,返回top-N topic


实践blog:https://github.blog/2017-07-31-topics/

posted on 2019-05-07 10:16  awildfish  阅读(400)  评论(0编辑  收藏  举报

导航