随笔分类 -  NLP

摘要:首先python环境已经安装了numpy, scipy, sklearn, jieba # coding=utf-8 """ @desc: """ from scipy import sparse from sklearn.feature_extraction.text import CountVe 阅读全文
posted @ 2020-08-18 17:44 cknds 阅读(569) 评论(0) 推荐(0)
摘要:# coding=utf-8 """ @ File: word2vec_gensim.py @Software: PyCharm @desc: """ from gensim.models import word2vec import logging logging.basicConfig(form 阅读全文
posted @ 2020-08-13 13:38 cknds 阅读(2545) 评论(0) 推荐(0)
摘要:汇总 Tokenizer分词器(类) Tokenizer.fit_on_texts分词器方法:实现分词 Tokenizer.texts_to_sequences分词器方法:输出向量序列 pad_sequences进行padding 具体示例和代码分析 分词器分词和向量化 主要的类是Tokenizer 阅读全文
posted @ 2020-08-07 17:17 cknds 阅读(761) 评论(0) 推荐(0)
摘要:链接地址:https://github.com/AimeeLee77/keyword_extraction 1、基于TF-IDF的文本关键词抽取方法 词频(Term Frequency,TF) 指某一给定词语在当前文件中出现的频率。由于同一个词语在长文件中可能比短文件有更高的词频,因此根据文件的长度 阅读全文
posted @ 2020-05-09 14:03 cknds 阅读(13673) 评论(1) 推荐(2)
摘要:为什么需要在python使用结巴分词(jieba)创建自己的词典/词库,因为很多时候分词给我们的结果了能刚好相反,如:不回家变成了不,回家;从上一篇文章文章我们已经讲诉了python使用结巴中文分词以及训练自己的分词词典,基本的安装和基本使用大家直接去看那篇文章即可,我们主要介绍如何python创建 阅读全文
posted @ 2020-05-09 13:46 cknds 阅读(15907) 评论(1) 推荐(1)