NLP - 随笔分类 - cknds

使用scikit-learn进行自然语言处理——文档特征提取(基于词袋模型bag-of-words) 计算tf-idf

摘要：首先python环境已经安装了numpy, scipy, sklearn, jieba # coding=utf-8 """ @desc: """ from scipy import sparse from sklearn.feature_extraction.text import CountVe 阅读全文

posted @ 2020-08-18 17:44 cknds 阅读(569) 评论(0) 推荐(0)

Gensim的model使用word2vec 示例

摘要：# coding=utf-8 """ @ File: word2vec_gensim.py @Software: PyCharm @desc: """ from gensim.models import word2vec import logging logging.basicConfig(form 阅读全文

posted @ 2020-08-13 13:38 cknds 阅读(2545) 评论(0) 推荐(0)

Keras文本预处理详解

摘要：汇总 Tokenizer分词器（类） Tokenizer.fit_on_texts分词器方法：实现分词 Tokenizer.texts_to_sequences分词器方法：输出向量序列 pad_sequences进行padding 具体示例和代码分析分词器分词和向量化主要的类是Tokenizer 阅读全文

posted @ 2020-08-07 17:17 cknds 阅读(761) 评论(0) 推荐(0)

中文文本关键词抽取的三种方法（TF-IDF、TextRank、word2vec）

摘要：链接地址：https://github.com/AimeeLee77/keyword_extraction 1、基于TF-IDF的文本关键词抽取方法词频（Term Frequency，TF）指某一给定词语在当前文件中出现的频率。由于同一个词语在长文件中可能比短文件有更高的词频，因此根据文件的长度阅读全文

posted @ 2020-05-09 14:03 cknds 阅读(13673) 评论(1) 推荐(2)

python使用结巴分词(jieba)创建自己的词典/词库

摘要：为什么需要在python使用结巴分词(jieba)创建自己的词典/词库，因为很多时候分词给我们的结果了能刚好相反，如:不回家变成了不,回家;从上一篇文章文章我们已经讲诉了python使用结巴中文分词以及训练自己的分词词典，基本的安装和基本使用大家直接去看那篇文章即可，我们主要介绍如何python创建阅读全文

posted @ 2020-05-09 13:46 cknds 阅读(15907) 评论(1) 推荐(1)

cknds

随笔分类 - NLP

公告