随笔分类 - NLP
摘要:首先python环境已经安装了numpy, scipy, sklearn, jieba # coding=utf-8 """ @desc: """ from scipy import sparse from sklearn.feature_extraction.text import CountVe
阅读全文
摘要:# coding=utf-8 """ @ File: word2vec_gensim.py @Software: PyCharm @desc: """ from gensim.models import word2vec import logging logging.basicConfig(form
阅读全文
摘要:汇总 Tokenizer分词器(类) Tokenizer.fit_on_texts分词器方法:实现分词 Tokenizer.texts_to_sequences分词器方法:输出向量序列 pad_sequences进行padding 具体示例和代码分析 分词器分词和向量化 主要的类是Tokenizer
阅读全文
摘要:链接地址:https://github.com/AimeeLee77/keyword_extraction 1、基于TF-IDF的文本关键词抽取方法 词频(Term Frequency,TF) 指某一给定词语在当前文件中出现的频率。由于同一个词语在长文件中可能比短文件有更高的词频,因此根据文件的长度
阅读全文
摘要:为什么需要在python使用结巴分词(jieba)创建自己的词典/词库,因为很多时候分词给我们的结果了能刚好相反,如:不回家变成了不,回家;从上一篇文章文章我们已经讲诉了python使用结巴中文分词以及训练自己的分词词典,基本的安装和基本使用大家直接去看那篇文章即可,我们主要介绍如何python创建
阅读全文

浙公网安备 33010602011771号