2018 年 10月 1 日随笔档案 - 我不要被你记住

2018年10月1日

摘要： 1、语料库构建由于不像之前是对很多个文件进行词频统计，所以不需要使用os.walk()方法遍历每一个文件；只需使用codecs.open()打开相应的文件，(记得close)；然后使用jieba模块中的load_userdict()方法导入词库 2、移除停用词首先是读出停用词库，然后通过Da 阅读全文

posted @ 2018-10-01 23:36 我不要被你记住阅读(911) 评论(0) 推荐(0)

Python数据挖掘-词云

摘要：词云绘制 1、语料库的搭建、分词来源、移除停用词、词频统计使用方法：os.path.join(path,name) #连接目录与文件名或目录结果为path/name import os import os.path import codecs filePaths=[] fileContents= 阅读全文

posted @ 2018-10-01 22:50 我不要被你记住阅读(488) 评论(0) 推荐(0)

Python数据挖掘-词频统计-实现

摘要：词频：某个词在该文档中出现的内容 1、语料库搭建 2、词频统计 by=[“列名”]后面跟着的是要分组的列，根据方括号里面的列的内容来进行统计；第二个[]是要统计的列，在分组的列的基础上进行统计的列，可以是它自己本身 3、移除停用词，由于统计的词语很多是我们不需要的，所以需要移除所用方法为isin 阅读全文

posted @ 2018-10-01 22:16 我不要被你记住阅读(2489) 评论(0) 推荐(0)

Python数据挖掘-中文分词

摘要：将一个汉字序列切分成一个一个单独的词安装分词模块： pip install jieba 分词在特殊场合的实用性，调用add_word()，把我们要添加的分词加入jieba词库高效方法：将txt保存的词库一次性导入用户词库中 1、搭建语料库 2、介绍分词来自哪篇文章使用数据框的遍历方法，得到语料阅读全文

posted @ 2018-10-01 21:47 我不要被你记住阅读(831) 评论(0) 推荐(0)

数据挖掘-语料库的构建

摘要：语料库：是我们要分析的所有文档的集合使用搜狗实验室提供的语料库，里面有一个classlist，里面内容是文件的编号及分类名称 1、导入模块使用os.walk传入这个目录作为参数，遍历该文件夹下的全部文件，该方法返回一个Truple的数组，第一个root是文件所在目录，第二个是root文件下的子目阅读全文

posted @ 2018-10-01 20:44 我不要被你记住阅读(2134) 评论(0) 推荐(0)

我不要被你记住

公告