摘要: 1、语料库构建 由于不像之前是对很多个文件进行词频统计,所以不需要使用os.walk()方法遍历每一个文件; 只需使用codecs.open()打开相应的文件,(记得close); 然后使用jieba模块中的load_userdict()方法导入词库 2、移除停用词 首先是读出停用词库,然后通过Da 阅读全文
posted @ 2018-10-01 23:36 我不要被你记住 阅读(909) 评论(0) 推荐(0)
摘要: 词云绘制 1、语料库的搭建、分词来源、移除停用词、词频统计 使用方法:os.path.join(path,name) #连接目录与文件名或目录 结果为path/name import os import os.path import codecs filePaths=[] fileContents= 阅读全文
posted @ 2018-10-01 22:50 我不要被你记住 阅读(484) 评论(0) 推荐(0)
摘要: 词频:某个词在该文档中出现的内容 1、语料库搭建 2、词频统计 by=[“列名”]后面跟着的是要分组的列,根据方括号里面的列的内容来进行统计; 第二个[]是要统计的列,在分组的列的基础上进行统计的列,可以是它自己本身 3、移除停用词,由于统计的词语很多是我们不需要的,所以需要移除 所用方法为isin 阅读全文
posted @ 2018-10-01 22:16 我不要被你记住 阅读(2480) 评论(0) 推荐(0)
摘要: 将一个汉字序列切分成一个一个单独的词 安装分词模块: pip install jieba 分词在特殊场合的实用性,调用add_word(),把我们要添加的分词加入jieba词库 高效方法:将txt保存的词库一次性导入用户词库中 1、搭建语料库 2、介绍分词来自哪篇文章 使用数据框的遍历方法,得到语料 阅读全文
posted @ 2018-10-01 21:47 我不要被你记住 阅读(828) 评论(0) 推荐(0)
摘要: 语料库:是我们要分析的所有文档的集合 使用搜狗实验室提供的语料库,里面有一个classlist,里面内容是文件的编号及分类名称 1、导入模块 使用os.walk传入这个目录作为参数,遍历该文件夹下的全部文件,该方法返回一个Truple的数组,第一个root是文件所在目录,第二个是root文件下的子目 阅读全文
posted @ 2018-10-01 20:44 我不要被你记住 阅读(2129) 评论(0) 推荐(0)