摘要:
1、语料库构建 由于不像之前是对很多个文件进行词频统计,所以不需要使用os.walk()方法遍历每一个文件; 只需使用codecs.open()打开相应的文件,(记得close); 然后使用jieba模块中的load_userdict()方法导入词库 2、移除停用词 首先是读出停用词库,然后通过Da 阅读全文
posted @ 2018-10-01 23:36
我不要被你记住
阅读(909)
评论(0)
推荐(0)
摘要:
词云绘制 1、语料库的搭建、分词来源、移除停用词、词频统计 使用方法:os.path.join(path,name) #连接目录与文件名或目录 结果为path/name import os import os.path import codecs filePaths=[] fileContents= 阅读全文
posted @ 2018-10-01 22:50
我不要被你记住
阅读(484)
评论(0)
推荐(0)
摘要:
词频:某个词在该文档中出现的内容 1、语料库搭建 2、词频统计 by=[“列名”]后面跟着的是要分组的列,根据方括号里面的列的内容来进行统计; 第二个[]是要统计的列,在分组的列的基础上进行统计的列,可以是它自己本身 3、移除停用词,由于统计的词语很多是我们不需要的,所以需要移除 所用方法为isin 阅读全文
posted @ 2018-10-01 22:16
我不要被你记住
阅读(2480)
评论(0)
推荐(0)
摘要:
将一个汉字序列切分成一个一个单独的词 安装分词模块: pip install jieba 分词在特殊场合的实用性,调用add_word(),把我们要添加的分词加入jieba词库 高效方法:将txt保存的词库一次性导入用户词库中 1、搭建语料库 2、介绍分词来自哪篇文章 使用数据框的遍历方法,得到语料 阅读全文
posted @ 2018-10-01 21:47
我不要被你记住
阅读(828)
评论(0)
推荐(0)
摘要:
语料库:是我们要分析的所有文档的集合 使用搜狗实验室提供的语料库,里面有一个classlist,里面内容是文件的编号及分类名称 1、导入模块 使用os.walk传入这个目录作为参数,遍历该文件夹下的全部文件,该方法返回一个Truple的数组,第一个root是文件所在目录,第二个是root文件下的子目 阅读全文
posted @ 2018-10-01 20:44
我不要被你记住
阅读(2129)
评论(0)
推荐(0)

浙公网安备 33010602011771号