摘要: 所需模块 numpy、pandas 相关系数计算 首先使用numpy.mean()方法求出均值,Xsd=numpy.std()方法求出标准差; 然后在通过(X-Xmean)/Xsd公式求出z分数; 最后通过numpy.sum(ZX*ZY)/len(X) 使用内置函数直接计算 1、使用numpy的内置 阅读全文
posted @ 2018-10-03 21:48 我不要被你记住 阅读(8366) 评论(0) 推荐(0)
摘要: 使用sklearn包 CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵 get_feature_names()可看到所有文本的关键字 vocabulary_可看到所有文本关键字和其位置 toarray()可以看到词频矩阵的结果 TfidfTransfor 阅读全文
posted @ 2018-10-03 11:41 我不要被你记住 阅读(2365) 评论(0) 推荐(0)
摘要: jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) –sentence 为待提取的文本 –topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20 –withWeight 为是否一并返回 阅读全文
posted @ 2018-10-02 09:32 我不要被你记住 阅读(575) 评论(0) 推荐(0)
摘要: 1、语料库构建 由于不像之前是对很多个文件进行词频统计,所以不需要使用os.walk()方法遍历每一个文件; 只需使用codecs.open()打开相应的文件,(记得close); 然后使用jieba模块中的load_userdict()方法导入词库 2、移除停用词 首先是读出停用词库,然后通过Da 阅读全文
posted @ 2018-10-01 23:36 我不要被你记住 阅读(909) 评论(0) 推荐(0)
摘要: 词云绘制 1、语料库的搭建、分词来源、移除停用词、词频统计 使用方法:os.path.join(path,name) #连接目录与文件名或目录 结果为path/name import os import os.path import codecs filePaths=[] fileContents= 阅读全文
posted @ 2018-10-01 22:50 我不要被你记住 阅读(484) 评论(0) 推荐(0)
摘要: 词频:某个词在该文档中出现的内容 1、语料库搭建 2、词频统计 by=[“列名”]后面跟着的是要分组的列,根据方括号里面的列的内容来进行统计; 第二个[]是要统计的列,在分组的列的基础上进行统计的列,可以是它自己本身 3、移除停用词,由于统计的词语很多是我们不需要的,所以需要移除 所用方法为isin 阅读全文
posted @ 2018-10-01 22:16 我不要被你记住 阅读(2480) 评论(0) 推荐(0)
摘要: 将一个汉字序列切分成一个一个单独的词 安装分词模块: pip install jieba 分词在特殊场合的实用性,调用add_word(),把我们要添加的分词加入jieba词库 高效方法:将txt保存的词库一次性导入用户词库中 1、搭建语料库 2、介绍分词来自哪篇文章 使用数据框的遍历方法,得到语料 阅读全文
posted @ 2018-10-01 21:47 我不要被你记住 阅读(828) 评论(0) 推荐(0)
摘要: 语料库:是我们要分析的所有文档的集合 使用搜狗实验室提供的语料库,里面有一个classlist,里面内容是文件的编号及分类名称 1、导入模块 使用os.walk传入这个目录作为参数,遍历该文件夹下的全部文件,该方法返回一个Truple的数组,第一个root是文件所在目录,第二个是root文件下的子目 阅读全文
posted @ 2018-10-01 20:44 我不要被你记住 阅读(2129) 评论(0) 推荐(0)
摘要: import os #查找文件 path="C:\\Users\\Jw\\Desktop\\python_work" #os.listdir()方法,列出来所有文件 #返回path指定的文件夹包含的文件或文件夹的名字的列表 files=os.listdir(path) #主逻辑 #对于批量的操作,使用FOR循环 for f in files: #调试代码的方法:关键地方打上print... 阅读全文
posted @ 2018-08-25 11:09 我不要被你记住 阅读(32082) 评论(0) 推荐(1)
摘要: 解决方法: 1、尝试更新NumPy以及相关模块: 在CMD里面执行 conda update –all 遇到提示选择yes/y 更新完毕后看是否可以载入。 发现并不能成功更新,于是采取了下面方法: 2、如果方法一不能解决,那么尝试卸载相关库,并重装。 在CMD里执行 conda remove num 阅读全文
posted @ 2018-08-06 16:38 我不要被你记住 阅读(1137) 评论(0) 推荐(0)