我不要被你记住

2018年10月3日

摘要：所需模块 numpy、pandas 相关系数计算首先使用numpy.mean()方法求出均值，Xsd=numpy.std()方法求出标准差；然后在通过(X-Xmean)/Xsd公式求出z分数；最后通过numpy.sum(ZX*ZY)/len(X) 使用内置函数直接计算 1、使用numpy的内置阅读全文

posted @ 2018-10-03 21:48 我不要被你记住阅读(8371) 评论(0) 推荐(0)

Python数据挖掘-使用sklearn包

摘要：使用sklearn包 CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵 get_feature_names()可看到所有文本的关键字 vocabulary_可看到所有文本关键字和其位置 toarray()可以看到词频矩阵的结果 TfidfTransfor 阅读全文

posted @ 2018-10-03 11:41 我不要被你记住阅读(2371) 评论(0) 推荐(0)

2018年10月2日

Python数据挖掘-关键字提取

摘要： jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) –sentence 为待提取的文本 –topK 为返回几个 TF/IDF 权重最大的关键词，默认值为 20 –withWeight 为是否一并返回阅读全文

posted @ 2018-10-02 09:32 我不要被你记住阅读(581) 评论(0) 推荐(0)

2018年10月1日

Python数据挖掘-词云美化

摘要： 1、语料库构建由于不像之前是对很多个文件进行词频统计，所以不需要使用os.walk()方法遍历每一个文件；只需使用codecs.open()打开相应的文件，(记得close)；然后使用jieba模块中的load_userdict()方法导入词库 2、移除停用词首先是读出停用词库，然后通过Da 阅读全文

posted @ 2018-10-01 23:36 我不要被你记住阅读(911) 评论(0) 推荐(0)

Python数据挖掘-词云

摘要：词云绘制 1、语料库的搭建、分词来源、移除停用词、词频统计使用方法：os.path.join(path,name) #连接目录与文件名或目录结果为path/name import os import os.path import codecs filePaths=[] fileContents= 阅读全文

posted @ 2018-10-01 22:50 我不要被你记住阅读(488) 评论(0) 推荐(0)

Python数据挖掘-词频统计-实现

摘要：词频：某个词在该文档中出现的内容 1、语料库搭建 2、词频统计 by=[“列名”]后面跟着的是要分组的列，根据方括号里面的列的内容来进行统计；第二个[]是要统计的列，在分组的列的基础上进行统计的列，可以是它自己本身 3、移除停用词，由于统计的词语很多是我们不需要的，所以需要移除所用方法为isin 阅读全文

posted @ 2018-10-01 22:16 我不要被你记住阅读(2489) 评论(0) 推荐(0)

Python数据挖掘-中文分词

摘要：将一个汉字序列切分成一个一个单独的词安装分词模块： pip install jieba 分词在特殊场合的实用性，调用add_word()，把我们要添加的分词加入jieba词库高效方法：将txt保存的词库一次性导入用户词库中 1、搭建语料库 2、介绍分词来自哪篇文章使用数据框的遍历方法，得到语料阅读全文

posted @ 2018-10-01 21:47 我不要被你记住阅读(831) 评论(0) 推荐(0)

数据挖掘-语料库的构建

摘要：语料库：是我们要分析的所有文档的集合使用搜狗实验室提供的语料库，里面有一个classlist，里面内容是文件的编号及分类名称 1、导入模块使用os.walk传入这个目录作为参数，遍历该文件夹下的全部文件，该方法返回一个Truple的数组，第一个root是文件所在目录，第二个是root文件下的子目阅读全文

posted @ 2018-10-01 20:44 我不要被你记住阅读(2134) 评论(0) 推荐(0)

2018年8月25日

如何利用python重命名一个文件名

摘要： import os #查找文件 path="C:\\Users\\Jw\\Desktop\\python_work" #os.listdir()方法，列出来所有文件 #返回path指定的文件夹包含的文件或文件夹的名字的列表 files=os.listdir(path) #主逻辑 #对于批量的操作，使用FOR循环 for f in files: #调试代码的方法：关键地方打上print... 阅读全文

posted @ 2018-08-25 11:09 我不要被你记住阅读(32086) 评论(0) 推荐(1)

2018年8月6日

“cyl projection cannot cross pole” 解决方法

摘要：解决方法： 1、尝试更新NumPy以及相关模块：在CMD里面执行 conda update –all 遇到提示选择yes/y 更新完毕后看是否可以载入。发现并不能成功更新，于是采取了下面方法： 2、如果方法一不能解决，那么尝试卸载相关库，并重装。在CMD里执行 conda remove num 阅读全文

posted @ 2018-08-06 16:38 我不要被你记住阅读(1142) 评论(0) 推荐(0)

我不要被你记住

公告