10 2018 档案

摘要:预测(forecast): 对尚未发生或目前还不明确的事物进行预先的估计和推测,简单来说就是指从已知事件测定未知事件 时间序列预测(Time Series Forecasting): 通过分析时间序列,根据时间序列所反映出来的发展进程、方向和趋势,进行类推或延伸,借以预测下一段时间或若干年内可能达到 阅读全文
posted @ 2018-10-22 18:43 我不要被你记住 阅读(558) 评论(0) 推荐(0)
摘要:恢复内容开始 日期和时间数据类型及工具 python标准库包含于日期(data)和时间(time)数据的数据类型,datetime\time以及calendar模块会被经常用到 datetime以毫秒形式存储日期和时间,datetime.timedelta表示两个datetime对象之间的时间差 给 阅读全文
posted @ 2018-10-22 09:44 我不要被你记住 阅读(764) 评论(0) 推荐(0)
摘要:恢复内容开始 HTML教程: 超文本标记语言(Hyper Text Markup Language,HTML)是一种用于创建网页的标准标记语言; HTML文档的后缀名 .html .htm 以上两种后缀名没有区别,都可以使用 HTML实例 eg: 解析: <!DOCTYPE html>声明为HTML 阅读全文
posted @ 2018-10-19 18:35 我不要被你记住 阅读(162) 评论(0) 推荐(0)
摘要:日期和时间数据类型及工具 python标准库包含于日期(data)和时间(time)数据的数据类型,datetime\time以及calendar模块会被经常用到 datetime以毫秒形式存储日期和时间,datetime.timedelta表示两个datetime对象之间的时间差 给datetim 阅读全文
posted @ 2018-10-15 16:43 我不要被你记住 阅读(647) 评论(0) 推荐(0)
摘要:概念 时间序列(Time Series) 时间序列是均匀时间间隔上的观测值序列 时间序列分析(Time Series Analysis) 趋势分析 序列分解 序列预测 时间序列分解(Time-Series Decomposition) 时间写按照季节性来分类,分为季节性时间序列和非季节性时间序列 非 阅读全文
posted @ 2018-10-13 23:19 我不要被你记住 阅读(1198) 评论(0) 推荐(0)
摘要:关联规则方法: 使用apyori包中的apriori方法,该方法传入训练样本,用一个数组把一个样板存储起来,接着是使用数组把所有的样本存储起来 阅读全文
posted @ 2018-10-13 22:20 我不要被你记住 阅读(1544) 评论(0) 推荐(0)
摘要:HTML教程: 超文本标记语言(Hyper Text Markup Language,HTML)是一种用于创建网页的标准标记语言; HTML文档的后缀名 .html .htm 以上两种后缀名没有区别,都可以使用 HTML实例 eg: 解析: <!DOCTYPE html>声明为HTML5文档 <ht 阅读全文
posted @ 2018-10-11 17:53 我不要被你记住 阅读(335) 评论(0) 推荐(0)
摘要:概念 聚类分析:是按照个体的特征将它们分类,让同一个类别内的个体之间具有较高的相似度,不同类别之间具有较大差异性 无分类目标变量(Y)——无监督学习 K-Means划分法、DBSCAN密度法、层次聚类法 1、导入数据 1 import pandas 2 from sklearn.cluster im 阅读全文
posted @ 2018-10-09 08:22 我不要被你记住 阅读(7111) 评论(1) 推荐(0)
摘要:如何选择特征 根据是否发散及是否相关来选择 方差选择法 先计算各个特征的方差,根据阈值,选择方差大于阈值的特征 方差过滤使用到的是VarianceThreshold类,该类有个参数threshold,该值为最小方差的阈值,然后使用fit_transform进行特征值过滤 相关系数法 先计算各个特征对 阅读全文
posted @ 2018-10-06 21:44 我不要被你记住 阅读(2420) 评论(0) 推荐(0)
摘要:概念: 特征工程:本质上是一项工程活动,他目的是最大限度地从原始数据中提取特征以供算法和模型使用 特征工程的重要性:特征越好,灵活性越强、模型越简单、性能越出色。 特征工程包括:数据处理、特征选择、维度压缩 量纲不一: 就是单位,特征的单位不一致,不能放在一起比较 通过:0-1标准化、Z标准化、No 阅读全文
posted @ 2018-10-06 19:42 我不要被你记住 阅读(1196) 评论(0) 推荐(0)
摘要:概念: 支持向量机(Support Vector Machine) SVM属于一般化线性分类器,这类分类器的特点是他们能够同时最小化经验误差和最大化几何边缘区,因此支持向量机也被称为最大边缘区分类器。 阅读全文
posted @ 2018-10-05 23:45 我不要被你记住 阅读(727) 评论(0) 推荐(0)
摘要:概念 随机森林(RandomForest):随机森林是一个包含多个决策树的分类器,并且其输出的类别是由个别数输出的类别的众数而定 优点:适合离散型和连续型的属性数据;对海量数据,尽量避免了过度拟合的问题;对高维数据,不会出现特征选择困难的问题;实现简单,训练速度快,适合 进行分布式计算 1 impo 阅读全文
posted @ 2018-10-05 23:30 我不要被你记住 阅读(3847) 评论(0) 推荐(0)
摘要:概念 决策树(Decision Tree):它通过对训练样本的学习,并建立分类规则,然后依据分类,对新样本数据进行分类预测,属于有监督学习 优点:决策树易于理解和实现,决策树可处理数值型和非数值型数据 步骤 导入数据,确定虚拟变量的列,然后遍历这些列,将这些类的数据转换为分类型数据,再通过get_d 阅读全文
posted @ 2018-10-05 23:16 我不要被你记住 阅读(1376) 评论(0) 推荐(0)
摘要:pandas之get_dummies 方法:pandas.get_dummies(data,prefix=None,prefix_sep="_",dummy_na=False,columns=None,sparse=False,drop_first=False) 该方法可以将类别变量转换成新增的虚拟 阅读全文
posted @ 2018-10-05 20:21 我不要被你记住 阅读(2319) 评论(0) 推荐(0)
摘要:概念 监督学习(Supervised Learning) 从给定标注的训练数据集中学习出一个函数,根据这个函数为新函数进行标注 无监督学习(Unsupervised Learning) 从给定无标注的训练数据中学习出一个函数,根据这个函数为所有数据标注 分类(Classification) 监督学习 阅读全文
posted @ 2018-10-04 23:25 我不要被你记住 阅读(1449) 评论(0) 推荐(0)
摘要:概念: 神经网络:全称为人工神经网络,是一种模仿生物神经网络(动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型 生物神经网络:神经细胞是构成神经系统的基本单元,称为生物神经元,简称神经元 一般采用三到五层 首先导入自变量和因变量 1 import pandas; 2 from pan 阅读全文
posted @ 2018-10-04 20:03 我不要被你记住 阅读(2387) 评论(0) 推荐(0)
摘要:概念 针对因变量为分类变量而进行回归分析的一种统计方法,属于概率型非线性回归 优点:算法易于实现和部署,执行效率和准确度高 缺点:离散型的自变量数据需要通过生成虚拟变量的方式来使用 在线性回归中,因变量是连续性变量,那么线性回归能根据因变量和自变量存在的线性关系来构造回归方程,因变量变成分类变量后就 阅读全文
posted @ 2018-10-04 17:53 我不要被你记住 阅读(2472) 评论(0) 推荐(0)
摘要:1、使用scatter_matrix判断个特征的数据分布及其关系 散步矩阵(scatter_matrix) Pandas中散步矩阵的函数原理 参数如下: frame:(DataFrame),DataFrame对象 alpha:(float,可选),图像透明度,一般取(0,1] figsize:((f 阅读全文
posted @ 2018-10-04 11:45 我不要被你记住 阅读(5465) 评论(0) 推荐(0)
摘要:简单线性回归 步骤: 1、读取数据 2、画出散点图,求x和y 的相关系数:plt.scatter(x,y),x和y是dataframe 3、估计参数模型,建立回归模型:lrModel=LinearRegression() 4、训练模型: lrModel.fit(x,y) 5、对回归模型进行检验: l 阅读全文
posted @ 2018-10-03 23:27 我不要被你记住 阅读(3117) 评论(0) 推荐(0)
摘要:所需模块 numpy、pandas 相关系数计算 首先使用numpy.mean()方法求出均值,Xsd=numpy.std()方法求出标准差; 然后在通过(X-Xmean)/Xsd公式求出z分数; 最后通过numpy.sum(ZX*ZY)/len(X) 使用内置函数直接计算 1、使用numpy的内置 阅读全文
posted @ 2018-10-03 21:48 我不要被你记住 阅读(8370) 评论(0) 推荐(0)
摘要:使用sklearn包 CountVectorizer是通过fit_transform函数将文本中的词语转换为词频矩阵 get_feature_names()可看到所有文本的关键字 vocabulary_可看到所有文本关键字和其位置 toarray()可以看到词频矩阵的结果 TfidfTransfor 阅读全文
posted @ 2018-10-03 11:41 我不要被你记住 阅读(2368) 评论(0) 推荐(0)
摘要:jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=()) –sentence 为待提取的文本 –topK 为返回几个 TF/IDF 权重最大的关键词,默认值为 20 –withWeight 为是否一并返回 阅读全文
posted @ 2018-10-02 09:32 我不要被你记住 阅读(580) 评论(0) 推荐(0)
摘要:1、语料库构建 由于不像之前是对很多个文件进行词频统计,所以不需要使用os.walk()方法遍历每一个文件; 只需使用codecs.open()打开相应的文件,(记得close); 然后使用jieba模块中的load_userdict()方法导入词库 2、移除停用词 首先是读出停用词库,然后通过Da 阅读全文
posted @ 2018-10-01 23:36 我不要被你记住 阅读(911) 评论(0) 推荐(0)
摘要:词云绘制 1、语料库的搭建、分词来源、移除停用词、词频统计 使用方法:os.path.join(path,name) #连接目录与文件名或目录 结果为path/name import os import os.path import codecs filePaths=[] fileContents= 阅读全文
posted @ 2018-10-01 22:50 我不要被你记住 阅读(488) 评论(0) 推荐(0)
摘要:词频:某个词在该文档中出现的内容 1、语料库搭建 2、词频统计 by=[“列名”]后面跟着的是要分组的列,根据方括号里面的列的内容来进行统计; 第二个[]是要统计的列,在分组的列的基础上进行统计的列,可以是它自己本身 3、移除停用词,由于统计的词语很多是我们不需要的,所以需要移除 所用方法为isin 阅读全文
posted @ 2018-10-01 22:16 我不要被你记住 阅读(2486) 评论(0) 推荐(0)
摘要:将一个汉字序列切分成一个一个单独的词 安装分词模块: pip install jieba 分词在特殊场合的实用性,调用add_word(),把我们要添加的分词加入jieba词库 高效方法:将txt保存的词库一次性导入用户词库中 1、搭建语料库 2、介绍分词来自哪篇文章 使用数据框的遍历方法,得到语料 阅读全文
posted @ 2018-10-01 21:47 我不要被你记住 阅读(830) 评论(0) 推荐(0)
摘要:语料库:是我们要分析的所有文档的集合 使用搜狗实验室提供的语料库,里面有一个classlist,里面内容是文件的编号及分类名称 1、导入模块 使用os.walk传入这个目录作为参数,遍历该文件夹下的全部文件,该方法返回一个Truple的数组,第一个root是文件所在目录,第二个是root文件下的子目 阅读全文
posted @ 2018-10-01 20:44 我不要被你记住 阅读(2131) 评论(0) 推荐(0)