python - 随笔分类 - leims

anaconda

摘要：1.anaconda 1.什么是 anaconda 便捷获取包，对包进行管理，对环境可以进行统一管理包含了 conda python 180多个科学包1.1什么是包python类、模块、包的区别1.1.1类将数据和操作进行封装，以便将来的复用1.1.2模块对应一个文件；创建一个脚本文件后，定义了阅读全文

posted @ 2019-06-26 13:15 leims

文本分类--特征的选择

摘要：向量空间模型文本可用字、词组、短语、甚至‘概念’等元素表示用来表示文本的性质，称为文本的特征区别文本的属性特征选择就是要选择最能表征文本含义的词组元素方法：文档频率信息增益卡方检验互信息文档频率（DF）某一词组出现在文档中的频率称为文档频率（DF） DF=出现词组的文本数/数阅读全文

posted @ 2019-06-26 11:35 leims

向量空间模型

摘要：词项权重计算词项频率如何才能对检索的文档进行评分和排序呢？一个合理的想法是，如果一篇文档包含的查询词的数目越多，那么这篇文档与查询相关的可能性就越高，就意味着更可能是用户所需要的文档。【如果只考虑词频，那么长文本会更可能包含更多的查询词而获得评分优势；需要消除文档长度对评分的影响，这也是向量阅读全文

posted @ 2019-06-26 11:33 leims

使用python进行数据转换

摘要：移除重复数据利用函数或映射进行数据转换替换值重命名轴索引离散化和面元划分检测和过滤异常值排列和随机采样计算指标/哑变量阅读全文

posted @ 2019-06-26 11:32 leims

sklearn逻辑回归linear_model.logisticregression

摘要：sklearn.linear_model.logisticregression (penlty='l2',dual=false,tol=0.0001,C=1.0,fit_intercept=true,intercept_scaling=1,class_weight=none,random_state 阅读全文

posted @ 2019-06-26 11:29 leims

逻辑回归思想

摘要：广义线性模型包括 logistic回归与多重线性回归，最大区别是因变量不同 logistic回归：二项分布多重线性回归：连续变量 poisson回归：poisson分布负二项回归：负二项分布 logistic回归的主要用途：寻找危险因素预测判别常规步骤寻找h函数（hypothesis）阅读全文

posted @ 2019-06-26 11:28 leims

数据标准化

摘要：由于各评价指标的性质不同，通常具有不同的量纲和数量级直线方法（极值法、标准差法）折线方法（三折线法）曲线型法（半正态性分布）不同的标准化方法，对系统的评价结果会产生不同的影响常见的方法：min-max标准化、log函数转换、atan函数转换、z-score标准化、模糊量化发数据的标准化，阅读全文

posted @ 2019-06-26 11:27 leims

使用python处理缺失数据

摘要：处理缺失数据：根据各标签的值中是否存在缺失数据对轴标签进行过滤，可通过阈值调节对缺失值的容忍程度用指定值或插值方法（如ffill 或 bfill ）填充缺失数据返回一个含有布尔值的对象，这些布尔值表示哪些值是缺失值 NA ，该对象的类型与源类型一样过滤缺失数据可以通过pandas.is 阅读全文

posted @ 2019-06-26 11:23 leims 阅读(899) 评论(0) 推荐(0)

入门python

摘要：根据已有模型学习python 首先用到panda 1.panda.read_excel() 读取excel表 2.panda.concat() 合并数据合并数据集 merge函数 concat函数阅读全文

posted @ 2019-06-26 11:22 leims

文本模型

摘要：为了使计算机能够真正处理文本特征，必须对文本特征进行特征加权，将文本表示成计算机可以处理的数学向量 1.布尔模型--即命中模型是基于特征项的严格匹配模型可以看做向量模型的特例根据特征是否在文档中出现特征的权值只能取或首先，建立一个二值变量的集合，这些变量对应于文本的特征项文本用这些特征变阅读全文

posted @ 2019-06-26 11:21 leims

leims

随笔分类 - python

公告