随笔分类 -  数据挖掘(Python)

摘要:此程序功能: 1.完成对10.4G.csv文件各个元素频率的统计 2.获得最大的统计个数 3.对获取到的统计个数进行降序排列 4.对各个元素出现次数频率的统计 数据内容: Spark 保存的文件是这样的: 这里可以用一个脚本将这么多的文件进行合并: 结果太多只写一个: 获取统计的最大数2948874 阅读全文
posted @ 2018-03-24 20:20 soyosuyang 阅读(1459) 评论(0) 推荐(0)
摘要:#-*- coding: utf-8 -*- ''' 逻辑回归参数: penalty:惩罚项,str类型,可选参数为l1和l2,默认为l2。用于指定惩罚项中使用的规范。newton-cg、sag和lbfgs求解算法只支持L2规范。L1G规范假设的是模型的参数满足拉普拉斯分布,L2假设的模型参数满足高斯分布,所谓的范式就是加上对参数的约束,使得模型更不会过拟合(overfit),但是如果要说是不是... 阅读全文
posted @ 2018-03-10 19:19 soyosuyang 阅读(1409) 评论(0) 推荐(0)
摘要:结果: 阅读全文
posted @ 2018-03-10 19:14 soyosuyang 阅读(1522) 评论(0) 推荐(0)
摘要:在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。 例如,考虑一下的三个特征: ["male", "female"] ["from Europe", "from US", "from Asia"] ["uses Firefox", "uses Chrome", "uses Safari", 阅读全文
posted @ 2018-03-08 20:39 soyosuyang 阅读(346) 评论(0) 推荐(0)
摘要:1. Adaboost类库概述 scikit-learn中Adaboost类库比较直接,就是AdaBoostClassifier和AdaBoostRegressor两个,从名字就可以看出AdaBoostClassifier用于分类,AdaBoostRegressor用于回归。 AdaBoostCla 阅读全文
posted @ 2018-03-08 15:05 soyosuyang 阅读(591) 评论(0) 推荐(0)
摘要:广义的预测任务中,要求估计连续型预测值时,是“回归任务”;要求判断因变量属于哪个类别时,是”分类“任务 结果: 这个是注释掉的代码产生的结果: 阅读全文
posted @ 2018-03-06 16:49 soyosuyang 阅读(588) 评论(0) 推荐(0)
摘要:Bokeh是一款针对浏览器中图形演示的交互式绘图工具。 结果: 阅读全文
posted @ 2018-03-05 18:44 soyosuyang 阅读(182) 评论(0) 推荐(0)
摘要:结果: [ 0 1 2 3 4 5 6 7 8 9 10 11][ 0. 0.08333333 0.16666667 0.25 0.33333333 0.41666667 0.5 0.58333333 0.66666667 0.75 0.83333333 0.91666667][ 0.9596216 阅读全文
posted @ 2018-03-04 17:54 soyosuyang 阅读(436) 评论(0) 推荐(0)
摘要:#-*- coding: utf-8 -*- ''' numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None) 在指定的间隔内返回均匀间隔的数字。 返回num个均匀分布的样本,在[start, stop]。 @author: soyo ''' import numpy as np import ma... 阅读全文
posted @ 2018-03-04 17:49 soyosuyang 阅读(989) 评论(0) 推荐(0)
摘要:Python在机器学习方面一个非常强力的模块---scikit-learn模块,它作为数据挖掘和数据分析方面的一个简单而有效的工具,主要包括6大功能:分类(Classification),回归(Regression),聚类(Clustering),降维(Dimensionality Reductio 阅读全文
posted @ 2018-02-20 14:28 soyosuyang 阅读(1390) 评论(0) 推荐(0)
摘要:SciPy是一个基于NumPy的高级模块,在符号计算,信号处理,数值优化等任务中有突出表现,覆盖了绝大部分科学计算领域。 我对SciPy模块的理解其中最重要是:“向量化思想”----->>>"符号计算“和”函数向量化” 结果: 阅读全文
posted @ 2018-02-18 14:27 soyosuyang 阅读(516) 评论(0) 推荐(0)
摘要:Pandas模块是一个强大的数据分析和处理工具。它提供快速,灵活,富有表现力的数据结构,能为复杂情形下的数据提供坚实的基础分析功能。 复杂情形可能有以下3种: 1.数据库表或Excel表,包含了多列不同数据类型的数据。 2.任意的【矩阵,二维表,观测统计数据】,允许独立的行或列带有标签。 3.时间序 阅读全文
posted @ 2018-02-12 16:59 soyosuyang 阅读(338) 评论(0) 推荐(0)
摘要:1.NumPy访问【数组&矩阵】 2.矩阵的运算 3.NumPy通用函数 4.NumPy矩阵的合并和分割 结果: 阅读全文
posted @ 2018-02-11 14:59 soyosuyang 阅读(6260) 评论(0) 推荐(0)
摘要:1.NumPy是一个Python科学计算的基础模块。NumPy不但能够完成科学计算的任务,也能够被用作有效的多维数据容器,用于存储和处理大型矩阵。 2.在性能上,NumPy比起Python自身的嵌套列表结构要高效的多!! 3.NumPy创建数组的多种方式: 结果: 阅读全文
posted @ 2018-02-10 13:11 soyosuyang 阅读(755) 评论(0) 推荐(0)
摘要:【无法继承私有成员!】 结果: 苏苏******************小周女山西省越南/*/*/*/*/*/*/*/*/*小海海南马来西亚 阅读全文
posted @ 2018-02-10 13:01 soyosuyang 阅读(173) 评论(0) 推荐(0)
摘要:结果: **********初始化类的实例对象************soyo22mansoyo665656 阅读全文
posted @ 2018-01-21 15:45 soyosuyang 阅读(242) 评论(0) 推荐(0)
摘要:结果: soyo soyo1 soyo2soyo3 soyo2 soyo5555 655 12 35soyo10 1 8 6 65 阅读全文
posted @ 2018-01-21 15:43 soyosuyang 阅读(2412) 评论(0) 推荐(0)
摘要:Python 函数参数主要分为3种形式: 1.位置或关键字参数 2.任意数量的位置参数 3.任意数量的关键字参数 结果: 1 8 989 99 70soyo soyosoyo 100字符串为:soyo5数字为: (1, 2, 6, 8)1268str3=soyo100元组内的数字为: (1, 5, 阅读全文
posted @ 2018-01-13 15:25 soyosuyang 阅读(182) 评论(0) 推荐(0)
摘要:一.频繁项集挖掘为什么会出现FP-growth呢? 原因:这得从Apriori算法的原理说起,Apriori会产生大量候选项集(就是连接后产生的),在剪枝时,需要扫描整个数据库(就是给出的数据),通过模式匹配检查候选集合(为的是找到满足最小支持度的项)。候选产生过程带来的就是昂贵的代价开销,所以FP 阅读全文
posted @ 2018-01-10 11:46 soyosuyang 阅读(1483) 评论(0) 推荐(0)
摘要:结果: 返回多个值最大值为: 95最小值为: 8*********Lambda***********Lambda创建匿名函数: 4070**********对数************6.0用lambda写一个固定底数的对数对数为8,真数为64的值为: 2.0 阅读全文
posted @ 2018-01-05 17:00 soyosuyang 阅读(1131) 评论(0) 推荐(0)