03 2018 档案

摘要:此程序功能: 1.完成对10.4G.csv文件各个元素频率的统计 2.获得最大的统计个数 3.对获取到的统计个数进行降序排列 4.对各个元素出现次数频率的统计 数据内容: Spark 保存的文件是这样的: 这里可以用一个脚本将这么多的文件进行合并: 结果太多只写一个: 获取统计的最大数2948874 阅读全文
posted @ 2018-03-24 20:20 soyosuyang 阅读(1462) 评论(0) 推荐(0)
摘要:#-*- coding: utf-8 -*- ''' 逻辑回归参数: penalty:惩罚项,str类型,可选参数为l1和l2,默认为l2。用于指定惩罚项中使用的规范。newton-cg、sag和lbfgs求解算法只支持L2规范。L1G规范假设的是模型的参数满足拉普拉斯分布,L2假设的模型参数满足高斯分布,所谓的范式就是加上对参数的约束,使得模型更不会过拟合(overfit),但是如果要说是不是... 阅读全文
posted @ 2018-03-10 19:19 soyosuyang 阅读(1432) 评论(0) 推荐(0)
摘要:结果: 阅读全文
posted @ 2018-03-10 19:14 soyosuyang 阅读(1539) 评论(0) 推荐(0)
摘要:在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。 例如,考虑一下的三个特征: ["male", "female"] ["from Europe", "from US", "from Asia"] ["uses Firefox", "uses Chrome", "uses Safari", 阅读全文
posted @ 2018-03-08 20:39 soyosuyang 阅读(366) 评论(0) 推荐(0)
摘要:1. Adaboost类库概述 scikit-learn中Adaboost类库比较直接,就是AdaBoostClassifier和AdaBoostRegressor两个,从名字就可以看出AdaBoostClassifier用于分类,AdaBoostRegressor用于回归。 AdaBoostCla 阅读全文
posted @ 2018-03-08 15:05 soyosuyang 阅读(609) 评论(0) 推荐(0)
摘要:广义的预测任务中,要求估计连续型预测值时,是“回归任务”;要求判断因变量属于哪个类别时,是”分类“任务 结果: 这个是注释掉的代码产生的结果: 阅读全文
posted @ 2018-03-06 16:49 soyosuyang 阅读(590) 评论(0) 推荐(0)
摘要:Bokeh是一款针对浏览器中图形演示的交互式绘图工具。 结果: 阅读全文
posted @ 2018-03-05 18:44 soyosuyang 阅读(185) 评论(0) 推荐(0)
摘要:结果: [ 0 1 2 3 4 5 6 7 8 9 10 11][ 0. 0.08333333 0.16666667 0.25 0.33333333 0.41666667 0.5 0.58333333 0.66666667 0.75 0.83333333 0.91666667][ 0.9596216 阅读全文
posted @ 2018-03-04 17:54 soyosuyang 阅读(464) 评论(0) 推荐(0)
摘要:#-*- coding: utf-8 -*- ''' numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None) 在指定的间隔内返回均匀间隔的数字。 返回num个均匀分布的样本,在[start, stop]。 @author: soyo ''' import numpy as np import ma... 阅读全文
posted @ 2018-03-04 17:49 soyosuyang 阅读(996) 评论(0) 推荐(0)
摘要:给定向量x=(x1,x2,...xn)L1范数:向量各个元素绝对值之和L2范数:向量各个元素的平方求和然后求平方根Lp范数:向量各个元素绝对值的p次方求和然后求1/p次方L∞范数:向量各个元素求绝对值,最大那个元素的绝对值 阅读全文
posted @ 2018-03-03 12:04 soyosuyang 阅读(428) 评论(0) 推荐(0)