03 2018 档案
摘要:此程序功能: 1.完成对10.4G.csv文件各个元素频率的统计 2.获得最大的统计个数 3.对获取到的统计个数进行降序排列 4.对各个元素出现次数频率的统计 数据内容: Spark 保存的文件是这样的: 这里可以用一个脚本将这么多的文件进行合并: 结果太多只写一个: 获取统计的最大数2948874
阅读全文
摘要:#-*- coding: utf-8 -*- ''' 逻辑回归参数: penalty:惩罚项,str类型,可选参数为l1和l2,默认为l2。用于指定惩罚项中使用的规范。newton-cg、sag和lbfgs求解算法只支持L2规范。L1G规范假设的是模型的参数满足拉普拉斯分布,L2假设的模型参数满足高斯分布,所谓的范式就是加上对参数的约束,使得模型更不会过拟合(overfit),但是如果要说是不是...
阅读全文
摘要:在很多机器学习任务中,特征并不总是连续值,而有可能是分类值。 例如,考虑一下的三个特征: ["male", "female"] ["from Europe", "from US", "from Asia"] ["uses Firefox", "uses Chrome", "uses Safari",
阅读全文
摘要:1. Adaboost类库概述 scikit-learn中Adaboost类库比较直接,就是AdaBoostClassifier和AdaBoostRegressor两个,从名字就可以看出AdaBoostClassifier用于分类,AdaBoostRegressor用于回归。 AdaBoostCla
阅读全文
摘要:广义的预测任务中,要求估计连续型预测值时,是“回归任务”;要求判断因变量属于哪个类别时,是”分类“任务 结果: 这个是注释掉的代码产生的结果:
阅读全文
摘要:Bokeh是一款针对浏览器中图形演示的交互式绘图工具。 结果:
阅读全文
摘要:结果: [ 0 1 2 3 4 5 6 7 8 9 10 11][ 0. 0.08333333 0.16666667 0.25 0.33333333 0.41666667 0.5 0.58333333 0.66666667 0.75 0.83333333 0.91666667][ 0.9596216
阅读全文
摘要:#-*- coding: utf-8 -*- ''' numpy.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None) 在指定的间隔内返回均匀间隔的数字。 返回num个均匀分布的样本,在[start, stop]。 @author: soyo ''' import numpy as np import ma...
阅读全文
摘要:给定向量x=(x1,x2,...xn)L1范数:向量各个元素绝对值之和L2范数:向量各个元素的平方求和然后求平方根Lp范数:向量各个元素绝对值的p次方求和然后求1/p次方L∞范数:向量各个元素求绝对值,最大那个元素的绝对值
阅读全文

浙公网安备 33010602011771号