见贤思小齐,知足常乐呵

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

随笔分类 -  数据分析/挖掘

摘要:例子如下: 阅读全文
posted @ 2021-07-14 19:06 Suckseedeva 阅读(112) 评论(0) 推荐(0)

摘要: 阅读全文
posted @ 2021-07-14 19:00 Suckseedeva 阅读(206) 评论(0) 推荐(0)

摘要:学习自 https://blog.csdn.net/qq_36761831/article/details/82862135 1. like 与 regexp比较 like有的功能,regexp都有;regexp还能进行更精确的匹配 -- 模糊匹配两者完全等价 SELECT * FROM rp_da 阅读全文
posted @ 2020-05-13 15:11 Suckseedeva 阅读(421) 评论(0) 推荐(0)

摘要:https://blog.csdn.net/weixin_42619659/article/details/81905586 阅读全文
posted @ 2019-04-11 21:12 Suckseedeva 阅读(288) 评论(0) 推荐(0)

摘要:1. 梳理出你要的列和行维度 列维度: 每一周 行维度: 年级 + 学科 + 班型 2. 对数据按周增序进行聚合 (即根据列维度) ,生成list concat_ws 和 collect_list (collect_set 会去重后再聚合) 顺序随机 sort_array 只能增序,要倒序排的话在子 阅读全文
posted @ 2018-12-18 16:42 Suckseedeva 阅读(1105) 评论(0) 推荐(0)

摘要:https://www.cnblogs.com/Zhi-Z/p/8728168.html 阅读全文
posted @ 2018-11-22 10:53 Suckseedeva 阅读(852) 评论(0) 推荐(0)

摘要:1. kaggle泰坦尼克数据titanic完整下载,原作者良心分享 https://download.csdn.net/download/lansui7312/9936840 2. 缺失值处理 3. 阅读全文
posted @ 2018-05-04 17:37 Suckseedeva 阅读(720) 评论(0) 推荐(0)

摘要:NTILE(n) 用于将分组数据按照顺序切分成n片,返回当前记录所在的切片值 NTILE不支持ROWS BETWEEN,比如 NTILE(2) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND CU 阅读全文
posted @ 2017-09-19 15:34 Suckseedeva 阅读(10313) 评论(3) 推荐(0)

摘要: 阅读全文
posted @ 2017-09-19 15:30 Suckseedeva 阅读(417) 评论(0) 推荐(0)

摘要:#-*- coding:utf-8 -*- import numpy as np; data1=[1,2,3,4,5] array1=np.array(data1) #创建数组/矩阵 # 使用numpy中的array函数 data2=[[1,3,4],[2,5,6]] array2=np.array(data2) #查看变量的数据类型:dtype array2.dtype #转换数据格式... 阅读全文
posted @ 2017-08-16 12:59 Suckseedeva 阅读(590) 评论(0) 推荐(0)

摘要:1. 最小值,1/4位数,中位数,3/4位数,最大值 excel里面: MIN,QUARTILE,MAX,AVARAGE 2. 众数 excel里面: MODE.MULT 阅读全文
posted @ 2017-08-16 12:55 Suckseedeva 阅读(283) 评论(0) 推荐(0)

摘要:术语或简写备忘 (按字母顺序) A/a activation function 激活函数 artificial neutron: perceptron(以前), sigmoid neutron(如今的模型) B/b backpropagation 反向传播 beta version 测试版本 bia 阅读全文
posted @ 2016-11-24 15:34 Suckseedeva 阅读(905) 评论(0) 推荐(0)

摘要:1. 读取数据 2. 把数据随机分割为training集 和test集 3. 按分割符拆分一个数据集 阅读全文
posted @ 2016-11-22 15:54 Suckseedeva 阅读(1337) 评论(0) 推荐(0)

摘要:1. 内积和外积 向量内积(点乘): a.b = x1*y1+x2*y2 其中a(x1,x2) b(y1,y2) 结果是标量 一个数值向量外积(叉乘): a×b= |a|*|b|*sin 结果是一个向量(矢量),按右手法则判断。 2. Cauchy–Schwarz inequality 柯西施瓦兹不 阅读全文
posted @ 2016-10-26 18:09 Suckseedeva 阅读(309) 评论(0) 推荐(0)

摘要:参考资料: 在线免费书籍 http://neuralnetworksanddeeplearning.com/chap1.html Chapter 1 1. perceptron 感知机 it's a device that makes decisions by weighing up evidenc 阅读全文
posted @ 2016-10-21 18:18 Suckseedeva 阅读(344) 评论(0) 推荐(0)

摘要:1. sgn 函数 2. sigmoid 函数 3. ReLU 函数 y=max(x,0) 这种函数的设计启发来自于生物神经元对于激励的线性响应,以及当低于某个阈值后就不再响应的模拟。 阅读全文
posted @ 2016-09-18 16:36 Suckseedeva 阅读(6705) 评论(0) 推荐(0)

摘要:梯度下降(GD,Gradient descend)是最小化风险函数、损失函数的一种常用方法 随机梯度下降和批量梯度下降是两种迭代求解思路。 阅读全文
posted @ 2016-07-15 16:41 Suckseedeva 阅读(257) 评论(0) 推荐(0)

摘要:回归问题概括: 1) 数据 2) 假设的模型,即一个含有未知的参数的函数。通过学习,可以估计出参数。然后利用这个模型去预测/分类新的数据 回归和分类: 都属于有监督的学习 分类返回的是明确的类别信息,0 or 1,是 or 否 回归返回的是,某一个值或者范围的取值概率。如果把概率大小跟最终类别关联起 阅读全文
posted @ 2016-06-28 13:47 Suckseedeva 阅读(675) 评论(0) 推荐(0)

摘要:Support vector machines 支持向量机,简称SVM 分类算法的目的是学会一个分类函数或者分类模型(分类器),能够把数据库中的数据项映射给定类别中的某一个,从而可以预测未知类别。 SVM是一种监督式学习的方法。 支持向量:支持或支撑平面上把两类类别划分开来的超平面的向量点 机:就是 阅读全文
posted @ 2016-06-27 15:53 Suckseedeva 阅读(480) 评论(0) 推荐(0)

摘要:4. 假设检验 基础回顾: 假设检验,用于判断一个结果是否在统计上是显著的、这个结果是否有机会发生。 显著性检验 原假设与备择假设 常把一个要检验的假设记作 H0,称为原假设(或零假设) (null hypothesis) 与H0对立的假设记作H1,称为备择假设(alternative hypoth 阅读全文
posted @ 2016-06-06 14:11 Suckseedeva 阅读(1321) 评论(0) 推荐(1)