摘要:例子如下:
阅读全文
随笔分类 - 数据分析/挖掘
摘要:学习自 https://blog.csdn.net/qq_36761831/article/details/82862135 1. like 与 regexp比较 like有的功能,regexp都有;regexp还能进行更精确的匹配 -- 模糊匹配两者完全等价 SELECT * FROM rp_da
阅读全文
摘要:https://blog.csdn.net/weixin_42619659/article/details/81905586
阅读全文
摘要:1. 梳理出你要的列和行维度 列维度: 每一周 行维度: 年级 + 学科 + 班型 2. 对数据按周增序进行聚合 (即根据列维度) ,生成list concat_ws 和 collect_list (collect_set 会去重后再聚合) 顺序随机 sort_array 只能增序,要倒序排的话在子
阅读全文
摘要:https://www.cnblogs.com/Zhi-Z/p/8728168.html
阅读全文
摘要:1. kaggle泰坦尼克数据titanic完整下载,原作者良心分享 https://download.csdn.net/download/lansui7312/9936840 2. 缺失值处理 3.
阅读全文
摘要:NTILE(n) 用于将分组数据按照顺序切分成n片,返回当前记录所在的切片值 NTILE不支持ROWS BETWEEN,比如 NTILE(2) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND CU
阅读全文
摘要:#-*- coding:utf-8 -*- import numpy as np; data1=[1,2,3,4,5] array1=np.array(data1) #创建数组/矩阵 # 使用numpy中的array函数 data2=[[1,3,4],[2,5,6]] array2=np.array(data2) #查看变量的数据类型:dtype array2.dtype #转换数据格式...
阅读全文
摘要:1. 最小值,1/4位数,中位数,3/4位数,最大值 excel里面: MIN,QUARTILE,MAX,AVARAGE 2. 众数 excel里面: MODE.MULT
阅读全文
摘要:术语或简写备忘 (按字母顺序) A/a activation function 激活函数 artificial neutron: perceptron(以前), sigmoid neutron(如今的模型) B/b backpropagation 反向传播 beta version 测试版本 bia
阅读全文
摘要:1. 读取数据 2. 把数据随机分割为training集 和test集 3. 按分割符拆分一个数据集
阅读全文
摘要:1. 内积和外积 向量内积(点乘): a.b = x1*y1+x2*y2 其中a(x1,x2) b(y1,y2) 结果是标量 一个数值向量外积(叉乘): a×b= |a|*|b|*sin 结果是一个向量(矢量),按右手法则判断。 2. Cauchy–Schwarz inequality 柯西施瓦兹不
阅读全文
摘要:参考资料: 在线免费书籍 http://neuralnetworksanddeeplearning.com/chap1.html Chapter 1 1. perceptron 感知机 it's a device that makes decisions by weighing up evidenc
阅读全文
摘要:1. sgn 函数 2. sigmoid 函数 3. ReLU 函数 y=max(x,0) 这种函数的设计启发来自于生物神经元对于激励的线性响应,以及当低于某个阈值后就不再响应的模拟。
阅读全文
摘要:梯度下降(GD,Gradient descend)是最小化风险函数、损失函数的一种常用方法 随机梯度下降和批量梯度下降是两种迭代求解思路。
阅读全文
摘要:回归问题概括: 1) 数据 2) 假设的模型,即一个含有未知的参数的函数。通过学习,可以估计出参数。然后利用这个模型去预测/分类新的数据 回归和分类: 都属于有监督的学习 分类返回的是明确的类别信息,0 or 1,是 or 否 回归返回的是,某一个值或者范围的取值概率。如果把概率大小跟最终类别关联起
阅读全文
摘要:Support vector machines 支持向量机,简称SVM 分类算法的目的是学会一个分类函数或者分类模型(分类器),能够把数据库中的数据项映射给定类别中的某一个,从而可以预测未知类别。 SVM是一种监督式学习的方法。 支持向量:支持或支撑平面上把两类类别划分开来的超平面的向量点 机:就是
阅读全文
摘要:4. 假设检验 基础回顾: 假设检验,用于判断一个结果是否在统计上是显著的、这个结果是否有机会发生。 显著性检验 原假设与备择假设 常把一个要检验的假设记作 H0,称为原假设(或零假设) (null hypothesis) 与H0对立的假设记作H1,称为备择假设(alternative hypoth
阅读全文
|