公告

随笔分类 - 数据分析/挖掘

摘要：例子如下：阅读全文

posted @ 2021-07-14 19:06 Suckseedeva 阅读(112) 评论(0) 推荐(0)

摘要：阅读全文

posted @ 2021-07-14 19:00 Suckseedeva 阅读(207) 评论(0) 推荐(0)

摘要：学习自 https://blog.csdn.net/qq_36761831/article/details/82862135 1. like 与 regexp比较 like有的功能，regexp都有；regexp还能进行更精确的匹配 -- 模糊匹配两者完全等价 SELECT * FROM rp_da 阅读全文

posted @ 2020-05-13 15:11 Suckseedeva 阅读(421) 评论(0) 推荐(0)

电商数据分析指标体系

摘要：https://blog.csdn.net/weixin_42619659/article/details/81905586 阅读全文

posted @ 2019-04-11 21:12 Suckseedeva 阅读(288) 评论(0) 推荐(0)

Hive实现交叉二维分析的小语句

摘要：1. 梳理出你要的列和行维度列维度: 每一周行维度: 年级 + 学科 + 班型 2. 对数据按周增序进行聚合 (即根据列维度) ,生成list concat_ws 和 collect_list (collect_set 会去重后再聚合) 顺序随机 sort_array 只能增序，要倒序排的话在子阅读全文

posted @ 2018-12-18 16:42 Suckseedeva 阅读(1105) 评论(0) 推荐(0)

混淆矩阵、准确率、召回率

摘要：https://www.cnblogs.com/Zhi-Z/p/8728168.html 阅读全文

posted @ 2018-11-22 10:53 Suckseedeva 阅读(852) 评论(0) 推荐(0)

Titanic缺失数值处理 & 存活率预测

摘要：1. kaggle泰坦尼克数据titanic完整下载，原作者良心分享 https://download.csdn.net/download/lansui7312/9936840 2. 缺失值处理 3. 阅读全文

posted @ 2018-05-04 17:37 Suckseedeva 阅读(721) 评论(0) 推荐(0)

Hive Ntile分析函数学习

摘要：NTILE(n) 用于将分组数据按照顺序切分成n片，返回当前记录所在的切片值 NTILE不支持ROWS BETWEEN，比如 NTILE(2) OVER(PARTITION BY cookieid ORDER BY createtime ROWS BETWEEN 3 PRECEDING AND CU 阅读全文

posted @ 2017-09-19 15:34 Suckseedeva 阅读(10316) 评论(3) 推荐(0)

购买类目的概率预测

摘要：阅读全文

posted @ 2017-09-19 15:30 Suckseedeva 阅读(417) 评论(0) 推荐(0)

numpy+pandas 基础学习

摘要：#-*- coding:utf-8 -*- import numpy as np; data1=[1,2,3,4,5] array1=np.array(data1) #创建数组/矩阵 # 使用numpy中的array函数 data2=[[1,3,4],[2,5,6]] array2=np.array(data2) #查看变量的数据类型：dtype array2.dtype #转换数据格式... 阅读全文

posted @ 2017-08-16 12:59 Suckseedeva 阅读(591) 评论(0) 推荐(0)

基本的描述性统计

摘要：1. 最小值，1/4位数，中位数，3/4位数，最大值 excel里面： MIN，QUARTILE，MAX，AVARAGE 2. 众数 excel里面： MODE.MULT 阅读全文

posted @ 2017-08-16 12:55 Suckseedeva 阅读(283) 评论(0) 推荐(0)

数据挖掘专业术语

摘要：术语或简写备忘 (按字母顺序) A/a activation function 激活函数 artificial neutron: perceptron(以前)， sigmoid neutron(如今的模型) B/b backpropagation 反向传播 beta version 测试版本 bia 阅读全文

posted @ 2016-11-24 15:34 Suckseedeva 阅读(905) 评论(0) 推荐(0)

建模前的数据清洗/ETL（python）

摘要：1. 读取数据 2. 把数据随机分割为training集和test集 3. 按分割符拆分一个数据集阅读全文

posted @ 2016-11-22 15:54 Suckseedeva 阅读(1339) 评论(0) 推荐(0)

向量基础回顾

摘要：1. 内积和外积向量内积（点乘）： a.b = x1*y1+x2*y2 其中a（x1,x2） b(y1,y2) 结果是标量一个数值向量外积（叉乘）： a×b= |a|*|b|*sin 结果是一个向量（矢量），按右手法则判断。 2. Cauchy–Schwarz inequality 柯西施瓦兹不阅读全文

posted @ 2016-10-26 18:09 Suckseedeva 阅读(309) 评论(0) 推荐(0)

神经网络和Deep Learning

摘要：参考资料：在线免费书籍 http://neuralnetworksanddeeplearning.com/chap1.html Chapter 1 1. perceptron 感知机 it's a device that makes decisions by weighing up evidenc 阅读全文

posted @ 2016-10-21 18:18 Suckseedeva 阅读(345) 评论(0) 推荐(0)

机器学习中三个典型的非线性函数

摘要：1. sgn 函数 2. sigmoid 函数 3. ReLU 函数 y=max(x,0) 这种函数的设计启发来自于生物神经元对于激励的线性响应，以及当低于某个阈值后就不再响应的模拟。阅读全文

posted @ 2016-09-18 16:36 Suckseedeva 阅读(6709) 评论(0) 推荐(0)

[最优化算法] 梯度下降

摘要：梯度下降（GD,Gradient descend）是最小化风险函数、损失函数的一种常用方法随机梯度下降和批量梯度下降是两种迭代求解思路。阅读全文

posted @ 2016-07-15 16:41 Suckseedeva 阅读(257) 评论(0) 推荐(0)

[回归问题] 逻辑回归，线性回归

摘要：回归问题概括： 1）数据 2）假设的模型，即一个含有未知的参数的函数。通过学习，可以估计出参数。然后利用这个模型去预测/分类新的数据回归和分类：都属于有监督的学习分类返回的是明确的类别信息，0 or 1，是 or 否回归返回的是，某一个值或者范围的取值概率。如果把概率大小跟最终类别关联起阅读全文

posted @ 2016-06-28 13:47 Suckseedeva 阅读(675) 评论(0) 推荐(0)

[分类算法] ：SVM支持向量机

摘要：Support vector machines 支持向量机，简称SVM 分类算法的目的是学会一个分类函数或者分类模型（分类器），能够把数据库中的数据项映射给定类别中的某一个，从而可以预测未知类别。 SVM是一种监督式学习的方法。支持向量：支持或支撑平面上把两类类别划分开来的超平面的向量点机：就是阅读全文

posted @ 2016-06-27 15:53 Suckseedeva 阅读(482) 评论(0) 推荐(0)

Spark MLib 基本统计汇总 2

摘要：4. 假设检验基础回顾：假设检验，用于判断一个结果是否在统计上是显著的、这个结果是否有机会发生。显著性检验原假设与备择假设常把一个要检验的假设记作 H0,称为原假设（或零假设） (null hypothesis) 与H0对立的假设记作H1，称为备择假设(alternative hypoth 阅读全文

posted @ 2016-06-06 14:11 Suckseedeva 阅读(1321) 评论(0) 推荐(1)

见贤思小齐，知足常乐呵

公告

随笔分类 - 数据分析/挖掘