摘要:摘要: 1.数据增强是什么? 2.为什么要数据增强? 3.常见的数据增强举例 阅读全文
posted @ 2017-11-20 17:10 混沌战神阿瑞斯 阅读(2924) 评论(0) 推荐(1) 编辑
摘要:摘要:   1.最小二乘法   2.梯度下降法   3.最大(对数)似然估计(MLE)   4.最大后验估计(MAP)   5.期望最大化算法(EM)   6.牛顿法   7.拟牛顿迭代(BFGS)   8.限制内存-拟牛顿迭代(L-BFGS)   9.深度学习中的梯度优化算法   10.各种最优化方法比较      拟牛顿法和牛顿法区别,哪个收敛快? 阅读全文
posted @ 2017-11-12 22:01 混沌战神阿瑞斯 阅读(939) 评论(0) 推荐(1) 编辑
摘要:摘要: 0.redis安装 1.redis的常用数据结构类型 1.1 String 1.2 List 1.3 Set 1.4 Sorted Set 1.5 Hash 2.redis是单进程单线程的 3.管道 4.我的测试代码 阅读全文
posted @ 2017-10-30 14:16 混沌战神阿瑞斯 阅读(376) 评论(0) 推荐(0) 编辑
摘要:背景:本文类似文章的目录部分,以系统学习python 新知识和复习总结用 python 基本语法 numpy库 matplotlib绘图库 pandas库 scikit-learn 机器学习库 阅读全文
posted @ 2017-10-26 18:15 混沌战神阿瑞斯 阅读(287) 评论(0) 推荐(1) 编辑
摘要:摘要:   1.场景描述   2.flask介绍   3.celery介绍   4.项目伪代码记录 阅读全文
posted @ 2017-10-23 18:11 混沌战神阿瑞斯 阅读(5246) 评论(2) 推荐(3) 编辑
摘要:摘要:   1.Hive安装   2.Hive DDL命令   3.Hive DML初步   4.Hive DML高级   5.Hive 优化与配置参数 阅读全文
posted @ 2017-10-19 17:00 混沌战神阿瑞斯 阅读(1042) 评论(0) 推荐(2) 编辑
摘要:摘要:   1.开发UDF    2.开发UDAF    3.开发UDTF    4.部署与测试    5.一个简单的实例 阅读全文
posted @ 2017-10-19 16:51 混沌战神阿瑞斯 阅读(334) 评论(0) 推荐(1) 编辑
摘要:摘要:   centos7安装依赖库   tesseract配置   代码例子 阅读全文
posted @ 2017-10-12 11:53 混沌战神阿瑞斯 阅读(5418) 评论(4) 推荐(2) 编辑
摘要:1.归并两个有序链表 2.最小路径和 3.计算int sqrt(x) 4. 阅读全文
posted @ 2017-10-06 16:54 混沌战神阿瑞斯 阅读(349) 评论(2) 推荐(2) 编辑
摘要:摘要:   1.分词   2.关键词提取   3.主题模型(LDA/TWE)   4.词的两种表现形式(词袋模型和分布式词向量)   5.关于文本的特征工程   6.文本挖掘(文本分类,文本用户画像) 阅读全文
posted @ 2017-08-27 22:19 混沌战神阿瑞斯 阅读(5747) 评论(0) 推荐(2) 编辑
摘要:摘要:   1.spark_core   2.spark_sql   3.spark_ml 阅读全文
posted @ 2017-06-23 17:51 混沌战神阿瑞斯 阅读(723) 评论(0) 推荐(0) 编辑
摘要:摘要:    热门推荐   协同过滤算法    矩阵分解    基于内容的推荐(文本,标签,特征/profile)   基于图的算法 阅读全文
posted @ 2017-05-29 23:09 混沌战神阿瑞斯 阅读(435) 评论(0) 推荐(0) 编辑
摘要:摘要: 1.特征的可用性评估 2.特征的修剪 3.特征的可视化 4.特征的监控 5.特征的维护 阅读全文
posted @ 2017-05-29 22:15 混沌战神阿瑞斯 阅读(346) 评论(0) 推荐(0) 编辑
摘要:1.自然底数e的由来:知乎问答 2.正态分布的前世今生:pdf 3.常见概率分布图表总结: 阅读全文
posted @ 2017-05-04 10:03 混沌战神阿瑞斯 阅读(308) 评论(0) 推荐(0) 编辑
摘要:摘要   1.适用场合   2.算法简介   3.代码例子   4.Spark RangePartitioner 中的应用 阅读全文
posted @ 2017-05-03 16:34 混沌战神阿瑞斯 阅读(517) 评论(0) 推荐(0) 编辑
摘要:1.数据城堡 -- 猜你喜欢 2.数据城堡 -- 微额借款用户人品预测大赛 3.阿里天池 -- 需求预测与分仓规划 4.kaggle -- 14年CTR预测(GBDT+LR/FM) 5.魔镜 -- 风控 阅读全文
posted @ 2017-05-02 22:48 混沌战神阿瑞斯 阅读(970) 评论(0) 推荐(1) 编辑
摘要:摘要:   1.算法概述   2.算法推导   3.算法特性及优缺点   4.注意事项   5.实现和具体例子   6.适用场合   7.与NB,pLSA比较 阅读全文
posted @ 2017-04-01 11:56 混沌战神阿瑞斯 阅读(4039) 评论(0) 推荐(2) 编辑
摘要:1.算法概述   2.算法推导   3.算法特性及优缺点   4.注意事项   5.实现和具体例子 6.适用场合 阅读全文
posted @ 2017-03-31 17:26 混沌战神阿瑞斯 阅读(3346) 评论(0) 推荐(1) 编辑
摘要:摘要:   1.算法概述   2.算法推导   3.算法特性及优缺点   4.注意事项(算法过程,调参等注意事项)   5.实现和具体例子   6.适用场合 阅读全文
posted @ 2017-03-28 07:31 混沌战神阿瑞斯 阅读(1306) 评论(0) 推荐(0) 编辑
摘要:1.常见问题     1.1 什么是偏差与方差?     1.2 为什么会产生过拟合,有哪些方法可以预防或克服过拟合?   2.模型选择   3.特征选择   4.特征工程与数据预处理 阅读全文
posted @ 2017-03-24 07:33 混沌战神阿瑞斯 阅读(728) 评论(0) 推荐(0) 编辑
摘要:周二面试了一天,结果就是各种被虐。下面记录下我的面试题,大神直接略过。 内容总结:   欧朋:     1.算法题:给一个字符串,相邻的字符去重。(我的想法是写了个循环,如果下一个和现在的不同才添加到结果字符串中,直至串尾)     2.算法题:给一个9*9的数独,判断行,列以及小九宫格不重复。(leetcode原题:https://leetcode.com/problems/valid-sudoku/)   百度:     1.java相关:垃圾回收机制,对象是值传递还是引 阅读全文
posted @ 2017-03-22 09:10 混沌战神阿瑞斯 阅读(3263) 评论(2) 推荐(1) 编辑
摘要:1.StackOverflowError 问题:简单代码记录 : for (day <- days){   rdd = rdd.union(sc.textFile(/path/to/day) .... ) } 阅读全文
posted @ 2017-03-22 08:06 混沌战神阿瑞斯 阅读(4472) 评论(0) 推荐(0) 编辑
摘要:摘要:   1.RDD的五大属性     1.1partition(分区)     1.2partitioner(分区方法)     1.3dependencies(依赖关系)     1.4compute(获取分区迭代列表)     1.5preferedLocations(距离近的节点列表)   2.RDD实现类举例     1.MapPartitionsRDD     2.ShuffledRDD 3.RDD可以嵌套吗? 阅读全文
posted @ 2017-03-22 07:59 混沌战神阿瑞斯 阅读(3498) 评论(0) 推荐(0) 编辑
摘要:摘要:   1.算法概述   2.算法推导   3.算法特性及优缺点   4.注意事项   5.实现和具体例子 阅读全文
posted @ 2017-03-21 21:50 混沌战神阿瑞斯 阅读(6354) 评论(2) 推荐(1) 编辑
摘要:摘要:   1.常见离散变量的分布   2.常见连续变量的概率分布   3.共轭分布 阅读全文
posted @ 2017-03-21 09:54 混沌战神阿瑞斯 阅读(1082) 评论(0) 推荐(0) 编辑
摘要:李航的《统计学习方法》 这本书开篇第一章写得特别好,各个模型的算法推导也比较全,基本涵盖了比较经典的判别模型和生成模型。 《机器学习实战》 这本书代码和应用特别多,了解python用法和机器学习算法的代码实现非常方便。 项亮的《推荐系统实践》 这本书个人感觉偏理论一点,伪代码看着都实现不了,不过关于 阅读全文
posted @ 2017-03-05 20:01 混沌战神阿瑞斯 阅读(3443) 评论(0) 推荐(1) 编辑
摘要:摘要   1.使用reduceByKey/aggregateByKey替代groupByKey   2.使用mapPartitions替代普通map   3.使用foreachPartitions替代foreach   4.使用filter之后进行coalesce操作   5.使用repartitionAndSortWithinPartitions替代repartition与sort类操作   6.使用broadcast使各task共享同一Executor的集合替代算子函数中各task传送一份集合 阅读全文
posted @ 2017-03-03 22:38 混沌战神阿瑞斯 阅读(1744) 评论(0) 推荐(0) 编辑
摘要:摘要:   1.算法概述   2.算法推导   3.算法特性及优缺点   4.注意事项   5.实现和具体例子 阅读全文
posted @ 2017-02-19 18:03 混沌战神阿瑞斯 阅读(5677) 评论(0) 推荐(2) 编辑
摘要:摘要:   1.信息的度量   2.信息不确定性的度量 阅读全文
posted @ 2017-02-16 21:24 混沌战神阿瑞斯 阅读(4527) 评论(4) 推荐(1) 编辑
摘要:摘要:   1.正则化(Regularization)     1.1 正则化的目的       1.2 正则化的L1范数(lasso),L2范数(ridge),ElasticNet   2.归一化 (Normalization)     2.1归一化的目的     2.1归一化计算方法       2.2.spark ml中的归一化     2.3 python中skelearn中的归一化 阅读全文
posted @ 2017-01-18 23:14 混沌战神阿瑞斯 阅读(10699) 评论(0) 推荐(0) 编辑
摘要:摘要:   1.各个数据结构的应用举例    1.1 String类型应用举例    1.2List类型应用举例    1.3Set类型应用举例    1.4Sorted Set类型应用举例    1.5Hash类型应用举例 阅读全文
posted @ 2017-01-17 15:02 混沌战神阿瑞斯 阅读(271) 评论(0) 推荐(0) 编辑
摘要:摘要:   1.算法概述   2.算法推导   3.算法特性及优缺点   4.注意事项   5.实现和具体例子 6.适用场合 阅读全文
posted @ 2017-01-16 09:41 混沌战神阿瑞斯 阅读(1779) 评论(0) 推荐(0) 编辑
摘要:介绍:以下是李航《统计学习方法的》第一章的部分摘录,只为复习总结用 内容: 1.损失函数: 扩展:线性回归,LR,svm,boosting的损失函数 2.分类器评估方法: 阅读全文
posted @ 2017-01-15 10:51 混沌战神阿瑞斯 阅读(313) 评论(0) 推荐(0) 编辑
摘要:摘要:   1.算法概述   2.算法推导   3.算法特性及优缺点   4.注意事项   5.实现和具体例子 6.适用场合 阅读全文
posted @ 2017-01-14 21:59 混沌战神阿瑞斯 阅读(4922) 评论(0) 推荐(0) 编辑
摘要:摘要:   1.凸集     1.1 凸集的定义     1.2 仿射集的定义     1.3 凸集的例子     1.4 凸集的保凸运算   2.凸函数     2.1 凸函数的定义     2.2 凸函数的性质     2.3 凸函数的例子     2.4 凸函数的保凸运算   3.凸集和凸函数的等价条件   4.Jensen不等式 阅读全文
posted @ 2017-01-14 21:58 混沌战神阿瑞斯 阅读(728) 评论(0) 推荐(0) 编辑
摘要:摘要:   1.各种算法的推导   2.各种算法的比较(或优缺点)   3.学习理论 4.特征选择方法   5.模型选择方法   6.特征工程   7.数据预处理   8.应用例子 阅读全文
posted @ 2017-01-12 15:59 混沌战神阿瑞斯 阅读(1657) 评论(0) 推荐(1) 编辑
摘要:摘要:   1.简介   2.模型   3.策略   4.推导   5.算法    5.1原始问题    5.2对偶问题 阅读全文
posted @ 2017-01-12 10:23 混沌战神阿瑞斯 阅读(363) 评论(0) 推荐(0) 编辑
摘要:1.本福特定律   2.商品推荐的惊喜度   3.贝叶斯学派和频率学派   4.指数分布族   5.期望   6.方差   7.协方差   8.皮尔逊相关系数 阅读全文
posted @ 2017-01-08 18:05 混沌战神阿瑞斯 阅读(478) 评论(0) 推荐(1) 编辑
摘要:python scikit-learn 环境搭建问题解决记录 阅读全文
posted @ 2017-01-07 23:55 混沌战神阿瑞斯 阅读(248) 评论(0) 推荐(0) 编辑
摘要:1.平均值   1.1 全局平均值   1.2 用户评分平均值   1.3 物品评分平均值   1.4 用户分类对物品分类的平均值   分类方法:     1.4.1 平均值分类     1.4.2 活跃度/流行度分类 2.基于邻域的方法   2.1 基于用户的协同过滤   2.2 基于物品的协同过滤   相似度计算方法选择:     基于共现矩阵的相似度     余弦相似度     3.隐语义模型与矩阵分解模型   3.1 ALS 矩阵分解模型   4.加入时间因素   1.基于邻域的模型融合时间信息 5.模型融合   1.级联方式   2.加权融合 阅读全文
posted @ 2017-01-07 23:54 混沌战神阿瑞斯 阅读(688) 评论(0) 推荐(0) 编辑