摘要:
摘要:
0.神经网络基础
1.深度学习常用方法
2.深度学习实践
3.tensorflow相关组件
4.keras相关组件 阅读全文
摘要:
1.spark 数据透视图: 阅读全文
摘要:
常见的推荐引擎算法:
simHash 算法:推荐算法—协同过滤;simHash原理 阅读全文
摘要:
摘要:
1.数据增强是什么?
2.为什么要数据增强?
3.常见的数据增强举例 阅读全文
摘要:
摘要:
1.最小二乘法
2.梯度下降法
3.最大(对数)似然估计(MLE)
4.最大后验估计(MAP)
5.期望最大化算法(EM)
6.牛顿法
7.拟牛顿迭代(BFGS)
8.限制内存-拟牛顿迭代(L-BFGS)
9.深度学习中的梯度优化算法
10.各种最优化方法比较
拟牛顿法和牛顿法区别,哪个收敛快? 阅读全文
摘要:
摘要:
0.redis安装
1.redis的常用数据结构类型
1.1 String
1.2 List
1.3 Set
1.4 Sorted Set
1.5 Hash
2.redis是单进程单线程的
3.管道
4.我的测试代码 阅读全文
摘要:
背景:本文类似文章的目录部分,以系统学习python 新知识和复习总结用
python 基本语法
numpy库
matplotlib绘图库
pandas库
scikit-learn 机器学习库 阅读全文
摘要:
摘要:
1.场景描述
2.flask介绍
3.celery介绍
4.项目伪代码记录 阅读全文
摘要:
摘要:
1.Hive安装
2.Hive DDL命令
3.Hive DML初步
4.Hive DML高级
5.Hive 优化与配置参数 阅读全文
摘要:
摘要:
1.开发UDF
2.开发UDAF
3.开发UDTF
4.部署与测试
5.一个简单的实例 阅读全文
摘要:
摘要:
centos7安装依赖库
tesseract配置
代码例子 阅读全文
摘要:
1.归并两个有序链表
2.最小路径和
3.计算int sqrt(x)
4. 阅读全文
摘要:
摘要:
1.分词
2.关键词提取
3.主题模型(LDA/TWE)
4.词的两种表现形式(词袋模型和分布式词向量)
5.关于文本的特征工程
6.文本挖掘(文本分类,文本用户画像) 阅读全文
摘要:
摘要:
1.spark_core
2.spark_sql
3.spark_ml 阅读全文
摘要:
摘要:
热门推荐
协同过滤算法
矩阵分解
基于内容的推荐(文本,标签,特征/profile)
基于图的算法 阅读全文
摘要:
摘要:
1.特征的可用性评估
2.特征的修剪
3.特征的可视化
4.特征的监控
5.特征的维护 阅读全文
摘要:
1.自然底数e的由来:知乎问答
2.正态分布的前世今生:pdf
3.常见概率分布图表总结: 阅读全文
摘要:
摘要
1.适用场合
2.算法简介
3.代码例子
4.Spark RangePartitioner 中的应用 阅读全文
摘要:
1.数据城堡 -- 猜你喜欢
2.数据城堡 -- 微额借款用户人品预测大赛
3.阿里天池 -- 需求预测与分仓规划
4.kaggle -- 14年CTR预测(GBDT+LR/FM)
5.魔镜 -- 风控 阅读全文
摘要:
摘要:
1.算法概述
2.算法推导
3.算法特性及优缺点
4.注意事项
5.实现和具体例子
6.适用场合
7.与NB,pLSA比较 阅读全文
摘要:
1.算法概述
2.算法推导
3.算法特性及优缺点
4.注意事项
5.实现和具体例子
6.适用场合 阅读全文
摘要:
摘要:
1.算法概述
2.算法推导
3.算法特性及优缺点
4.注意事项(算法过程,调参等注意事项)
5.实现和具体例子
6.适用场合 阅读全文
摘要:
1.常见问题
1.1 什么是偏差与方差?
1.2 为什么会产生过拟合,有哪些方法可以预防或克服过拟合?
2.模型选择
3.特征选择
4.特征工程与数据预处理 阅读全文
摘要:
周二面试了一天,结果就是各种被虐。下面记录下我的面试题,大神直接略过。
内容总结:
欧朋:
1.算法题:给一个字符串,相邻的字符去重。(我的想法是写了个循环,如果下一个和现在的不同才添加到结果字符串中,直至串尾)
2.算法题:给一个9*9的数独,判断行,列以及小九宫格不重复。(leetcode原题:https://leetcode.com/problems/valid-sudoku/)
百度:
1.java相关:垃圾回收机制,对象是值传递还是引 阅读全文
摘要:
1.StackOverflowError
问题:简单代码记录 :
for (day <- days){
rdd = rdd.union(sc.textFile(/path/to/day) .... )
} 阅读全文
摘要:
摘要:
1.RDD的五大属性
1.1partition(分区)
1.2partitioner(分区方法)
1.3dependencies(依赖关系)
1.4compute(获取分区迭代列表)
1.5preferedLocations(距离近的节点列表)
2.RDD实现类举例
1.MapPartitionsRDD
2.ShuffledRDD
3.RDD可以嵌套吗? 阅读全文
摘要:
摘要:
1.算法概述
2.算法推导
3.算法特性及优缺点
4.注意事项
5.实现和具体例子 阅读全文
摘要:
摘要:
1.常见离散变量的分布
2.常见连续变量的概率分布
3.共轭分布 阅读全文
摘要:
李航的《统计学习方法》 这本书开篇第一章写得特别好,各个模型的算法推导也比较全,基本涵盖了比较经典的判别模型和生成模型。 《机器学习实战》 这本书代码和应用特别多,了解python用法和机器学习算法的代码实现非常方便。 项亮的《推荐系统实践》 这本书个人感觉偏理论一点,伪代码看着都实现不了,不过关于 阅读全文
摘要:
摘要
1.使用reduceByKey/aggregateByKey替代groupByKey
2.使用mapPartitions替代普通map
3.使用foreachPartitions替代foreach
4.使用filter之后进行coalesce操作
5.使用repartitionAndSortWithinPartitions替代repartition与sort类操作
6.使用broadcast使各task共享同一Executor的集合替代算子函数中各task传送一份集合 阅读全文
摘要:
摘要:
1.算法概述
2.算法推导
3.算法特性及优缺点
4.注意事项
5.实现和具体例子 阅读全文
摘要:
摘要:
1.信息的度量
2.信息不确定性的度量 阅读全文
摘要:
摘要:
1.正则化(Regularization)
1.1 正则化的目的
1.2 正则化的L1范数(lasso),L2范数(ridge),ElasticNet
2.归一化 (Normalization)
2.1归一化的目的
2.1归一化计算方法
2.2.spark ml中的归一化
2.3 python中skelearn中的归一化 阅读全文
摘要:
摘要:
1.各个数据结构的应用举例
1.1 String类型应用举例
1.2List类型应用举例
1.3Set类型应用举例
1.4Sorted Set类型应用举例
1.5Hash类型应用举例 阅读全文
摘要:
摘要:
1.算法概述
2.算法推导
3.算法特性及优缺点
4.注意事项
5.实现和具体例子
6.适用场合 阅读全文
摘要:
介绍:以下是李航《统计学习方法的》第一章的部分摘录,只为复习总结用 内容: 1.损失函数: 扩展:线性回归,LR,svm,boosting的损失函数 2.分类器评估方法: 阅读全文