会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
xingoo
博客园
首页
管理
上一页
1
···
6
7
8
9
10
11
12
13
14
···
103
下一页
2018年2月1日
推荐系统那点事儿
摘要: 从事推荐系统已经快一年了,遇到过很多的茫然不知所措,也踩过不少坑,索性把所有推荐的资料都汇总一下,希望给新人以指引,或者给老司机作为归纳总结 如果电子书链接失效,可以私信我 算法基础 博客整理 业界参考 推荐文章 书籍推荐 算法基础 对于推荐系统是需要一些数学和机器学习的基本功的,假设你从来没有接触
阅读全文
posted @ 2018-02-01 11:05 xingoo
阅读(6696)
评论(0)
推荐(4)
2018年1月30日
Spark机器学习——模型选择与参数调优之交叉验证
摘要: spark 模型选择与超参调优 机器学习可以简单的归纳为 通过数据训练 的过程,因此定义完训练模型之后,就需要考虑如何选择最终我们认为最优的模型。 如何选择最优的模型,就是本篇的主要内容: 模型验证的方法 超参数的选择 评估函数的选择 模型验证的方法 在《统计学习方法》这本书中,曾经讲过模型验证的方
阅读全文
posted @ 2018-01-30 15:57 xingoo
阅读(2464)
评论(0)
推荐(0)
2018年1月20日
Spark Client启动原理探索
摘要: 经过几天闲暇时间的学习,终于又理解的深入了一些,关于Spark Client如何提交作业也更清晰了点。 在整体的流程图上是这样的: 大体的思路就是应用程序通过SparkSubmit提交程序后,自动在当前的JVM中启动Driver,然后与Master通信创建Excutor执行相应的任务。 自己整理了下
阅读全文
posted @ 2018-01-20 00:11 xingoo
阅读(811)
评论(0)
推荐(0)
2018年1月10日
Spark源码分析 之 Driver和Excutor是怎么跑起来的?(2.2.0版本)
摘要: 今天抽空回顾了一下Spark相关的源码,本来想要了解一下Block的管理机制,但是看着看着就回到了SparkContext的创建与使用。正好之前没有正式的整理过这部分的内容,这次就顺带着回顾一下。 更多内容参考: "我的大数据之路" Spark作为目前最流行的大数据计算框架,已经发展了几个年头了。版
阅读全文
posted @ 2018-01-10 19:13 xingoo
阅读(2153)
评论(0)
推荐(2)
2018年1月6日
《恶意》—— 读后总结
摘要: 这本小说,从案件剧情上来说,简单的不要不要的,可是背后的故事确是一波三折,把读者骗的来回转。 小说整体采用了一种叫做POV, point of view 视点人物写作手法。之前看过辛夷坞的小说,是那种每个人都描述同一件事情,读者从不同人物角度的来挖掘事件的真相。本书则是站在每个人不同的视角讲述故事,
阅读全文
posted @ 2018-01-06 12:18 xingoo
阅读(1991)
评论(0)
推荐(0)
2018年1月5日
基于Dubbo的http自动测试工具分享
摘要: 公司是采用微服务来做模块化的,各个模块之间采用dubbo通信。好处就不用提了,省略了之前模块间复杂的http访问。不过也遇到一些问题: PS: "Github的代码示例" 测试需要配合写消费者的代码 对于开发来说,倒是挺省劲。但是对于测试来说就有点麻烦了, 每次还要去写dubbo的消费程序,而且每次
阅读全文
posted @ 2018-01-05 17:35 xingoo
阅读(5270)
评论(1)
推荐(6)
2017年12月26日
Spark监控官方文档学习笔记
摘要: 任务的监控和使用 有几种方式监控spark应用:Web UI,指标和外部方法 Web接口 每个SparkContext都会启动一个web UI,默认是4040端口,用来展示一些信息: 1. 一系列调度的stage和task 2. RDD大小和内存的使用概况 3. 环境变量信息 4. excutors
阅读全文
posted @ 2017-12-26 09:03 xingoo
阅读(2897)
评论(0)
推荐(0)
2017年12月21日
Maven打包排除某个资源或者目录
摘要: 最近在spark streaming本地调试的时候,引入了一些资源文件,打包的时候需要给排除掉。所以就考虑使用maven的方式 详细参考官方文档:https://maven.apache.org/plugins/maven jar plugin/examples/include exclude.ht
阅读全文
posted @ 2017-12-21 13:40 xingoo
阅读(32872)
评论(2)
推荐(0)
2017年12月15日
源码中的哲学——通过构建者模式创建SparkSession
摘要: spark2.2在使用的时候使用的是SparkSession,这个SparkSession创建的时候很明显的使用了创建者模式。通过观察源代码,简单的模拟了下,可以当作以后编码风格的参考: 官方使用 自己写的小例子,模拟一下: 很好的风格! 可以得到输出:
阅读全文
posted @ 2017-12-15 15:55 xingoo
阅读(760)
评论(0)
推荐(0)
2017年12月12日
基于编辑距离来判断词语相似度方法(scala版)
摘要: 词语相似性比较,最容易想到的就是编辑距离,也叫做Levenshtein Distance算法。在Python中是有现成的模块可以帮助做这个的,不过代码也很简单,我这边就用scala实现了一版。 编辑距离 编辑距离是指一个字符串改编成另一个字符串的最短距离,它描述了两个字符串的相近程度。比如: 因此所
阅读全文
posted @ 2017-12-12 17:38 xingoo
阅读(2704)
评论(0)
推荐(2)
上一页
1
···
6
7
8
9
10
11
12
13
14
···
103
下一页
公告