2018年5月9日

spring boot 调用的spark的一个简单例子

摘要: 好久没写博客了。。。 我写了个最简单的demo,可以通过restful api 接口调用spark 任务,github地址:https://github.com/wuheyi/RestSparkEtl 项目组内的大牛开源了streamingpro,那个比较庞杂;我打算自己也写一个私人定制的版本玩玩 阅读全文

posted @ 2018-05-09 09:04 Kernel_wu 阅读(3946) 评论(0) 推荐(0) 编辑

2017年6月6日

kaggle 模型融合 stacking

摘要: https://www.kaggle.com/arthurtok/introduction-to-ensembling-stacking-in-python 这个写的太好了, 前面部分是数据处理,坐着写的比较简单,可以不用细看; 后面是模型的融合,主要采用stacking模式 http://www. 阅读全文

posted @ 2017-06-06 15:29 Kernel_wu 阅读(404) 评论(0) 推荐(0) 编辑

2017年6月2日

几个特别好的kaggle教程

摘要: https://www.kaggle.com/arthurtok/interactive-intro-to-dimensionality-reduction https://www.kaggle.com/helgejo/an-interactive-data-science-tutorial htt 阅读全文

posted @ 2017-06-02 18:16 Kernel_wu 阅读(422) 评论(0) 推荐(0) 编辑

2017年6月1日

kaggle竞赛入门

摘要: 我入门是看了范淼和李超的《python机器学习机实践 从零开始通往Kaggle竞赛之路》 这本书需要掌握python语言,并熟练使用如下python包:pandas numpy matplotlib/seaborn sklearn pandas是数据处理的一个库,通过http://www.cnblo 阅读全文

posted @ 2017-06-01 16:07 Kernel_wu 阅读(660) 评论(0) 推荐(0) 编辑

2017年5月23日

用python抓取摩拜单车API数据

摘要: 最近摩拜单车超级火,下班了各种骑,然后膝盖伤了。。。。。。 看到这篇文章http://mp.weixin.qq.com/s?__biz=MzA5NDExMTAzNA==&mid=2649982414&idx=1&sn=68b638c4f019baa3a783c045b294d6de&chksm=88 阅读全文

posted @ 2017-05-23 15:50 Kernel_wu 阅读(574) 评论(0) 推荐(0) 编辑

2017年5月15日

机器学习路线 方法 python scikit-learn spark mllib

摘要: 机器学习开发与应用 第一章 前言... 2 第二章 平台的选择... 2 第三章 API的学习... 2 3.1 Scikit_learn. 2 3.2 Spark MLLib. 3 第四章 进一步提升... 3 第五章 原理层面的提升... 4 第六章 补充的学习... 4 6.1 遇到一个知识点 阅读全文

posted @ 2017-05-15 10:56 Kernel_wu 阅读(2506) 评论(0) 推荐(1) 编辑

大数据环境部署、开发和应用(hadoop、spark

摘要: 写了个WORD版本,直接拷过来,格式就不修正了。 部署部分都是根据我自身的操作记录的,可能存在记录不全的问题,需要自己百度。 其他一些是学习的建议,我学的比较快,部署加学习,两星期就搞定了,所以感觉还是靠谱的。 另外,如果是初学者,建议先花一天时间熟悉下hadoop和spark的生态圈 大数据环境部 阅读全文

posted @ 2017-05-15 10:52 Kernel_wu 阅读(434) 评论(0) 推荐(0) 编辑

python的一些常用操作

摘要: 判断文件或者文件夹是否存在 if(os.path.exists(rootdir) == False) 创建文件夹 os.mkdir(rootdir) 调用系统命令 os.system(cmd) 字典循环 for key,value in dict.items() 打开文件并读取内容进行处理 fd = 阅读全文

posted @ 2017-05-15 10:41 Kernel_wu 阅读(467) 评论(0) 推荐(0) 编辑

2016年9月14日

python3 清洗json数据

摘要: ----------------- getCommunityData.py -----------------import jsonimport osimport os.pathimport csvimport parameterConfigfrom getFocusedPerson import 阅读全文

posted @ 2016-09-14 09:27 Kernel_wu 阅读(1758) 评论(0) 推荐(0) 编辑

MONGDB学习笔记

摘要: 阅读全文

posted @ 2016-09-14 09:21 Kernel_wu 阅读(107) 评论(0) 推荐(0) 编辑

导航