层林尽染

摘要：阅读全文

posted @ 2017-12-26 09:27 层林尽染阅读(107) 评论(0) 推荐(0)

摘要： 1、启动pyspark 2、查看pyspark服务的token jupyter notebook list 查看正在运行的notebook服务以及他们的token 3、在idea里运行notebook文件，在提示输入token时输入token值阅读全文

posted @ 2017-12-15 22:58 层林尽染阅读(189) 评论(0) 推荐(0)

在windows上面安装并用jupyter运行pyspark

摘要： 1，下载hadoop winutils 设置HADOOP_HOME 2、下载spark，设置SPARK_HOME，将%SPARK_HOME%/加入到PATH路径下 3、安装Anaconda 就是python及一些相关Python包，设置 4、设置PYTHON_HOME 5、设置PYSPARK_DRI 阅读全文

posted @ 2017-12-15 22:51 层林尽染阅读(841) 评论(0) 推荐(0)

spark读写mysql

摘要： spark读写mysql除官网例子外还要指定驱动名称阅读全文

posted @ 2017-12-15 20:10 层林尽染阅读(201) 评论(0) 推荐(0)

jupyter sparkmagic on hdp

摘要： 1、安装jupyter 2、安装sparkmagic 3、设置超时 "livy_server_heartbeat_timeout_seconds": 0, 4、设置集群模式阅读全文

posted @ 2017-11-22 12:49 层林尽染阅读(1242) 评论(0) 推荐(0)

算法应用思考

摘要： 1、为什么要用spark 分布式、集群计算快 2、为什么不用mahout 社区开发进度慢，与spark发展脱轨 3、为什么要用scikit learn 资料齐全，接口易用 4、spark ml的算法不满足实际需求怎么办 ①直接扩展ml的算法，优势是继续可以利用spark的分布式优势，底层优化的优势，阅读全文

posted @ 2017-11-01 10:02 层林尽染阅读(164) 评论(0) 推荐(0)

spark ml阅读笔记

摘要：参考文档：http://www.cnblogs.com/huliangwen/p/7491797.html 阅读全文

posted @ 2017-10-27 14:38 层林尽染阅读(92) 评论(0) 推荐(0)

kafka删除主题

摘要： hdp集群默认不能删除kafka主题，如果要删除，需要在ambari上进行配置，将enable delete设置为true。阅读全文

posted @ 2017-10-26 15:25 层林尽染阅读(310) 评论(0) 推荐(0)

合并被分割的压缩文件

摘要： cat x* > google_bak.tar.gz 阅读全文

posted @ 2017-10-26 15:22 层林尽染阅读(153) 评论(0) 推荐(0)

pyspark使用

摘要： 1、安装python3 2、idea安装Python插件 3、下载spark，设置SPARK_HOME环境变量 4、安装pyspark，numpy 5、运行pyspark应用 pyspark应用如果使用到特定的接口，如kafka，则需要将kafka相关的jar包放到SPARK_HOME的jar文件夹阅读全文

posted @ 2017-10-25 11:15 层林尽染阅读(328) 评论(0) 推荐(0)

导航

公告