摘要:1、为什么要用spark 分布式、集群计算快 2、为什么不用mahout 社区开发进度慢,与spark发展脱轨 3、为什么要用scikit learn 资料齐全,接口易用 4、spark ml的算法不满足实际需求怎么办 ①直接扩展ml的算法,优势是继续可以利用spark的分布式优势,底层优化的优势,
阅读全文
摘要:1、安装python3 2、idea安装Python插件 3、下载spark,设置SPARK_HOME环境变量 4、安装pyspark,numpy 5、运行pyspark应用 pyspark应用如果使用到特定的接口,如kafka,则需要将kafka相关的jar包放到SPARK_HOME的jar文件夹
阅读全文