随笔分类 -  大数据实战系列

摘要:1 目标 根据历史女性乳腺癌患者数据集(医学指标)构建逻辑回归分类模型进行良/恶性乳腺癌肿瘤预测 2 数据集 2.1 数据集来源 数据集源于威斯康星州临床科学中心。每个记录代表一个乳腺癌的随访数据样本。这些是DR Wolberg自1984~1995随访搜集连续乳腺癌患者数据,数据仅包括那些具有侵入性 阅读全文
posted @ 2019-02-13 14:48 架构师老狼 阅读(1428) 评论(0) 推荐(0)
摘要:2.6 spark实战案例:实时日志分析 2.6.1 交互流程图 2.6.2 客户端监听器 (java) @SuppressWarnings("static access") private void handleSocket() { lock.lock(); Writer writer = nul 阅读全文
posted @ 2019-02-13 14:45 架构师老狼 阅读(1177) 评论(1) 推荐(0)
摘要:2.4 sparkContext IO:读 2.4.1 textFile Load a text file and convert each line to a Row. lines = sc.textFile("examples/src/main/resources/people.txt") 2. 阅读全文
posted @ 2019-02-13 14:44 架构师老狼 阅读(319) 评论(0) 推荐(0)
摘要:2.2 RDD:计算 transform action 2.2.1 aggregate x = sc.parallelize([2,3,4], 2)[Task不能跨分片,task数为2] neutral_zero_value = (0,1) sum: x+0 = x, product: 1 x = 阅读全文
posted @ 2019-02-13 14:43 架构师老狼 阅读(227) 评论(0) 推荐(0)
摘要:2.1 pycharm远程开发调试 2.1.1 python版本一致 版本都保持3.6.6 root cd /usr/local/python3/bin/pip3 list 备注:[python模块导入顺序是从sys.path中取,可以代码加入到sys.path。 当前目录 PYTHONPATH 安 阅读全文
posted @ 2019-02-13 14:42 架构师老狼 阅读(240) 评论(0) 推荐(0)
摘要:1.2 安装配置 1.2.1 安装jdk1.8 root vim /etc/profile export JAVA_HOME=/data/software/jdk1.8.0_191 export JRE_HOME=${JAVA_HOME}/jre export CLASSPATH=.:${JAVA_ 阅读全文
posted @ 2019-02-13 14:41 架构师老狼 阅读(214) 评论(0) 推荐(0)
摘要:1. 1 基础环境 1.1.1 关闭selinux 查看状态:/usr/sbin/sestatus disabled vim /etc/selinux/config 重启 reboot 1.1.2 关闭防火墙 查看防火墙规则 firewall cmd list all 查询端口是否开放 firewa 阅读全文
posted @ 2019-02-13 14:40 架构师老狼 阅读(183) 评论(0) 推荐(0)
摘要:sparkSql两个最重要的类SqlContext、DataFrame,DataFrame功能强大,能够与rdd互转换、支持sql操作如sql().where.order.join.groupBy.limit等。 SparkSql的查询响应性能是hive的几何级倍数,并且SparkSql支持多种数据源操作包括hive、hdfs、rdd、json、mysql,本文先讲解hive、hdfs、rdd、json4种数据源操作... 阅读全文
posted @ 2017-10-22 11:42 架构师老狼 阅读(1575) 评论(0) 推荐(0)
摘要:15年项目使用spark+hadoop,最近公司分享给小伙伴们,就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列,有些数据是网上搜索下载的,同时整理时也参考其他博文以及《spark实战》... 阅读全文
posted @ 2017-10-22 11:40 架构师老狼 阅读(4489) 评论(1) 推荐(0)
摘要:15年项目使用spark+hadoop,最近公司分享给小伙伴们,就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列,有些数据是网上搜索下载的,同时整理时也参考其他博文以及《spark实战》... 阅读全文
posted @ 2017-10-22 11:33 架构师老狼 阅读(371) 评论(0) 推荐(0)
摘要:15年项目使用spark+hadoop,最近公司分享给小伙伴们,就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列,有些数据是网上搜索下载的,同时整理时也参考其他博文以及《spark实战》... 阅读全文
posted @ 2017-10-22 11:30 架构师老狼 阅读(669) 评论(0) 推荐(0)
摘要:15年项目使用spark+hadoop,最近公司分享给小伙伴们,就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列,有些数据是网上搜索下载的,同时整理时也参考其他博文以及《spark实战》... 阅读全文
posted @ 2017-10-22 11:26 架构师老狼 阅读(633) 评论(0) 推荐(0)
摘要:15年项目使用spark+hadoop,最近公司分享给小伙伴们,就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列,有些数据是网上搜索下载的,同时整理时也参考其他博文以及《spark实战》... 阅读全文
posted @ 2017-10-22 11:22 架构师老狼 阅读(3215) 评论(0) 推荐(0)