• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
鸿宝爱DM
博客园 首页 新随笔 联系 订阅 订阅 管理

2021年6月7日

期末大作业
摘要: 数据集:美新冠数据集 字段: date county state cases deaths 数据量:158981 准备分析哪些问题? 1) 统计美国截止每日的累计确诊人数和累计死亡人数。 2) 统计美国每日的新增确诊人数和新增死亡人数。 3) 统计截止5.18日,美国各州的累计确诊人数和死亡人数。 阅读全文
posted @ 2021-06-07 19:53 鸿宝爱DM 阅读(51) 评论(0) 推荐(0)
 
06 spark SQL及其DataFrame的基本操作
摘要: 1。尽管数据库的事务和查询机制较好胡满足胃各类商业公司胡业务数据管理需求,但关系数据库在大数据时代不能满足各类新增的用户需求,用户需要从不同胡数据源执行各种操作,用户需要执行高级分析,比如机器学习和图像处理,而spark sql的出现填补了这个鸿沟,spakr可以提供DataFrame API,可以 阅读全文
posted @ 2021-06-07 19:52 鸿宝爱DM 阅读(96) 评论(0) 推荐(0)
 
07 从RDD创建DataFrame
摘要: sc创建RDD 转换成Row元素,列名=值 spark.createDataFrame生成df df.show(), df.printSchema() 3.2 使用编程方式定义RDD模式 生成“表头” fields = [StructField(field_name, StringType(), T 阅读全文
posted @ 2021-06-07 19:45 鸿宝爱DM 阅读(40) 评论(0) 推荐(0)
 
spark连接mysql数据库:
摘要: spark连接mysql数据库: 1.安装启动检查Mysql服务。 2.spark 连接mysql驱动程序。 –cp /usr/local/hive/lib/mysql-connector-java-5.1.40-bin.jar /usr/local/spark/jars netstat -tunl 阅读全文
posted @ 2021-06-07 19:43 鸿宝爱DM 阅读(111) 评论(0) 推荐(0)
 
 

公告


博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3