会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Loading
wxyclude
博客园
首页
新随笔
联系
管理
订阅
上一页
1
2
3
4
5
6
7
8
9
···
15
下一页
2020年2月9日
寒假学习笔记09
摘要: Spark GraphX例子 假定我们想从一些文本文件中构建一个图,限制这个图包含重要的关系和用户,并且在子图上运行page-rank,最后返回与top用户相关的属性。可以通过如下方式实现。 // Connect to the Spark cluster val sc = new SparkCont
阅读全文
posted @ 2020-02-09 17:38 一氓
阅读(89)
评论(0)
推荐(0)
2020年2月8日
寒假学习笔记08
摘要: Spark GraphX图算法 GraphX包括一组图算法来简化分析任务。这些算法包含在org.apache.spark.graphx.lib包中,可以被直接访问。 PageRank算法 PageRank度量一个图中每个顶点的重要程度,假定从u到v的一条边代表v的重要性标签。例如,一个Twitter
阅读全文
posted @ 2020-02-08 17:35 一氓
阅读(147)
评论(0)
推荐(0)
2020年2月7日
寒假学习笔记07
摘要: Spark SQL 以下是Spark SQL的功能 集成 无缝地将SQL查询与Spark程序混合。 Spark SQL允许您将结构化数据作为Spark中的分布式数据集(RDD)进行查询,在Python,Scala和Java中集成了API。这种紧密的集成使得可以轻松地运行SQL查询以及复杂的分析算法。
阅读全文
posted @ 2020-02-07 18:29 一氓
阅读(90)
评论(0)
推荐(0)
2020年2月6日
寒假学习笔记06
摘要: 安装spark的环境, 亲测可用。 Spark是Hadoop的子项目。 因此,最好将Spark安装到基于Linux的系统中。 以下步骤说明如何安装Apache Spark。 步骤1:验证Java安装 Java安装是安装Spark的强制性要求之一。 尝试使用以下命令验证JAVA版本。 $java -v
阅读全文
posted @ 2020-02-06 19:17 一氓
阅读(106)
评论(0)
推荐(0)
2020年2月5日
寒假学习笔记05
摘要: Spark Shell Spark 的 shell 作为一个强大的交互式数据分析工具,提供了一个简单的方式来学习 API。它可以使用 Scala(在 Java 虚拟机上运行现有的 Java 库的一个很好方式) 或 Python。在 Spark 目录里使用下面的方式开始运行: ./bin/spark-
阅读全文
posted @ 2020-02-05 20:02 一氓
阅读(145)
评论(0)
推荐(0)
2020年2月4日
报错记录: invalid literal for int() with base 10: '3.0'
该文被密码保护。
阅读全文
posted @ 2020-02-04 18:19 一氓
阅读(15)
评论(0)
推荐(0)
寒假学习笔记04
摘要: Python操作文件 文本文件是很容易操作的。在编辑文件之前,必须使用 open 函数打开文件。 myfile = open("filename.txt") 可以通过向 open 函数应用第二个参数来指定用于打开文件的模式。 参数 “r” 表示在读取模式下打开,这是默认设置。 参数“w”表示写入模式
阅读全文
posted @ 2020-02-04 15:51 一氓
阅读(95)
评论(0)
推荐(0)
2020年2月3日
寒假学习笔记03
摘要: Python正则表达式 介绍: 正则表达式是各种字符串操作的强大工具。 正则表达式是一种特定于领域的语言(DSL),作为大多数现代编程语言的库而不仅仅是 Python。 正则表达式对于以下两种主要任务是很有用的: - 验证字符串是否匹配模式(例如,字符串具有电子邮件地址的格式) - 对字符串中进行替
阅读全文
posted @ 2020-02-03 11:21 一氓
阅读(93)
评论(0)
推荐(0)
2020年2月2日
寒假学习笔记02
摘要: Spark共享变量 一般情况下,当一个传递给Spark操作(例如map和reduce)的函数在远程节点上面运行时,Spark操作实际上操作的是这个函数所用变量的一个独立副本。这些变量被复制到每台机器上,并且这些变量在远程机器上的所有更新都不会传递回驱动程序。通常跨任务的读写变量是低效的,但是,Spa
阅读全文
posted @ 2020-02-02 19:05 一氓
阅读(96)
评论(0)
推荐(0)
2020年2月1日
寒假学习笔记01
摘要: Spark Spark是个通用的集群计算框架,通过将大量数据集计算任务分配到多台计算机上,提供高效内存计算。如果你熟悉Hadoop,那么你知道分布式计算框架要解决两个问题:如何分发数据和如何分发计算。Hadoop使用HDFS来解决分布式数据问题,MapReduce计算范式提供有效的分布式计算。类似的
阅读全文
posted @ 2020-02-01 18:56 一氓
阅读(104)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
···
15
下一页
公告