摘要: Where to Look for APIs DataFrame本质上是类型为Row的DataSet,需要多看https://spark.apache.org/docs/latest/api/scala/index.html org.apache.spark.sql.Dataset来发现API的更新 阅读全文
posted @ 2019-02-16 12:40 DataNerd 阅读(384) 评论(0) 推荐(0)
摘要: DataFrame由record序列组成,record的类型是Row类型。 columns代表者计算表达式可以在独立的record上运行。 Schema定义了各列的名称和数据类型。 分区定义了DataFrame和DataSet在集群上的物理分配。 Schemas 可以让数据源定义Schema(又叫做 阅读全文
posted @ 2019-02-14 16:58 DataNerd 阅读(403) 评论(0) 推荐(0)
摘要: users = ParallelCollectionRDD[62] at parallelize at :49 ParallelCollectionRDD[62] at parallelize at :49 relationships = ParallelCollectionRDD[63] at p 阅读全文
posted @ 2018-12-20 11:40 DataNerd 阅读(511) 评论(0) 推荐(0)
摘要: Name: Compile Error Message: :30: error: class $iw needs to be abstract, since value userGraph is not defined class $iw extends Serializable { ^ Stack 阅读全文
posted @ 2018-12-20 11:07 DataNerd 阅读(315) 评论(0) 推荐(0)
摘要: python: symbol lookup error: /usr/lib/x86_64 linux gnu/libatk 1.0.so.0: undefined symbol: g_log_structured_standard https://packages.debian.org/sid/am 阅读全文
posted @ 2018-05-27 01:43 DataNerd 阅读(5770) 评论(0) 推荐(0)
摘要: 自己在学习14.3节投影变换执行SQL语句 时出现了这个错误 跟作者的输出不一样。 自己一开始时没有管这个错误,直接跳过这个问题,继续往下看了。 但在执行接下来的语句 时又出现了这个错误 没有明确的错误信息,自己先是另开了一个终端尝试了一下: 第一次没有找的出错原因。 又在终端尝试了一下,在执行这行 阅读全文
posted @ 2018-05-03 22:48 DataNerd 阅读(1094) 评论(0) 推荐(0)
摘要: 现象:自己在用maven执行package命令时出现No sources to compile提示,生成的jar文件没有class文件。 原因:项目不是使用maven创建的,项目的目录结构不正确。 解决方案:使用maven创建项目,来生成正确的目录结构。 参考网址:https://stackover 阅读全文
posted @ 2018-05-01 00:44 DataNerd 阅读(4862) 评论(0) 推荐(0)
摘要: 自己在使用maven进行package操作时出现 [ERROR] Failed to execute goal org.apache.maven.plugins:maven assembly plugin:2.4:single (make assembly) on project hive udf: 阅读全文
posted @ 2018-04-30 19:42 DataNerd 阅读(3577) 评论(0) 推荐(0)
摘要: 自己在使用maven进行clean操作时出现Invalid packaging for parent pom.xml, must be _pom_ but is _jar这个错误。 在Stack Overflow上找到了类似的问题,https://stackoverflow.com/question 阅读全文
posted @ 2018-04-30 18:54 DataNerd 阅读(4796) 评论(0) 推荐(0)