一、Spark架构 如图: Cluster Manager:在standalone模式中即为Master主节点,控制整个集群,监控worker。在YARN模式中为资源管理器。 Worker节点:从节点,负责控制计算节点,启动Executor或者Driver。 Driver: 运行Applicatio Read More
posted @ 2019-08-12 15:09 xfrzrcj Views(177) Comments(0) Diggs(0)
在导入时利用如下sqoop1导入 但是在导出时使用如下 会经常报错。 排查后发现由于导入时分割符指定为"\t",部分列中含有字符"\t",导致导出时分割行出现问题。而后续的 貌似只能替换hive默认的分隔字符。所以建议导入时使用hive默认的分隔符,并带上 ,以避免导出时出现问题。 如下: 导入 导 Read More
posted @ 2019-08-08 10:28 xfrzrcj Views(4097) Comments(0) Diggs(0)
最近因工作需求,需要用hue编排任务,利用sqoop导入数据。导入脚本语句如下 但运行时错误。 在用hue写sqoop导入语句时,有几个坑。 1、在command窗口中不要加 sqoop,直接从import开始。 2、command窗口中使用query是有问题的。对于query后的sql,由于hue Read More
posted @ 2019-08-02 19:08 xfrzrcj Views(529) Comments(0) Diggs(0)
最近用爬虫抓取数据需要抓取图片,一开始选用默认的图片pipeline,即settings.py里配置 。但是图片名却无法自定义,找到ImagesPipeline,发现默认图片名代码为 即 ,将urlhash取值。由于图片需要与一些信息关联,所以有3种方案解决。 1、在信息中直接记录图片url的has Read More
posted @ 2019-06-30 14:32 xfrzrcj Views(312) Comments(0) Diggs(0)