xfrzrcj

2019年8月12日

一、Spark架构如图： Cluster Manager：在standalone模式中即为Master主节点，控制整个集群，监控worker。在YARN模式中为资源管理器。 Worker节点：从节点，负责控制计算节点，启动Executor或者Driver。 Driver：运行Applicatio Read More

posted @ 2019-08-12 15:09 xfrzrcj Views(179) Comments(0) Diggs(0)

2019年8月8日

利用sqoop导入导出时分隔符问题

在导入时利用如下sqoop1导入但是在导出时使用如下会经常报错。排查后发现由于导入时分割符指定为"\t"，部分列中含有字符"\t"，导致导出时分割行出现问题。而后续的貌似只能替换hive默认的分隔字符。所以建议导入时使用hive默认的分隔符，并带上，以避免导出时出现问题。如下：导入导 Read More

posted @ 2019-08-08 10:28 xfrzrcj Views(4111) Comments(0) Diggs(0)

2019年8月2日

hue下 sqoop使用query报错

最近因工作需求，需要用hue编排任务，利用sqoop导入数据。导入脚本语句如下但运行时错误。在用hue写sqoop导入语句时，有几个坑。 1、在command窗口中不要加 sqoop，直接从import开始。 2、command窗口中使用query是有问题的。对于query后的sql，由于hue Read More

posted @ 2019-08-02 19:08 xfrzrcj Views(534) Comments(0) Diggs(0)

2019年6月30日

scrapy自定义下载图片名

最近用爬虫抓取数据需要抓取图片，一开始选用默认的图片pipeline,即settings.py里配置。但是图片名却无法自定义，找到ImagesPipeline，发现默认图片名代码为即，将urlhash取值。由于图片需要与一些信息关联，所以有3种方案解决。 1、在信息中直接记录图片url的has Read More

posted @ 2019-06-30 14:32 xfrzrcj Views(316) Comments(0) Diggs(0)

公告