会员
周边
新闻
博问
闪存
众包
赞助商
YouClaw
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
xfrzrcj
CnBlogs
Home
New Post
Contact
Admin
Subscription
2019年8月12日
Spark 知识点
一、Spark架构 如图: Cluster Manager:在standalone模式中即为Master主节点,控制整个集群,监控worker。在YARN模式中为资源管理器。 Worker节点:从节点,负责控制计算节点,启动Executor或者Driver。 Driver: 运行Applicatio
Read More
posted @ 2019-08-12 15:09 xfrzrcj
Views(177)
Comments(0)
Diggs(0)
2019年8月8日
利用sqoop导入导出时分隔符问题
在导入时利用如下sqoop1导入 但是在导出时使用如下 会经常报错。 排查后发现由于导入时分割符指定为"\t",部分列中含有字符"\t",导致导出时分割行出现问题。而后续的 貌似只能替换hive默认的分隔字符。所以建议导入时使用hive默认的分隔符,并带上 ,以避免导出时出现问题。 如下: 导入 导
Read More
posted @ 2019-08-08 10:28 xfrzrcj
Views(4097)
Comments(0)
Diggs(0)
2019年8月2日
hue下 sqoop使用query报错
最近因工作需求,需要用hue编排任务,利用sqoop导入数据。导入脚本语句如下 但运行时错误。 在用hue写sqoop导入语句时,有几个坑。 1、在command窗口中不要加 sqoop,直接从import开始。 2、command窗口中使用query是有问题的。对于query后的sql,由于hue
Read More
posted @ 2019-08-02 19:08 xfrzrcj
Views(529)
Comments(0)
Diggs(0)
2019年6月30日
scrapy自定义下载图片名
最近用爬虫抓取数据需要抓取图片,一开始选用默认的图片pipeline,即settings.py里配置 。但是图片名却无法自定义,找到ImagesPipeline,发现默认图片名代码为 即 ,将urlhash取值。由于图片需要与一些信息关联,所以有3种方案解决。 1、在信息中直接记录图片url的has
Read More
posted @ 2019-06-30 14:32 xfrzrcj
Views(312)
Comments(0)
Diggs(0)
公告