摘要: rdd语法:(踩坑日记) transformation: map() =>(k,(v1,v2,v3)) #最多不能超过两个数 mapvalues()=>(v) flatmap() filter(k,v=>条件) =>后面不能用distinct,应该在前面的map之后用distinct reparti 阅读全文
posted @ 2022-06-01 09:44 gyrce 阅读(163) 评论(0) 推荐(0)
摘要: Scala中连接数据库:( 含泪史) foreach中报错:Task not serializable 报错原因:rdd集群有driver和execute两个进程,前面配置了数据库,spark变量可能是在driver进程里,而rdd变化是再execute进程(?大概),所以会报这个错。 错误样例: 阅读全文
posted @ 2022-05-31 14:05 gyrce 阅读(39) 评论(0) 推荐(0)
摘要: 安装davinci: 配置路径时的cd etc/profile: 1.小问题,是因为要注意是访问到davinci/bin/下,而不是总的bin/下 2.配置时一定要有$PATH不然会把系统的命令给覆盖(?)而导致除了cd,其他命令都无法使用(注:若覆盖了就添加最后一行,再recourse /etc/ 阅读全文
posted @ 2022-05-31 09:27 gyrce 阅读(38) 评论(0) 推荐(0)