会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
BigData
博客园
首页
新随笔
联系
管理
订阅
1
2
3
4
5
···
8
下一页
2023年11月23日
sqoop map内存设置
摘要: sqoop import \ -D yarn.app.mapreduce.am.resource.mb=1024 \ -D yarn.scheduler.minimum-allocation-mb=8096 \-D yarn.scheduler.maximum-allocation-mb=16192
阅读全文
posted @ 2023-11-23 10:48 _XiongH
阅读(277)
评论(0)
推荐(0)
2022年10月13日
安装pyflink1.15.2报错[gcc: error: unrecognized command line option '-std=c++14']解决方法
摘要: 问题描述: 安装一些pyflink1.15.2时报错:gcc: error: unrecognized command line option ‘-std=c++14’ 解决方案 升级gcc版本为5.2.0升级g++版本为5.2.0 实施步骤 cd /usr/local/src # 下载gcc5.2
阅读全文
posted @ 2022-10-13 13:58 _XiongH
阅读(680)
评论(0)
推荐(0)
2022年4月20日
混淆矩阵
摘要: Confusion Matrix 在机器学习领域,混淆矩阵(confusion matrix),又称为可能性表格或是错误矩阵。它是一种特定的矩阵用来呈现算法性能的可视化效果,通常是监督学习(非监督学习,通常用匹配矩阵:matching matrix)。其每一列代表预测值,每一行代表的是实际的类别。这
阅读全文
posted @ 2022-04-20 15:05 _XiongH
阅读(2119)
评论(0)
推荐(0)
2022年3月10日
Linux查询python路径
摘要: 1 import sys print(sys.path) 2 whereis python 3 ll /usr/bin/python*
阅读全文
posted @ 2022-03-10 15:44 _XiongH
阅读(170)
评论(0)
推荐(0)
2022年2月28日
hive分区表新增字段需要加cascade
摘要: hive分区表新增字段时,特别注意要使用cascade,这样可以让表下面各个分区都能增加新的字段。因为分区表的各个分区在hive的元数据管理中是分开的。如果不这样操作,新字段插入的数据都是NULL。 hive删除列 hive中删除列时没有与mysql语句alter table <table> dro
阅读全文
posted @ 2022-02-28 15:13 _XiongH
阅读(1586)
评论(0)
推荐(0)
2022年2月21日
yarn.nodemanager.vmem-pmem-ratio的通俗解释(转载)
摘要: 关于yarn.nodemanager.vmem-pmem-ratio的通俗解释 这个东西就是虚拟内存,扯皮起来的话,要回到上古时代x86系统,那个年代内存超级贵,于是从硬盘借用空间,模拟出一个内存空间,所以称为虚拟内存。 这里的ratio是啥意思呢?因为虚拟内存的性能比真实性能差一些,所以yarn-
阅读全文
posted @ 2022-02-21 15:10 _XiongH
阅读(288)
评论(0)
推荐(0)
2022年2月8日
Hive中count(1)结果为0的原因
摘要: 执行count(1)或count(*)统计行数时,默认会从Hive的元数据库中查询 rowsNum 对应值作为结果返回。但是如果是使用加载数据文件load data的方式填充表数据,则hive元数据不会收集此统计信息,那么count时就会为0。 也就是说通过insert的方式写入数据的表会更新hiv
阅读全文
posted @ 2022-02-08 11:10 _XiongH
阅读(1598)
评论(0)
推荐(0)
2022年1月28日
Yarn资源调度过程详细(TEZ)
摘要: 在MapReduce1.0中,我们都知道也存在和HDFS一样的单点故障问题,主要是JobTracker既负责资源管理,又负责任务分配。 Yarn中可以添加多种计算框架,Hadoop,Spark,MapReduce,不同的计算框架在处理不同的任务时,资源利用率可能处于互补阶段,有利于提高整个集群的资源
阅读全文
posted @ 2022-01-28 13:16 _XiongH
阅读(1498)
评论(0)
推荐(0)
2022年1月6日
pandas groupby合并列字符串
摘要: 在pandas里对于数值字段而言,groupby后可以用sum()、max()等方法进行简单的处理,对于字符串字段, 如果把它们的值拼接在一起,可以用使用 str.cat() 和 lamda 方法。 如,将下面表格中的内容,对skill字段按照id进行分组合并。 实现代码: import panda
阅读全文
posted @ 2022-01-06 17:11 _XiongH
阅读(1039)
评论(0)
推荐(0)
2021年12月27日
pandas中apply与lambda
摘要: lambda lambda:输入是传入到参数列表x的值,输出是根据表达式(expression)计算得到的值。 比如:lambda x, y: xy #函数输入是x和y,输出是它们的积xy lambda x :x[-2:] #x是字符串时,输出字符串的后两位 lambda x :func #输入 x
阅读全文
posted @ 2021-12-27 16:05 _XiongH
阅读(1640)
评论(0)
推荐(0)
1
2
3
4
5
···
8
下一页
公告