上一页 1 ··· 4 5 6 7 8
摘要: 最近看到某公司面试题有这个,顺便查了一下。 count(*):所有行进行统计,包括NULL行。注意:在进行数据统计时不会读取表中的数据,只会使用到hdfs文件中每一行的行偏移量,该偏移量是数据写入hdfs文件时,hdfs添加的。 count(1):所有行进行统计,包括NULL行 count(colu 阅读全文
posted @ 2018-06-15 16:34 活不明白 阅读(118) 评论(0) 推荐(0)
摘要: 日常工作常用的hive函数总结 公司前端hive环境主要用hue,里面内置的有函数文档,正好把这些函数全部总结下,按照内置文档的顺序 一、Aggregate--聚合类 1、avg(col) --返回某一列的平均值 2、count([DISTINCT] col) --对某一列计数 3、stddev_p 阅读全文
posted @ 2018-06-05 23:15 活不明白 阅读(192) 评论(0) 推荐(0)
摘要: 在学习线性回归的时候,会用最小二乘给出目标函数,但是为什么用最小二乘法作为目标函数,理论上可以证明。 利用极大似然估计解释最小二乘法: 重要前提 1、各个样本之间是独立的 2、误差服从均值是0,方差是σ² 的高斯分布(中心极限定理) 阅读全文
posted @ 2018-06-05 20:27 活不明白 阅读(77) 评论(0) 推荐(0)
摘要: 最近在公司有做一个 快递中转中心< >另一个快递操作中心 操作量预测的项目,有一些方法和感想总结一下 一、问题背景 1、主要目的是为了预测T+7日内快递某操作中心到其他操作中心的发件量,即中心的操作量 2、T+1日的预测精度高对实际工作帮助较大 二、主要思路 1、做仿真系统,把实际影响的因素都考虑进 阅读全文
posted @ 2018-06-03 22:19 活不明白 阅读(41) 评论(0) 推荐(0)
摘要: 最近工作中向别的部门提供接口数据时有这样的需求 将下面的表格形式的数据的后两列输出为map形式 即这个形式: 然后用这个函数处理: str_to_map(concat_ws(',',collect_set(concat_ws(':',a.寄件省份,cast(a.件量 as string))))) a 阅读全文
posted @ 2018-06-03 20:47 活不明白 阅读(209) 评论(0) 推荐(0)
摘要: 使用环境 本人使用的是jupyter,没有在pycharm中尝试过,有时候可能会出现登录二维码弹不出来的情况,还有就是出来的二维码尺寸过大,无法识别 1、首先,登录微信,执行后悔弹窗出来二维码,扫描登录,如果这时候电脑端登录了会被挤掉 import itchat import numpy as np 阅读全文
posted @ 2018-06-03 20:30 活不明白 阅读(38) 评论(0) 推荐(0)
上一页 1 ··· 4 5 6 7 8