摘要:
今天去看决策树,很懵,不知道该怎么实现,看了一些算法的介绍和分析,但是我不知道怎么把这个算法和我的数据分析联系起来。 阅读全文
posted @ 2021-10-16 21:37
不咬牙
阅读(59)
评论(0)
推荐(0)
摘要:
今天听了同学的分享,然后我继续我的想法,将时间不配和金额数量不配统一进行筛选, 将金额数量差和日期有问题表进行联合查询 结果是289,这是最接近的结果,不过这个结果跑出来课真不容易,非常耗时间。 阅读全文
posted @ 2021-10-15 22:29
不咬牙
阅读(118)
评论(0)
推荐(0)
摘要:
今天在同学的告知下,做时间的筛选,选出那些发票明细中时间在发票时间之前的发票编号 create table mxtmp(fp_nid string,je double) Row format delimited fields terminated by ','; insert into table 阅读全文
posted @ 2021-10-14 23:06
不咬牙
阅读(74)
评论(0)
推荐(0)
摘要:
今天我就想到了为什么不把金额差,数量差作为两个条件共同查询,然后我发现数量反倒增加了很多,然后就调两个值的取值,到最接近328的结果 select xgnc.xf_id,xgnc.cnum,xc.profit from xgnc join xc on xc.xf_id=xgnc.xf_id wher 阅读全文
posted @ 2021-10-13 22:00
不咬牙
阅读(73)
评论(0)
推荐(0)
摘要:
今天我偶然又想既然做了进出金额的差值,还可以做一个进出数量的差值,然后就是这样 Create table xgnc(xf_id string, cnum int ) Row format delimited fields terminated by ','; insert into table xg 阅读全文
posted @ 2021-10-12 21:52
不咬牙
阅读(100)
评论(0)
推荐(0)
摘要:
今天继续分析异常企业,我想了很久,没有想到该怎么做分辨,然后突然想到选出进出金额差很大的,然后就往这边做 Create table xf(xf_id string, je double,xnum int) Row format delimited fields terminated by ','; 阅读全文
posted @ 2021-10-11 22:44
不咬牙
阅读(93)
评论(0)
推荐(0)
摘要:
今天做企业异常发票分析,增值税发票详细那个数据文件特别大一个多g,一般方式根本打不开,放在一个编译器才,勉强打开,但是操作特别卡。 做这个异常分析是没有什么思路,就先按要求步骤进行。先进行数据清洗和数据导入。 先创建三个表,分别将三分数据进行导入 增值税发票表 Create table zzsfp( 阅读全文
posted @ 2021-10-10 22:53
不咬牙
阅读(165)
评论(0)
推荐(0)
摘要:
今天继续做测试清洗,我不知道如何用hive去清洗,我就用了kettle手动一个个将编号输入,将对应的字段值替换。 阅读全文
posted @ 2021-10-08 21:24
不咬牙
阅读(78)
评论(0)
推荐(0)
摘要:
测试题目: 1、数据导入: 要求将样表文件中的(AA_GXJSQYDC2019)数据导入HIVE数据仓库中。 分别将四个标准维度表导入数据仓库中。 2、数据清洗: 根据标准维度将国民经济行业维度、地域维度、高新技术领域维度、企业所属领域维度四个维度字段清洗完成。 3、数据可视化展示: 尝试按照某一维 阅读全文
posted @ 2021-10-07 22:58
不咬牙
阅读(54)
评论(0)
推荐(0)
摘要:
看《人件》这本书,发现书中基本没有涉及到任何软件技术,但作者精辟的探讨了专业软件团队管理这一非常专业的话题。怎么把团队做好,这是一个大问题。只有做好团队,才能做好软件。我看书上说大多数管理者坦承,他们对于人的担心,更甚于对技术的担心。在这方面作出努力,只是总是以关注技术为主。从事新技术的人,总是以为 阅读全文
posted @ 2021-10-06 23:06
不咬牙
阅读(52)
评论(0)
推荐(0)
浙公网安备 33010602011771号