上一页 1 ··· 15 16 17 18 19 20 21 22 23 ··· 47 下一页
摘要: 今天去看决策树,很懵,不知道该怎么实现,看了一些算法的介绍和分析,但是我不知道怎么把这个算法和我的数据分析联系起来。 阅读全文
posted @ 2021-10-16 21:37 不咬牙 阅读(59) 评论(0) 推荐(0)
摘要: 今天听了同学的分享,然后我继续我的想法,将时间不配和金额数量不配统一进行筛选, 将金额数量差和日期有问题表进行联合查询 结果是289,这是最接近的结果,不过这个结果跑出来课真不容易,非常耗时间。 阅读全文
posted @ 2021-10-15 22:29 不咬牙 阅读(118) 评论(0) 推荐(0)
摘要: 今天在同学的告知下,做时间的筛选,选出那些发票明细中时间在发票时间之前的发票编号 create table mxtmp(fp_nid string,je double) Row format delimited fields terminated by ','; insert into table 阅读全文
posted @ 2021-10-14 23:06 不咬牙 阅读(74) 评论(0) 推荐(0)
摘要: 今天我就想到了为什么不把金额差,数量差作为两个条件共同查询,然后我发现数量反倒增加了很多,然后就调两个值的取值,到最接近328的结果 select xgnc.xf_id,xgnc.cnum,xc.profit from xgnc join xc on xc.xf_id=xgnc.xf_id wher 阅读全文
posted @ 2021-10-13 22:00 不咬牙 阅读(73) 评论(0) 推荐(0)
摘要: 今天我偶然又想既然做了进出金额的差值,还可以做一个进出数量的差值,然后就是这样 Create table xgnc(xf_id string, cnum int ) Row format delimited fields terminated by ','; insert into table xg 阅读全文
posted @ 2021-10-12 21:52 不咬牙 阅读(100) 评论(0) 推荐(0)
摘要: 今天继续分析异常企业,我想了很久,没有想到该怎么做分辨,然后突然想到选出进出金额差很大的,然后就往这边做 Create table xf(xf_id string, je double,xnum int) Row format delimited fields terminated by ','; 阅读全文
posted @ 2021-10-11 22:44 不咬牙 阅读(93) 评论(0) 推荐(0)
摘要: 今天做企业异常发票分析,增值税发票详细那个数据文件特别大一个多g,一般方式根本打不开,放在一个编译器才,勉强打开,但是操作特别卡。 做这个异常分析是没有什么思路,就先按要求步骤进行。先进行数据清洗和数据导入。 先创建三个表,分别将三分数据进行导入 增值税发票表 Create table zzsfp( 阅读全文
posted @ 2021-10-10 22:53 不咬牙 阅读(165) 评论(0) 推荐(0)
摘要: 今天继续做测试清洗,我不知道如何用hive去清洗,我就用了kettle手动一个个将编号输入,将对应的字段值替换。 阅读全文
posted @ 2021-10-08 21:24 不咬牙 阅读(78) 评论(0) 推荐(0)
摘要: 测试题目: 1、数据导入: 要求将样表文件中的(AA_GXJSQYDC2019)数据导入HIVE数据仓库中。 分别将四个标准维度表导入数据仓库中。 2、数据清洗: 根据标准维度将国民经济行业维度、地域维度、高新技术领域维度、企业所属领域维度四个维度字段清洗完成。 3、数据可视化展示: 尝试按照某一维 阅读全文
posted @ 2021-10-07 22:58 不咬牙 阅读(54) 评论(0) 推荐(0)
摘要: 看《人件》这本书,发现书中基本没有涉及到任何软件技术,但作者精辟的探讨了专业软件团队管理这一非常专业的话题。怎么把团队做好,这是一个大问题。只有做好团队,才能做好软件。我看书上说大多数管理者坦承,他们对于人的担心,更甚于对技术的担心。在这方面作出努力,只是总是以关注技术为主。从事新技术的人,总是以为 阅读全文
posted @ 2021-10-06 23:06 不咬牙 阅读(52) 评论(0) 推荐(0)
上一页 1 ··· 15 16 17 18 19 20 21 22 23 ··· 47 下一页