摘要: 最近在做数据分析的工作,从数据采集到SQL清洗,再到用Pandas和Excel进行分析。 总体来说,数据的清洗占了绝大部分时间,下面归纳一下碰到的问题。 1.数据库数据导出的问题。(SQL/Hive) 2.当没有唯一标识序列时,如何关联两张表的问题。(SQL/Excel/Python) 3.对于ID 阅读全文
posted @ 2021-06-15 16:23 YHJIN 阅读(237) 评论(0) 推荐(0) 编辑
摘要: ###一、部署机器配置 物理机: CPU:Intel i5-3337U @1.8GHz 双核四线程(10年前的老机器,可以说是强开了) 内存:8 GB 磁盘:240 GB SSD VMware开三台乞丐版虚拟机,单台虚拟机配置如下: CPU:1 core 内存:1 GB 硬盘:30 GB 操作系统: 阅读全文
posted @ 2021-05-10 21:10 YHJIN 阅读(326) 评论(0) 推荐(0) 编辑
摘要: 前言 本想就着这个机会学习下Java读取Excel的,奈何搜了一圈,发现还是Pandas最为简单明了。打算先就Python写一版,后面在学习时可能还会发一篇《用Java优雅地操作Excel和数据库》。 准备工作 软件包 关于软件安装和环境配置,网上有成堆的教程,此处不再赘述。 大体上需要用到的软件就 阅读全文
posted @ 2021-02-23 15:43 YHJIN 阅读(785) 评论(0) 推荐(0) 编辑
摘要: 智能实时股票分析系统 项目功能需求分析: 1.自选股的新增、删除;--> 股票列表 --> 股票代码列表(映射表) 2.具体股票的实时行情:涨跌幅度,当前状态 --> 选择具体股票后,根据其代码,调用API 3.首页:板块的数据动态图 4.登录、注销功能 5.扩展:实时新闻爬取,主题分析,正负面影响 阅读全文
posted @ 2021-02-18 09:56 YHJIN 阅读(279) 评论(0) 推荐(0) 编辑
摘要: ##1.背景 继上次配置好hadoop真分布式之后,这次启动后,调用hdfs命令总是报错,拒绝9000远程访问,但是端口还是好的(未占用)。搜了一圈网上的解决方案,一个个试过去都不行,最后导致namenode都起不来了,心态差点崩了,就差重新装一遍了。 ##2.排查问题 后来静下心来慢慢排查,去看l 阅读全文
posted @ 2021-01-21 14:36 YHJIN 阅读(191) 评论(0) 推荐(0) 编辑
摘要: 介绍一下内部收益率(IRR)相关知识,同时通过Numpy快速计算IRR。 阅读全文
posted @ 2021-01-19 20:53 YHJIN 阅读(2337) 评论(0) 推荐(0) 编辑