Fork me on GitHub
摘要:关于武汉新型冠状病毒的数据采集、模型预测 武汉加油、湖北加油、中国加油!!! "采集、预测仓库地址" 项目背景 2020年开年爆发的武汉新型冠状病毒,新的一年相信对于大家来说都是地狱模式开局,对于我本人也是如此,打乱了很多计划,有些不知所措,但是灾难面前,唯有同舟共济,对此我个人是乐观的,中华民族是 阅读全文
posted @ 2020-02-09 16:50 HoLoong 阅读 (159) 评论 (5) 编辑
摘要:已经写好了脚本,目前是每十分钟采集一次,数据来源于丁香园+人民日报的数据,1月27号左右的时候写过一个,但是当时由于丁香园的数据格式也一直在变动所以跑了两天就停了,今天在kaggle上看到有人上传了基于省份的新型冠状病毒的全球数据,但是看起来不够详细,数据基本以天为单位,因此又修改了之前的采集脚本, 阅读全文
posted @ 2020-02-06 00:16 HoLoong 阅读 (2) 评论 (0) 编辑
摘要:阅读别人的kernel就好像跟这个人聊天一样,每个人的kernel中都包含了他的思维过程,他对这个问题的理解,有意思; 阅读全文
posted @ 2020-01-25 01:47 HoLoong 阅读 (10) 评论 (0) 编辑
摘要:一些关于分享的思考 通过之前写的几篇机器学习相关的blog,能看到偏简单的形式更容易被大家接受,而一些比较有难度的项目,分享的效果就很一般,原因主要有以下几个方面: 1. 比较难的项目需要对项目背景、数据形式、竞赛信息等有一定的了解,不然容易一头雾水,连是要干嘛都看不懂; 2. 个人的文笔能力有限, 阅读全文
posted @ 2020-01-21 23:48 HoLoong 阅读 (10) 评论 (1) 编辑
摘要:前言 1. 该篇分享来源于NFL竞赛官方的R语言版本,我做的主要是翻译为Python版本; 2. 分享中用到的技巧、构建的特征、展示数据的方式都可以应用到其他领域,比如篮球、足球、LOL、双人羽毛球等等,只要是团队竞技,都可以从中获益; 3. 分享基于kaggle上的 "NFL大数据碗" ,也就是基 阅读全文
posted @ 2020-01-21 17:49 HoLoong 阅读 (121) 评论 (1) 编辑
摘要:kaggle竞赛分享:NFL大数据碗 上 竞赛简介 一年一度的NFL大数据碗,今年的预测目标是通过两队球员的静态数据,预测该次进攻推进的码数,并转换为该概率分布; 竞赛链接 https://www.kaggle.com/c/nfl big data bowl 2020 项目链接,该项目代码已经pub 阅读全文
posted @ 2020-01-20 14:33 HoLoong 阅读 (200) 评论 (2) 编辑
摘要:pandas内存优化分享 缘由 最近在做Kaggle上的wiki文章流量预测项目,这里由于个人电脑配置问题,我一直都是用的Kaggle的kernel,但是我们知道kernel的内存限制是16G,如下: 在处理数据过程中发现会超出,虽然我们都知道对于大数据的处理有诸如spark等分布式处理框架,但是依 阅读全文
posted @ 2020-01-20 00:11 HoLoong 阅读 (89) 评论 (2) 编辑
摘要:这次分享会分为上下两部分,上篇主要是我个人参赛的过程以及最终产出的项目工程,下篇是一个关于NFL的数据探索项目,是Kaggle主办发分享的R版本,我翻译为Python版本,以及会增加上届比赛最终冠军的一篇论文,干货满满哦; 阅读全文
posted @ 2020-01-17 10:16 HoLoong 阅读 (6) 评论 (0) 编辑
摘要:Hello,近期会分享最近的一个Kaggle上的比赛,NFL比赛的码数预测,通过这个比赛还是学到很多,虽然最后分数不理想。。。。这篇分享的内容适用于绝大多于的关于团队竞技类比赛的场景下的预测问题,比如足球、篮球、王者荣耀等等,算是从一个比较通用的角度来看待和分析建模,先附上Kaggle竞赛链接吧, 阅读全文
posted @ 2020-01-12 14:15 HoLoong 阅读 (10) 评论 (0) 编辑
摘要:首先感谢大家的厚爱,短短两天已经 15 star 6 fork 了,给力给力,另外强推Competition仓,包含了目前所有在做的、做完的机器学习项目,以时间序列问题为主,大家有意向可以看看: "wechat+分享博客" "github仓库" 阅读全文
posted @ 2020-01-10 13:21 HoLoong 阅读 (10) 评论 (0) 编辑
摘要:"wechat+项目开源分享 让你的微信账号有趣起来" 阅读全文
posted @ 2020-01-09 17:08 HoLoong 阅读 (8) 评论 (0) 编辑
摘要:WeChat+ 如果你曾经有过以下的问题或者需求,那么这篇分享很适合你: 苦于手机存储不够,但是又不敢随便删微信的消息,只能小心翼翼的清理; 酷炫沙雕表情包制作,比如把几句话融入到王静泽 真香的表情包中,是不是非常沙雕; 想通过手机对电脑进行简单控制,不想用TeamViewer,又想高度自定义; 随 阅读全文
posted @ 2020-01-08 16:20 HoLoong 阅读 (686) 评论 (5) 编辑
摘要:Python奇技淫巧 人生苦短,我用Python; 编程界这绝对不是一句空话,尤其是对于使用过多个语言进行工作的同学们来说,用Python的时间越长,越有一种我早干嘛去了的想法,没事,啥时候用Python都不晚,这篇分享主要集中在各种Python的经典用法、有趣的彩蛋等等,目的只有一个,让大家感受到 阅读全文
posted @ 2019-10-02 19:11 HoLoong 阅读 (135) 评论 (0) 编辑
摘要:机器学习入门项目分享 波士顿房价预测 该分享源于Udacity机器学习进阶中的一个mini作业项目,用于入门非常合适,刨除了繁琐的部分,保留了最关键、基本的步骤,能够对机器学习基本流程有一个最清晰的认识; 项目描述 利用马萨诸塞州波士顿郊区的房屋信息数据训练和测试一个模型,并对模型的性能和预测能力进 阅读全文
posted @ 2019-10-01 22:25 HoLoong 阅读 (1184) 评论 (0) 编辑
摘要:机器学习基本流程 "流程图链接" 众所周知,ML是一个流程性很强的工作(所以很多人后面会用PipeLine),数据采集、数据清洗、数据预处理、特征工程、模型调优、模型融合、模型验证、模型持久化; 而在这些基本的步骤内,又存在很多种方式,比如数据采集可以是爬虫,可以是数据库拉取,可以是通过API获取等 阅读全文
posted @ 2019-09-30 17:09 HoLoong 阅读 (573) 评论 (0) 编辑
摘要:drools规则引擎 "项目链接" 现状: 1. 运维同学(各种同学)通过后台管理界面直接配置相关规则,这里是通过输入框、下拉框等完成输入的,非常简单; 2. 规则配置完毕后,前端请求后端,此时服务端根据参数(即规则)生成drl规则文件; 3. 用户侧有相关请求到达时,服务端加载规则文件(可能是多个 阅读全文
posted @ 2019-09-30 11:14 HoLoong 阅读 (1011) 评论 (0) 编辑
摘要:图片工具 检查图片是否损坏 日常工作中,时常会需要用到图片,有时候图片在下载、解压过程中会损坏,而如果一张一张点击来检查就太不Cool了,因此我想大家都需要一个检查脚本; 测试图片,0.jpg是正常的,broke.jpg是手动删掉一点内容后异常的: 脚本运行结果: 代码如下: 从本地判断图片是否损坏 阅读全文
posted @ 2019-09-29 16:29 HoLoong 阅读 (383) 评论 (2) 编辑
摘要:日志文件分割、命名 工作中经常会收到测试同学、客户同学提供的日志文件,其中不乏几百M一G的也都有,毕竟压测一晚上产生的日志量还是很可观的,xDxD,因此不可避免的需要对日志进行分割,通常定位问题需要针对时间点,因此最好对分割后的日志文件使用文件中日志的开始、结束时间点来命名,这样使用起来最为直观,下 阅读全文
posted @ 2019-09-28 22:02 HoLoong 阅读 (272) 评论 (0) 编辑
摘要:强化学习 机器人走迷宫 通过这篇文章,分享基于Udacity的机器人走迷宫项目,使用强化学习实现; 问题描述 规则、需求如下: 智能机器人显示在右上角,在迷宫中,有陷阱(红色炸弹)及终点(蓝色的目标点)两种情景,机器人要尽量避开陷阱、尽快到达目的地; 机器人可执行的动作包括:向上走 u、向右走 r、 阅读全文
posted @ 2019-09-28 21:44 HoLoong 阅读 (307) 评论 (0) 编辑
摘要:前天想着把最近在做的事分享出来,在考虑分享到哪些平台,结果无意中发现原来早就在博客园建了账号,还写了些随笔,全部看了下,感觉有点神奇,因为很多虽然是自己写的,但是完全没印象了。。。。但是也看到自己上大学时一些对未来的畅想、对自己的要求,现在这些都做到了么,我不敢这么说,至少方向是对的,保持进步吧,成 阅读全文
posted @ 2019-09-21 23:33 HoLoong 阅读 (102) 评论 (0) 编辑