摘要: 概述 和那些数据科学比赛不同,在真实的数据科学中,我们可能更多的时间不是在做算法的开发,而是对需求的定义和数据的治理。所以,如何更好的结合现实业务,让数据真正产生价值成了一个更有意义的话题。 数据科学项目的完整流程通常是这样的五步骤: 需求定义=》数据获取=》数据治理=》数据分析=》数据可视化 一、 阅读全文
posted @ 2017-04-22 22:37 zhongchangcai 阅读(1400) 评论(0) 推荐(0) 编辑
摘要: 得到图片的网址之后我么你怎么将图片下载到本地呢?在python中我们使用 urllib 库里面的 urllib.urlretrieve() 函数又是新函数,还记得上回在使用urllib2.Request() 函数的时候因为传参数时没指定好参数名,所以运行出现了一个错误,这回要吸取教训,先把函数原型搞 阅读全文
posted @ 2017-04-22 20:32 zhongchangcai 阅读(940) 评论(0) 推荐(0) 编辑
摘要: 爬虫是一个比较容易上手的技术,也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫,完全就是另一回事,并不是1*n这么简单,还会衍生出许多别的问题。 系统的大规模爬虫流程如图所示。 先检查是否有API API是网站官方提供的数据接口,如果通过调用API采集数据,则相当于在网站允许的范围内 阅读全文
posted @ 2017-04-22 20:23 zhongchangcai 阅读(334) 评论(0) 推荐(0) 编辑