09 2013 档案

摘要:scrapy是一个不错的开源爬虫,在windows上安装需要以下组件:1.setup-tools为了easy_install2.easy_installw3lib3. easy_installzope.interface4.下载scrapy的win32安装包,并安装5.下载twisted的win32安装包,并安装6.windows版lxml安装,去http://pypi.python.org/simple/lxml/下载一个egg文件,然后easy_install *.egg(转)http://www.cnblogs.com/sharpstill/archive/2012/05/26/2519 阅读全文
posted @ 2013-09-16 09:32 搞点儿算法 阅读(192) 评论(0) 推荐(0)
摘要:原创作者:博客园sharpstill,转载请注明Scrapy是一款非常成熟的爬虫框架,可以抓取网页数据并抽取结构化数据,目前已经有很多企业用于生产环境。对于它的更多介绍,可以查阅相关资料(官方网站:www.scrapy.org)。我们根据官网提供的安装指南,来一步步安装,主要参考了http://doc.scrapy.org/en/latest/intro/install.html页面的介绍:view plainRequirements?0?9Python2.5,2.6,2.7(3.xisnotyetsupported)Twisted2.5.0,8.0orabove(Windowsusers:y 阅读全文
posted @ 2013-09-16 09:30 搞点儿算法 阅读(316) 评论(0) 推荐(0)
摘要:随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是中国统计网为大家翻译的数据科学家面试常见的77个问题。下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题,供各位同行参考。1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的?3、什么是:提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则?4、什么是:协同过滤、n-grams, map reduce、余弦距离?5、如何让一个网络爬虫速度更快、抽取更好的 阅读全文
posted @ 2013-09-06 15:27 搞点儿算法 阅读(478) 评论(0) 推荐(0)