摘要: 从庞果网上,看到一题,是求最小操作数的,具体题目如下:现用python代码实现如下: 1 #!usr/bin/env python 2 #coding:utf-8 3 4 def compareWord(A,B): 5 wordLen = len(A) 6 diff = 0 7 for i in range(wordLen): 8 if A[i] != B[i]: 9 diff += 1 10 return diff 11 12 13 def findpath(startD, endD, Dict,... 阅读全文
posted @ 2013-10-30 11:10 搞点儿算法 阅读(343) 评论(0) 推荐(0) 编辑
摘要: 1. 使用多线程编程,且需要调用win32com模块来打开word文档时,常见的错误如下:IDispatch = pythoncom.CoCreateInstance(IDispatch, None, clsctx, pythoncom.IID_IDispatch)com_error: (-2147221008, '\xc9\xd0\xce\xb4\xb5\xf7\xd3\xc3 CoInitialize\xa1\xa3', None, None)将第二行error中的第二项,打印出来是:“尚未调用 CoInitialize”,那么在代码中加入如下两行代码,即可解决:impor 阅读全文
posted @ 2013-10-24 22:47 搞点儿算法 阅读(5398) 评论(1) 推荐(0) 编辑
摘要: 最近做了关于计算文档中关键词的程序,使用Tf-idf方法去提取,其中需要使用python读取MS word文档和 MS powerpoint中的内容,现将部分讲解和代码贴出来,请指正。 首先,介绍一下win32com,这是个和window链接的模块,实话说,功能是很强大的,在网上看到很多功能,可以用来打开word,ppt,Excel,Access,模拟浏览器等行为,下载地址:http://starship.python.net/~skippy/win32/Downloads.html,现在,介绍其功能,是从其他网上的资料粘贴过来的。1.word功能:http://my.oschina.n... 阅读全文
posted @ 2013-10-24 22:18 搞点儿算法 阅读(4692) 评论(0) 推荐(0) 编辑
摘要: KDD杯的中心,所有的数据,任务和结果。UCI机器学习和知识发现研究中使用的大型数据集KDD数据库存储库。UCI机器学习数据库。AWS(亚马逊网络服务)公共数据集,提供了一个集中的资料库,可以无缝集成到基于AWS的云应用程序的公共数据集。生物测定数据,在虚拟筛选,生物测定数据,对化学信息学,J.由阿曼达Schierz的,有21个生物测定数据集(有效/无效的化合物)可供下载。加拿大开放数据,许多政府和地理空间数据集的试点项目。因果关系工作平台的数据存储库。数据源手册,指南公开数据,由皮特·沃登,奥莱利(2011年1月)。Data.gov.uk,英国(伦敦数据存储的公开数据)。Data. 阅读全文
posted @ 2013-10-21 20:59 搞点儿算法 阅读(197) 评论(0) 推荐(0) 编辑
摘要: scrapy是一个不错的开源爬虫,在windows上安装需要以下组件:1.setup-tools为了easy_install2.easy_installw3lib3. easy_installzope.interface4.下载scrapy的win32安装包,并安装5.下载twisted的win32安装包,并安装6.windows版lxml安装,去http://pypi.python.org/simple/lxml/下载一个egg文件,然后easy_install *.egg(转)http://www.cnblogs.com/sharpstill/archive/2012/05/26/2519 阅读全文
posted @ 2013-09-16 09:32 搞点儿算法 阅读(186) 评论(0) 推荐(0) 编辑
摘要: 原创作者:博客园sharpstill,转载请注明Scrapy是一款非常成熟的爬虫框架,可以抓取网页数据并抽取结构化数据,目前已经有很多企业用于生产环境。对于它的更多介绍,可以查阅相关资料(官方网站:www.scrapy.org)。我们根据官网提供的安装指南,来一步步安装,主要参考了http://doc.scrapy.org/en/latest/intro/install.html页面的介绍:view plainRequirements?0?9Python2.5,2.6,2.7(3.xisnotyetsupported)Twisted2.5.0,8.0orabove(Windowsusers:y 阅读全文
posted @ 2013-09-16 09:30 搞点儿算法 阅读(292) 评论(0) 推荐(0) 编辑
摘要: 随着大数据概念的火热,数据科学家这一职位应时而出,那么成为数据科学家要满足什么条件?或许我们可以从国外的数据科学家面试问题中得到一些参考,下面是中国统计网为大家翻译的数据科学家面试常见的77个问题。下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题,供各位同行参考。1、你处理过的最大的数据量?你是如何处理他们的?处理的结果。2、告诉我二个分析或者计算机科学相关项目?你是如何对其结果进行衡量的?3、什么是:提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则?4、什么是:协同过滤、n-grams, map reduce、余弦距离?5、如何让一个网络爬虫速度更快、抽取更好的 阅读全文
posted @ 2013-09-06 15:27 搞点儿算法 阅读(442) 评论(0) 推荐(0) 编辑
摘要: 利用python+selenium引擎渲染web,爬取含有javascript、css、ajax的网页 阅读全文
posted @ 2013-08-27 22:25 搞点儿算法 阅读(1351) 评论(0) 推荐(0) 编辑
摘要: 闲话少叙,python中经常会对字典的索引进行搜索判断,如判断‘user’是否为{'user1':'New Student','user2':'Old student'}的索引,本文总结了5种方法进行索引的搜索,并比较了运行时间。五种方法有:① index in dict.keys()② dict.has_key(index)③ index in dict④ index in set(dict)⑤ index in set(dict.keys())先构建一个程序运行时间的函数,用于测试。from time import clock 阅读全文
posted @ 2013-08-26 18:11 搞点儿算法 阅读(3232) 评论(2) 推荐(0) 编辑