搞点儿算法

2013年10月30日

摘要：从庞果网上，看到一题，是求最小操作数的，具体题目如下：现用python代码实现如下： 1 #!usr/bin/env python 2 #coding:utf-8 3 4 def compareWord(A,B): 5 wordLen = len(A) 6 diff = 0 7 for i in range(wordLen): 8 if A[i] != B[i]: 9 diff += 1 10 return diff 11 12 13 def findpath(startD, endD, Dict,... 阅读全文

posted @ 2013-10-30 11:10 搞点儿算法阅读(410) 评论(0) 推荐(0)

2013年10月24日

python win32com在读取word文档时，遇到的问题

摘要： 1. 使用多线程编程，且需要调用win32com模块来打开word文档时，常见的错误如下：IDispatch = pythoncom.CoCreateInstance(IDispatch, None, clsctx, pythoncom.IID_IDispatch)com_error: (-2147221008, '\xc9\xd0\xce\xb4\xb5\xf7\xd3\xc3 CoInitialize\xa1\xa3', None, None)将第二行error中的第二项，打印出来是：“尚未调用 CoInitialize”，那么在代码中加入如下两行代码，即可解决：impor 阅读全文

posted @ 2013-10-24 22:47 搞点儿算法阅读(5768) 评论(1) 推荐(0)

python 如何将ppt和word转化为txt文档

摘要：最近做了关于计算文档中关键词的程序，使用Tf-idf方法去提取，其中需要使用python读取MS word文档和 MS powerpoint中的内容，现将部分讲解和代码贴出来，请指正。首先，介绍一下win32com，这是个和window链接的模块，实话说，功能是很强大的，在网上看到很多功能，可以用来打开word，ppt，Excel，Access，模拟浏览器等行为，下载地址：http://starship.python.net/~skippy/win32/Downloads.html，现在，介绍其功能，是从其他网上的资料粘贴过来的。1.word功能：http://my.oschina.n... 阅读全文

posted @ 2013-10-24 22:18 搞点儿算法阅读(4983) 评论(0) 推荐(0)

2013年10月21日

机器学习相关数据库(转)

摘要： KDD杯的中心，所有的数据，任务和结果。UCI机器学习和知识发现研究中使用的大型数据集KDD数据库存储库。UCI机器学习数据库。AWS（亚马逊网络服务）公共数据集，提供了一个集中的资料库，可以无缝集成到基于AWS的云应用程序的公共数据集。生物测定数据，在虚拟筛选，生物测定数据，对化学信息学，J.由阿曼达Schierz的，有21个生物测定数据集（有效/无效的化合物）可供下载。加拿大开放数据，许多政府和地理空间数据集的试点项目。因果关系工作平台的数据存储库。数据源手册，指南公开数据，由皮特·沃登，奥莱利（2011年1月）。Data.gov.uk，英国（伦敦数据存储的公开数据）。Data. 阅读全文

posted @ 2013-10-21 20:59 搞点儿算法阅读(215) 评论(0) 推荐(0)

2013年9月16日

scrapy在windows上安装笔记（转）

摘要： scrapy是一个不错的开源爬虫，在windows上安装需要以下组件：1.setup-tools为了easy_install2.easy_installw3lib3. easy_installzope.interface4.下载scrapy的win32安装包,并安装5.下载twisted的win32安装包,并安装6.windows版lxml安装，去http://pypi.python.org/simple/lxml/下载一个egg文件，然后easy_install *.egg（转）http://www.cnblogs.com/sharpstill/archive/2012/05/26/2519 阅读全文

posted @ 2013-09-16 09:32 搞点儿算法阅读(206) 评论(0) 推荐(0)

Linux(RedHat,Centos)上scrapy详尽安装笔记（转）

摘要：原创作者:博客园sharpstill,转载请注明Scrapy是一款非常成熟的爬虫框架，可以抓取网页数据并抽取结构化数据，目前已经有很多企业用于生产环境。对于它的更多介绍，可以查阅相关资料（官方网站：www.scrapy.org）。我们根据官网提供的安装指南，来一步步安装，主要参考了http://doc.scrapy.org/en/latest/intro/install.html页面的介绍：view plainRequirements?0?9Python2.5,2.6,2.7(3.xisnotyetsupported)Twisted2.5.0,8.0orabove(Windowsusers:y 阅读全文

posted @ 2013-09-16 09:30 搞点儿算法阅读(334) 评论(0) 推荐(0)

2013年9月6日

[转] 数据科学家面试常见的77个问题

摘要：随着大数据概念的火热，数据科学家这一职位应时而出，那么成为数据科学家要满足什么条件？或许我们可以从国外的数据科学家面试问题中得到一些参考，下面是中国统计网为大家翻译的数据科学家面试常见的77个问题。下面是77个关于数据分析或者数据科学家招聘的时候会常会的几个问题，供各位同行参考。1、你处理过的最大的数据量？你是如何处理他们的？处理的结果。2、告诉我二个分析或者计算机科学相关项目？你是如何对其结果进行衡量的？3、什么是：提升值、关键绩效指标、强壮性、模型按合度、实验设计、2/8原则？4、什么是：协同过滤、n-grams, map reduce、余弦距离？5、如何让一个网络爬虫速度更快、抽取更好的阅读全文

posted @ 2013-09-06 15:27 搞点儿算法阅读(491) 评论(0) 推荐(0)

2013年8月27日

Selenium with Python 用于网站抓取

摘要：利用python+selenium引擎渲染web，爬取含有javascript、css、ajax的网页阅读全文

posted @ 2013-08-27 22:25 搞点儿算法阅读(1414) 评论(0) 推荐(0)

2013年8月26日

python字典的索引快速搜索方法比较

摘要：闲话少叙，python中经常会对字典的索引进行搜索判断，如判断‘user’是否为{'user1':'New Student','user2':'Old student'}的索引，本文总结了5种方法进行索引的搜索，并比较了运行时间。五种方法有：① index in dict.keys()② dict.has_key(index)③ index in dict④ index in set(dict)⑤ index in set(dict.keys())先构建一个程序运行时间的函数，用于测试。from time import clock 阅读全文

posted @ 2013-08-26 18:11 搞点儿算法阅读(3344) 评论(2) 推荐(0)

公告