yyyyyyyyyyyyyyyyyyyy

博客园 首页 新随笔 联系 订阅 管理

2015年8月16日 #

摘要: htmlparser使用指南需要做一个垂直搜索引擎,比较了nekohtml和htmlparser 的功能,尽管nekohtml在容错性、性能等方面的口碑好像比htmlparser好(htmlunit也用的是nekohtml),但感觉 nekohtml的测试用例和文档都比htmlparser都少,而且... 阅读全文
posted @ 2015-08-16 23:59 xxxxxxxx1x2xxxxxxx 阅读(456) 评论(0) 推荐(0)

摘要: Python的内置方法abs(X):返回一个数的绝对值,X可以是一个整数,长整型,或者浮点数,如果X是一个复数,此方法返回此复数的绝对值(此复数与它的共轭复数的乘积的平方根)>>> abs(3+2j)3.605551275463989>>> abs(3-2j)3.605551275463989all... 阅读全文
posted @ 2015-08-16 23:56 xxxxxxxx1x2xxxxxxx 阅读(305) 评论(0) 推荐(0)

摘要: Python 通常没有对应 Java 的 Ant / Maven 这样的 build tool,有一个用于打包的 setuptools / distutils 但也并不完全等价。如果是用来管理依赖包,有 pip(特别是 -r requirements.txt 功能)。 阅读全文
posted @ 2015-08-16 23:33 xxxxxxxx1x2xxxxxxx 阅读(203) 评论(0) 推荐(0)

摘要: 1.Trac Trac拥有强大的bug管理功能,并集成了Wiki用于文档管理。它还支持代码管理工具Subversion,这样可以在 bug管理和Wiki中方便地参考程序源代码。Trac有着比较强大的插件系统,可以通过插件来实现各种各样的功能,比如支持Git,或者增加自己的一些语法等等.如果你想了解w... 阅读全文
posted @ 2015-08-16 23:29 xxxxxxxx1x2xxxxxxx 阅读(737) 评论(0) 推荐(0)

摘要: 在开始python编程之前我们先来看看一个关与url的知识在url中会有一些特殊字符,如果你写过cgi程序,并且提交一个表单去调用你的cgi,你会很清楚的像?name=aiqier&age=21这样的参数传递下面总结一下常见的url特殊字符的含义空格换成加号(+)正斜杠(/)分隔目录和子目录问号(... 阅读全文
posted @ 2015-08-16 23:27 xxxxxxxx1x2xxxxxxx 阅读(3550) 评论(0) 推荐(0)

摘要: fakeroot 可以用来模拟 root 权限,以便建立特定权限与档案拥有者的压缩文件案(tar, ar, .deb 等)。透过 LD_PRELOAD 的 dynamic loader 功能,用户不必实际拥有 root 权限。fakeroot最初是为了创建debian包使用的。例如Debian在生成... 阅读全文
posted @ 2015-08-16 23:25 xxxxxxxx1x2xxxxxxx 阅读(1353) 评论(0) 推荐(0)

摘要: import datetimeimport timestring转datetime str = '2012-11-19' date_time = datetime.datetime.strptime(str,'%Y-%m-%d') d... 阅读全文
posted @ 2015-08-16 23:14 xxxxxxxx1x2xxxxxxx 阅读(223) 评论(0) 推荐(0)

摘要: s='开始1~3& lt;?xml:namespaceprefix=ons="urn:schemas-microsoft-com:office:office"/>'importred=re.sub(']+>','',s)利用正则式处理,不知道会不会有性能问题,没有经过太多测试。目前我有很多还是使用B... 阅读全文
posted @ 2015-08-16 23:10 xxxxxxxx1x2xxxxxxx 阅读(260) 评论(0) 推荐(0)

摘要: Python经典教程《Python简明教程》目录:为什么Python安装Python体验PythonPython数据类型运算符与表达式控制流函数模块数据结构解决问题面向对象输入输出异常标准库更多的内容 阅读全文
posted @ 2015-08-16 23:07 xxxxxxxx1x2xxxxxxx 阅读(222) 评论(0) 推荐(0)

摘要: python核心编程--笔记的解释器options:1.1 –d 提供调试输出1.2 –O 生成优化的字节码(生成.pyo文件)1.3 –S 不导入site模块以在启动时查找python路径1.4 –v 冗余输出(导入语句详细追踪)1.5 –m mod 将一个模块以脚本形式运行1.6 –Q opt ... 阅读全文
posted @ 2015-08-16 22:53 xxxxxxxx1x2xxxxxxx 阅读(297) 评论(0) 推荐(0)

摘要: 一、httplib实现了HTTP和HTTPS的客户端协议,一般不直接使用,在python更高层的封装模块中(urllib,urllib2)使用了它的http实现。 importhttplibconn=httplib.HTTPConnection("google.com")conn.request... 阅读全文
posted @ 2015-08-16 22:51 xxxxxxxx1x2xxxxxxx 阅读(302) 评论(0) 推荐(0)

摘要: 一个中文utf8编码后是占3个字符,所以求长度的函数可以这样写 def str_len(str): try: row_l=len(str) utf8_l=len(str.encode('utf... 阅读全文
posted @ 2015-08-16 22:38 xxxxxxxx1x2xxxxxxx 阅读(644) 评论(0) 推荐(0)

摘要: 摘要:是否想在Python解释器的内部晃悠一圈?是不是想实现一个Python代码执行的追踪器?没有基础?不要怕,这篇文章让你初窥Python底层的奥妙。 【编者按】下面博文将带你创建一个字节码级别的追踪API以追踪Python的一些内部机制,比如类似 YIELDVALUE、YIELDFROM操作码的... 阅读全文
posted @ 2015-08-16 22:37 xxxxxxxx1x2xxxxxxx 阅读(396) 评论(0) 推荐(0)

摘要: CTRL+V进入可视化模式移动光标上移或者下移,选中多行的开头选择完毕后,按大写的的I键,此时下方会提示进入“insert”模式,输入你要插入的注释符最后按ESC键,你就会发现多行代码已经被注释了.删除多行注释的方法,同样 Ctrl+v 进入列选择模式,移到光标把注释符选中,按下d,注释就被删除了。 阅读全文
posted @ 2015-08-16 22:33 xxxxxxxx1x2xxxxxxx 阅读(163) 评论(0) 推荐(0)

摘要: 虽然很不愿意在windows上折腾python,但有时linux不在身边的时候还得在windows上写代码。很久之前找到这个地址,后来忘了,今天搜了半天才把它找到,所以记录一下。http://www.lfd.uci.edu/~gohlke/pythonlibs/以上页面提供各种编译好的各种版本的库下... 阅读全文
posted @ 2015-08-16 22:30 xxxxxxxx1x2xxxxxxx 阅读(737) 评论(2) 推荐(1)

摘要: 1.安装(1)使用下面命令获得最新版本的ssh4py安装包 git clone git://github.com/wallunit/ssh4py (2)解压ssh4py后使用下面命令进行安装:cd ssh4py python setup.py build python setup.py instal... 阅读全文
posted @ 2015-08-16 22:25 xxxxxxxx1x2xxxxxxx 阅读(737) 评论(0) 推荐(1)

摘要: 提取Item选择器介绍 我们有很多方法从网站中提取数据。Scrapy 使用一种叫做 XPath selectors的机制,它基于 XPath表达式。如果你想了解更多selectors和其他机制你可以查阅资料http://doc.scrapy.org/topics /selectors.html#to... 阅读全文
posted @ 2015-08-16 22:24 xxxxxxxx1x2xxxxxxx 阅读(358) 评论(0) 推荐(0)

摘要: Splinter可以非常棒的模拟浏览器的行为,Splinter提供了丰富的API,可以获取页面的信息判断当前的行为所产生的结果最近在研究网站自动登录的问题,涉及到需要实现浏览器自动化操作,网上有不少介绍,例如使用pamie,但是只是支持IE,而且项目也较久没有更新了。还 有就是利用selenium,... 阅读全文
posted @ 2015-08-16 22:19 xxxxxxxx1x2xxxxxxx 阅读(846) 评论(0) 推荐(0)

摘要: python图片文本识别使用的工具是PIL和pytesser。因为他们使用到很多的python库文件,为了避免一个个工具的安装,建议使用pythonxy,这个工具的介绍可参考baidu。pytesser是谷歌OCR开源项目的一个模块,在Python中导入这个模块即可将图片中的文字转换成文本。pyte... 阅读全文
posted @ 2015-08-16 22:10 xxxxxxxx1x2xxxxxxx 阅读(210) 评论(0) 推荐(0)

摘要: 关于利用python进行验证码识别的一些想法 用python加“验证码”为关键词在baidu里搜一下,可以找到很多关于验证码识别的文章。我大体看了一下,主要方法有几类:一类是通过对图片进行处 理,然后利用字库特征匹配的方法,一类是图片处理后建立字符对应字典,还有一类是直接利用ocr模块进行识别。不管... 阅读全文
posted @ 2015-08-16 22:09 xxxxxxxx1x2xxxxxxx 阅读(432) 评论(0) 推荐(0)