随笔分类 - Python

摘要:大致想来,李丹刘奎还需要解决这么几个基础问题:绘图所依赖的监控原始数据如何收集?如何加工?如何存储?图形如何绘制,各种指标如何叠加?拓扑关系如何绘制? 阅读全文
posted @ 2015-01-23 09:48 旁观者 阅读 (18004) | 评论 (7) 编辑
摘要:Amir Salihefendic(他是Plurk、Todoist的Co-Founder)在今年10月份撰文《How Hacker News ranking algorithm works 》完整地解释了Hacker News的Ranking算法,从中我们才得以知道那个神秘的“1.5”是什么。稍后我们还会拿这个排序规则与Reddit的排序规则做对比。 阅读全文
posted @ 2010-12-15 02:01 旁观者 阅读 (23407) | 评论 (3) 编辑
摘要:有时候需要禁用 RedirectMiddleware 。 阅读全文
posted @ 2010-11-25 17:41 旁观者 阅读 (3466) | 评论 (0) 编辑
摘要:大意是,封装Google语言检测ajax web service的接口,输入一段话,输出语言种类。这个方法是从RssMeme.com看来的,经测试效果还不错,可用于检测微博客消息的语言,如中文、日文、韩文等。但由于Google对过于频繁的请求会重置链接,所以提请注意,这个Web Service不适合大量密集请求提交。 阅读全文
posted @ 2010-10-26 00:24 旁观者 阅读 (1533) | 评论 (0) 编辑
摘要:Artificial Intelligence in Motion发布的博文,谈MongoDB、Python和MapReduce。 阅读全文
posted @ 2010-08-22 17:20 旁观者 阅读 (3885) | 评论 (0) 编辑
摘要:Socket 连接资源耗尽,在 Windows Server 下很常见,如果使用者程序写得没问题的话,一般都是微软(或其他软件厂商)设置的一些默认参数不合时宜导致的。 阅读全文
posted @ 2010-08-10 16:59 旁观者 阅读 (3825) | 评论 (2) 编辑
摘要:关于上节《02-Twisted 构建 Web Server 的 Socket 长链接问题》,还可以继续探讨为何会保持 Socket 长链接。 阅读全文
posted @ 2010-08-10 16:53 旁观者 阅读 (1450) | 评论 (0) 编辑
摘要:Twitter 提供了两种 Streaming 接口,让第三方可以省却轮询,由 Twitter 主动把合适的数据推送过来,近乎实时。 阅读全文
posted @ 2010-06-22 15:53 旁观者 阅读 (7363) | 评论 (0) 编辑
摘要:我们访问 Twitter 等被封掉的网站时,需要设置 Proxy 。 阅读全文
posted @ 2010-05-21 12:49 旁观者 阅读 (5905) | 评论 (0) 编辑
摘要:一般让爬虫在一个进程内多线程并发,有几种方法。 阅读全文
posted @ 2010-05-18 16:12 旁观者 阅读 (7628) | 评论 (1) 编辑
摘要:设置 HTTP 或 Socket 访问超时,来防止爬虫抓取某个页面时间过长。 阅读全文
posted @ 2010-05-18 16:07 旁观者 阅读 (11142) | 评论 (0) 编辑
摘要:我们需要确定网页的内容/标题等文字的编码格式,比如 utf-8 、gb2312 等。 阅读全文
posted @ 2010-05-18 15:57 旁观者 阅读 (3227) | 评论 (1) 编辑
摘要:Parsley是一个挺有意思的小东西,它综合运用了CSS、XPath、正则表达式和JSON,是描述如何从网页里提取结构化数据的简单语言。估计做爬虫(Crawler/Spider)的人都会定义一套类似的模板。只不过Parsley还帮你把具体实现做了,用各种开发语言。 阅读全文
posted @ 2009-11-27 23:57 旁观者 阅读 (2004) | 评论 (0) 编辑
摘要:早前写的注意事项。现放出来,也许对 PubSubHubbub 爱好者有帮助。 阅读全文
posted @ 2009-10-29 19:45 旁观者 阅读 (1000) | 评论 (0) 编辑
摘要:那么,Python 的左移操作为何计算结果如此偏颇呢? 问题何在? 即使是 Python 2.5 乃至最新的 Python 3.1.1 都是这个结果 (只不过Python3执行 1000<<25 的结果是 33554432000 ,没有加L后缀), 莫非这么多年来没人做左移操作吗? 阅读全文
posted @ 2009-10-14 17:20 旁观者 阅读 (22210) | 评论 (2) 编辑
摘要:康爷释出两篇pubsubhubbub入门开发教程《PubSubHubbub工作原理及使用入门》和《[教程]如何使用PubSubHubbub协议》,这里补充几点 阅读全文
posted @ 2009-09-24 19:38 旁观者 阅读 (1245) | 评论 (0) 编辑
摘要:不过,既然 Django 都已经在文档中说“it has been mostly superseded by the simpler mod_wsgi deployment option./mod_python 多半已被更简单的 mod_wsgi 替代了。”那么我们就应该一上手就用 mod_wsgi 。 阅读全文
posted @ 2009-08-11 11:34 旁观者 阅读 (18093) | 评论 (1) 编辑
摘要:把machine参数去掉不传即可,或传空字符串。 即: win32serviceutil.StartService("Apache2.2") 或 win32serviceutil.StartService("Apache2.2","") 可以正常启动本机的Apache,这样无法遥控域内其他服务器了。 阅读全文
posted @ 2009-05-16 01:27 旁观者 阅读 (2250) | 评论 (0) 编辑
摘要:结论:不是什么严重问题。只是当html代码中在标签的属性中写javascript时,需要注意到此种特性,如果出现“>”符号,就会导致SGMLParser以及使用SGMLParser的其他库解析失当。 阅读全文
posted @ 2008-01-15 14:42 旁观者 阅读 (1268) | 评论 (2) 编辑
摘要:针对sqlserver,似乎互联网上没有人提及如何连,而且上面mysql的这种简洁写法也不再适用。一个原因在于python中的_mssql库并不是DB-SIG compliant module,只有与之一同打包的pymssql库(其实pymssql就是在_mssql的基础上按照规范封装了一层罢了)才是。折腾了许久,在google code里也搜索了不少DBUtil python代码,终于摸索出这么一条路子: 阅读全文
posted @ 2007-12-28 00:28 旁观者 阅读 (3267) | 评论 (0) 编辑
摘要:本文讨论了在Python或者PHP中,如果连接Microsft Sql server 2000 SP4以上版本数据库查询NTEXT类型数据,如何成功返回数据,来解决“ntext data cannot be sent to clients using DB-Library (such as ISQL) or ODBC version 3.7 or earlier. (severity 16)”错误。 阅读全文
posted @ 2006-11-30 19:17 旁观者 阅读 (2589) | 评论 (0) 编辑
摘要:本文讨论了在Windows环境下,将Django配置到Apache Web Server时所遇到的问题,以及最终解决的示范步骤。您可以遵循后文描述的配置步骤,在此之前,我们先描述两个常见的错误现象。 阅读全文
posted @ 2006-11-20 22:48 旁观者 阅读 (26287) | 评论 (12) 编辑
摘要:看了limodou 在上期程序员杂志推荐的Python Django框架,于是选择Django用来书写热点自动发现的Web界面。Python本身的优势、友好的URL、方便的template、MVC,都是让书写Django顺畅|好心情的原因。 阅读全文
posted @ 2006-11-19 01:00 旁观者 阅读 (12191) | 评论 (3) 编辑
摘要:车东很久以前写过一篇《http://www.chedong.com/tech/link_pop_check.html,如何评价一个网站的人气(Link Popularity Check)》 ,介绍通过搜索引擎的一些隐含命令评价网站的“人气”。 其实用python做到这一点很容易。 我们换一种他没有提及的方式来实现,那时候应该还没有del.ici.ous这个站点。[2:41 补充]我们还增加了对alltheweb.com这个搜索引擎的反向链接数目判断的支持。 我们提供的 getURLRank Python版本 就是这么一种概念: 一个站点的流行程度可以通过很多种方式来判断,比如通过del.ici.ous这个站点,看有多少人收藏了这个页面,据此判断。也可以通过google/alltheweb.com的反向链接有多少来判断。 阅读全文
posted @ 2006-09-03 01:20 旁观者 阅读 (530) | 评论 (0) 编辑