随笔分类 -  开源技术 / Python

摘要:大致想来,李丹刘奎还需要解决这么几个基础问题:绘图所依赖的监控原始数据如何收集?如何加工?如何存储?图形如何绘制,各种指标如何叠加?拓扑关系如何绘制? 阅读全文
posted @ 2015-01-23 09:48 旁观者 阅读(19707) 评论(7) 推荐(5) 编辑
摘要:Amir Salihefendic(他是Plurk、Todoist的Co-Founder)在今年10月份撰文《How Hacker News ranking algorithm works 》完整地解释了Hacker News的Ranking算法,从中我们才得以知道那个神秘的“1.5”是什么。稍后我们还会拿这个排序规则与Reddit的排序规则做对比。 阅读全文
posted @ 2010-12-15 02:01 旁观者 阅读(27623) 评论(3) 推荐(7) 编辑
摘要:有时候需要禁用 RedirectMiddleware 。 阅读全文
posted @ 2010-11-25 17:41 旁观者 阅读(4137) 评论(0) 推荐(0) 编辑
摘要:大意是,封装Google语言检测ajax web service的接口,输入一段话,输出语言种类。这个方法是从RssMeme.com看来的,经测试效果还不错,可用于检测微博客消息的语言,如中文、日文、韩文等。但由于Google对过于频繁的请求会重置链接,所以提请注意,这个Web Service不适合大量密集请求提交。 阅读全文
posted @ 2010-10-26 00:24 旁观者 阅读(1662) 评论(0) 推荐(0) 编辑
摘要:Artificial Intelligence in Motion发布的博文,谈MongoDB、Python和MapReduce。 阅读全文
posted @ 2010-08-22 17:20 旁观者 阅读(4052) 评论(0) 推荐(0) 编辑
摘要:Socket 连接资源耗尽,在 Windows Server 下很常见,如果使用者程序写得没问题的话,一般都是微软(或其他软件厂商)设置的一些默认参数不合时宜导致的。 阅读全文
posted @ 2010-08-10 16:59 旁观者 阅读(4419) 评论(2) 推荐(0) 编辑
摘要:关于上节《02-Twisted 构建 Web Server 的 Socket 长链接问题》,还可以继续探讨为何会保持 Socket 长链接。 阅读全文
posted @ 2010-08-10 16:53 旁观者 阅读(1686) 评论(0) 推荐(0) 编辑
摘要:Twitter 提供了两种 Streaming 接口,让第三方可以省却轮询,由 Twitter 主动把合适的数据推送过来,近乎实时。 阅读全文
posted @ 2010-06-22 15:53 旁观者 阅读(8142) 评论(0) 推荐(0) 编辑
摘要:一般让爬虫在一个进程内多线程并发,有几种方法。 阅读全文
posted @ 2010-05-18 16:12 旁观者 阅读(8043) 评论(1) 推荐(2) 编辑
摘要:设置 HTTP 或 Socket 访问超时,来防止爬虫抓取某个页面时间过长。 阅读全文
posted @ 2010-05-18 16:07 旁观者 阅读(12041) 评论(0) 推荐(1) 编辑
摘要:我们需要确定网页的内容/标题等文字的编码格式,比如 utf-8 、gb2312 等。 阅读全文
posted @ 2010-05-18 15:57 旁观者 阅读(3523) 评论(1) 推荐(1) 编辑
摘要:Parsley是一个挺有意思的小东西,它综合运用了CSS、XPath、正则表达式和JSON,是描述如何从网页里提取结构化数据的简单语言。估计做爬虫(Crawler/Spider)的人都会定义一套类似的模板。只不过Parsley还帮你把具体实现做了,用各种开发语言。 阅读全文
posted @ 2009-11-27 23:57 旁观者 阅读(2321) 评论(0) 推荐(0) 编辑
摘要:早前写的注意事项。现放出来,也许对 PubSubHubbub 爱好者有帮助。 阅读全文
posted @ 2009-10-29 19:45 旁观者 阅读(1238) 评论(0) 推荐(0) 编辑
摘要:那么,Python 的左移操作为何计算结果如此偏颇呢? 问题何在? 即使是 Python 2.5 乃至最新的 Python 3.1.1 都是这个结果 (只不过Python3执行 100025 的结果是 33554432000 ,没有加L后缀), 莫非这么多年来没人做左移操作吗? 阅读全文
posted @ 2009-10-14 17:20 旁观者 阅读(25021) 评论(2) 推荐(1) 编辑
摘要:康爷释出两篇pubsubhubbub入门开发教程《PubSubHubbub工作原理及使用入门》和《[教程]如何使用PubSubHubbub协议》,这里补充几点 阅读全文
posted @ 2009-09-24 19:38 旁观者 阅读(1600) 评论(0) 推荐(0) 编辑
摘要:不过,既然 Django 都已经在文档中说“it has been mostly superseded by the simpler mod_wsgi deployment option./mod_python 多半已被更简单的 mod_wsgi 替代了。”那么我们就应该一上手就用 mod_wsgi 。 阅读全文
posted @ 2009-08-11 11:34 旁观者 阅读(18795) 评论(1) 推荐(1) 编辑
摘要:把machine参数去掉不传即可,或传空字符串。 即: win32serviceutil.StartService("Apache2.2") 或 win32serviceutil.StartService("Apache2.2","") 可以正常启动本机的Apache,这样无法遥控域内其他服务器了。 阅读全文
posted @ 2009-05-16 01:27 旁观者 阅读(2893) 评论(0) 推荐(0) 编辑
摘要:结论:不是什么严重问题。只是当html代码中在标签的属性中写javascript时,需要注意到此种特性,如果出现“>”符号,就会导致SGMLParser以及使用SGMLParser的其他库解析失当。 阅读全文
posted @ 2008-01-15 14:42 旁观者 阅读(1584) 评论(2) 推荐(0) 编辑
摘要:针对sqlserver,似乎互联网上没有人提及如何连,而且上面mysql的这种简洁写法也不再适用。一个原因在于python中的_mssql库并不是DB-SIG compliant module,只有与之一同打包的pymssql库(其实pymssql就是在_mssql的基础上按照规范封装了一层罢了)才是。折腾了许久,在google code里也搜索了不少DBUtil python代码,终于摸索出这么一条路子: 阅读全文
posted @ 2007-12-28 00:28 旁观者 阅读(4033) 评论(0) 推荐(0) 编辑