随笔分类 -  开源技术

摘要:三个小知识点记录。 阅读全文
posted @ 2013-06-06 13:24 老兵笔记 阅读(14847) 评论(1) 推荐(0)
摘要:2011年,他们上线了如下架构:Staircar 的轻量级HTTP服务器+ Redis 集群,它在那个时候就引入了 redis 的 presharding 思路。 阅读全文
posted @ 2013-02-08 16:48 老兵笔记 阅读(4685) 评论(0) 推荐(0)
摘要:从 mongodb 阶段性技术总结 中抽取并整理了对大家有帮助的十个要点。 阅读全文
posted @ 2013-01-25 02:22 老兵笔记 阅读(20005) 评论(4) 推荐(4)
摘要:此问题是 MongoDB PHP Driver 1.2.x 的官方特性导致的,描述请看 PHP-202 和 PHP-347 。简单地说,PHP-FPM模式下,每一个 PHP Worker 进程都有自己独立的 mongodb 连接池,从而导致连接数极易超标,内存数也随之倍增。 阅读全文
posted @ 2013-01-15 01:23 老兵笔记 阅读(9549) 评论(0) 推荐(0)
摘要:从Application Design、Implementation、Optimization、Data Safety and Consistency和Administration等角度汇总了mongodb的最佳实践。 阅读全文
posted @ 2012-12-15 15:48 老兵笔记 阅读(11297) 评论(3) 推荐(0)
摘要:“silently reconnecting”可能非常不安全,将衍生出很多不可控问题。所以最佳策略是,通知应用程序到底发生了什么,然后由应用开发者决定如何处理。mq broker service 试图在已关闭的数据库连接上继续执行操作,从而抛出“ com.mysql.jdbc.exceptions.jdbc4.MySQLNonTransientConnectionException: No operations allowed after statement closed. ”异常。 阅读全文
posted @ 2012-11-10 00:30 老兵笔记 阅读(23179) 评论(0) 推荐(1)
摘要:wait_timeout 和 activemq lost network connection with mysql 之间的关系。 阅读全文
posted @ 2012-11-10 00:26 老兵笔记 阅读(12062) 评论(2) 推荐(0)
摘要:Q:MQ 们为什么要做生产者流量控制? A:麻烦就在于:『像 Erlang 的虚拟机实现和设计上都没有阻止用户往一个进程的消息队列里扔消息,当消息的生产速度过快,超过进程的处理能力时,这些消息就堆积起来,占用越来愈多的内存,最终导致VM崩溃。』 阅读全文
posted @ 2012-08-25 18:35 老兵笔记 阅读(17246) 评论(0) 推荐(0)
摘要:Amir Salihefendic(他是Plurk、Todoist的Co-Founder)在今年10月份撰文《How Hacker News ranking algorithm works 》完整地解释了Hacker News的Ranking算法,从中我们才得以知道那个神秘的“1.5”是什么。稍后我们还会拿这个排序规则与Reddit的排序规则做对比。 阅读全文
posted @ 2010-12-15 02:01 老兵笔记 阅读(28135) 评论(3) 推荐(7)
摘要:有时候需要禁用 RedirectMiddleware 。 阅读全文
posted @ 2010-11-25 17:41 老兵笔记 阅读(4187) 评论(0) 推荐(0)
摘要:大意是,封装Google语言检测ajax web service的接口,输入一段话,输出语言种类。这个方法是从RssMeme.com看来的,经测试效果还不错,可用于检测微博客消息的语言,如中文、日文、韩文等。但由于Google对过于频繁的请求会重置链接,所以提请注意,这个Web Service不适合大量密集请求提交。 阅读全文
posted @ 2010-10-26 00:24 老兵笔记 阅读(1676) 评论(0) 推荐(0)
摘要:Artificial Intelligence in Motion发布的博文,谈MongoDB、Python和MapReduce。 阅读全文
posted @ 2010-08-22 17:20 老兵笔记 阅读(4076) 评论(0) 推荐(0)
摘要:Socket 连接资源耗尽,在 Windows Server 下很常见,如果使用者程序写得没问题的话,一般都是微软(或其他软件厂商)设置的一些默认参数不合时宜导致的。 阅读全文
posted @ 2010-08-10 16:59 老兵笔记 阅读(4517) 评论(2) 推荐(0)
摘要:关于上节《02-Twisted 构建 Web Server 的 Socket 长链接问题》,还可以继续探讨为何会保持 Socket 长链接。 阅读全文
posted @ 2010-08-10 16:53 老兵笔记 阅读(1707) 评论(0) 推荐(0)
摘要:Twitter 提供了两种 Streaming 接口,让第三方可以省却轮询,由 Twitter 主动把合适的数据推送过来,近乎实时。 阅读全文
posted @ 2010-06-22 15:53 老兵笔记 阅读(8292) 评论(0) 推荐(0)
摘要:一般让爬虫在一个进程内多线程并发,有几种方法。 阅读全文
posted @ 2010-05-18 16:12 老兵笔记 阅读(8078) 评论(1) 推荐(2)
摘要:设置 HTTP 或 Socket 访问超时,来防止爬虫抓取某个页面时间过长。 阅读全文
posted @ 2010-05-18 16:07 老兵笔记 阅读(12116) 评论(0) 推荐(1)
摘要:我们需要确定网页的内容/标题等文字的编码格式,比如 utf-8 、gb2312 等。 阅读全文
posted @ 2010-05-18 15:57 老兵笔记 阅读(3548) 评论(1) 推荐(1)
摘要:Parsley是一个挺有意思的小东西,它综合运用了CSS、XPath、正则表达式和JSON,是描述如何从网页里提取结构化数据的简单语言。估计做爬虫(Crawler/Spider)的人都会定义一套类似的模板。只不过Parsley还帮你把具体实现做了,用各种开发语言。 阅读全文
posted @ 2009-11-27 23:57 老兵笔记 阅读(2373) 评论(0) 推荐(0)