01 2014 档案

摘要:什么是Scrapy?Scrapy是一个快速、高级的爬行器和网页抓取框架,用来抓取网站和提取网页中结构化的数据。它被广泛的使用于监控数据采集和自动化测试。 参考:http://scrapy.org/ 阅读全文
posted @ 2014-01-15 22:45 LeeZhen 阅读(255) 评论(0) 推荐(0)
摘要:纯粹基于道德而掌握开发堆栈的每一方面的预期是合理的吗?可能不是,但Facebook这样要求。一个Facebook的员工在OSCON告诉我,Facebook只雇佣全栈开发者。那么全栈开发者是什么意思呢? 对我来说全栈开发者是对每一层都熟悉的人,如果不真正对所有的软件技术感兴趣不会对它们精通。 好的开发者熟悉整个堆栈,他们是知道如何使生活周边的事更容易的人。这就是为什么在办公室我如此反对偏执的原因,当然,政治及沟通挑战在大型组织中还是按固有的套路。我认为Facebook所持有的招聘政策是:如果聪明的人用脑用心,就能在更短的时间内构件更好的产品。全栈的层:1、服务器、网络和服务器环境知道哪里可能崩了 阅读全文
posted @ 2014-01-10 09:01 LeeZhen 阅读(390) 评论(0) 推荐(0)
摘要:1.配置SSH自行查阅相关资料2.安装JDK,配置Java环境自行查阅相关资料3.安装SVN[root@master ~]# yum install -y subversion通过SVN签出(Check Out)Nutch源代码[root@master ~]# svn co https://svn.apache.org/repos/asf/nutch/tags/release-1.7/4.安装AN... 阅读全文
posted @ 2014-01-02 22:06 LeeZhen 阅读(445) 评论(0) 推荐(0)
摘要:基本信息Nutch是一个开放源代码(open-source)的Java搜索引擎包,它提供了构建一个搜索引擎所需要的全部工具和功能。使用Nutch不仅可以建立自己内部网的搜索引擎,同时也可以针对整个网络建立搜索引擎。除了基本的功能之外,Nutch也还有不少自己的特色,如Map-Reduce、Hadoop、Plugin等。Nutch的总体结构Nutch从总体上看来,分为三个主要的部分:爬行、索引和搜索... 阅读全文
posted @ 2014-01-01 21:28 LeeZhen 阅读(540) 评论(0) 推荐(0)
摘要:一直都不太喜欢写东西,尤其是博客之类的,可能是觉得自己语文学的不好吧。曾经也有很多次在虚拟主机上利用WordPress建立个人Blog,但到最后都没坚持下来,除了不知道该写些什么,还有一个原因就是国内各种狗血的审查制度,ICP备案等等,已无力再吐槽...... 去年年底和一位老同学Nowbe的聊天中谈到了互联网的商机,2013年确实是互联网市场发展迅猛的一年,这也让我们意识到了新的机遇和挑战。想起2003年两个懵懂的、怀揣着梦想的未成年人,因为互联网坚定的走在了一起,并且在2004年创办了Wolike学生联盟网,那一年我们18岁。后来我们因为“不热爱学习”,成了老师们的眼中钉,肉中刺。我... 阅读全文
posted @ 2014-01-01 02:00 LeeZhen 阅读(229) 评论(0) 推荐(0)
摘要:十几年前,选择了IT,相当于选择了一个梦想与现实不断碰撞的人生。怀揣着这份执着走到了今天,不但没有任何成就,而且失去了太多太多。曾经很多次想过放弃IT,但到最后又都紧紧的抓住。也许在我的心里工作、爱情、生活都不重要,名与利的诱惑也显得那么的微薄,这大概就是爱吧! 到今天我仍固执的认为自己的坚持是对的,幸运的是2014年的钟声敲醒了我这颗骚动不安心,放弃的就让它失去吧,未来的梦不会太遥远,2014让梦想起航! 阅读全文
posted @ 2014-01-01 01:01 LeeZhen 阅读(132) 评论(0) 推荐(0)