xxxxxxxx1x2xxxxxxx

webmagic加上了注解支持

摘要：今天有个网友在博客回帖，能不能用注解来写一个爬虫？想了想，因为Javaer总习惯结果有个对象Model(我在自己用的时候也是这样)，ResultItems的key-value形式难免会有点麻烦，何不将抽取和Model合为一体呢？好了！现在爬osc博客只有这点代码了！而且这个对象本身是可以继续使用的！... 阅读全文

posted @ 2016-01-22 01:01 xxxxxxxx1x2xxxxxxx 阅读(195) 评论(0) 推荐(0)

程序员必须注意的十大编程禁忌

摘要：一、不提升非技术技能我们认为非技术技能是项目成功的主要因素。这些非技术技能也可以称之为“软技能”，总体上来说，它已经被公司证明为能够驾驭企业和客户之间的长期商业关系，因此也能决定公司的成长发展路径。一些关键的软技能指标包括：a.纪律——这是最重要的特征之一，缺乏纪律，最终会让这个开发团队在开发能力上... 阅读全文

posted @ 2016-01-22 00:52 xxxxxxxx1x2xxxxxxx 阅读(947) 评论(0) 推荐(0)

成为优秀程序员需掌握的11个要点

摘要： 1.永远不要重复代码不惜一切代价也要避免重复代码。如果你有几个不同的地方经常性地要使用某个代码片段，那么可以将它重构成函数。代码重复不但会导致阅读混乱，导致bug ——修复了这里的重复片段，却遗漏了其他地方的，还会导致代码库的臃肿和可执行文件大小的膨胀。现在的编程语言，能大大改善这方面的麻烦，例如，... 阅读全文

posted @ 2016-01-22 00:51 xxxxxxxx1x2xxxxxxx 阅读(236) 评论(0) 推荐(0)

开源搜索引擎评估:lucene sphinx elasticsearch

摘要：开源搜索引擎评估:lucene sphinx elasticsearch 开源搜索引擎程序有3大类 lucene系,java开发,包括solr和elasticsearch sphinx,c++开发,简单高性能 Xapian,c++开发搜索引擎程序这个名称不妥当,严格说来应该叫做索引程序(index 阅读全文

posted @ 2016-01-22 00:47 xxxxxxxx1x2xxxxxxx 阅读(265) 评论(0) 推荐(0)

如何开发auto complete 智能提示功能

摘要：目录(?)[+]如何开发auto complete 智能提示功能最近网上好像流传用redis实现，其实智能提示和用什么存储关系不大 07年，我过一个类似的项目我有几千个名字，随着用户在输入框中不断输入汉字或者拼音，用一个下拉列表提示它可能的输入项下拉框，选中状态，自然是用js做，这里主要讲一下后端代... 阅读全文

posted @ 2016-01-22 00:45 xxxxxxxx1x2xxxxxxx 阅读(311) 评论(0) 推荐(0)

搜索引擎分词与索引库

摘要：分词是很多做SEO的人常听到的概念，为了让大家在这个方面不会有疑惑，现在要来讲一下分词以及索引库。这也是更深入的了解搜索引擎的开始。搜索引擎每天都是在处理一个基本的需求：用户搜索一个关键词，搜索引擎马上找到相关的网页给用户。这个过程要怎么实现呢? 下面就分步来了解这个过程。首先搜索引擎要... 阅读全文

posted @ 2016-01-22 00:43 xxxxxxxx1x2xxxxxxx 阅读(360) 评论(0) 推荐(0)

robots.txt禁止搜索引擎收录

摘要：禁止搜索引擎收录的方法一．什么是robots.txt文件? 搜索引擎通过一种程序robot（又称spider），自动访问互联网上的网页并获取网页信息。您可以在您的网站中创建一个纯文本文件robots.txt，在这个文件中声明该网站中不想被robot访问的部分，这样，该网站的部分或全部内容... 阅读全文

posted @ 2016-01-22 00:40 xxxxxxxx1x2xxxxxxx 阅读(223) 评论(0) 推荐(0)

osc搜索引擎框架search-framework,TngouDB,gso,

摘要：项目目的：OSChina 实现全文搜索的简单封装框架License: Public Domain包含内容：重建索引工具 -> IndexRebuilder.java增量构建索引工具 -> IndexUpdater.java全文搜索框架http://git.oschina.net/oschina/se... 阅读全文

posted @ 2016-01-22 00:31 xxxxxxxx1x2xxxxxxx 阅读(306) 评论(0) 推荐(0)

当Scheduler拿不到url的时候，不能立即退出

摘要：在webmagic的多线程抓取中有一个比较麻烦的问题：当Scheduler拿不到url的时候，不能立即退出，需要等到没抓完的线程都运行完毕，没有新url产生时，才能退出。之前使用Thread.sleep来实现，当拿不到url 时，sleep一段时间再取，确定没有线程执行之后，再退出。但是这种方式始... 阅读全文

posted @ 2016-01-21 21:36 xxxxxxxx1x2xxxxxxx 阅读(225) 评论(0) 推荐(0)

摘要算法CRC8、CRC16、CRC32，MD2 、MD4、MD5，SHA1、SHA256、SHA384、SHA512，RIPEMD、PANAMA、TIGER、ADLER32

摘要： 1、CRC8、CRC16、CRC32CRC（Cyclic Redundancy Check，循环冗余校验）算法出现时间较长，应用也十分广泛，尤其是通讯领域，现在应用最多的就是 CRC32 算法，它产生一个4字节（32位）的校验值，一般是以8位十六进制数，如FA 12 CD 45等。CRC算法的优点在... 阅读全文

posted @ 2016-01-21 11:05 xxxxxxxx1x2xxxxxxx 阅读(1153) 评论(0) 推荐(0)

yyyyyyyyyyyyyyyyyyyy

公告