yyyyyyyyyyyyyyyyyyyy

博客园 首页 新随笔 联系 订阅 管理
上一页 1 ··· 203 204 205 206 207 208 209 210 211 ··· 367 下一页

2016年1月22日 #

摘要: rzsz不能大于4G,securefx传5.2G没有问题,查看系统限制:$ulimit -acore file size (blocks, -c) 0data seg size (kbytes, -d) unlimitedscheduling priority (-e) 0file size (bl... 阅读全文
posted @ 2016-01-22 18:04 xxxxxxxx1x2xxxxxxx 阅读(213) 评论(0) 推荐(0)

摘要: 一般的爬虫都是直接使用http协议,下载指定url的html内容,并对内容进行分析和抽取。在我写的爬虫框架webmagic里也使用了HttpClient来完成这样的任务。但是有些页面是通过js以及ajax动态加载的,例如:花瓣网。这时如果我们直接分析原始页面的html,是得不到有效的信息的。当然,因... 阅读全文
posted @ 2016-01-22 01:02 xxxxxxxx1x2xxxxxxx 阅读(358) 评论(0) 推荐(0)

摘要: 今天有个网友在博客回帖,能不能用注解来写一个爬虫?想了想,因为Javaer总习惯结果有个对象Model(我在自己用的时候也是这样),ResultItems的key-value形式难免会有点麻烦,何不将抽取和Model合为一体呢?好了!现在爬osc博客只有这点代码了!而且这个对象本身是可以继续使用的!... 阅读全文
posted @ 2016-01-22 01:01 xxxxxxxx1x2xxxxxxx 阅读(191) 评论(0) 推荐(0)

摘要: 一、不提升非技术技能我们认为非技术技能是项目成功的主要因素。这些非技术技能也可以称之为“软技能”,总体上来说,它已经被公司证明为能够驾驭企业和客户之间的长期商业关系,因此也能决定公司的成长发展路径。一些关键的软技能指标包括:a.纪律——这是最重要的特征之一,缺乏纪律,最终会让这个开发团队在开发能力上... 阅读全文
posted @ 2016-01-22 00:52 xxxxxxxx1x2xxxxxxx 阅读(938) 评论(0) 推荐(0)

摘要: 1.永远不要重复代码不惜一切代价也要避免重复代码。如果你有几个不同的地方经常性地要使用某个代码片段,那么可以将它重构成函数。代码重复不但会导致阅读混乱,导致bug ——修复了这里的重复片段,却遗漏了其他地方的,还会导致代码库的臃肿和可执行文件大小的膨胀。现在的编程语言,能大大改善这方面的麻烦,例如,... 阅读全文
posted @ 2016-01-22 00:51 xxxxxxxx1x2xxxxxxx 阅读(225) 评论(0) 推荐(0)

摘要: 开源搜索引擎评估:lucene sphinx elasticsearch 开源搜索引擎程序有3大类 lucene系,java开发,包括solr和elasticsearch sphinx,c++开发,简单高性能 Xapian,c++开发 搜索引擎程序这个名称不妥当,严格说来应该叫做索引程序(index 阅读全文
posted @ 2016-01-22 00:47 xxxxxxxx1x2xxxxxxx 阅读(257) 评论(0) 推荐(0)

摘要: 目录(?)[+]如何开发auto complete 智能提示功能最近网上好像流传用redis实现,其实智能提示和用什么存储关系不大 07年,我过一个类似的项目我有几千个名字,随着用户在输入框中不断输入汉字或者拼音,用一个下拉列表提示它可能的输入项下拉框,选中状态,自然是用js做,这里主要讲一下后端代... 阅读全文
posted @ 2016-01-22 00:45 xxxxxxxx1x2xxxxxxx 阅读(303) 评论(0) 推荐(0)

摘要: 分词是很多做SEO的人常听到的概念,为了让大家在这个方面不会有疑惑,现在要来讲一下分词以及索引库。这也是更深入的了解搜索引擎的开始。 搜索引擎每天都是在处理一个基本的需求:用户搜索一个关键词,搜索引擎马上找到相关的网页给用户。这个过程要怎么实现呢? 下面就分步来了解这个过程。 首先搜索引擎要... 阅读全文
posted @ 2016-01-22 00:43 xxxxxxxx1x2xxxxxxx 阅读(350) 评论(0) 推荐(0)

摘要: 禁止搜索引擎收录的方法 一.什么是robots.txt文件? 搜索引擎通过一种程序robot(又称spider),自动访问互联网上的网页并获取网页信息。 您可以在您的网站中创建一个纯文本文件robots.txt,在这个文件中声明该网站中不想被robot访问的部分,这样,该网站的部分或全部内容... 阅读全文
posted @ 2016-01-22 00:40 xxxxxxxx1x2xxxxxxx 阅读(208) 评论(0) 推荐(0)

摘要: 项目目的:OSChina 实现全文搜索的简单封装框架License: Public Domain包含内容:重建索引工具 -> IndexRebuilder.java增量构建索引工具 -> IndexUpdater.java全文搜索框架http://git.oschina.net/oschina/se... 阅读全文
posted @ 2016-01-22 00:31 xxxxxxxx1x2xxxxxxx 阅读(295) 评论(0) 推荐(0)

上一页 1 ··· 203 204 205 206 207 208 209 210 211 ··· 367 下一页