yyyyyyyyyyyyyyyyyyyy

博客园 首页 新随笔 联系 订阅 管理
上一页 1 ··· 219 220 221 222 223 224 225 226 227 ··· 367 下一页

2015年12月23日 #

摘要: 编程进阶这里强烈推荐《unix环境高级编程》(简称APUE)和《unix网络编程》(简称UNP),这两本书可是经典中的经典啊,作者是大名鼎鼎的 W.Richard Stevens,可惜在1998年不幸逝世。全世界的unix/linux黑客没有哪一位没有认真研读过这两本书。如果您想成为高手,不用想,这... 阅读全文
posted @ 2015-12-23 16:52 xxxxxxxx1x2xxxxxxx 阅读(4261) 评论(1) 推荐(0)

摘要: 算法学习算法可是计算机编程的灵魂哦,很多初级程序员觉得平时很少用到算法,也觉得算法不重要,其实那是大错特错。算法时时刻刻影响着我们编写的代码,实现同样的功能高手写的程序可能只需要1秒钟的运行时间就可以求解,刚入道的程序员可能写的代码需要花费100秒才能求解,差异是何其之大!再说,即使平时编程真的很少... 阅读全文
posted @ 2015-12-23 16:51 xxxxxxxx1x2xxxxxxx 阅读(497) 评论(0) 推荐(0)

摘要: nutch搏斗之一问题描述:在用nutch1.0做generate 包括5亿url的crawldb时,它默认按照64M分块,分成777个map task,在运行的后期出现Could not find taskTracker/jobcache/job_200903231519_0017/attempt... 阅读全文
posted @ 2015-12-23 16:49 xxxxxxxx1x2xxxxxxx 阅读(125) 评论(0) 推荐(0)

摘要: Nutch+HBase当我们为nutch的架构发愁的时候,nutch的开发人员送来了nutchbase。我一些简单的测试表明,在hadoop0.20.1和hbase0.20.2上,稍加修改可以运行起来。它的优点很明显:架构合理.开发者是这样说的,引用自jirahttp://issues.apache... 阅读全文
posted @ 2015-12-23 16:49 xxxxxxxx1x2xxxxxxx 阅读(159) 评论(0) 推荐(0)

摘要: https://github.com/emyller/webkitcrawler一个开源的项目,可以快速入门。http://spiderformysql.com/http://crawl.group.iteye.com/关于爬虫的一个坛子,主要是Java开源组件Heritrix,nutch爬虫的源码... 阅读全文
posted @ 2015-12-23 16:35 xxxxxxxx1x2xxxxxxx 阅读(223) 评论(0) 推荐(0)

摘要: Pyv8,PythonWebKit,Selenium,PhantomJS,Ghost.py 等等。。。。快速构建实时抓取集群[searchtb]定义:http://i.cnblogs.com/EditPosts.aspx?opt=1首先,我们定义一下定向抓取,定向抓取是一种特定的抓取需求,目标站点... 阅读全文
posted @ 2015-12-23 16:34 xxxxxxxx1x2xxxxxxx 阅读(255) 评论(0) 推荐(0)

摘要: 现在网络上浏览器是风生水起,IE、Opera、Firefox、Safari、The World还有现在的Chrome,360,TT,搜狗 等。那可谓是百家争鸣。看似许多不同的浏览器,其实其中还是有很多相似之处。 浏览器最重要或者说核心的部分是“Rendering Engine”,可大概译为“... 阅读全文
posted @ 2015-12-23 16:13 xxxxxxxx1x2xxxxxxx 阅读(140) 评论(0) 推荐(0)

摘要: PHP, Python, Node.js 哪个比较适合写爬虫?1.对页面的解析能力2.对数据库的操作能力(mysql)3.爬取效率4.代码量推荐语言时说明所需类库或者框架,谢谢。比如:python+MySQLdb+urllib2+reps:其实我不太喜欢用python(可能是在windows平台的原... 阅读全文
posted @ 2015-12-23 15:21 xxxxxxxx1x2xxxxxxx 阅读(610) 评论(0) 推荐(0)

摘要: //如果网页源码中有些内容是js渲染过来的,那你通过HttpClient直接取肯定取不到,但是这些数据一般都是通过异步请求传过来的(一般都是通过ajax的get或者post方式)。那么你可以通过火狐浏览器的firebug或者chrome的审查元素,在网络选项中找到这个请求地址,再用HttpClien... 阅读全文
posted @ 2015-12-23 12:59 xxxxxxxx1x2xxxxxxx 阅读(994) 评论(0) 推荐(0)

摘要: 一、研究生学位论文密级的确定 我校研究生学位论文密级划分为公开、内部、秘密、机密、绝密共五级。 密级确定为“内部”的学位论文,通常是指有待于公开发表的论文或准备据之申请专利或进行技术转让的科研项目的论文。 密级确定为国家“秘密”、“机密”和“绝密”的论文须有学校保密委员会办公室的批件。 保密年限:“... 阅读全文
posted @ 2015-12-23 10:15 xxxxxxxx1x2xxxxxxx 阅读(1610) 评论(0) 推荐(0)

上一页 1 ··· 219 220 221 222 223 224 225 226 227 ··· 367 下一页