会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
yyyyyyyyyyyyyyyyyyyy
博客园
首页
新随笔
联系
订阅
管理
公告
2015年12月23日
#
Maven, Ivy, Grape, Gradle, Buildr, SBT, Leiningen, ant
摘要: Maven, Ivy, Grape, Gradle, Buildr, SBT, Leiningen, ant
阅读全文
posted @ 2015-12-23 18:34 xxxxxxxx1x2xxxxxxx
阅读(370)
评论(0)
推荐(0)
基于 Apache Mahout 构建社会化推荐引擎
摘要: 基于 Apache Mahout 构建社会化推荐引擎http://www.ibm.com/developerworks/cn/views/java/libraryview.jsp推荐引擎利用特殊的信息过滤(IF,Information Filtering)技术,将不同的内容(例如电影、音乐、书籍、新...
阅读全文
posted @ 2015-12-23 16:56 xxxxxxxx1x2xxxxxxx
阅读(202)
评论(0)
推荐(0)
Berkeley DB 使用
摘要: http://www.ibm.com/developerworks/cn/linux/l-embdb/index.htmlUNIX/LINUX平台下的数据库种类非常多,参考资料1中 列举了其中的大部分。通常,我们在设计UNIX/LINUX平台下的应用软件时,如果数据种类繁多,数据与数据之间关系比较复...
阅读全文
posted @ 2015-12-23 16:55 xxxxxxxx1x2xxxxxxx
阅读(297)
评论(0)
推荐(0)
linux编程进阶书推荐APUE,UNP
摘要: 编程进阶这里强烈推荐《unix环境高级编程》(简称APUE)和《unix网络编程》(简称UNP),这两本书可是经典中的经典啊,作者是大名鼎鼎的 W.Richard Stevens,可惜在1998年不幸逝世。全世界的unix/linux黑客没有哪一位没有认真研读过这两本书。如果您想成为高手,不用想,这...
阅读全文
posted @ 2015-12-23 16:52 xxxxxxxx1x2xxxxxxx
阅读(4304)
评论(1)
推荐(0)
算法书推荐《离散数学及其应用》和《算法导论》
摘要: 算法学习算法可是计算机编程的灵魂哦,很多初级程序员觉得平时很少用到算法,也觉得算法不重要,其实那是大错特错。算法时时刻刻影响着我们编写的代码,实现同样的功能高手写的程序可能只需要1秒钟的运行时间就可以求解,刚入道的程序员可能写的代码需要花费100秒才能求解,差异是何其之大!再说,即使平时编程真的很少...
阅读全文
posted @ 2015-12-23 16:51 xxxxxxxx1x2xxxxxxx
阅读(498)
评论(0)
推荐(0)
nutch搏斗之一
摘要: nutch搏斗之一问题描述:在用nutch1.0做generate 包括5亿url的crawldb时,它默认按照64M分块,分成777个map task,在运行的后期出现Could not find taskTracker/jobcache/job_200903231519_0017/attempt...
阅读全文
posted @ 2015-12-23 16:49 xxxxxxxx1x2xxxxxxx
阅读(125)
评论(0)
推荐(0)
Nutch+HBase
摘要: Nutch+HBase当我们为nutch的架构发愁的时候,nutch的开发人员送来了nutchbase。我一些简单的测试表明,在hadoop0.20.1和hbase0.20.2上,稍加修改可以运行起来。它的优点很明显:架构合理.开发者是这样说的,引用自jirahttp://issues.apache...
阅读全文
posted @ 2015-12-23 16:49 xxxxxxxx1x2xxxxxxx
阅读(160)
评论(0)
推荐(0)
WebKit爬虫
摘要: https://github.com/emyller/webkitcrawler一个开源的项目,可以快速入门。http://spiderformysql.com/http://crawl.group.iteye.com/关于爬虫的一个坛子,主要是Java开源组件Heritrix,nutch爬虫的源码...
阅读全文
posted @ 2015-12-23 16:35 xxxxxxxx1x2xxxxxxx
阅读(224)
评论(0)
推荐(0)
phantomjs,selenium,pyv8,pythonwebkit,,,,,,,,,,,,,
摘要: Pyv8,PythonWebKit,Selenium,PhantomJS,Ghost.py 等等。。。。快速构建实时抓取集群[searchtb]定义:http://i.cnblogs.com/EditPosts.aspx?opt=1首先,我们定义一下定向抓取,定向抓取是一种特定的抓取需求,目标站点...
阅读全文
posted @ 2015-12-23 16:34 xxxxxxxx1x2xxxxxxx
阅读(256)
评论(0)
推荐(0)
浏览器内核比较
摘要: 现在网络上浏览器是风生水起,IE、Opera、Firefox、Safari、The World还有现在的Chrome,360,TT,搜狗 等。那可谓是百家争鸣。看似许多不同的浏览器,其实其中还是有很多相似之处。 浏览器最重要或者说核心的部分是“Rendering Engine”,可大概译为“...
阅读全文
posted @ 2015-12-23 16:13 xxxxxxxx1x2xxxxxxx
阅读(140)
评论(0)
推荐(0)
PHP, Python, Node.js 哪个比较适合写爬虫?
摘要: PHP, Python, Node.js 哪个比较适合写爬虫?1.对页面的解析能力2.对数据库的操作能力(mysql)3.爬取效率4.代码量推荐语言时说明所需类库或者框架,谢谢。比如:python+MySQLdb+urllib2+reps:其实我不太喜欢用python(可能是在windows平台的原...
阅读全文
posted @ 2015-12-23 15:21 xxxxxxxx1x2xxxxxxx
阅读(614)
评论(0)
推荐(0)
java模拟浏览器包selenium整合了htmlunit,火狐浏览器,IE浏览器,opare浏览器驱
摘要: //如果网页源码中有些内容是js渲染过来的,那你通过HttpClient直接取肯定取不到,但是这些数据一般都是通过异步请求传过来的(一般都是通过ajax的get或者post方式)。那么你可以通过火狐浏览器的firebug或者chrome的审查元素,在网络选项中找到这个请求地址,再用HttpClien...
阅读全文
posted @ 2015-12-23 12:59 xxxxxxxx1x2xxxxxxx
阅读(999)
评论(0)
推荐(0)
论文密级
摘要: 一、研究生学位论文密级的确定 我校研究生学位论文密级划分为公开、内部、秘密、机密、绝密共五级。 密级确定为“内部”的学位论文,通常是指有待于公开发表的论文或准备据之申请专利或进行技术转让的科研项目的论文。 密级确定为国家“秘密”、“机密”和“绝密”的论文须有学校保密委员会办公室的批件。 保密年限:“...
阅读全文
posted @ 2015-12-23 10:15 xxxxxxxx1x2xxxxxxx
阅读(1617)
评论(0)
推荐(0)
博客园
© 2004-2025
浙公网安备 33010602011771号
浙ICP备2021040463号-3