01 2015 档案
摘要:今天在往数据库中插入数据的时候中文字符在数据库中就出现了乱码?网上有各种说法,但是适合我的,最终解决我的问题的只有下面一种!在创建数据库的时候,注意设置编码方式。CREATE DATABASE `database` CHARACTER SET 'utf8 ' COLL...
阅读全文
摘要:所以对于不再使用的工作空间,每次出现在eclipse的“文件”>>“切换工作空间”里面的时候就觉得特别不爽。所以认真研究了eclipse目录之后让我找到了,删除不需要工作空间记录的方法。打开eclipse的根目录 依次进入 configuration >> .settings 用notepad++打...
阅读全文
摘要:本文是Heritrix的使用的高级篇,针对对Heritrix已经能够运行的码农朋友们!我们在抓取网页的时候,网页的链接中往往会包含有js、css、图片、视频等文件,第一次执行抓取任务的时候,许多农民朋友们可能会发现抓取速度令人着急,可能是由于抓取了太多的不必要的数据文件,尤其是视频文件,少则几十...
阅读全文
摘要:jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。jsoup 的API地址:http://tool.oschina.net/apido...
阅读全文
摘要:Download Apache log4j 1.2.17下载:http://logging.apache.org/log4j/1.2/download.htmljsouphttp://jsoup.org/download#4649HtmlUnit下载地址:http://sourceforge.net...
阅读全文
摘要:使用Heritrix抓取到自己所需的网页后,还需要对网页中的内容进行分类等操作,这个时候就需要用到htmlparser,但是使用htmlparser并不是那么容易!因为相关的文档比较少,很多更能需要开发者自己去摸索,去发掘! 不过这里给大家提供一个比较好的网站(htmlparser的API):...
阅读全文
摘要:eclipsesvn插件Subclipse1.8.xUpdateSite:http://subclipse.tigris.org/update_1.8.x
阅读全文


浙公网安备 33010602011771号