摘要: 向HtmlAgilityPack道歉:解析HTML还是你好用2012-02-07 22:253106人阅读评论(4)收藏举报去年写过一篇文章《解析HTML最好的类还是微软自己的》(http://www.cnblogs.com/rupeng/archive/2010/06/26/1765840.html),回复中有朋友提到可以使用HtmlAgilityPack来进行HTML的解析。当时只是匆匆的测试了一下,发现HtmlAgilityPack得到的InnerText中有很多的不干净的script、样式内容,就断定“不是很满意,解析DiscuzNT!论坛的帖子页面的时候有问题,没法正确得到Body. 阅读全文
posted @ 2012-02-17 21:41 Jadepark 阅读(337) 评论(0) 推荐(0) 编辑
摘要: 据说Jumony Parser是目前对HTML规范支持最好的HTML Parserhttp://www.cnblogs.com/Ivony/archive/2010/12/19/jumony-guide-1.html 阅读全文
posted @ 2012-02-16 20:48 Jadepark 阅读(341) 评论(0) 推荐(0) 编辑
摘要: 利用HtmlAgilityPack抓取XX网站图片并下载~~~~~~邪恶版。。。。 !!!--声明啊(运行后,我不是您想的那种人的。。。。。。)--!! 我看到已经有2人反对了这篇文章,真是打击呀,我也没怎么伤天害理嘛,手下留情,please...由于提前到了学校,昨晚逛博客园的时候,意外发现了HtmlAgilityPack这个好东东,是微软的一个类库,用来分析Html页面的结构啊,等等。。。。。不得不说,HtmlAgil... 阅读全文
posted @ 2012-02-16 20:43 Jadepark 阅读(1053) 评论(0) 推荐(0) 编辑
摘要: http://ishare.iask.sina.com.cn/f/6882132.html 阅读全文
posted @ 2010-04-17 10:52 Jadepark 阅读(440) 评论(0) 推荐(0) 编辑
摘要: 阅读全文
posted @ 2010-04-17 10:41 Jadepark 阅读(91) 评论(0) 推荐(0) 编辑
摘要: 1 爬虫模块2 索引模块采用二元分词存储3 搜索模块3.1 asp.net界面3.2 搜索方法privatevoidSearch(){//intstartAt,len;stringsearchStr=this.Q;stringprefix=this.T;SearchTestsearcher=newSearchTest();DateTimestart=DateTime.Now;//createthe... 阅读全文
posted @ 2007-08-06 16:05 Jadepark 阅读(1036) 评论(1) 推荐(0) 编辑
摘要: 如果对搜索引擎感兴趣,推荐给大家一本书,Jeff Heaton的《网络机器人java编程指南》。中文版,E文不好的这下不用头痛了。有需要的,可以留言给我。Jeff Heaton is an author, college instructor, and consultant. Jeff lives in Chesterfield (St. Louis), Missouri. The author of seven books and over two dozen journal and magazine articles, Jeff specializes in Internet, socke 阅读全文
posted @ 2007-08-06 15:39 Jadepark 阅读(1002) 评论(25) 推荐(0) 编辑
摘要: Highlighter.dll里面提供了一个函数GetBestFragments,居然不好用,没查到是什么原因。索性自己写一个,参数分别是:1 source,字符串,网页内容;2keyArr,字符串数组,关键字数组。protectedstringGetBestFragments(stringsource,string[]keyArr){stringresult;intstartMin,startM... 阅读全文
posted @ 2007-08-02 11:04 Jadepark 阅读(383) 评论(0) 推荐(0) 编辑
摘要: 几个Java的网络爬虫,有兴趣的可以参考一下,也可以改成C#的。我用过其中J-spider,只爬取网页,不做解析。感兴趣的可以把这个下载下来,看看源代码。我最初的爬虫就是用J-spider扩展的,后来因为字符的编码问题,就放弃了改用C#。 页面:http://www.open-open.com/68.htm Heritrix 点击次数:9563 Heritrix是一个开源,可扩展的web爬虫项目。... 阅读全文
posted @ 2007-08-02 09:09 Jadepark 阅读(5128) 评论(1) 推荐(0) 编辑
摘要: 做房产网站的垂直搜索,大多数网站的网页都是动态的,所以无法从response里面提取last-modified,而房产网页里面都带有时间,但是格式却不尽相同:有2007-10-01,2007年10月1日等等。所以就写了一个类专门提取时间,并把时间提取之后统一存为2007-01-01的格式。1publicstringGetPubdate()2{3intnDateStart;4StringstrDat... 阅读全文
posted @ 2007-08-01 13:24 Jadepark 阅读(801) 评论(3) 推荐(0) 编辑