摘要:        
利用爬虫技术获取网页源代码后,针对网页抽取出它的特定文本内容,利用正则表达式和抽取工具,能够更好地抽取这些内容。 下面介绍一种抽取工具 -- HtmlParser HtmlParser是一个用来解析HTML文件的java包,主要用于转换、抽取两个方面。 利用HtmlParser可以实现下面内容的抽取    阅读全文
        
            posted @ 2013-12-11 14:31
lmei
阅读(1411)
评论(2)
推荐(1)
        
        
            
        
        
摘要:        
网络爬虫的基本操作是抓取网页。首先要了解下URL~~ 在理解URL之前,先了解下URI,这两个概念我曾经混淆过~@_@|| 什么是URI? Web上每种可用的资源,如:html文档、视频,图片等都由一个通用的资源标志符(Universal Resources Identifier,即URI)进行定位    阅读全文
        
            posted @ 2013-12-11 13:54
lmei
阅读(1451)
评论(0)
推荐(0)
        
        
 
                    
                     
                    
                 
                    
                 
         浙公网安备 33010602011771号
浙公网安备 33010602011771号