随笔分类 -  爬虫

摘要:网络爬虫的本质就是通过域名加上特定的路由方式与远程资源建立一个短暂的连接,然后通过io流的方式读取。然后说一下jsoup,jsoup可以说是目前的爬虫工具包里面对java底层的工具类封装最简单的一种了,轻便很好用,但是有一些莫名奇妙的限制,用jsoup请求网络资源时,默认读取的最大长度是1024*1 阅读全文
posted @ 2018-10-22 14:44 释然的蛋 阅读(288) 评论(0) 推荐(1)
摘要:以Jsoup为例,x-www-form-urlencoded方式 application/json方式 阅读全文
posted @ 2018-05-25 17:05 释然的蛋 阅读(879) 评论(0) 推荐(0)
摘要:HttpClient 是Apache Jakarta Common 下的子项目,可以用来提供高效的、最新的、功能丰富的支持 HTTP 协议的客户端编程工具包,并且它支持 HTTP 协议最新的版本和建议。如果只是需要向Web站点的某个简单页面提交请求并获取服务器响应,HttpURLConnection 阅读全文
posted @ 2018-02-06 18:14 释然的蛋 阅读(11318) 评论(0) 推荐(2)
摘要:URLConnection类概述 URLConnection是个抽象类,它有两个直接子类分别是HttpURLConnection和JarURLConnection,它是基于Http协议的。另外一个重要的类是URL,通常URL可以通过传给构造器一个String类型的参数来生成一个指向特定地址的URL实 阅读全文
posted @ 2018-02-06 15:58 释然的蛋 阅读(584) 评论(0) 推荐(0)
摘要:需要的添加的jar包及工具:我这里使用maven来构建项目,添加依赖如下: <dependency> <groupId>org.seleniumhq.selenium</groupId> <artifactId>selenium-java</artifactId> <version>3.2.0</v 阅读全文
posted @ 2017-05-03 16:54 释然的蛋 阅读(15297) 评论(4) 推荐(0)
摘要:Webdriver执行JavaScript代码的方式 WebDriver driver = new ChromeDriver(); JavascriptExecutor jse = (JavascriptExecutor)driver; 1.直接传入JavaScript代码 jse.executeS 阅读全文
posted @ 2017-04-07 19:06 释然的蛋 阅读(838) 评论(0) 推荐(0)
摘要:推荐的网站学习网站 1.官方文档 http://www.seleniumhq.org/docs/ 2.selenium多线程 http://www.cnblogs.com/dingmy/p/3438084.html Selenium Standalone Server 搭建RC环境 1.下载Sele 阅读全文
posted @ 2017-03-28 17:32 释然的蛋 阅读(6241) 评论(0) 推荐(0)
摘要://这个函数的目的是在获取页面的同时,也获取链接对应的cookiepublic static HtmlPage getCookieAndHtml(String url)throws IOException{ URL link=new URL(url); WebClient wc=new WebCli 阅读全文
posted @ 2017-03-06 19:03 释然的蛋 阅读(541) 评论(0) 推荐(0)