随笔分类 - 爬虫
摘要:概述 WebDriver一般用于测试 执行脚本 1.驱动包 WebDriver 不同的浏览器不同的驱动包 2.驱动包技术一个chrome.exe的程序,放到环境变量中,一般放在C:windows里面 3.驱动包的版本要和浏览器兼容 4.要编写自动化的脚本 驱动下载 Chrome各版本驱动的下载地址h
阅读全文
摘要:1.请求技术 URLConnection HttpClient 2.解析技术 Html Jsoup XML xPath Json Gson(Google)/FastJson(alibaba) 3.模拟器技术 4.抓包技术
阅读全文
摘要:public static void main(String[] args) { //爬取最大资源网上的数据 //用CSS选择器 try { Document doc = Jsoup.parse(new URL("http://zuidazy2.net/"), 2000); Elements li
阅读全文
摘要://爬虫://1.请求到某个网站去//2.返回一些HTML代码//3.从HTML代码提取你想要的信息 HTML解析//4.如果这些HTML中又有你感兴趣的内容//5.递归爬取//准备好网址 URL url = new URL("http://zuidazy2.net/"); //准备好连接 java
阅读全文

浙公网安备 33010602011771号