随笔分类 - java爬虫相关
摘要:Jsoup爬虫学习--获取智联招聘(老网站)的全国java职位信息,爬取10页,输出 职位名称*****公司名称*****职位月薪*****工作地点*****发布日期 输出结果示例: 产品经理??*****微贷(杭州)金融信息服务有限公司*****4500-8000*****杭州-滨江区*****置
阅读全文
摘要:Jsoup爬虫学习--获取网页所有的图片,链接和其他信息,并检查url和文本信息 此例将页面图片和url全部输出,重点不太明确,可根据自己的需要输出和截取; 此处还用到了java占位符: int year=2017; int month=6; int day=1;</P> String str=St
阅读全文
摘要:CSS选择器用于选择你想要的元素的样式的模式。 "CSS"列表示在CSS版本的属性定义(CSS1,CSS2,或对CSS3)。
阅读全文
摘要:selenium webdriver学习 实现简单的翻页,将页面内容的标题和标题链接取出; 该情况适合能能循环page=1~n,并且每个网页随着循环可以打开的情况, 注意一定是自己拼接的url可以打开,如:http://ask.testfan.cn/articles?page=15,就可以翻到文章分
阅读全文
摘要:selenium webdriver学习 三种等待时间方法:显式等待,隐式等待,强制等待 本例包括窗口最大化,刷新,切换到指定窗口,后退,前进,获取当前窗口url等操作; 注意,如果显式等待搜索的内容不存在,则会跑出异常;
阅读全文
摘要:描述:selenium webdriver学习--打开新窗口,并判断新窗口是否与目标窗口一致,若一致则切换到该窗口并获取标题 跳出if判断,获取父级标题,并关闭 HTML标签不太明显时,可以用路径表示: driver.findElement(By.xpath("/html/body/div/div[
阅读全文
摘要:selenium webdriver学习,选择模块,点击下一页,获取当前url 查找下一页有多种方法,这里列举两种; isSelected()函数用于判断是否点击选中,返回Boolean类型 本例主要用到:通过linktext来查找元素
阅读全文
摘要:selenium webdriver学习--通过id、name定位,输入内容,搜索,关闭操作;通过tagname查找元素 打开谷歌浏览器,输入不同的网站,搜索框的定位含有不同元素(有时为id,有时为name) 通过tagname查找元素 本例主要用到//通过id定位所搜框 WebElement se
阅读全文
摘要:主题:java 爬虫--爬取'阿里指数'网站的每个分类的top50 相关数据; 网站网址为:http://index.1688.com/alizs/top.htm?curType=offer&userType=purchaser&cat=7 需求:爬取数码电脑下的每个细分分类下的所有top50数据;
阅读全文