随笔分类 -  爬虫知识总结_WebMagic

摘要:【1.获取一个页面所有的链接】 【运行结果】 【02】 【运行结果】 【03.根据id获取对应的Element】 【运行结果】 【04】 【运行结果】 【05】 【运行结果】 【06】 【运行结果】 阅读全文
posted @ 2017-03-01 14:11 HigginCui 阅读(580) 评论(0) 推荐(0)
摘要:本来是想抓取博客园的博客推荐的页面的,但由于一些博客进去的页面格式都不太相同,一时不想花时间去寻找规律,发现CSDN上面的格式较为单一,就决定以CSDN推荐专家的个人博客信息作为爬虫抓取的目标。 【首先,查看一下CSDN的推荐专家的页面】 【然后再查看一下主页面】 准备用爬虫获取一下几个变量 1.姓 阅读全文
posted @ 2016-08-31 20:01 HigginCui 阅读(1274) 评论(0) 推荐(0)
摘要:【简述】 本篇内容简单写了一个爬取网页的的邮箱内容。 网址就是一个博客园自己的测试网址:http://www.cnblogs.com/HigginCui/p/5809835.html 【代码】 【运行结果】 阅读全文
posted @ 2016-08-26 20:12 HigginCui 阅读(635) 评论(0) 推荐(0)
摘要:【小结:对比 匹配、替换、切割、获取】 1.匹配:只想知道字符串是对是错 2.替换:将已有的字符串变成另外一个字符串 3.切割:想要按照自定的方式将字符串变成多个子字符串。即获得规则以外的子串。 4.获取:想要获取符合需求的字符串子串。即获取满足规则的子串。 【案例1:将下列字符串转换成" 我要学编 阅读全文
posted @ 2016-08-26 19:43 HigginCui 阅读(146) 评论(0) 推荐(0)
摘要:【获取】 将字符串中符合规则的子串取出。 【简述关键几个知识点】 1. 类Patern 正则表达式的编译表示形式。 指定为字符串的正则表达式必须首先被编译为此类的实例。 可将得到的模式用于创建Matcher对象,依照正则表达式,该对象可以与任意字符序列匹配。 典型的调用顺序 【案例】 运行结果 2. 阅读全文
posted @ 2016-08-26 19:22 HigginCui 阅读(272) 评论(0) 推荐(0)
摘要:【替换】 public String replaceAll( String regex,String replacement ); 使用给定的 replacement 替换此字符串所有匹配给定的正则表达式的 子字符串 。 str.replaceAll(regex,repl)方法等同于 Pattern 阅读全文
posted @ 2016-08-26 18:52 HigginCui 阅读(292) 评论(0) 推荐(0)
摘要:【切割】 public String[] split(String regex) 根据给定的正则表达式拆分此字符串。 regex:定界正则表达式 返回一个切割后的字符串数组 【1.简单的按照空格切割】 【2.按照多个空格进行切割】 【3.按照 "." 进行切割】 【4.按照盘符切割】 注意:在定义s 阅读全文
posted @ 2016-08-26 18:40 HigginCui 阅读(255) 评论(0) 推荐(0)
摘要:【正则表达式简述】 含义:符合一定规则的表达式 作用:专门用于操作字符串 特点:用一些特殊的符号来表示一些代码的操作,这样可以简化书写。学习正则表达式就是学习一些特殊符号的使用。 有点:极大简化了对字符串的复杂操作。 【匹配】 使用 String matches方法。 用规则匹配整个字符串,只要有一 阅读全文
posted @ 2016-08-26 17:31 HigginCui 阅读(668) 评论(0) 推荐(0)
摘要:该页是爬虫的测试页请忽略 1234545@qq.comadasdsdasdsad阿打算多少其热情为 asdasdasdasd4w5wsdvv啊实打实大 啊实打实大asdasdasd阿斯达是打算 123@qq.com啊实打实大 adq34qcfadsf啊实打实大as>/a.dqwwrko89u3402 阅读全文
posted @ 2016-08-26 11:59 HigginCui 阅读(203) 评论(0) 推荐(0)