2017年12月28日

摘要: 正则表达式在写爬虫,预处理数据时非常好用,但也很难记住,以下进行简单整理。 \d:数字 \w:字母、数字、下划线 \s:空格 .:除换行符外任意一个字符 \b:匹配单词边界 (改成大写,意义相反) \n:换行 ?:0或1个字符 +:至少一个字符 *:任意数量字符 {n}:n个字符 {n,m}:n到m 阅读全文
posted @ 2017-12-28 17:54 qinhyu 阅读(862) 评论(0) 推荐(0)

2017年12月19日

摘要: 想要爬取动态网页,很莫名的click失效。被这个问题困扰了很久,基本上把网上提到的所有方法试遍了,最终终于有个方法成功了,在这里总结一下。 这是我想要点击的网页,初始时实在0.5km上,它的class属性是‘on’,想要点击到2km 方法一:直接用webdriver的click方法,失效。 text 阅读全文
posted @ 2017-12-19 20:55 qinhyu 阅读(16144) 评论(3) 推荐(3)

2017年12月15日

摘要: 1、爬取过程中的302重定向 在爬取某个网站速度过快或者发出的请求过多的时候,网站会向你所在的客户端发送一个链接,需要你去验证图片。我在爬链家和拉钩网的过程中就曾经遇到过: 对于302重定向的问题,是由于抓取速度过快引起网络流量异常,服务器识别出是机器发送的请求,于是将请求返回链接定到某一特定链接, 阅读全文
posted @ 2017-12-15 10:42 qinhyu 阅读(350) 评论(0) 推荐(0)

2017年12月13日

摘要: windows--> preference--> PyDev --> Editor --> Templates 点击New,新建一个template,输入name(之后选择这个名字的template),随便写description,最后将自己要实现的开头注释放在partten里。 context选择 阅读全文
posted @ 2017-12-13 21:08 qinhyu 阅读(706) 评论(0) 推荐(1)

2017年12月11日

摘要: 起初遇到这个问题的时候便得知无法返回,那么为了达到相同的目的,该怎么办呢? 第一个想法便是 这种的好处是非常简洁,返回一个数组指针,C++是允许返回指针的,但必须在方法里面好好赋值,也就是说“do something”的时候,如果添加到want这个数组的个数是不确定的时候(此方法多次调用的时候) 就 阅读全文
posted @ 2017-12-11 20:46 qinhyu 阅读(3158) 评论(0) 推荐(1)