随笔分类 -  爬虫种种

爬虫:爬取海词的翻译内容
摘要:在爬取海词的时候遇到了一个问题,在异步加载的时候,需要一个t值,但是这个t值是js加载出来的,直接拼接的,我们无法从网页中得到; 当在搜索框输入单词的时候:你在干嘛 替换下图中的page的值就能达到翻页的目的: 那么当前的目的就是要能够找到这段js代码,同时获取对应输入的t的值,来重新组合url 真 阅读全文
posted @ 2016-08-29 11:37 细雨微光 阅读(1067) 评论(0) 推荐(0)
xpath提取目录下所有标签内的内容,递归 //text()
摘要:利用xpath来提取所有标签里面的内容,即使标签头不同 结果: 阅读全文
posted @ 2016-07-14 17:59 细雨微光 阅读(13378) 评论(1) 推荐(0)