2019-9-18练手爬虫日记

今天找了一个国外的网站练手，页面不是很难，就类似于主页面下面有很多子页面，使用火狐浏览器+xpath helper ，一切都像平时那样的随意，一切都很平常，但是在运行的时候将解析出来的数据进行打印，毫不犹豫的给到我了4个【】 ,ok没关系，代码出错了还好，接下来就从界面开始一点点的分析，沃德天，和我开始分析的一模一样，接下来开始质疑是不是js，沃德天，这个渣渣网站根本不是js，每个都是get方式，ok继续分析，沃德天，搞不出来了，那就问别人。

找了一个爬虫的群然后丢代码，丢问题，丢网站，丢自己尝试过的方式，丢自己目前的思路（这其实是提问的一种艺术）

里面先来了两个小白，居然质疑我的xpath解析式，我明明取的是@href ,他们居然告诉我要改成//text()，沃德天，谢谢你俩

后面来了一个应该和我差不多风采的，也许技术比我强那么一点点，但是他觉对没有我帅！

他使用的是这样的：//a[contains(@href,'.aspx')]/@href

contains()方法，查看了下xpath官方文档