@如果只是做统计和机器学习,下载anaconda
@如果robots.txt最后是
User Agent:*
Disallow:/
表示文本中前面部分的爬虫以外,不允许爬取。
@网页查看
源代码:ctrl+u
如果查看网页返回数据里面的url带有callback,用requests分析的时候url去掉这个参数%E9%9D%92%E5%B2%9B
@链接里面可能通过某种编译方法把汉字变为特殊字符串,如下???
https://touch.dujia.qunar.com/list?modules=mobFunction,configDepNew,extendFunction&dep=%E9%9D%92%E5%B2%9B&query=%E6%88%90%E9%83%BD%E8%87%AA%E7%94%B1%E8%A1%8C&originalquery=%E6%88%90%E9%83%BD%E8%87%AA%E7%94%B1%E8%A1%8C&ddf=true&needQStar=true
@去哪儿网城市列表
import requests #在network里面的name里多找找网页相应的内容,通过内容找应该请求的url url='https://touch.dujia.qunar.com/depCities.qunar' r=requests.get(url) a=r.json() print(a) print('=====') #做不重复的城市名字列表 city_list=[] for i in a['data'].items(): for m in i[1]: print(m) if m not in city_list: city_list.append(m) print(city_list)
@@@《网络爬虫》唐松
@修改请求头,但是那些项是必须的呢?
‘user-agent’
‘host’
@解析动态网页:审核元素找到真正目标链接和selenium
@AJAX:异步JavaScript和xml
@#在network里面的name里多找找网页相应的内容,通过内容找应该请求的url,再用json提取,但是url不好找。
@selenium使用
1.配置浏览器驱动(网络资料)
从http://chromedriver.storage.googleapis.com/index.html网址中下载与本机chrome浏览器对应的驱动程序,驱动程序名为chromedriver。版本需要和本机的chrome浏览器对应,才能正常使用。下载后把文件解压,然后放到本机chrome浏览器文件路径里。可以出发浏览器打开网页了:
from selenium import webdriver chromedriver_address=r'C:\Users\sunlu\AppData\Local\Google\Chrome\Application\chromedriver.exe' driver=webdriver.Chrome(chromedriver_address) driver.get('https://www.cnblogs.com/senlinmu/p/9586136.html')
2.