AKmendo

  博客园  :: 首页  :: 新随笔  ::  :: 订阅 订阅  :: 管理

@如果只是做统计和机器学习,下载anaconda

@如果robots.txt最后是

User Agent:*
Disallow:/

表示文本中前面部分的爬虫以外,不允许爬取。

@网页查看

源代码:ctrl+u

如果查看网页返回数据里面的url带有callback,用requests分析的时候url去掉这个参数%E9%9D%92%E5%B2%9B

@链接里面可能通过某种编译方法把汉字变为特殊字符串,如下???

https://touch.dujia.qunar.com/list?modules=mobFunction,configDepNew,extendFunction&dep=%E9%9D%92%E5%B2%9B&query=%E6%88%90%E9%83%BD%E8%87%AA%E7%94%B1%E8%A1%8C&originalquery=%E6%88%90%E9%83%BD%E8%87%AA%E7%94%B1%E8%A1%8C&ddf=true&needQStar=true

@去哪儿网城市列表

import requests
#在network里面的name里多找找网页相应的内容,通过内容找应该请求的url
url='https://touch.dujia.qunar.com/depCities.qunar'
r=requests.get(url)
a=r.json()
print(a)
print('=====')
#做不重复的城市名字列表
city_list=[]
for i in a['data'].items():
    for m in i[1]:
        print(m)
        if m not in city_list:
            city_list.append(m)
print(city_list)

 

 

@@@《网络爬虫》唐松

@修改请求头,但是那些项是必须的呢?

‘user-agent’

‘host’

@解析动态网页:审核元素找到真正目标链接和selenium

@AJAX:异步JavaScript和xml

@#在network里面的name里多找找网页相应的内容,通过内容找应该请求的url,再用json提取,但是url不好找。

@selenium使用

1.配置浏览器驱动(网络资料)

 

http://chromedriver.storage.googleapis.com/index.html网址中下载与本机chrome浏览器对应的驱动程序,驱动程序名为chromedriver。版本需要和本机的chrome浏览器对应,才能正常使用。下载后把文件解压,然后放到本机chrome浏览器文件路径里。可以出发浏览器打开网页了:

from selenium import webdriver
chromedriver_address=r'C:\Users\sunlu\AppData\Local\Google\Chrome\Application\chromedriver.exe'
driver=webdriver.Chrome(chromedriver_address)
driver.get('https://www.cnblogs.com/senlinmu/p/9586136.html')

2.

 

posted on 2018-10-11 14:53  Akmendo  阅读(767)  评论(0编辑  收藏  举报