《爬虫、数据清洗与可视化实战》零一等 - Akmendo

公告

@如果只是做统计和机器学习，下载anaconda

@如果robots.txt最后是

User Agent:*
Disallow:/

表示文本中前面部分的爬虫以外，不允许爬取。

@网页查看

源代码：ctrl+u

如果查看网页返回数据里面的url带有callback，用requests分析的时候url去掉这个参数%E9%9D%92%E5%B2%9B

@链接里面可能通过某种编译方法把汉字变为特殊字符串，如下？？？

https://touch.dujia.qunar.com/list?modules=mobFunction,configDepNew,extendFunction&dep=%E9%9D%92%E5%B2%9B&query=%E6%88%90%E9%83%BD%E8%87%AA%E7%94%B1%E8%A1%8C&originalquery=%E6%88%90%E9%83%BD%E8%87%AA%E7%94%B1%E8%A1%8C&ddf=true&needQStar=true

@去哪儿网城市列表

import requests
#在network里面的name里多找找网页相应的内容，通过内容找应该请求的url
url='https://touch.dujia.qunar.com/depCities.qunar'
r=requests.get(url)
a=r.json()
print(a)
print('=====')
#做不重复的城市名字列表
city_list=[]
for i in a['data'].items():
    for m in i[1]:
        print(m)
        if m not in city_list:
            city_list.append(m)
print(city_list)

@@@《网络爬虫》唐松

@修改请求头，但是那些项是必须的呢？

‘user-agent’

‘host’

@解析动态网页：审核元素找到真正目标链接和selenium

@AJAX：异步JavaScript和xml

@#在network里面的name里多找找网页相应的内容，通过内容找应该请求的url，再用json提取，但是url不好找。

@selenium使用

1.配置浏览器驱动（网络资料）

从http://chromedriver.storage.googleapis.com/index.html网址中下载与本机chrome浏览器对应的驱动程序，驱动程序名为chromedriver。版本需要和本机的chrome浏览器对应，才能正常使用。下载后把文件解压，然后放到本机chrome浏览器文件路径里。可以出发浏览器打开网页了：

from selenium import webdriver
chromedriver_address=r'C:\Users\sunlu\AppData\Local\Google\Chrome\Application\chromedriver.exe'
driver=webdriver.Chrome(chromedriver_address)
driver.get('https://www.cnblogs.com/senlinmu/p/9586136.html')

posted on 2018-10-11 14:53 Akmendo 阅读(795) 评论(0) 收藏举报

刷新页面返回顶部

AKmendo

公告