爬虫1

爬取某东页面信息的代码:

#全代码
import requests
url='https://item.jd.com/6008133.html'
try:
    r=requests.get(url)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print (r.text[:1000])
except:
    print('爬取失败')

爬取Amazon某页面信息:

import requests
url='https://www.amazon.cn/dp/B00E192518/'
try:
    kv={'user-agent':'Mozilla/5.0'}#在这一行定义一个字典,用于修改headers
    r=requests.get(url,headers=kv)#将爬虫伪装成一个浏览器,这里针对的是Amazon网站的第一种反爬虫措施
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(r.text[1000:2000])
except:
    print('爬取失败')

 

posted @ 2018-03-16 00:05  歪胡子的日常  阅读(141)  评论(0编辑  收藏  举报