爬虫1

爬取某东页面信息的代码：

#全代码
import requests
url='https://item.jd.com/6008133.html'
try:
    r=requests.get(url)
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print (r.text[:1000])
except:
    print('爬取失败')

爬取Amazon某页面信息：

import requests
url='https://www.amazon.cn/dp/B00E192518/'
try:
    kv={'user-agent':'Mozilla/5.0'}#在这一行定义一个字典，用于修改headers
    r=requests.get(url,headers=kv)#将爬虫伪装成一个浏览器，这里针对的是Amazon网站的第一种反爬虫措施
    r.raise_for_status()
    r.encoding=r.apparent_encoding
    print(r.text[1000:2000])
except:
    print('爬取失败')

posted @ 2018-03-16 00:05 歪胡子的日常阅读(152) 评论(0) 收藏举报

刷新页面返回顶部

invictus maneo

爬虫1

公告