Python日记——柿子要捡软的捏,记第一只小爬虫

2017.12.19

阅读了《零基础入门学习Python》一书第14章“论一只爬虫的自我修养”之后总想跃跃欲试实现一只自己的小爬虫,但可惜的是,或许因为这本书的读者太多,所以有道网站不堪其扰,故而增强了其反爬虫措施,即使伪装成浏览器访问得到的也是“系统检测到访问非法,商业合作请……”

于是乎,我秉承着柿子要捡软的捏的基本原则,模仿了一只访问金山词霸网站的小爬虫,效果非常之好,可以轻松实现不同语言之间的翻译。

金山网站的访问数据格式和返回数据都非常简洁,如图:

爬虫运行实例如下:

附代码:

import urllib.request as req
import urllib.parse as par
import json
f=input("请输入原语言:\n")
t=input("请输入目标语言:\n")
content = input("请输入翻译内容:\n")

head={}
head['Referer']='http://fy.iciba.com/'
head['User-Agent']='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'

url = 'http://fy.iciba.com/ajax.php?a=fy'
data={}
data["f"]=f
data["t"]=t
data["w"]=content
data=par.urlencode(data).encode('utf-8')#将data转换为标准格式
response=req.urlopen(url,data)
html=response.read().decode('utf-8')
target=json.loads(html)
print("翻译结果:%s"%(target['content']['out']))

  

 

posted @ 2017-12-19 21:54  东方少侠  阅读(156)  评论(0)    收藏  举报