Python日记——柿子要捡软的捏,记第一只小爬虫
2017.12.19
阅读了《零基础入门学习Python》一书第14章“论一只爬虫的自我修养”之后总想跃跃欲试实现一只自己的小爬虫,但可惜的是,或许因为这本书的读者太多,所以有道网站不堪其扰,故而增强了其反爬虫措施,即使伪装成浏览器访问得到的也是“系统检测到访问非法,商业合作请……”
于是乎,我秉承着柿子要捡软的捏的基本原则,模仿了一只访问金山词霸网站的小爬虫,效果非常之好,可以轻松实现不同语言之间的翻译。
金山网站的访问数据格式和返回数据都非常简洁,如图:


爬虫运行实例如下:

附代码:
import urllib.request as req
import urllib.parse as par
import json
f=input("请输入原语言:\n")
t=input("请输入目标语言:\n")
content = input("请输入翻译内容:\n")
head={}
head['Referer']='http://fy.iciba.com/'
head['User-Agent']='Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36'
url = 'http://fy.iciba.com/ajax.php?a=fy'
data={}
data["f"]=f
data["t"]=t
data["w"]=content
data=par.urlencode(data).encode('utf-8')#将data转换为标准格式
response=req.urlopen(url,data)
html=response.read().decode('utf-8')
target=json.loads(html)
print("翻译结果:%s"%(target['content']['out']))

浙公网安备 33010602011771号