爬虫试水

昨天晚上在群里听大佬聊了很久的爬虫,今天决定来练波手。

目标:有道翻


爬虫个人见解:

爬虫本质是一个向接口发请求,接受响应,再从响应中获取我们想要的内容。
不管是java还是python,甚至其他语言,只要可以充当一个浏览器客户端
的身份,向服务器发送请求,可以用来做爬虫,而且随着爬虫的流行,反爬
机制也在不断升级,对一些参数的加密,甚至隐藏,这都需要一个比较高的js
水平和调试能力。

1.进入页面,F12,看看我们需要的是哪些接口

![在这里插入图片描述](https://img-blog.csdnimg.cn/20200206220440375.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L1llbktvYw==,size_16,color_FFFFFF,t_70

1.1发现了这个接口是我们所需要的,然后我们再继续观察我们所需要的参数,有哪些

在这里插入图片描述

1.2每次刷新sign,slat,ts都在变化,说明这些玩意肯定经过特殊的处理,找找js,看看咋回事。

在这里插入图片描述
因为是翻译的接口,我优先去看这个fanyi的js,说不定有我们想要的。ctrl+f查找下我们的参数。
在这里插入图片描述
找到了我们所需要的。。。哈哈哈

1.4总结一下我们的参数。

ts:时间戳
bv:md5加密navigator.appVersion这个变量
salt:ts+加上一个100以内的随机数
sign:拼接"fanyide---"和我们输入的字符串和salt+"n...."之后md5加密

上脚本:

import requests
import time
import hashlib
import json
import urllib.parse
def md5encode(str):
    hash=hashlib.md5()
    hash.update(bytes(str,encoding="utf-8"))
    return hash.hexdigest()
def dictres(str1):
    navi="Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0"
    bv=md5encode(navi)  #加密md5
    ts=str(round(time.time()*1000))  ##时间戳
    salt=ts+"90"
    sign=md5encode("fanyideskweb" + str1 + salt + "n%A-rKaT5fb[Gy?;N5@Tj")  #将前面的两个参数拼接
    dicter={"smartresult": ["dict", "rule"],
         "i": str1,
            "from": "AUTO",
            "to": "AUTO",
            "smartresult": "dict",
            "client": "fanyideskweb",
                  "salt": salt,
            "sign": sign,
            "ts": ts,
                  "bv": bv,
            "doctype": "json", "version": "2.1", "keyfrom": "fanyi.web",
                  "action": "FY_BY_CLICKBUTTION"
        }
    return dicter
url="http://fanyi.youdao.com/translate_o?smartresult=dict&"
dicter=dictres("I Love")
dicter=urllib.parse.urlencode(dicter,encoding="utf-8")
headers={
"Host": "fanyi.youdao.com",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:72.0) Gecko/20100101 Firefox/72.0",
 "Accept":"application/json, text/javascript, */*; q=0.01",
"Accept-Language": "zh-CN,zh;q=0.8,zh-TW;q=0.7,zh-HK;q=0.5,en-US;q=0.3,en;q=0.2",
"Accept-Encoding": "gzip, deflate",
"Content-Type":"application/x-www-form-urlencoded; charset=UTF-8",
"X-Requested-With": "XMLHttpRequest",
"Content-Length": "241",
"Origin":"http://fanyi.youdao.com",
"Connection": "keep-alive",
"Referer": "http://fanyi.youdao.com/",
"Cookie": "OUDAO_MOBILE_ACCESS_TYPE=1; OUTFOX_SEARCH_USER_ID=415492750@10.169.0.84; JSESSIONID=aaay_N_BxKsAh94ZLNzax; ___rl__test__cookies=1580994034695; OUTFOX_SEARCH_USER_ID_NCOO=2106452202.0045033"
}
res=requests.post(url,data=dicter,headers=headers)
print(type(res))
finalres=res.json()
print(finalres['translateResult'][0][0]['tgt'])


posted @ 2020-02-06 22:16  YenKoc  阅读(128)  评论(0编辑  收藏  举报