随笔分类 - 爬虫
爬虫
摘要:1.服务器安装Ubuntu 20.01 64位,这个是LTS版本(不推荐用16.04,bug真多) 2.先在服务器上测试一下你的python环境,输入python3,再输入exit(),python版本是3.8.5(我用的阿里云镜像,室友用的腾讯云的镜像,但是他的python版本是3.8.2)。该U
阅读全文
摘要:1.有道字典网页端url http://fanyi.youdao.com/?keyfrom=dict2.top 2.页面分析 1).先输入chinesse,按下f12查看XHR 2).能看到网页通过ajax通过post提交数据。 3).接口地址是 http://fanyi.youdao.com/tr
阅读全文
摘要:用selenium做自动测试的时候,网页会显示这个。 这是因为用selenium启动谷歌浏览器的时候,为了保证最快的运行效率,启动了一个最初始化的浏览器,没有插件,没有历史记录等。 from selenium import webdriver # 下面两行代码就是设置启动配置项,加了的话就没有“Ch
阅读全文
摘要:selenium相当于一个机器人,通过代码调用selenium这个类,来模拟人类在浏览器的一些行为,比如点击,填充数据,删除cookie等。 chromedriver是驱动chrome的驱动程序,使用它来能够驱动谷歌浏览器。 pip install selenium chromedriver下载地址
阅读全文
摘要:User-Agent用户代理,简称UA 。是识别用户的操作系统,CPU,浏览器的一串字符串。在用爬虫爬取数据的时候,频繁的更换UA可以尽可能的避免触发反爬机制。 fake-useragent可以频繁的更换UA,对爬虫用户很友好。 1.安装fake-useragent pip install fake
阅读全文

浙公网安备 33010602011771号