随笔分类 -  爬虫

爬虫
摘要:1.服务器安装Ubuntu 20.01 64位,这个是LTS版本(不推荐用16.04,bug真多) 2.先在服务器上测试一下你的python环境,输入python3,再输入exit(),python版本是3.8.5(我用的阿里云镜像,室友用的腾讯云的镜像,但是他的python版本是3.8.2)。该U 阅读全文
posted @ 2021-03-28 19:03 爱时尚疯了的朱 阅读(314) 评论(0) 推荐(0)
摘要:1.有道字典网页端url http://fanyi.youdao.com/?keyfrom=dict2.top 2.页面分析 1).先输入chinesse,按下f12查看XHR 2).能看到网页通过ajax通过post提交数据。 3).接口地址是 http://fanyi.youdao.com/tr 阅读全文
posted @ 2021-02-11 12:16 爱时尚疯了的朱 阅读(104) 评论(0) 推荐(1)
摘要:用selenium做自动测试的时候,网页会显示这个。 这是因为用selenium启动谷歌浏览器的时候,为了保证最快的运行效率,启动了一个最初始化的浏览器,没有插件,没有历史记录等。 from selenium import webdriver # 下面两行代码就是设置启动配置项,加了的话就没有“Ch 阅读全文
posted @ 2021-02-08 13:15 爱时尚疯了的朱 阅读(2347) 评论(0) 推荐(0)
摘要:selenium相当于一个机器人,通过代码调用selenium这个类,来模拟人类在浏览器的一些行为,比如点击,填充数据,删除cookie等。 chromedriver是驱动chrome的驱动程序,使用它来能够驱动谷歌浏览器。 pip install selenium chromedriver下载地址 阅读全文
posted @ 2021-02-06 15:01 爱时尚疯了的朱 阅读(161) 评论(0) 推荐(0)
摘要:User-Agent用户代理,简称UA 。是识别用户的操作系统,CPU,浏览器的一串字符串。在用爬虫爬取数据的时候,频繁的更换UA可以尽可能的避免触发反爬机制。 fake-useragent可以频繁的更换UA,对爬虫用户很友好。 1.安装fake-useragent pip install fake 阅读全文
posted @ 2021-01-17 18:44 爱时尚疯了的朱 阅读(2812) 评论(0) 推荐(0)