随笔分类 - Python爬虫
摘要:简介 我们可以从网上或者付费获取大量代理,但是这其中很多依然不可用,那么搭建高效的代理池,对代理ip进行筛选是十分必要的 准备工作: 安装Redis数据库,还需要安装aiohttp、requests、redis-py、pyquery、Flask库,安装流程请百度自行查询 由于文件内容较多,所以就不一
阅读全文
摘要:代理的设置 在urllib库中使用代理,代码如下: 显示为下面的情况,说明代理设置成功: 对于需要认证的代理,,只需要改变proxy变量,在代理前面加入代理认证的用户名密码即可:"username:password@113.116.50.182" 如果遇到了socks代理服务器: 采用socks协议
阅读全文
摘要:安装scrapy库 在E盘新建一个Scrapy文件夹,然后进入文件夹,shift+鼠标右键,然后打开命令窗口。 在命令行窗口里输入pip install scrapy,就会安装scrapy的最新版本,安装好了之后输入scrapy -h查看相应信息。 创建项目 在开始爬取之前,我们必须创建一个
阅读全文
摘要:简介 显示如下结果,代表编译没有问题 接下来,我们开始测试requests模块是否可以使用 修改上述代码中的 运行结果(出现下图代表你运行成功了): 接下来,我们实际下载一张图片试试,比如下面这张图片 图片链接:https://timgsa.baidu.com/timg?image&quality=
阅读全文
摘要:简介 哥们今天开始写写python爬虫相关的博客了,废话不多说,直接开干吧! 正所谓工欲善其事必先利其器,在开始进行爬虫之前,下载安装pychrom是十分必要的,代码的编写和运行都需要在pycharm中进行。 下面是pycharm的安装教程(Windows),基于其他平台的安装教程,可自行百度查找,
阅读全文

浙公网安备 33010602011771号