随笔分类 - 爬虫
摘要:最近需要写爬虫,在解决docker-standalone-chrome 发现只能有一个chrome被执行。所以写了这个多线程并发控制类来管理。当模板记录下。 #! /usr/bin/env python3 import threading import traceback from loguru i
阅读全文
摘要:一、windows 前置安装 安装win32api包: 安装Twisted,需要此 "非官方库" 中间部分找到类似如下: Twisted, an event driven networking engine. Twisted‑19.2.1‑cp27‑cp27m‑win32.whl Twisted‑1
阅读全文
摘要:selenium + chrome 很多难以采集的网站都使用selenium爬取,但是后来发现selenium有特征值,会被检测出来,今天来小结一下反反爬方案 测试网站 全绿好像代表没被检测出 中间人修改js 网上很多都是这种博客,不知道靠不靠谱 pyppeteer 这种python的异步请求库,似
阅读全文
摘要:一、docker安装 Ubuntu 1.检查内核版本大于3.10 unama -a 2.更新apt源 sudo apt-get update 3.安装docker sudo apt-get install -y docker.io 4.(建议)更新成国内源 为了永久性保留更改,您可以修改 /etc/
阅读全文
摘要:这几天,又用到了scrapy框架写爬虫,感觉忘得差不多了,虽然保存了书签,但有些东西,还是多写写才好啊 首先,官方而经典的的开发手册那是需要的: https://doc.scrapy.org/en/latest/intro/tutorial.html 一、创建项目 命令行cd到合适的目录: 就新建了
阅读全文
摘要:Scrapy命令和备注 1.创建一个新项目(命令行) project是项目名 2.调试项目(pycharm) 在pycharm中新建cmdline.py 加断点,debug运行即可 3.暂停和重启项目(命令行) spidername是爬虫的名字 JOB_DIR是写在项目的settings.py中的
阅读全文
摘要:爬取虎牙直播分类页面的主播的头像,名字,人气 今天学习了python3爬虫,上课闲着无聊,自己写了一个爬虫 就顺着老师思路 爬了虎牙直播分类页面的主播,头像,名字,和人气 HuYaCateScrapy.py 1 #!/usr/bin/python 2 # -*- coding: utf-8 -*-
阅读全文

浙公网安备 33010602011771号