爬虫 - 随笔分类 - happy_codes

selenium单例模式下 docker-chrome 多线程并发代码

摘要：最近需要写爬虫，在解决docker-standalone-chrome 发现只能有一个chrome被执行。所以写了这个多线程并发控制类来管理。当模板记录下。 #! /usr/bin/env python3 import threading import traceback from loguru i 阅读全文

posted @ 2024-10-23 09:26 happy_codes 阅读(144) 评论(0) 推荐(0)

python3.6安装Scrapy

摘要：一、windows 前置安装安装win32api包: 安装Twisted，需要此 "非官方库" 中间部分找到类似如下： Twisted, an event driven networking engine. Twisted‑19.2.1‑cp27‑cp27m‑win32.whl Twisted‑1 阅读全文

posted @ 2019-07-02 11:57 happy_codes 阅读(534) 评论(0) 推荐(0)

selenium + chrome 被检测，反反爬小记

摘要：selenium + chrome 很多难以采集的网站都使用selenium爬取，但是后来发现selenium有特征值，会被检测出来，今天来小结一下反反爬方案测试网站全绿好像代表没被检测出中间人修改js 网上很多都是这种博客，不知道靠不靠谱 pyppeteer 这种python的异步请求库，似阅读全文

posted @ 2019-03-18 15:57 happy_codes 阅读(5997) 评论(1) 推荐(1)

ubuntu安装Docker并部署selenium-grid

摘要：一、docker安装 Ubuntu 1.检查内核版本大于3.10 unama -a 2.更新apt源 sudo apt-get update 3.安装docker sudo apt-get install -y docker.io 4.(建议)更新成国内源为了永久性保留更改，您可以修改 /etc/ 阅读全文

posted @ 2019-02-20 16:27 happy_codes 阅读(1009) 评论(0) 推荐(0)

Scrapy使用详细记录

摘要：这几天，又用到了scrapy框架写爬虫，感觉忘得差不多了，虽然保存了书签，但有些东西，还是多写写才好啊首先，官方而经典的的开发手册那是需要的： https://doc.scrapy.org/en/latest/intro/tutorial.html 一、创建项目命令行cd到合适的目录：就新建了阅读全文

posted @ 2019-01-23 14:45 happy_codes 阅读(1014) 评论(0) 推荐(0)

Scrapy命令和备注

摘要：Scrapy命令和备注 1.创建一个新项目(命令行) project是项目名 2.调试项目(pycharm) 在pycharm中新建cmdline.py 加断点，debug运行即可 3.暂停和重启项目(命令行) spidername是爬虫的名字 JOB_DIR是写在项目的settings.py中的阅读全文

posted @ 2018-11-30 15:44 happy_codes 阅读(180) 评论(0) 推荐(0)

python3 简单爬虫

摘要：爬取虎牙直播分类页面的主播的头像，名字，人气今天学习了python3爬虫，上课闲着无聊，自己写了一个爬虫就顺着老师思路爬了虎牙直播分类页面的主播，头像，名字，和人气 HuYaCateScrapy.py 1 #!/usr/bin/python 2 # -*- coding: utf-8 -*- 阅读全文

posted @ 2018-08-08 17:15 happy_codes 阅读(456) 评论(0) 推荐(0)

happy_code

随笔分类 - 爬虫

公告