Your browser does not support the audio element.

随笔分类 -  爬虫

摘要:最近需要写爬虫,在解决docker-standalone-chrome 发现只能有一个chrome被执行。所以写了这个多线程并发控制类来管理。当模板记录下。 #! /usr/bin/env python3 import threading import traceback from loguru i 阅读全文
posted @ 2024-10-23 09:26 happy_codes 阅读(106) 评论(0) 推荐(0)
摘要:一、windows 前置安装 安装win32api包: 安装Twisted,需要此 "非官方库" 中间部分找到类似如下: Twisted, an event driven networking engine. Twisted‑19.2.1‑cp27‑cp27m‑win32.whl Twisted‑1 阅读全文
posted @ 2019-07-02 11:57 happy_codes 阅读(530) 评论(0) 推荐(0)
摘要:selenium + chrome 很多难以采集的网站都使用selenium爬取,但是后来发现selenium有特征值,会被检测出来,今天来小结一下反反爬方案 测试网站 全绿好像代表没被检测出 中间人修改js 网上很多都是这种博客,不知道靠不靠谱 pyppeteer 这种python的异步请求库,似 阅读全文
posted @ 2019-03-18 15:57 happy_codes 阅读(5990) 评论(1) 推荐(1)
摘要:一、docker安装 Ubuntu 1.检查内核版本大于3.10 unama -a 2.更新apt源 sudo apt-get update 3.安装docker sudo apt-get install -y docker.io 4.(建议)更新成国内源 为了永久性保留更改,您可以修改 /etc/ 阅读全文
posted @ 2019-02-20 16:27 happy_codes 阅读(996) 评论(0) 推荐(0)
摘要:这几天,又用到了scrapy框架写爬虫,感觉忘得差不多了,虽然保存了书签,但有些东西,还是多写写才好啊 首先,官方而经典的的开发手册那是需要的: https://doc.scrapy.org/en/latest/intro/tutorial.html 一、创建项目 命令行cd到合适的目录: 就新建了 阅读全文
posted @ 2019-01-23 14:45 happy_codes 阅读(1005) 评论(0) 推荐(0)
摘要:Scrapy命令和备注 1.创建一个新项目(命令行) project是项目名 2.调试项目(pycharm) 在pycharm中新建cmdline.py 加断点,debug运行即可 3.暂停和重启项目(命令行) spidername是爬虫的名字 JOB_DIR是写在项目的settings.py中的 阅读全文
posted @ 2018-11-30 15:44 happy_codes 阅读(172) 评论(0) 推荐(0)
摘要:爬取虎牙直播分类页面的主播的头像,名字,人气 今天学习了python3爬虫,上课闲着无聊,自己写了一个爬虫 就顺着老师思路 爬了虎牙直播分类页面的主播,头像,名字,和人气 HuYaCateScrapy.py 1 #!/usr/bin/python 2 # -*- coding: utf-8 -*- 阅读全文
posted @ 2018-08-08 17:15 happy_codes 阅读(449) 评论(0) 推荐(0)