随笔分类 -  爬虫

摘要:一、自定义命令 1.不用在命令窗口 敲命令,通过py文件执行爬虫程序。 (1)在项目配置文件scrapy.cfg同级目录下创建一个start.py 文件。 (2)在start.py 文件中写入以下代码: from scrapy.cmdline import execute execute(['scr 阅读全文
posted @ 2023-10-26 22:38 冰底熊 阅读(81) 评论(0) 推荐(0)
摘要:scrapy 爬虫类 一. 重写 start_request 方法 1. scrapy 起始url 在创建爬虫的时候,父类中会执行start_request 函数,并且默认的回调函数为 def parge(self,response):pass 2. start_request函数 循环url 封装 阅读全文
posted @ 2023-10-26 22:37 冰底熊 阅读(40) 评论(0) 推荐(0)
摘要:CrawlSpider爬虫的创建 1. 创建项目 scrapy startproject 项目名例如:scrapy startproject circ 2. 创建CrawlSpider 爬虫 scrapy genspider -t crawl 爬虫名 网站名例如:scrapy genspider - 阅读全文
posted @ 2023-10-26 22:36 冰底熊 阅读(45) 评论(0) 推荐(0)
摘要:PySpider 相关资源: GitHub: https://github.com/binux/pyspider 文档: http://docs.pyspider.org/en/latest/ 安装 windows 安装 pyspider pip install pyspider 启动 pyspid 阅读全文
posted @ 2023-10-26 22:34 冰底熊 阅读(45) 评论(0) 推荐(0)
摘要:scrapy-redis是一个基于redis的scrapy组件,通过它可以快速实现简单分布式爬虫程序,该组件本质上提供了三大功能: scheduler - 调度器 dupefilter - URL去重规则(被调度器使用) pipeline - 数据持久化 scrapy-redis组件 1. URL去 阅读全文
posted @ 2023-10-26 22:34 冰底熊 阅读(95) 评论(0) 推荐(0)
摘要:目标网站: http://beijingair.sinaapp.com/ 目标文件的格式: 此处以爬取一个文件内容为例: http://beijingair.sinaapp.com/data/beijing/all/20131205/csv 爬取更多 文件 : 文件中的数据格式: 1.创建项目: s 阅读全文
posted @ 2023-10-26 22:30 冰底熊 阅读(44) 评论(0) 推荐(0)
摘要:1. SQL CREATE TABLE `JDAll` ( `shop_id` VARCHAR (16) NOT NULL, //商品ID `url` VARCHAR (255) DEFAULT NULL, //商品url `title` VARCHAR (1024) DEFAULT NULL, / 阅读全文
posted @ 2023-10-26 22:29 冰底熊 阅读(84) 评论(0) 推荐(0)
摘要:#!/usr/bin/env python # encoding: utf-8 from requests_html import HTMLSession import re import os from fontTools.ttLib import TTFont class QiCheZhiJia 阅读全文
posted @ 2023-10-26 22:22 冰底熊 阅读(74) 评论(0) 推荐(0)
摘要:selenium中使用代理ip # coding=utf8 """ author:dengjiyun """ from selenium import webdriver options= webdriver.ChromeOptions() options.add_argument("--proxy 阅读全文
posted @ 2023-10-26 22:21 冰底熊 阅读(28) 评论(0) 推荐(0)
该文被密码保护。
posted @ 2022-11-01 21:55 冰底熊 阅读(0) 评论(0) 推荐(0)
摘要:#bloom_filter from bloom_filter import BloomFilter # 生成一个装1亿大小的 bloom = BloomFilter(max_elements=100000000, error_rate=0.1) # 向bloom添加URL bloom.add('h 阅读全文
posted @ 2022-04-27 21:36 冰底熊 阅读(37) 评论(0) 推荐(0)
摘要:内存漫游 ast-hook-for-js-RE 一.下载 git clone https://github.com/CC11001100/ast-hook-for-js-RE.git 解压: 二.安装依赖 cd D:\tools\ast-hook-for-js-RE cmd npm install 阅读全文
posted @ 2022-04-19 09:03 冰底熊 阅读(1013) 评论(0) 推荐(0)
摘要:1.相关插件安装 Debugger for Chrome Code Runner js调试相关参考: https://blog.csdn.net/weixin_43411585/article/details/108798737?spm=1001.2014.3001.5502 阅读全文
posted @ 2022-04-14 08:22 冰底熊 阅读(125) 评论(0) 推荐(0)
摘要:node下载安装 1.下载地址 https://nodejs.org/en/download/ 2. 下载安装包后一路next 3. cmd 查看是否安装成功 4. 打开cmd升级npm npm install -g npm npm install -g cnpm 环境配置 1. 新建两个空文件夹 阅读全文
posted @ 2022-04-14 08:18 冰底熊 阅读(738) 评论(0) 推荐(0)
摘要:一.插件地址 https://github.com/cilame/v_jstools 二.插件安装 1.访问以上github地址,点击code按钮,选择 Download ZIP 选项,下载到桌面,然后解压到当前文件夹,会看到一个 v_jstools-main 的文件夹。 2. 谷歌浏览器地址栏输入 阅读全文
posted @ 2022-04-13 08:33 冰底熊
摘要:1. 安装 /* 注意: 如何安装不了,cmd窗口以管理员身份运行 npm install node-inspect -g // 浏览器无环境配置 cd 某个目录,安装 npm install vm2 -g //获取纯净v8环境,-g 全局安装 */ 2. 调试程序目录结构 3. 添加配置 4. 点 阅读全文
posted @ 2021-12-17 23:34 冰底熊 阅读(360) 评论(0) 推荐(0)
摘要:进阶的可以看:https://baijiahao.baidu.com/s?id=1725536000710059774&wfr=spider&for=pc 本文以 RPC 获取百度登录password加密值为例: 涉及的知识点有: 1.js调试,寻找加密代码 2. 浏览器本地代码替换 3. js自执 阅读全文
posted @ 2021-12-12 22:35 冰底熊 阅读(430) 评论(1) 推荐(0)
摘要:// hook debugger Function.prototype.constructor_= Function.prototype.constructor; Function.prototype.constructor=function(x){ if (x=="debugger"){ retu 阅读全文
posted @ 2021-12-05 22:44 冰底熊
摘要:from fake_useragent import UserAgent ua = UserAgent().random headers={ 'User-Agent':ua } print(headers) 阅读全文
posted @ 2019-05-25 17:21 冰底熊 阅读(580) 评论(0) 推荐(0)
摘要:mongo 去重 import pymongo client = pymongo.MongoClient() collection=client.t.test # collection.insert({'title':'python','name':'deng','age':23}) data={' 阅读全文
posted @ 2019-05-24 21:41 冰底熊 阅读(5799) 评论(0) 推荐(0)