随笔分类 -  爬虫

selenium拉到底
摘要:from selenium import webdriver from lxml import etree driver = webdriver.Chrome() driver.get(url='https://www.ixigua.com/home/2515337690485792/?source 阅读全文

posted @ 2023-04-04 10:47 耀扬 阅读(55) 评论(0) 推荐(0)

python-httpx 发送http2.0时代请求
摘要:原文,自己做个笔记用 https://blog.51cto.com/u_15127674/3872190 官方文档的地址 https://www.python-httpx.org/ 我们在日常开发中,经常会发送各种各样的网络请求。Python中常用的网络请求库有requests、aiohttp、ht 阅读全文

posted @ 2023-03-04 20:42 耀扬 阅读(2081) 评论(0) 推荐(0)

base64图片保存
摘要:讲base64编码的图片,保存为png from io import BytesIO from PIL import Image import base64 def base64_to_image(base64_str): # 输入为base64格式字符串,输出为PIL格式图片 byte_data 阅读全文

posted @ 2022-09-28 10:49 耀扬 阅读(206) 评论(0) 推荐(0)

pillow图片打字水印 The _imagingft C module is not installed
摘要:如果如下安装出现问题 pip install pillow 说明c的编译有问题,直接去这里下载 whl 文件 http://www.lfd.uci.edu/~gohlke/pythonlibs/ 然后 pip install ***.whl 最好重启一下,就可以解决了 from PIL import 阅读全文

posted @ 2022-09-28 10:48 耀扬 阅读(79) 评论(0) 推荐(0)

python第三方库AC自动机pyahocorasick的使用
摘要:pyahocorasick是一个快速且内存效率高的库,用于精确或近似多模式字符串搜索,这意味着您可以在某些输入文本中一次找到多个关键字符串出现。 字符串“索引”可以提前构建并保存到磁盘以便稍后重新发送。 pyahocorasick是用 C 语言实现的,并在 Python 3.6 及更高版本上进行了测 阅读全文

posted @ 2022-04-26 20:50 耀扬 阅读(7618) 评论(0) 推荐(0)

scrapy配置user-agent中间件和ip代理中间件
摘要:middlewares.py文件中添加如下的信息: # 使用了fake库 from fake_useragent import UserAgent # 配置headers class RandomUserAgentMidddlware(object): # 随机更换user-agent def __ 阅读全文

posted @ 2022-04-17 23:08 耀扬 阅读(160) 评论(0) 推荐(0)

fiddler不能抓包chrome的问题
摘要:调试chrome接入 安装了fiddler,唯独在chrome上无法使用(edge可以,chrome无痕模式也可以)。 https://blog.csdn.net/beishanyingluo/article/details/103132903 试了网上各种方法。 最后还是通过安装代理插件 Swit 阅读全文

posted @ 2022-04-14 15:40 耀扬 阅读(448) 评论(0) 推荐(0)

chardet库的问题
摘要:网页内容编码格式的自动判断一直是困扰爬虫的一个重要问题! python的chardet库,提供了一个解决方案。 import chardet import requests url = "https://www.baidu.com" resp = requests.get(url) # detect 阅读全文

posted @ 2022-04-14 11:36 耀扬 阅读(63) 评论(0) 推荐(0)

各种网站新闻正文抽取利器GeneralNewsExtractor
摘要:GNE在提取今日头条、新浪,腾讯新闻等数百个中文新闻网站上效果非常出色,几乎能够达到100%的准确率。 先安装库 pip install --upgrade gne 调用 url 一个新闻链接 如“https://www.sohu.com/a/534140980_162522?editor=%E9% 阅读全文

posted @ 2022-04-01 11:52 耀扬 阅读(686) 评论(0) 推荐(0)

爬虫利器faker_useragent构造user-agent池
摘要:一部分网站反爬,会通过检查请求的请求头里是否有浏览器的user-agent来判断请求是否是爬虫。 当你在请求头里加上user-agent,然后,进行反复的请求后,系统又会判断请求时爬虫,因为单一版本浏览器请求过多,为了达到以假乱真的目的,你需要构建一个user-agent池,然后随机调用,那样相对比 阅读全文

posted @ 2022-04-01 11:31 耀扬 阅读(257) 评论(0) 推荐(0)

转:就想写个爬虫,我到底要学多少东西啊?
摘要:本文转载自公众号进击的 Coder,作者是静觅博客博主、畅销书《Python 3网络爬虫开发实战》的作者崔庆才。本文全面介绍了学习爬虫必须要掌握的一些技术知识,希望能帮助正在入门爬虫的你找到学习方向。 当今大数据的时代,网络爬虫已经成为了获取数据的一个重要手段。 但要学习好爬虫并没有那么简单。首先知 阅读全文

posted @ 2022-03-23 09:40 耀扬 阅读(226) 评论(0) 推荐(0)

将爬取网页中的相对路径转换为绝对路径
摘要:##1.背景: 在爬取网页中的过程中,我对目前爬虫项目后端脚本中拼接得到绝对路径的方法很不满意,今天很无意了解到在python3 的 urllib.parse模块对这个问题有着非常完善的解决策略,真的是上天有眼,感动! ##2.urllib.parse模块 This module defines a 阅读全文

posted @ 2021-02-18 16:15 耀扬 阅读(729) 评论(0) 推荐(0)

国庆长假已结束,Python 告诉你 6 亿国人都去哪儿浪了附源码
摘要:看到了网上的一篇文章,把完整源码附上 据新华网消息,整个国庆长假外出游玩人次达 6.37 亿人次,那么这么多人都到哪儿去玩了呢,今天我们就用 Python 做一个全国热门景区热点图。 入口 先说程序入口:https://piao.qunar.com/ticket/list_%E7%83%AD%E9% 阅读全文

posted @ 2020-11-02 09:01 耀扬 阅读(219) 评论(0) 推荐(0)

爬虫BeautifulSoup图片下载DEMO
摘要:import os, re import requests import random import time from bs4 import BeautifulSoup user_agent_list = [ "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWe 阅读全文

posted @ 2020-10-14 22:14 耀扬 阅读(185) 评论(0) 推荐(0)

素材库图片下载
摘要:import re import requests import random import time import os.path from bs4 import BeautifulSoup import pymysql user_agent_list = [ "Mozilla/5.0 (Wind 阅读全文

posted @ 2020-07-09 14:49 耀扬 阅读(283) 评论(0) 推荐(0)

爬取素材库直接存入mysql数据库
摘要:爬取素材库。直接存入mysql数据库。 包含html源码直接存入数据库需要的转义函数。 替换掉源码中的html注释语句 import re import requests import random import time from bs4 import BeautifulSoup import p 阅读全文

posted @ 2020-07-08 22:21 耀扬 阅读(243) 评论(0) 推荐(0)

python抓取贝壳房源信息
摘要:分析了贝壳的房源信息数据,发现地址链接的参数传递是有规律的 https://tj.ke.com/chengjiao/a3l4/ a3 实际表示的 l4 表示的是 然后 将复合条件拼成一个字符串,带过去。看着真的很像加密过的。赞 import os, re import requests import 阅读全文

posted @ 2019-09-15 16:03 耀扬 阅读(2647) 评论(0) 推荐(0)

一个非常有趣的爬虫小练习带ocr识别的
摘要:有个小的想法,想找一找 形近字 。百度一搜索,百度文库有一个,收费4元。而且我觉得字数不是太多。想自己弄一个,于是找到了 这个网站 http://www.fantiz5.com/xingjinzi/ 这里面据说字数很多,开练! 主要是为了学习 chrome,开发者调试 发现 有个 zhuan() 的 阅读全文

posted @ 2019-08-11 19:58 耀扬 阅读(1223) 评论(0) 推荐(0)

一个多进程爬虫下载图片的demo
摘要:import os,re import pickle import requests import random import time from bs4 import BeautifulSoup from multiprocessing import Pool user_agent_list = 阅读全文

posted @ 2019-08-09 21:20 耀扬 阅读(312) 评论(0) 推荐(0)

一个爬虫的demo,requests,beatuifulsoup使用的
摘要:爬虫的demo,requests,beatuifulsoup import os,re import requests import random import time from bs4 import BeautifulSoup user_agent_list = [ "Mozilla/5.0 ( 阅读全文

posted @ 2019-08-09 18:57 耀扬 阅读(224) 评论(0) 推荐(0)

导航