爬虫 - 随笔分类 - 耀扬

selenium拉到底

摘要：from selenium import webdriver from lxml import etree driver = webdriver.Chrome() driver.get(url='https://www.ixigua.com/home/2515337690485792/?source 阅读全文

posted @ 2023-04-04 10:47 耀扬阅读(55) 评论(0) 推荐(0)

python-httpx 发送http2.0时代请求

摘要：原文，自己做个笔记用 https://blog.51cto.com/u_15127674/3872190 官方文档的地址 https://www.python-httpx.org/ 我们在日常开发中，经常会发送各种各样的网络请求。Python中常用的网络请求库有requests、aiohttp、ht 阅读全文

posted @ 2023-03-04 20:42 耀扬阅读(2081) 评论(0) 推荐(0)

base64图片保存

摘要：讲base64编码的图片，保存为png from io import BytesIO from PIL import Image import base64 def base64_to_image(base64_str): # 输入为base64格式字符串，输出为PIL格式图片 byte_data 阅读全文

posted @ 2022-09-28 10:49 耀扬阅读(206) 评论(0) 推荐(0)

pillow图片打字水印 The _imagingft C module is not installed

摘要：如果如下安装出现问题 pip install pillow 说明c的编译有问题，直接去这里下载 whl 文件 http://www.lfd.uci.edu/~gohlke/pythonlibs/ 然后 pip install ***.whl 最好重启一下，就可以解决了 from PIL import 阅读全文

posted @ 2022-09-28 10:48 耀扬阅读(79) 评论(0) 推荐(0)

python第三方库AC自动机pyahocorasick的使用

摘要：pyahocorasick是一个快速且内存效率高的库，用于精确或近似多模式字符串搜索，这意味着您可以在某些输入文本中一次找到多个关键字符串出现。字符串“索引”可以提前构建并保存到磁盘以便稍后重新发送。 pyahocorasick是用 C 语言实现的，并在 Python 3.6 及更高版本上进行了测阅读全文

posted @ 2022-04-26 20:50 耀扬阅读(7618) 评论(0) 推荐(0)

scrapy配置user-agent中间件和ip代理中间件

摘要：middlewares.py文件中添加如下的信息： # 使用了fake库 from fake_useragent import UserAgent # 配置headers class RandomUserAgentMidddlware(object): # 随机更换user-agent def __ 阅读全文

posted @ 2022-04-17 23:08 耀扬阅读(160) 评论(0) 推荐(0)

fiddler不能抓包chrome的问题

摘要：调试chrome接入安装了fiddler，唯独在chrome上无法使用（edge可以，chrome无痕模式也可以）。 https://blog.csdn.net/beishanyingluo/article/details/103132903 试了网上各种方法。最后还是通过安装代理插件 Swit 阅读全文

posted @ 2022-04-14 15:40 耀扬阅读(448) 评论(0) 推荐(0)

chardet库的问题

摘要：网页内容编码格式的自动判断一直是困扰爬虫的一个重要问题！ python的chardet库，提供了一个解决方案。 import chardet import requests url = "https://www.baidu.com" resp = requests.get(url) # detect 阅读全文

posted @ 2022-04-14 11:36 耀扬阅读(63) 评论(0) 推荐(0)

各种网站新闻正文抽取利器GeneralNewsExtractor

摘要：GNE在提取今日头条、新浪，腾讯新闻等数百个中文新闻网站上效果非常出色，几乎能够达到100%的准确率。先安装库 pip install --upgrade gne 调用 url 一个新闻链接如“https://www.sohu.com/a/534140980_162522?editor=%E9% 阅读全文

posted @ 2022-04-01 11:52 耀扬阅读(686) 评论(0) 推荐(0)

爬虫利器faker_useragent构造user-agent池

摘要：一部分网站反爬，会通过检查请求的请求头里是否有浏览器的user-agent来判断请求是否是爬虫。当你在请求头里加上user-agent，然后，进行反复的请求后，系统又会判断请求时爬虫，因为单一版本浏览器请求过多，为了达到以假乱真的目的，你需要构建一个user-agent池，然后随机调用，那样相对比阅读全文

posted @ 2022-04-01 11:31 耀扬阅读(257) 评论(0) 推荐(0)

转：就想写个爬虫，我到底要学多少东西啊？

摘要：本文转载自公众号进击的 Coder，作者是静觅博客博主、畅销书《Python 3网络爬虫开发实战》的作者崔庆才。本文全面介绍了学习爬虫必须要掌握的一些技术知识，希望能帮助正在入门爬虫的你找到学习方向。当今大数据的时代，网络爬虫已经成为了获取数据的一个重要手段。但要学习好爬虫并没有那么简单。首先知阅读全文

posted @ 2022-03-23 09:40 耀扬阅读(226) 评论(0) 推荐(0)

将爬取网页中的相对路径转换为绝对路径

摘要：##1.背景：在爬取网页中的过程中，我对目前爬虫项目后端脚本中拼接得到绝对路径的方法很不满意，今天很无意了解到在python3 的 urllib.parse模块对这个问题有着非常完善的解决策略，真的是上天有眼，感动！ ##2.urllib.parse模块 This module defines a 阅读全文

posted @ 2021-02-18 16:15 耀扬阅读(729) 评论(0) 推荐(0)

国庆长假已结束，Python 告诉你 6 亿国人都去哪儿浪了附源码

摘要：看到了网上的一篇文章，把完整源码附上据新华网消息，整个国庆长假外出游玩人次达 6.37 亿人次，那么这么多人都到哪儿去玩了呢，今天我们就用 Python 做一个全国热门景区热点图。入口先说程序入口：https://piao.qunar.com/ticket/list_%E7%83%AD%E9% 阅读全文

posted @ 2020-11-02 09:01 耀扬阅读(219) 评论(0) 推荐(0)

爬虫BeautifulSoup图片下载DEMO

摘要：import os, re import requests import random import time from bs4 import BeautifulSoup user_agent_list = [ "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWe 阅读全文

posted @ 2020-10-14 22:14 耀扬阅读(185) 评论(0) 推荐(0)

素材库图片下载

摘要：import re import requests import random import time import os.path from bs4 import BeautifulSoup import pymysql user_agent_list = [ "Mozilla/5.0 (Wind 阅读全文

posted @ 2020-07-09 14:49 耀扬阅读(283) 评论(0) 推荐(0)

爬取素材库直接存入mysql数据库

摘要：爬取素材库。直接存入mysql数据库。包含html源码直接存入数据库需要的转义函数。替换掉源码中的html注释语句 import re import requests import random import time from bs4 import BeautifulSoup import p 阅读全文

posted @ 2020-07-08 22:21 耀扬阅读(243) 评论(0) 推荐(0)

python抓取贝壳房源信息

摘要：分析了贝壳的房源信息数据，发现地址链接的参数传递是有规律的 https://tj.ke.com/chengjiao/a3l4/ a3 实际表示的 l4 表示的是然后将复合条件拼成一个字符串，带过去。看着真的很像加密过的。赞 import os, re import requests import 阅读全文

posted @ 2019-09-15 16:03 耀扬阅读(2647) 评论(0) 推荐(0)

一个非常有趣的爬虫小练习带ocr识别的

摘要：有个小的想法，想找一找形近字。百度一搜索，百度文库有一个，收费4元。而且我觉得字数不是太多。想自己弄一个，于是找到了这个网站 http://www.fantiz5.com/xingjinzi/ 这里面据说字数很多，开练！主要是为了学习 chrome,开发者调试发现有个 zhuan() 的阅读全文

posted @ 2019-08-11 19:58 耀扬阅读(1223) 评论(0) 推荐(0)

一个多进程爬虫下载图片的demo

摘要：import os,re import pickle import requests import random import time from bs4 import BeautifulSoup from multiprocessing import Pool user_agent_list = 阅读全文

posted @ 2019-08-09 21:20 耀扬阅读(312) 评论(0) 推荐(0)

一个爬虫的demo，requests，beatuifulsoup使用的

摘要：爬虫的demo，requests，beatuifulsoup import os,re import requests import random import time from bs4 import BeautifulSoup user_agent_list = [ "Mozilla/5.0 ( 阅读全文

posted @ 2019-08-09 18:57 耀扬阅读(224) 评论(0) 推荐(0)

耀扬

随笔分类 - 爬虫