上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 20 下一页
摘要: 我们将之前的阳光热线问政平台爬虫案例,改写成Scrapy-redis分布式爬虫 1.items.py import scrapy class MyprojectItem(scrapy.Item): number = scrapy.Field() #帖子编号 title = scrapy.Field( 阅读全文
posted @ 2021-05-12 01:07 eliwang 阅读(305) 评论(0) 推荐(0)
摘要: Scrapy 是一个通用的爬虫框架,但是不支持分布式,Scrapy-redis是为了更方便地实现Scrapy分布式爬取,而提供了一些以redis为基础的组件(仅有组件)。 一、Scrapy-Redis分布式策略: Master端(核心服务器):搭建一个Redis数据库,并开启redis-server 阅读全文
posted @ 2021-05-12 00:26 eliwang 阅读(476) 评论(0) 推荐(0)
摘要: 一、要求 爬取世纪佳缘网当中(20-28周岁、来自北京、有图片的女孩)信息,包括昵称、婚姻状况、身高、年龄、学历、工作地点、自我介绍、择偶要求、个人主页链接以及个人图片链接。 二、分析 网站数据采用的js分页,通过Fiddler抓包工具分析: url:https://search.jiayuan.c 阅读全文
posted @ 2021-05-10 21:17 eliwang 阅读(391) 评论(0) 推荐(0)
摘要: 一、安装 sudo pip3 install pillow 二、简单使用 # coding:utf-8 from PIL import Image,ImageDraw,ImageFont from io import BytesIO #打开图片 img = Image.open('图片名')#从本地 阅读全文
posted @ 2021-05-10 16:02 eliwang 阅读(606) 评论(0) 推荐(0)
摘要: 我们可以借助python的第三方库openpyxl来实现 安装openpyxl: pip3 install openpyxl 演示:创建一个学生信息表(stuInfo.xlsx) from openpyxl import Workbook wb = Workbook() #创建工作簿 ws = wb 阅读全文
posted @ 2021-05-10 00:22 eliwang 阅读(5298) 评论(0) 推荐(0)
摘要: 有时候,我们想让程序在某个特定时间段内去多次执行某个任务,比如每天凌晨3点-4点,隔10秒执行一次任务,接下来,我们就用python自带的datetime模块和threading模块去实现它,代码如下: import datetime import threading #任务描述:每天凌晨3-4点, 阅读全文
posted @ 2021-04-29 14:31 eliwang 阅读(9208) 评论(0) 推荐(0)
摘要: Scrapy Scrapy是纯python实现的一个为了爬取网站数据、提取结构性数据而编写的应用框架。 Scrapy使用了Twisted异步网络框架来处理网络通讯,可以加快我们的下载速度,并且包含了各种中间件接口,可以灵活的完成各种需求 1、安装 sudo pip3 install scrapy 2 阅读全文
posted @ 2021-04-28 03:37 eliwang 阅读(1805) 评论(0) 推荐(2)
摘要: reduce函数 工具函数reduce在functools模块中,所以需要先导入:from functools import reduce reduce(function, sequence[, initial]) -> value reduce函数会对参数序列中元素进行累加,如果给定了初始值ini 阅读全文
posted @ 2021-04-21 22:24 eliwang 阅读(266) 评论(0) 推荐(0)
摘要: 一、map函数 map(func, *iterables) --> map object map函数会根据提供的函数对指定序列做映射,并返回一个迭代器,结果取决于最短的这个序列 序列的个数,取决于function需要几个参数 示例 In [1]: list(map(lambda x:x**2,[1, 阅读全文
posted @ 2021-04-21 21:57 eliwang 阅读(169) 评论(0) 推荐(0)
摘要: 爬取斗鱼上正在直播的主播名、直播分区、直播标题以及直播热度等信息,以jsonlines的形式写入到本地json文件中,代码如下: # coding:utf-8 import unittest import json from bs4 import BeautifulSoup from seleniu 阅读全文
posted @ 2021-04-21 05:08 eliwang 阅读(365) 评论(0) 推荐(0)
上一页 1 ··· 9 10 11 12 13 14 15 16 17 ··· 20 下一页