上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 20 下一页
摘要: 一、目标 爬取网易新闻首页(https://news.163.com/)中(国内、国际、军事、航空)四个版块的新闻内容,并且按照格式:(网易新闻/版块名/新闻标题.txt)创建文件名,写入新闻内容 二、分析 通过对首页、各版块页、以及详情页分析发现,只有四个版块中的新闻标题是通过js动态加载获取的, 阅读全文
posted @ 2021-06-03 02:23 eliwang 阅读(1249) 评论(0) 推荐(0)
摘要: scrapy不建议通过爬虫文件来发送请求下载大文件,而是通过scrapy已经封装好的管道类去执行,效率更高 管道类: from scrapy.pipelines.files import FilesPipeline # 专门用来下载文件的管道类 from scrapy.pipelines.image 阅读全文
posted @ 2021-05-31 01:00 eliwang 阅读(541) 评论(0) 推荐(0)
摘要: 一、目标网页及要求 目标网页: https://www.xuexi.cn/f997e76a890b0e5a053c57b19f468436/018d244441062d8916dd472a4c6a0a0b.html 要求: 爬取页面中的详情页文章标题、内容、发布时间、文章来源,存入本地mongodb 阅读全文
posted @ 2021-05-29 18:27 eliwang 阅读(4845) 评论(0) 推荐(0)
摘要: 一、简介 在执行某些IO密集型任务的时候,程序常常会因为等待 IO 而阻塞。为解决这一问题,可以考虑使用python中的协程异步。 从 Python 3.4 开始,Python 中加入了协程的概念,但这个版本的协程还是以生成器对象为基础的,在 Python 3.5 则增加了关键字async/awai 阅读全文
posted @ 2021-05-27 00:08 eliwang 阅读(402) 评论(0) 推荐(0)
摘要: pandas对Numpy进行了封装,简化了操作。其数据结构主要是DataFrame(类似于多维数组)和Series(类似于一维数组)。 一、安装 pip install pandas 二、引用 import pandas as pd 三、Series对象 创建 语法:pd.Series(data=N 阅读全文
posted @ 2021-05-21 16:44 eliwang 阅读(568) 评论(0) 推荐(0)
摘要: 一、Numpy介绍 NumPy是Python中科学计算的基础包,它的核心是 ndarray(多维数组)对象,简称数组。数组由同种类型的元素组成,可以通过整数元组进行索引。在Numpy中,维度称为轴(axis),轴的个数称为秩(rank).。比如[1,2,3]是一维数组,具有一个轴,由3个元素组成,即 阅读全文
posted @ 2021-05-18 00:27 eliwang 阅读(820) 评论(0) 推荐(0)
摘要: 在Linux系统下运行python终端,发现方向键失灵,总是出现「^[[C^[[D」等,可通过安装gnureadline模块解决 如下: sudo pip3 install gnureadline 阅读全文
posted @ 2021-05-15 02:10 eliwang 阅读(804) 评论(0) 推荐(0)
摘要: 一、认识Excel文件 Excel文件也被称做工作簿(workbook)。 每个工作簿可以包含多个工作表(sheet)。用户当前查看的表或关闭Excel前最后查看的表,被称为活动表。 每张表都是由行和列组成。列是以A开始的字母表示,行是以1开始的数字表示。 由特定行和列所指定的方格被称为单元格(ce 阅读全文
posted @ 2021-05-14 03:36 eliwang 阅读(841) 评论(0) 推荐(0)
摘要: css选择器 常用的选择器有如下几种: 1、标签选择器 标签选择器,此种选择器影响范围大,建议尽量应用在层级选择器中。举例: *{margin:0;padding:0} div{color:red} <div>....</div> <!-- 对应以上两条样式 --> <div class="box" 阅读全文
posted @ 2021-05-13 23:06 eliwang 阅读(143) 评论(0) 推荐(0)
摘要: 知乎登陆验证码问题比较棘手,所以我们可以考虑通过cookie来模拟登陆。 思路: 1、通过浏览器手动登陆知乎,利用抓包工具(如Fiddler等)来获取登陆后的cookie信息,并将其处理成dict类型。 2、然后使用requests的会话(Session)对象来携带cookie信息发送请求,因为同一 阅读全文
posted @ 2021-05-12 21:15 eliwang 阅读(265) 评论(0) 推荐(0)
上一页 1 ··· 8 9 10 11 12 13 14 15 16 ··· 20 下一页