摘要: 四种数据存储部分:1.JSON文件格式处理2.CSV文件格式处理3.Excel文件处理4.MySQL数据库处理 Excle处理:在爬虫开发中,我们主要关注Excel文件的读写,不会过多关心Excel中的一些样式。如果想要读写Excel文件,需要借助两个库xlrd 和xlwt,其中xlrd是用于读的, 阅读全文
posted @ 2021-03-09 20:35 马铃薯1 阅读(584) 评论(0) 推荐(0)
摘要: 四种数据存储部分:1.JSON文件格式处理2.CSV文件格式处理3.Excel文件处理4.MySQL数据库处理 CSV模块: CSV(逗号分隔符)文件是表格与数据库操作之中最常用的输入输出格式。在RFC4180中的文件描述标准对CSV格式进行规范之前,CSV格式文件就已经被应用了很多年了。 Pyth 阅读全文
posted @ 2021-03-09 18:59 马铃薯1 阅读(533) 评论(0) 推荐(0)
摘要: 四种数据存储部分:1.JSON文件格式处理2.CSV文件格式处理3.Excel文件处理4.MySQL数据库处理 JSON字符串: JSON(JavaScript Object Notation,JS对象标记)是一种轻量级的数据交换格式。它基于ECMAScript(w3c制定的js规范)的一个子集,采 阅读全文
posted @ 2021-03-09 13:31 马铃薯1 阅读(504) 评论(0) 推荐(0)
摘要: 什么是正则表达式: 通俗理解:按照一定的规则,从某个字符串中匹配出想要的数据。这个规则就是正则表达式 re模块是python自带的标准库,不需要安装,直接导入 import re 1.单字符匹配: 点(.):匹配任意的字符(除了'\n') \d:匹配任意的数字 \D:匹配任意的非数字 \s:匹配的是 阅读全文
posted @ 2021-03-06 12:56 马铃薯1 阅读(365) 评论(0) 推荐(1)
摘要: BeautifulSoup4库:和lxml一样,Beautiful Soup也是一个HTML/XML的解析器,主要的功能也是如何解析和提取HTML/XML数据。lxml只会局部遍历,而Beautiful Soup是基于HTML DOM(Document Object Model)的,会载入整个文档, 阅读全文
posted @ 2021-03-05 12:39 马铃薯1 阅读(599) 评论(0) 推荐(0)
摘要: 什么是XPth?xpath(XML Path Language)是一门在XML和HTML文档中查找信息的语言,可用来在XML和HTML文档中对元素和属性进行遍历XPath开发工具:Chrome插件XPath Helper XPath节点在XPath中,有七种类型的节点:元素、属性、文本、命名空间、处 阅读全文
posted @ 2021-03-04 17:33 马铃薯1 阅读(644) 评论(0) 推荐(0)
摘要: requests库:Requests:让HTTP服务人类虽然python的标准库中urllib模块已经包含了平常我们使用的大多数功能,但是它的API使用起来让人感觉不太好,而Requests宣传是"HTTP for Humans",说明使用起来更简洁方便Requests是用python语言编写,基于 阅读全文
posted @ 2021-03-04 15:00 马铃薯1 阅读(243) 评论(0) 推荐(0)
摘要: urllib库urllib库是Python中最基本的网络请求库,可以模拟浏览器的行为,向指定的服务器发送一个请求,并可以保存服务器返回的数据注意:urllib是python自带的标准库,无需安装,直接可以用 一、基本函数详解 1.urlopen函数详解:创建一个表示远程url的类文件对象,然后像本地 阅读全文
posted @ 2021-03-03 23:02 马铃薯1 阅读(287) 评论(0) 推荐(0)
摘要: 什么是网络爬虫: 通俗的理解,爬虫是一个模拟人类请求网站行为的程序。可以自动请求网页、并把数据抓取下来, 然后使用一定的规则提取有价值的数据 为什么要用python写爬虫: 语法优美、代码简洁、开发效率高、支持的模块多。相关的HTTP请求模块和HTML解析模块非常丰富。 还有Scrapy和Scarp 阅读全文
posted @ 2021-03-03 19:55 马铃薯1 阅读(100) 评论(0) 推荐(0)
摘要: 一、文件 1.重命名: rename("需要修改的文件名","新的文件名") import os os.rename("123.txt","456.txt") import os # 文件重命名 name_1 = input("请输入要重命名的文件名:") name_2 = input("修改后的文 阅读全文
posted @ 2020-11-22 16:52 马铃薯1 阅读(805) 评论(0) 推荐(0)