随笔分类 - python知识点
一些关于python的学习知识方面或者小项目分享
摘要:scrapy中的useragent与代理ip 方法一: user-agent我们可以直接在settings.py中更改,如下图,这样修改比较简单,但是并不推荐,更推荐的方法是修改使用scrapy的中间件middlewares.py 推荐方案: scrapy的中间件可以支持我们在对爬虫的请求进行定制化
阅读全文
摘要:Xpath的text()与string(.) 我们在爬取网站使用Xpath提取数据的时候,最常使用的就是Xpath的text()方法,该方法可以提取当前元素的信息,但是某些元素下包含很多嵌套元素, 我们想一并的提取出来,这时候就用到了string(.)方法,但是该方法使用的时候跟text()不太一样
阅读全文
摘要:json JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,易于人阅读和编写。 json是我们在制作爬虫时非常常见的网络对象,本文就列举python对于json的基本操作。 json函数 使用json函数首先要导入 json 库 即 import json
阅读全文
摘要:前言 Scrapy那么多模块都是怎么结合的啊?明明在chrome上的xpath helper插件写好了xpath,为什么到程序就读取的是None?Scrapy可以直接写多层response么?难道必须再使用requests库?? 没关系,这篇文章一站式解答scrapy常见的坑 Scrapy各部分运行
阅读全文
摘要:正则表达式 什么是正则表达式? 正则表达式是对字符串(包括普通字符(例如,a 到 z 之间的字母)和特殊字符(称为“元字符”))操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是一种文本模式
阅读全文
摘要:Requests python的request库官方介绍就是让HTTP服务人类,所以从这点我们就可以知道request库是为了让我们更加方便的进行http相关的各种操作 我们学习request有什么用呢? 1)web时代我们需要熟悉掌握web交互原理 2)爬虫 3)服务器编程 4)自动化测试 实验环
阅读全文
摘要:迭代器 迭代式访问元素的一种方式,迭代器是一个可以记住遍历的位置的对象。 迭代器对象从集合的第一个元素开始访问,直到所有的元素被访问完结束。迭代器只能往前不会后退。 迭代器有两个基本的方法:iter() 和 next()。 常见的字符串,列表或元组对象都可用于创建迭代器: 迭代器对象可以使用常规fo
阅读全文
摘要:yield 带有 yield 的函数在 Python 中被称之为 generator(生成器),生成器(generator)能够迭代的关键是它有一个next()方法,工作原理就是通过重复调用next()方法,直到捕获一个异常。 生成器与迭代器会在另一篇文章介绍 yield 是一个类似 return的
阅读全文
摘要:基础知识 对于字符串的操作在任何一门编程语言中都很重要,而python经常运用于数据处理,合理运用正则,可以帮助我们更好地处理数据 在正则表达式中,如果直接给出字符,就是精确匹配。用\d可以匹配一个数字,\w可以匹配一个字母或数字 例如: 要匹配变长的字符,在正则表达式中,用*表示任意个字符(包括0
阅读全文
摘要:异常Error 我们在写代码的时候,经常会遇见程序抛出Error无法执行的情况 一般情况下,在Python无法正常处理程序时就会发生一个异常。异常是Python对象,表示一个错误。当Python脚本发生异常时我们需要捕获处理它,否则程序会终止执行。 try...except...else try:
阅读全文
摘要:文件读写 本文转自廖雪峰老师的教程https://www.liaoxuefeng.com/wiki/1016959663602400/1017607179232640 读写文件是最常见的IO操作。Python内置了读写文件的函数,用法和C是兼容的。 读文件 要以读文件的模式打开一个文件对象,使用Py
阅读全文
摘要:Class 类的定义以及实例的建立 Python中,类通过 class 关键字定义。 例如最简单的一个类定义可以为: class Person(object): pass Python 的编程习惯,类名以大写字母开头,紧接着是(object),表示该类是从哪个类继承下来的。 例如上面的person类
阅读全文
摘要:import xxx from yy.xxx import xx from yy.xxx import xx as x python最常见的导包导模块语句 yy为包名,包就是文件夹,模块就是xxx.py文件 今天发现一个神奇的模块 __future__ python之使用__future__ Pyt
阅读全文
摘要:偏函数: 当一个函数有很多参数时,调用者就需要提供多个参数。如果减少参数个数,就可以简化调用者的负担。比如,int()函数可以把字符串转换为整数,当仅传入字符串时,int()函数默认按十进制转换,但int()函数还提供额外的base参数,默认值为10。如果传入base参数,就可以做 N 进制的转换:
阅读全文
摘要:python中的装饰器 装饰器是为了解决以下描述的问题而产生的方法 我们在已有的函数代码的基础上,想要动态的为这个函数增加功能而又不改变原函数的代码 例如有三个函数: 而我们想为这三个函数增加一个函数调用打印功能 类似print("call f1()") 如果我们直接修改的话,需要对每个函数的内部进
阅读全文
摘要:if __name__ == '__main__' 一个python的文件有两种使用的方法,第一是直接作为脚本执行,第二是import到其他的python脚本中被调用(模块重用)执行。因此if __name__ == 'main': 的作用就是控制这两种情况执行代码的过程,在if __name__
阅读全文
摘要:List list的创建与检索 Python内置的一种数据类型是列表:list。list是一种有序的集合,可以随时添加和删除其中的元素。 构造list非常简单,直接用 [ ] 把list的所有元素都括起来,就是一个list对象。 Python是动态语言,所以list中包含的元素并不要求都必须是同一种
阅读全文

浙公网安备 33010602011771号