随笔分类 - python
摘要:通过headers反爬虫:自定义headers,添加网页中的headers数据。 基于用户行为的反爬虫(封IP):可以使用多个代理IP爬取或者将爬取的频率降低。 动态网页反爬虫(JS或者Ajax请求数据):动态网页可以使用 selenium + phantomjs 抓取。 对部分数据加密处理(数据乱
阅读全文
摘要:headers方向判断User-Agent、判断Referer、判断Cookie。将浏览器的headers信息全部添加进去注意:Accept-Encoding;gzip,deflate需要注释掉
阅读全文
摘要:网络数据包 urllib、urllib2、requests 解析包 re、xpath、beautiful soup、lxml
阅读全文
摘要:保存当前运行状态,然后暂停执行,即将函数挂起。yield关键字后面表达式的值作为返回值返回。当使用next(),send()函数从断点处继续执行。
阅读全文
摘要:Python之禅import this
阅读全文
摘要:删除文件 path,删除时候如果path是一个目录, 抛出 OSError错误。 remove() 同 unlink() 的功能是一样的 如果remove文件夹就会报错 现在删除下面这个文件 删除xx.txt os.removedirs(path),删除文件夹,但是文件夹必须为空。 递归地删除目录。
阅读全文
摘要:输出
阅读全文
摘要:a = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] b = filter(lambda x: x % 2 != 0, a) for i in b: print(i)
阅读全文
摘要:a = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10] b = [i for i in a if i % 2 != 0] print(b)
阅读全文
摘要:输出
阅读全文
摘要:var = 5 def func(): global var var = 6 print(6)
阅读全文
摘要:num = 'Hello world'.count('l')
阅读全文
摘要:封装一个原本重复使用的正则表达式
阅读全文
摘要:-(.*)是贪婪匹配,会把满足正则的尽可能多的往后匹配 -(.*?)是非贪婪匹配,会把满足正则的尽可能少匹配
阅读全文
摘要:try..except..else没有捕获到异常,执行else语句 try..except..finally不管是否捕获到异常,都执行finally语句
阅读全文
摘要:让关键代码依赖于外部包:你可以为紧急的任务使用C、C++或机器语言编写的外部包,这样可以提高应用程序的性能 使用生成器,因为可以节约大量内存 多个if elif条件判断,可以把最有可能先发生的条件放到前面写,这样可以减少程序判断的次数,提高效率 使用较新的Python版本 在排序时使用键(key)
阅读全文
摘要:issue中查询是否有相似bug assert / try-except / IDE单步调式 框架可以查询源码或者查询官方文档
阅读全文

浙公网安备 33010602011771号