摘要: Beautiful Soup 是一个可以从HTML或XML文件中提取数据的Python库。 它能够通过你喜欢的转换器实现惯用的文档导航,查找,修改文档的方式。 在爬虫开发中主要用的是Beautiful Soup的查找提取功能。 Beautiful Soup是第三方模块,需要额外下载 下载命令:pip 阅读全文
posted @ 2020-10-13 23:11 遥月 阅读(1263) 评论(0) 推荐(0)
摘要: Urllib是python内置的HTTP请求库包括以下模块urllib.request 请求模块urllib.error 异常处理模块urllib.parse url解析模块urllib.robotparser robots.txt解析模块- python中自带的一个基于爬虫的模块。 - 使用流程: 阅读全文
posted @ 2020-10-13 22:56 遥月 阅读(282) 评论(0) 推荐(0)
摘要: with…as语句执行顺序: –>首先执行expression里面的__enter__函数,它的返回值会赋给as后面的variable,想让它返回什么就返回什么,只要你知道怎么处理就可以了,如果不写as variable,返回值会被忽略。 –>然后,开始执行with-block中的语句,不论成功失败 阅读全文
posted @ 2020-10-13 22:06 遥月 阅读(171) 评论(0) 推荐(0)