随笔分类 -  爬虫

摘要:内容回顾 beautifulsoup4使用 xml解析库,用它,来解析爬取回来的html内容,从中找出我们需要的内容 遍历文档树 标签点html.body.p.a 获取属性对象.attrs.get('href') 获取文本对象.text 子节点,父节点,兄弟节点 搜索文档树 find find_al 阅读全文
posted @ 2023-03-20 16:18 clever-cat 阅读(82) 评论(0) 推荐(0)
摘要:内容回顾 requests高级用法 解析json:发送http请求,返回的数据,可能是xml格式,json格式,如果是json则可以直接调用json方法进行转换 requests.get().json ssl认证 ​ http和https的区别 ​ https实际上是http +ssl/tsl ​ 阅读全文
posted @ 2023-03-17 18:43 clever-cat 阅读(55) 评论(0) 推荐(0)
摘要:内容回顾 可变类型与不可变类型 可变类型:值发生改变,内存地址不变:列表,集合,字典 不可变类型:值发生改变,内存地址一定发生改变:字符串,整形,浮点型,布尔,元组 常用的魔法方法》某种情况下会自动触发 __init__() 在类加括号实例化对象时触发完成数据初始胡 __new__() 在类加括号实 阅读全文
posted @ 2023-03-16 18:35 clever-cat 阅读(89) 评论(0) 推荐(0)
摘要:内容详情 爬虫介绍 爬虫是什么 爬虫就是程序》从互联网中,各个网站上,爬取数据【我们能够浏览的页面才能爬】,做数据清洗,入库 爬虫的本质 模拟http请求获取数据》入库 网站 app:抓包 百度其实就是一个大爬虫 百度有个叫百度蜘蛛的东西,他在一刻不停的在互联网中爬取各个页面》爬取完后》保存到百度的 阅读全文
posted @ 2023-03-16 15:19 clever-cat 阅读(83) 评论(0) 推荐(0)