随笔档案「2023年12月」 - CloudWK

Selenium手册

摘要：前言通过爬虫直接抓取网页HTML源码里面的数据可能并没有我们想要的数据，这是因为网页通过JavaScript动态渲染过了。除了Ajax技术外，有些网页不通过Ajax而是通过JavaScript来直接渲染页面。就算是能通过Ajax抓取，有一些比如淘宝网的Ajax接口里面拥有加密技术，很难找出其中阅读全文

posted @ 2023-12-28 21:15 CloudWK 阅读(569) 评论(0) 推荐(0)

Python内置函数

摘要：一、引入在Python中有很多的内置函数以及内置语法，为了方便查阅以及后续记忆使用。现对这些方法进行记录。二、内置函数 # abs(): 返回数字的绝对值 abs(-7) #>>> 7 # all()：如果参数里的可迭代对象中所有值都是True ，则返回 True。空值为False all( 阅读全文

posted @ 2023-12-25 20:31 CloudWK 阅读(56) 评论(0) 推荐(0)

爬虫数据存储

摘要：前言：通过爬虫解析出网页数据之后，就要对数据进行存储。保存的形式多种多样，最简单的形式是保存为文本形式，如TXT、JSON、CSV、XLSX等。另外还可以保存在数据库之中，如关系型数据库MySQL，非关系型数据库MongoDB、Redis等。一、文件储存 1、TXT文本储存将数据保存为TXT 阅读全文

posted @ 2023-12-22 17:56 CloudWK 阅读(489) 评论(0) 推荐(0)

爬虫的基本库使用

摘要：一、requests库方法（部分） 1、会话维持在Python爬取页面时，有一些页面需要登录才能访问，requests库中有两种方式可以解决这个问题。 # 第一种方式Cookie import requests headers = { 'Cookie':'....'， 'Host':'.... 阅读全文

posted @ 2023-12-18 09:27 CloudWK 阅读(83) 评论(0) 推荐(0)

猫眼电影TOP100

摘要：一、猫眼电影排行TOP100抓取（小案例）声明：个人源码仅供自己学习记录，他人使用学习中切勿用于非法用途，请自觉遵守国家法律。造成的损失一概与本人无关。本文记录了自己学习途中的代码，主要通过正则提取解析网页内容然后存储到本地。猫眼电影拥有反爬机制，使用爬虫加上延时一样会弹出验证限制爬虫。阅读全文

posted @ 2023-12-15 17:51 CloudWK 阅读(114) 评论(0) 推荐(0)

Python高级编程

摘要：一、Python一切皆对象 1、函数的返回值在Python开发当中，编写一个函数即便不写return关键字，Python也会隐式添加上return None。通过print打印函数只会得到一个None的结果，在Python中函数和类也是可以赋值给一个变量的。函数可以接受的的返回值有：列表、元组阅读全文

posted @ 2023-12-01 22:04 CloudWK 阅读(533) 评论(0) 推荐(0)

CloudWK

“逝者如斯夫，不舍昼夜。” ——《论语》

12 2023 档案

公告