随笔分类 - Python
摘要:这次的实例是使用selenium爬取淘宝美食关键字下的商品信息,然后存储到MongoDB。 首先我们需要声明一个browser用来操作,我的是chrome。这里的wait是在后面的判断元素是否出现时使用,第二个参数为等待最长时间,超过该值则抛出异常。 声明好之后就需要进行打开网页、进行搜索的操作。
阅读全文
摘要:试了一下爬取今日头条的组图。 首先是进入输入关键词后的索引页,使用chrom的开发者工具可以看到这是一个get请求,且包含一些数据,于是在这一步应该构造这个get请求,请求成功则会返回一个json数据。 对于上一步返回的数据进行解析,取出需要的article_url字段 对每个组图的url进行请求:
阅读全文
摘要:前段时间做了一个关于豆瓣电影的爬虫,之后又写了一个陈奕迅歌词的词云制作,于是我想不如做一个关于豆瓣高分电影导演的词云试试,于是有了接下来这篇随笔。 首先,我需要知道豆瓣top100电影详情页面的url,以便爬取对应导演。在豆瓣电影top250界面 在得到top100电影详情界面的url之后,需要对这
阅读全文
摘要:一直想做一个词云,在看实例的时候发现了一位博主写了篇关于励志歌曲的词云,由此想分析一下陈奕迅歌词中出现的较高频率的词是什么。于是我在百度文库上找到了一部分歌词,做了这个小分析。需要用到的库有:wordcloud,jieba,PIL,numpy,matplotlib 首先是读取歌词文件 在此之后,需要
阅读全文
摘要:学了python这么久,终于写了一个小爬虫,虽然很简单,但是总算动手了。 这个爬虫小程序爬取了豆瓣高分榜前100的电影名,所用到的知识也十分简单。 以下是源码 之前学习了Python的基本数据结构,但是在用到时才发现学的比较零散,用的时候不知道该怎么用,还是需要更多的项目来练习。 在这个简单的项目中
阅读全文
摘要:正则表达式:匹配文本片段的模式。 通配符:匹配多于一个的字符串。如‘.’可以匹配除换行符之外所有字符,只能匹配一个字符。 对特殊字符进行转义:假如要对字符串‘Python.org’进行匹配,如果直接使用‘python.org’进行匹配,则不仅会匹配到'python.org',还会有'pythonio
阅读全文
摘要:打开文件:open(name[,mode[,buffering]]),返回一个文件对象,模式(mode)和缓冲(buffering)是两个可选参数。 假设有一个名为somefile.txt的文件,存储路径为c:\text,打开方式如下:f = open(r'C:\text\somefile.txt'
阅读全文
摘要:魔法方法(特殊方法):名称以双下划线和双下划线结尾的方法。 这些方法会在特殊情况下被Python直接调用,几乎没有直接调用的必要。 __init__():构造函数 __del__():析构函数 在其他语言中对象可能被要求属于某一个类,或被要求实现接口,但在Python中只是简单的要求它遵守几个给定的
阅读全文
摘要:Python用异常对象来表示异常情况,如果异常对象未被处理或捕捉,程序就会回溯(traceback)中止执行。 异常可以在出错时自动引发,也可以主动引发。 异常被引发后如果不被处理就会传播至程序调用的地方,直到主程序(全局作用域),如果主程序仍然没有异常处理,程序会带着栈跟踪终止。 raise:引发
阅读全文
摘要:通用序列操作: 索引,序列中元素从0开始递增,这些元素可以通过编号访问 分片,使用索引只能访问单个元素,分片操作可以访问一定范围内的元素。list[a:b]:a和b是两个索引作为边界,包含索引a对应函数,不包含b 序列相加,两种相同的序列才能进行连接操作 >>> a = [1,2,3] >>> b
阅读全文
摘要:基本认证(用户名密码) auth=(用户名,密码),明文传输,对 OAUTH认证,不能通过解码得到用户名和密码 使用方法:
阅读全文
摘要:cookie: session:
阅读全文
摘要:response对象: http状态码 利用response把流存储成图片或者文件 一个下载图片的实例 事件钩子:事件驱动型开发,基于回调。
阅读全文
摘要:阅读requests源码会有更清楚的理解。 tcp/ip的三次握手,使用requests每次请求会占用更多资源,使用session则可以重复使用一个request。 自定义requests:首先定义session(proxy,timeout,verify……),定义request(body,head
阅读全文
摘要:利用requests发出请求时可能会发生异常,requests中有一个exception库用来区分这些异常。 http协议是基于tcp/ip协议的,tcp/ip三次握手,因此可以在请求中定义等待时间,超出等待时间仍未到达则请求失败。如requests.get(url,timeout=(3,7)),r
阅读全文
摘要:requests请求方法:requests.[method](url) get:查看资源 post:增加资源 patch:修改资源 put:修改,替换资源 delete:删除 head:查看响应头 options:查看可用请求方法 github上有很多API,users 带参数的请求:服务端需要知道
阅读全文
摘要:调度器: url管理器: 网页下载器: 网页解析器: 输出:
阅读全文
摘要:基本架构:调度器,url管理器,网页下载器,网页解析器 调度器:启动爬虫,关闭爬虫,监视爬虫的进度 url管理器:管理待爬取的URL和已爬取的URL 需要支持:添加新URL到待爬取集合 判断待添加URL是否已经被爬取 获取待爬取URL,判断是否还有带爬取的URL 被爬取之后将该URL从待爬取集合移动
阅读全文
摘要:创建类: 创建实例属性:Python是动态语言,对每一个实例,都可以直接给他们的属性赋值,实例的属性可以像普通变量一样进行操作。 初始化实例属性:__init__()方法,创建实例时,该方法自动调用 访问限制:Python对属性权限的控制是通过属性名来实现的,如果一个属性由双下划线开头(__),该属
阅读全文

浙公网安备 33010602011771号