随笔分类 - Python
摘要:条件表达式 三元操作符 small = x if x<y else y 断言(assert) assert称为断言,当关键字后面的条件为假时候,出现自动崩溃并抛出AssertionError的异常 如 ## for循环 ```py favor = "cicarius" for i in favor:
阅读全文
摘要:实现方法: SQLOject peewee Django's ORM SQLAlchemy
阅读全文
摘要:1、环境配置及依赖安装 参考:https://pypi.org/project/mysqlclient/ sudo apt get install libmysqlclient dev pip3 install mysqlclient Note on Python 3 : if you are us
阅读全文
摘要:pip3 install mysqlclient 报错信息 问题描述: 解决方法: sudo apt get install libmysqlclient dev 再次安装: pip3 install mysqlclient
阅读全文
摘要:为什么要用代理池? 许多网站有专门的反爬虫措施,可能遇到封IP等问题。 互联网上公开了大量免费的代理,利用好资源。 通过定时的检测维护同样可以得到多个可用的代理。 代理池要求 多站抓取,异步检测 定时筛选,持续更新 提供接口,易于读取 代理池架构
阅读全文
摘要:1.搜索关键字 利用Selenium驱动浏览器搜索关键字,得到查询后的商品列表 2.分析页码并翻页 得到商品页码数,模拟翻页,得到后续页面的商品列表 3.分析提取商品内容 利用PyQuery分析源码,解析得到商品列表 4.存储至MongoDB 将商品列表信息存储到数据库MongoDB 无法解决登录的
阅读全文
摘要:1.抓取索引页内容 利用requests请求目标站点,得到索引网页HTML代码,返回结果。 2.抓取详情页内容 解析返回结果,得到详情页的链接,并进一步抓取详情页的信息。 3.下载图片与保存数据库 将图片下载到本地,并把页面信息及图片URL保存到MongDB。 4.开启循环及多线程 对多页内容遍历,
阅读全文
摘要:流程框架 1. 抓取单页内容 利用requests请求目标站点,得到单个网页HTML代码,返回结果。 2. 正则表达式分析 根据HTML代码分析得到电影的名称、主演、上映时间、评分、图片链接等信息。 3. 保存至文件 通过文件的形式将结果保存,每一部电影一个结果一行Json字符串。 4. 开启循环及
阅读全文
摘要:自动化测试工具,支持多种浏览器。爬虫中主要用来解决JavaScript渲染的问题。 用法讲解 模拟百度搜索网站过程: 声明浏览器对象 访问页面 查找元素 单个元素 输出结果: 常用的一些方法: find_element_by_name find_element_by_xpath find_eleme
阅读全文
摘要:强大又灵活的网页解析库。如果你觉得正则写起来太麻烦,如果你觉得BeautifulSoup语法太难记,如果你熟悉jQuery的语法,那么PyQuery就是你的最佳选择。 安装 pip3 install pyquery 用法讲解 字符串初始化 显示效果如下: URL初始化 直接输入网址,显示效果如下:
阅读全文
摘要:安装 pip3 install beautifulsoup4 解析库 | 解析器 | 使用方法 | 优势 | 劣势 | | |: :| :| :| | Python标准库 | BeautifulSoup(markup,'html,parser') | Python的内置标准库、执行速度适中、文档容错
阅读全文
摘要:非Python独有,re模块实现 re.match re.match尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none. re.match(pattern,string,flags=0) 最常规的匹配 41 (0, 41) Hello 123 4567 W
阅读全文
摘要:Requests基于urllib,比urllib更加方便,可以节约我们大量的工作,完全满足HTTP测试需求。 实例引入 200 ] 各种请求方式 基本GET请求 { "args": {}, "headers": { "Accept": " / ", "Accept Encoding": "gzip,
阅读全文
摘要:Urllib库详解 Python内置的Http请求库: urllib.request 请求模块 urllib.error 异常处理模块 urllib.parse url解析模块 urllib.robotparser robots.txt解析模块 相比在python2基础上的变化 Python2 Py
阅读全文
摘要:原装requests >>> import requests >>> response = requests.get('http://www.baidu.com') >>> response.text 打印源代码 >>> res
阅读全文
摘要:Introduction PhantomJS is a scripted, headless browser that can be used for automating web page interaction. PhantomJS is a free, open source and dist
阅读全文
摘要:变量需要注意的地方 1.在使用变量之前,需要对其先赋值 2.变量名可以包括字母、数字、下划线,但是不能以数字开头 3.字母可以是大写或者小写,但是大小写是不同的 4.等号(=)是赋值的意思,左边是名字,右边是值 5.如果需要对字符串转义,使用转义符号(\)对字符串进行转义 6.反斜杠对咨询进行转义:
阅读全文
摘要:使用pip安装easygui 如果未安装pip,则使用如下命令 安装完pip后,使用如下命令安装easygui Just to help any others still stuck on this problem since the above did not work for me: Do th
阅读全文
摘要:刚刚入门python的嘛,然后这个centos也是不是那么熟悉!! pip在centos也没有,所以网上找来资料,3条语句就搞定啦! 1。查看是否安装依赖包,没安装先安装: yum install epel-release 2。更新文件库 yum -y update 3。安装pip yum -y i
阅读全文

浙公网安备 33010602011771号