会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
习惯形成性格,性格决定命运
Github地址:https://github.com/blairwind
博客园
首页
新随笔
联系
管理
订阅
04 2018 档案
Python笔记(十三):urllib模块
摘要:(一) URL地址 URL地址组件 URL组件 说明 scheme 网络协议或下载方案 net_loc 服务器所在地(也许含有用户信息) path 使用(/)分割的文件或CGI应用的路径 params 可选参数 query 连接符(&)分割的一系列键值对 fragment 指定文档内特定锚的部分 n
阅读全文
posted @
2018-04-28 20:05
free赖权华
阅读(443)
评论(0)
推荐(0)
Python Django框架笔记(一):安装及创建项目
摘要:#推荐一本书《Python核心编程》(适合有一定基础的),美国人Wesley Chun编写的,京东、淘宝应该都有。我是觉得写的很好,详细、简洁、满满的干货,不像有的书整本看完也没什么用。 (一) Web框架 Web开发除了全部从新写起,还可以在其他人已有的基础上进行开发,简化开发流程。这些Web开发
阅读全文
posted @
2018-04-28 20:05
free赖权华
阅读(467)
评论(0)
推荐(0)
Python笔记(十二):操作数据库
摘要:(一) 前言 本文说明如何连接Oracle、MySQL、sqlserver,以及执行sql、获取查询结果等。 (二) DB-API DB-API阐明一系列所需对象和数据库访问机制的标准。 Python操作数据库的模块如果遵循DB-API的标准(应该都会遵循这个标准),函数、方法的名称及功能应该是差不
阅读全文
posted @
2018-04-27 19:45
free赖权华
阅读(537)
评论(0)
推荐(0)
Python笔记(十一):多线程
摘要:(二)和(三)不感兴趣的可以跳过,这里参考了《深入理解计算机系统》第一章和《Python核心编程》第四章 (一) 多线程编程 一个程序包含多个子任务,并且子任务之间相互独立,让这些子任务同时运行就是多线程编程。 (二) 进程 进程是操作系统对一个正在运行的程序的一种抽象(或者说进程指的就是运行中的程
阅读全文
posted @
2018-04-24 20:37
free赖权华
阅读(527)
评论(0)
推荐(1)
Python网络爬虫笔记(五):下载、分析京东P20销售数据
摘要:(一) 分析网页 下载下面这个链接的销售数据 https://item.jd.com/6733026.html#comment 1、 翻页的时候,谷歌F12的Network页签可以看到下面的请求。(这里的翻页指商品评价中1、2、3页等) 从Preview页签可以看出,这个请求是获取评论信息的 2、
阅读全文
posted @
2018-04-19 19:22
free赖权华
阅读(2600)
评论(2)
推荐(0)
Python笔记(十):正则表达式
摘要:正则表达式对比工具 https://pan.baidu.com/s/1XIPyF1vFSj5PACPx9zW8_g (一) 正则表达式符号和特殊字符 符号 说明 示例 | 或 re1|re2,匹配re1或re2 . 匹配任何字符(\n除外) ^ 匹配字符串开始部分 ^ab.* 以ab开始的字符串,匹
阅读全文
posted @
2018-04-18 19:01
free赖权华
阅读(555)
评论(1)
推荐(1)
Python网络爬虫笔记(四):使用selenium获取动态加载的内容
摘要:(一) 说明 上一篇只能下载一页的数据,第2、3、4....100页的数据没法获取,在上一篇的基础上修改了下,使用selenium去获取所有页的href属性值。 使用selenium去模拟浏览器有点麻烦,例如有300页就要点300次(按博客园这种一页20条,也就是6000条数据。要是几百万条,这个就
阅读全文
posted @
2018-04-13 18:46
free赖权华
阅读(1884)
评论(0)
推荐(0)
Python网络爬虫笔记(三):下载博客园随笔到Word文档
摘要:(一) 说明 在上一篇的基础上修改了下,使用lxml提取博客园随笔正文内容,并保存到Word文档中。 操作Word文档会用到下面的模块: pip install python-docx 修改的代码(主要是在link_crawler()的while循环中增加了下面这段) (二) 完整代码(delaye
阅读全文
posted @
2018-04-10 18:36
free赖权华
阅读(2735)
评论(0)
推荐(0)
Python网络爬虫笔记(二):链接爬虫和下载限速
摘要:(一)代码1(link_crawler()和get_links()实现链接爬虫) (二)delayed.py(实现下载限速的类)
阅读全文
posted @
2018-04-10 12:23
free赖权华
阅读(2269)
评论(0)
推荐(0)
Python网络爬虫笔记(一):网页抓取方式和LXML示例
摘要:(一) 三种网页抓取方法 1、 正则表达式: 模块使用C语言编写,速度快,但是很脆弱,可能网页更新后就不能用了。 2、 Beautiful Soup 模块使用Python编写,速度慢。 安装: pip install beautifulsoup4 3、 Lxml 模块使用C语言编写,即快速又健壮,通
阅读全文
posted @
2018-04-09 10:19
free赖权华
阅读(2113)
评论(0)
推荐(1)
公告