2018 年 4月随笔档案 - free赖权华

Python笔记（十三）：urllib模块

摘要：（一） URL地址 URL地址组件 URL组件说明 scheme 网络协议或下载方案 net_loc 服务器所在地（也许含有用户信息） path 使用（/）分割的文件或CGI应用的路径 params 可选参数 query 连接符（&）分割的一系列键值对 fragment 指定文档内特定锚的部分 n 阅读全文

posted @ 2018-04-28 20:05 free赖权华阅读(443) 评论(0) 推荐(0)

Python Django框架笔记（一）：安装及创建项目

摘要：#推荐一本书《Python核心编程》（适合有一定基础的），美国人Wesley Chun编写的，京东、淘宝应该都有。我是觉得写的很好，详细、简洁、满满的干货，不像有的书整本看完也没什么用。（一） Web框架 Web开发除了全部从新写起，还可以在其他人已有的基础上进行开发，简化开发流程。这些Web开发阅读全文

posted @ 2018-04-28 20:05 free赖权华阅读(467) 评论(0) 推荐(0)

Python笔记（十二）：操作数据库

摘要：（一）前言本文说明如何连接Oracle、MySQL、sqlserver，以及执行sql、获取查询结果等。（二） DB-API DB-API阐明一系列所需对象和数据库访问机制的标准。 Python操作数据库的模块如果遵循DB-API的标准（应该都会遵循这个标准），函数、方法的名称及功能应该是差不阅读全文

posted @ 2018-04-27 19:45 free赖权华阅读(537) 评论(0) 推荐(0)

Python笔记（十一）：多线程

摘要：（二）和（三）不感兴趣的可以跳过，这里参考了《深入理解计算机系统》第一章和《Python核心编程》第四章（一）多线程编程一个程序包含多个子任务，并且子任务之间相互独立，让这些子任务同时运行就是多线程编程。（二）进程进程是操作系统对一个正在运行的程序的一种抽象（或者说进程指的就是运行中的程阅读全文

posted @ 2018-04-24 20:37 free赖权华阅读(527) 评论(0) 推荐(1)

Python网络爬虫笔记（五）：下载、分析京东P20销售数据

摘要：(一) 分析网页下载下面这个链接的销售数据 https://item.jd.com/6733026.html#comment 1、翻页的时候，谷歌F12的Network页签可以看到下面的请求。（这里的翻页指商品评价中1、2、3页等）从Preview页签可以看出，这个请求是获取评论信息的 2、阅读全文

posted @ 2018-04-19 19:22 free赖权华阅读(2600) 评论(2) 推荐(0)

Python笔记（十）：正则表达式

摘要：正则表达式对比工具 https://pan.baidu.com/s/1XIPyF1vFSj5PACPx9zW8_g （一）正则表达式符号和特殊字符符号说明示例 | 或 re1|re2,匹配re1或re2 . 匹配任何字符（\n除外） ^ 匹配字符串开始部分 ^ab.* 以ab开始的字符串，匹阅读全文

posted @ 2018-04-18 19:01 free赖权华阅读(555) 评论(1) 推荐(1)

Python网络爬虫笔记（四）：使用selenium获取动态加载的内容

摘要：（一）说明上一篇只能下载一页的数据，第2、3、4....100页的数据没法获取，在上一篇的基础上修改了下，使用selenium去获取所有页的href属性值。使用selenium去模拟浏览器有点麻烦，例如有300页就要点300次（按博客园这种一页20条，也就是6000条数据。要是几百万条，这个就阅读全文

posted @ 2018-04-13 18:46 free赖权华阅读(1884) 评论(0) 推荐(0)

Python网络爬虫笔记（三）：下载博客园随笔到Word文档

摘要：（一）说明在上一篇的基础上修改了下，使用lxml提取博客园随笔正文内容，并保存到Word文档中。操作Word文档会用到下面的模块： pip install python-docx 修改的代码（主要是在link_crawler()的while循环中增加了下面这段）（二）完整代码（delaye 阅读全文

posted @ 2018-04-10 18:36 free赖权华阅读(2735) 评论(0) 推荐(0)

Python网络爬虫笔记（二）：链接爬虫和下载限速

摘要：（一）代码1（link_crawler()和get_links()实现链接爬虫）（二）delayed.py（实现下载限速的类）阅读全文

posted @ 2018-04-10 12:23 free赖权华阅读(2269) 评论(0) 推荐(0)

Python网络爬虫笔记（一）：网页抓取方式和LXML示例

摘要：（一）三种网页抓取方法 1、正则表达式：模块使用C语言编写，速度快，但是很脆弱，可能网页更新后就不能用了。 2、 Beautiful Soup 模块使用Python编写，速度慢。安装： pip install beautifulsoup4 3、 Lxml 模块使用C语言编写，即快速又健壮，通阅读全文

posted @ 2018-04-09 10:19 free赖权华阅读(2113) 评论(0) 推荐(1)

习惯形成性格，性格决定命运

Github地址：https://github.com/blairwind

04 2018 档案

公告