随笔分类 -  Python

只有注册用户登录后才能阅读该文。
posted @ 2016-10-09 21:13 billyz 阅读(49) 评论(0) 推荐(0)
摘要:Python 开发轻量级爬虫 (imooc总结08--爬虫实例--分析目标) 怎么开发一个爬虫?开发一个爬虫包含哪些步骤呢? 1.确定要抓取得目标,即抓取哪些网站的哪些网页的哪部分数据。 本实例确定抓取Python百度百科词条页面以及相关词条页面的标题和简介。 2.分析这个目标,即需要确定抓取这些网 阅读全文
posted @ 2016-09-05 08:37 billyz 阅读(307) 评论(0) 推荐(0)
摘要:Python 开发轻量级爬虫 (imooc总结07--网页解析器BeautifulSoup) BeautifulSoup下载和安装 使用pip install 安装:在命令行cmd之后输入,pip install BeautifulSoup4 BeautifulSoup语法 分为三个部分。 首先根据 阅读全文
posted @ 2016-09-05 08:33 billyz 阅读(212) 评论(0) 推荐(0)
摘要:Python 开发轻量级爬虫 (imooc总结06--网页解析器) 介绍网页解析器 将互联网的网页获取到本地以后,我们需要对它们进行解析才能够提取出我们需要的内容。 也就是说网页解析器是从网页中提取有价值数据的一种工具,对于搜索引擎来说它会提取出网页所有的url,用于后续的访问。 但是,对于我们定向 阅读全文
posted @ 2016-09-05 08:25 billyz 阅读(194) 评论(0) 推荐(0)
摘要:Python 开发轻量级爬虫 (imooc总结05--网页下载器) 阅读全文
posted @ 2016-09-05 08:11 billyz 阅读(255) 评论(0) 推荐(0)
摘要:Python 开发轻量级爬虫 (imooc总结04--url管理器) 介绍抓取URL管理器 url管理器用来管理待抓取url集合和已抓取url集合。 这里有一个问题,遇到一个url,我们就抓取它的内容,为什么还要对url进行管理呢? 是为了防止重复抓取、防止循环抓取。 我们都知道,每一个网页都有很多 阅读全文
posted @ 2016-09-05 07:58 billyz 阅读(267) 评论(0) 推荐(0)
摘要:Python 开发轻量级爬虫 (imooc总结03--简单的爬虫架构) 现在来看一下一个简单的爬虫架构。 要实现一个简单的爬虫,有哪些方面需要考虑呢? 首先需要一个爬虫调度端,来启动爬虫、停止爬虫、监视爬虫的运行情况。 在爬虫程序中有三个模块。首先url管理器来对将要爬取的url和已经爬取过的url 阅读全文
posted @ 2016-09-05 07:51 billyz 阅读(280) 评论(0) 推荐(0)
摘要:Python 开发轻量级爬虫 (imooc总结02--爬虫简介) 爬虫简介 首先爬虫是什么?它是一段自动抓取互联网信息的程序。 什么意思呢? 互联网由各种各样的的网页组成,每一个网页都有对应的url,而url页面上又有很多指向其它页面的url,这些url之间相互指向的关系, 就形成了一个网状,这就是 阅读全文
posted @ 2016-09-05 07:42 billyz 阅读(252) 评论(0) 推荐(0)
摘要:Python 开发轻量级爬虫 (imooc总结01--课程目标) 课程目标:掌握开发轻量级爬虫 为什么说是轻量级的呢?因为一个复杂的爬虫需要考虑的问题场景非常多,比如有些网页需要用户登录了以后才能够访问,有些网页是 使用了Ajax异步加载的内容,这些网页的抓取就会比较复杂。 这里只会考虑不需要登录的 阅读全文
posted @ 2016-09-05 07:37 billyz 阅读(360) 评论(0) 推荐(0)
摘要:清屏很简单,为IDLE增加一个清屏的扩展ClearWindow即可。 首先下载clearwindow.py(点击可直接下载,不能下载的可以右键保存,格式为py结尾), 将这个文件放到Python安装目录的Lib/idlelib下,再在这个目录下找到config-extensions.def 这个文件 阅读全文
posted @ 2016-08-31 16:22 billyz 阅读(352) 评论(0) 推荐(0)
摘要:Urllib2 总结 介绍 Urllib2是用于获取URLs(统一资源定位符)的一个Python模块。它以urlopen函数的形式提供了非常简单的接口。能够使用各种不同的协议来获取网址。它还提供一个稍微复杂的接口用于处理常见的情况:如基本身份验证、cookies、proxies(代理)等。这些是由h 阅读全文
posted @ 2016-08-29 22:30 billyz 阅读(10138) 评论(0) 推荐(0)
摘要:a byte of python 第十章 输入/输出 如何使程序和用户进行交互?(用 raw_input 和 print语句来完成) 对于输出,你也可以使用多种多样的 str(字符串)类。使用 rjust 方法来得到一那首歌,那是给你的啊,那个, 个按一定宽度右对齐的字符串。利用 help(str) 阅读全文
posted @ 2016-08-28 20:53 billyz 阅读(214) 评论(0) 推荐(0)
摘要:a byte of python 第七章 模块 想要在其他程序中重用很多函数,那么你该如何编写程序呢? 答案是使用模块。 模块基本上就是一个包含了所有你定义的函数和变量的文件。为了在其他程序中重用模块,模块的文件名必须以.py 为扩展名。 字节编译的.pyc文件: 输入一个模块相对来说是一个比较费时 阅读全文
posted @ 2016-08-28 20:51 billyz 阅读(212) 评论(0) 推荐(0)
摘要:a byte of python 第四章 运算符与表达式 运算符 运算符优先级 (运算符通常由左向右结合,即具有相同优先级的运算符按照从左向右的顺序计算。例如, 2 + 3 + 4 被计算成 (2 + 3) + 4 。一些如赋值运算符那样的运算符是由右向左结合的,即 a = b = c 被处理为 a 阅读全文
posted @ 2016-08-28 20:50 billyz 阅读(229) 评论(0) 推荐(0)
摘要:a byte of python 第一章 介绍 Python 特色 简单、易学、免费、开源 高层语言、可移植性、解释性 面向对象、可扩展性、可嵌入性 丰富的库 第二章 安装Python http://jingyan.baidu.com/article/7908e85c78c743af491ad261 阅读全文
posted @ 2016-08-28 20:48 billyz 阅读(325) 评论(0) 推荐(0)