Python - 文章分类(第2页) - jeffkuang

[Python]网络爬虫（四）：Opener与Handler的介绍和实例应用

摘要：更好的学习网址：http://www.voidspace.org.uk/python/articles/urllib2.shtml#openers-and-handlers以下为个人学习笔记。在开始后面的内容之前，先来解释一下urllib2中的两个个方法：info and geturlurlopen... 阅读全文

posted @ 2015-09-24 13:58 jeffkuang 阅读(182) 评论(0) 推荐(0)

[Python]网络爬虫（二）：利用urllib2通过指定的URL抓取网页内容

摘要：版本号：Python2.7.5，Python3改动较大，各位另寻教程。所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。类似于使用程序模拟IE浏览器的功能，把URL作为HTTP请求的内容发送到服务器端，然后读取服务器端的响应资源。在Python中，我们使用urll... 阅读全文

posted @ 2015-09-24 13:57 jeffkuang 阅读(212) 评论(0) 推荐(0)

[Python]网络爬虫（三）：异常的处理和HTTP状态码的分类

摘要：先来说一说HTTP的异常处理问题。当urlopen不能够处理一个response时，产生urlError。不过通常的Python APIs异常如ValueError,TypeError等也会同时产生。 HTTPError是urlError的子类，通常在特定HTTP URLs中产生。 1.URL... 阅读全文

posted @ 2015-09-24 13:57 jeffkuang 阅读(633) 评论(0) 推荐(0)

[Python]网络爬虫（一）：抓取网页的含义和URL基本构成

摘要：一、网络爬虫的定义网络爬虫，即Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页的。从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，... 阅读全文

posted @ 2015-09-24 13:55 jeffkuang 阅读(500) 评论(0) 推荐(1)

Python爬虫实战（2）：百度贴吧帖子

摘要：本篇目标1.对百度贴吧的任意帖子进行抓取2.指定是否只抓取楼主发帖内容3.将抓取到的内容分析并保存到文件1.URL格式的确定首先，我们先观察一下百度贴吧的任意一个帖子。比如：http://tieba.baidu.com/p/3138733512?see_lz=1&pn=1，这是一个关于NBA50大的... 阅读全文

posted @ 2015-09-24 13:29 jeffkuang 阅读(237) 评论(0) 推荐(0)

Python爬虫实战（1）：爬取糗事百科段子

摘要：大家好，前面入门已经说了那么多基础知识了，下面我们做几个实战项目来挑战一下吧。那么这次为大家带来，Python爬取糗事百科的小段子的例子。首先，糗事百科大家都听说过吧？糗友们发的搞笑的段子一抓一大把，这次我们尝试一下用爬虫把他们抓取下来。本篇目标1.抓取糗事百科热门段子2.过滤带有图片的段子3.实现... 阅读全文

posted @ 2015-09-23 18:59 jeffkuang 阅读(184) 评论(0) 推荐(0)

Python 网页爬虫 & 文本处理 & 科学计算 & 机器学习 & 数据挖掘兵器谱

摘要：曾经因为NLTK的缘故开始学习Python，之后渐渐成为我工作中的第一辅助脚本语言，虽然开发语言是C/C++，但平时的很多文本数据处理任务都交给了Python。离开腾讯创业后，第一个作品课程图谱也是选择了Python系的Flask框架，渐渐的将自己的绝大部分工作交给了Python。这些年来，接触和使... 阅读全文

posted @ 2015-06-23 13:26 jeffkuang 阅读(145) 评论(0) 推荐(0)

Scrapy 轻松定制网络爬虫

摘要：网络爬虫（Web Crawler, Spider）就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人，因为网络本身也是虚拟的东西，所以这个“机器人”其实也就是一段程序，并且它也不是乱爬，而是有一定目的的，并且在爬行的时候会搜集一些信息。例如 Google 就有一大堆爬虫会在 Intern... 阅读全文

posted @ 2015-06-23 13:25 jeffkuang 阅读(159) 评论(0) 推荐(0)

Python编码问题收集

摘要：怎么避免UnicodeEncodeError: ‘ascii’ codec can’t…类似的错误？1、首先在py文件头部指定文件内容编码，例如：# coding: utf82、文件保存的时候要和py文件头部编码一致3、在用decode和encode的时候，一定要确认要转换的字符原编码是什么。例如：... 阅读全文

posted @ 2015-04-02 14:01 jeffkuang 阅读(117) 评论(0) 推荐(0)

文章分类 - Python

公告