05 2016 档案

摘要:决定写一个小的爬虫系列,本文是第一篇,讲爬虫的基本原理和简易示例。 1、单个网页的简易爬虫以下爬虫的主要功能是爬取百度贴吧中某一页面的所有图片。代码由主要有两个函数:其中getHtml()通过页面url获取其对应的html内容,getImage()则通过解析html获... 阅读全文

posted @ 2016-05-29 16:58 jackley 阅读(122) 评论(0) 推荐(0)

摘要:1、任务定义:爬取某动态分页页面中所有子话题的内容。所谓“动态分页”:是指通过javascript(简称“js”)点击实现翻页,很多时候翻页后的页面地址url并没有变化,而页面内容随翻页动作动态变化。 2、任务难点及处理方法:难点:1) scrapy如何动态加载所有... 阅读全文

posted @ 2016-05-29 16:12 jackley 阅读(669) 评论(0) 推荐(0)

摘要:本文首先简要介绍编码转换的基本原理,然后针对字符串处理、文件读写的两个实例,具体分析编码问题的处理方式。 1、编码转换的基本原理我们知道,只有在面对中文、日文等编码字符(以下均以中文字符为例)时,才会有编码转换问题;而英文字符串是不存在编码转换问题的,因为转来转去都不... 阅读全文

posted @ 2016-05-28 17:32 jackley 阅读(92) 评论(0) 推荐(0)