上一页 1 ··· 16 17 18 19 20 21 22 23 24 ··· 34 下一页
摘要: 案例:使用正则表达式的爬虫 现在拥有了正则表达式这把神兵利器,我们就可以进行对爬取到的全部网页源代码进行筛选了。 下面我们一起尝试一下爬取内涵段子网站: http://www.neihan8.com/article/list_5_1.html 打开之后,不难看到里面一个一个灰常有内涵的段子,当你进行 阅读全文
posted @ 2018-06-06 02:38 阿谋 阅读(646) 评论(0) 推荐(1)
摘要: 简单用法 chardet的使用非常简单,主模块里面只有一个函数detect。detect有一个参数,要求是bytes类型。bytes类型可以通过读取网页内容、open函数的rb模式、带b前缀的字符串、encode函数等途径获得。 示例代码: 如上所示,detect函数返回一个字典,字典里有两个key 阅读全文
posted @ 2018-06-06 01:44 阿谋 阅读(8877) 评论(0) 推荐(1)
摘要: re模块 阅读全文
posted @ 2018-06-05 22:33 阿谋 阅读(290) 评论(0) 推荐(0)
摘要: 页面解析和数据提取 一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值。内容一般分为两部分,非结构化的数据 和 结构化的数据。 非结构化数据:先有数据,再有结构, 结构化数据:先有结构、再有数据 不同类型的数据,我们需要采用不同的方式来处理。 非结构化的数据处理 正则表达式 阅读全文
posted @ 2018-06-05 22:22 阿谋 阅读(471) 评论(0) 推荐(0)
摘要: cookie详解: --> 原文链接 HTTP cookies,通常又称作"cookies"早期Web开发面临的最大问题之一是如何管理状态。服务器端没有办法知道两个请求是否来自于同一个浏览器。那时的办法是在请求的页面中插入一个token,并且在下一次请求中将这个token返回(至服务器)。这就需要在 阅读全文
posted @ 2018-06-05 03:40 阿谋 阅读(1261) 评论(0) 推荐(0)
上一页 1 ··· 16 17 18 19 20 21 22 23 24 ··· 34 下一页