joshua&&chen

2018年10月15日

摘要：多线程糗事百科案例案例要求参考上一个糗事百科单进程案例 Queue（队列对象） Queue是python中的标准库，可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考对于资源，加锁是个重要的环节。因为python原生的list,dict等，都是n 阅读全文

posted @ 2018-10-15 14:34 joshua&&chen 阅读(516) 评论(0) 推荐(0)

非结构化数据与结构化数据提取--- 糗事百科案例

摘要：糗事百科实例：爬取糗事百科段子，假设页面的URL是 http://www.qiushibaike.com/8hr/page/1 要求：使用requests获取页面信息，用XPath / re 做数据提取获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数保存到 json 文件阅读全文

posted @ 2018-10-15 14:31 joshua&&chen 阅读(350) 评论(0) 推荐(0)

非结构化数据与结构化数据提取--- JSON模块与JsonPath

摘要：数据提取之JSON与JsonPATH JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式，它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成。适用于进行数据交互的场景，比如网站前台与后台之间的数据交互。 JSON和XML的比较可谓不相上下。 P 阅读全文

posted @ 2018-10-15 14:29 joshua&&chen 阅读(1985) 评论(0) 推荐(0)

非结构化数据与结构化数据提取---- 案例：使用bs4的爬虫

摘要：案例：使用BeautifuSoup4的爬虫我们以腾讯社招页面来做演示：http://hr.tencent.com/position.php?&start=10#a 使用BeautifuSoup4解析器，将招聘网页上的职位名称、职位类别、招聘人数、工作地点、发布时间，以及每个职位详情的点击链接存储出阅读全文

posted @ 2018-10-15 14:27 joshua&&chen 阅读(585) 评论(0) 推荐(0)

非结构化数据与结构化数据提取---- BeautifulSoup4 解析器

摘要： CSS 选择器：BeautifulSoup4 和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。 lxml 只会局部遍历，而Beautiful Soup 是基于HTML DOM的，会载入整个文档，解析整个DOM树阅读全文

posted @ 2018-10-15 14:24 joshua&&chen 阅读(1042) 评论(0) 推荐(0)

非结构化数据与结构化数据提取---- 案例：使用XPath的爬虫

摘要：案例：使用XPath的爬虫现在我们用XPath来做一个简单的爬虫，我们尝试爬取某个贴吧里的所有帖子，并且将该这个帖子里每个楼层发布的图片下载到本地。阅读全文

posted @ 2018-10-15 14:21 joshua&&chen 阅读(333) 评论(0) 推荐(0)

2018年10月13日

非结构化数据与结构化数据提取----XPath与lxml类库

摘要：什么是XML XML 指可扩展标记语言（EXtensible Markup Language） XML 是一种标记语言，很类似 HTML XML 的设计宗旨是传输数据，而非显示数据 XML 的标签需要我们自行定义。 XML 被设计为具有自我描述性。 XML 是 W3C 的推荐标准 W3School官阅读全文

posted @ 2018-10-13 10:47 joshua&&chen 阅读(408) 评论(0) 推荐(0)

非结构化数据与结构化数据提取---- 案例：使用正则表达式的爬虫

摘要：案例：使用正则表达式的爬虫现在拥有了正则表达式这把神兵利器，我们就可以进行对爬取到的全部网页源代码进行筛选了。下面我们一起尝试一下爬取内涵段子网站： http://www.neihan8.com/article/list_5_1.html 打开之后，不难看到里面一个一个灰常有内涵的段子，当你进行阅读全文

posted @ 2018-10-13 10:43 joshua&&chen 阅读(276) 评论(0) 推荐(0)

非结构化数据与结构化数据提取---正则表达式re模块

摘要：页面解析和数据提取一般来讲对我们而言，需要抓取的是某个网站或者某个应用的内容，提取有用的价值。内容一般分为两部分，非结构化的数据和结构化的数据。非结构化数据：先有数据，再有结构，结构化数据：先有结构、再有数据不同类型的数据，我们需要采用不同的方式来处理。非结构化的数据处理正则表达式阅读全文

posted @ 2018-10-13 10:40 joshua&&chen 阅读(1273) 评论(0) 推荐(0)

爬虫原理与数据抓取----- Requests模块

摘要： Requests: 让 HTTP 服务人类虽然Python的标准库中 urllib2 模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests 自称 “HTTP for Humans”，说明使用更简洁方便。 Requests 唯一的一个非转基因的 Py 阅读全文

posted @ 2018-10-13 10:34 joshua&&chen 阅读(743) 评论(0) 推荐(0)

公告