2019 年 9月 19 日随笔档案 - Mr-Su

python爬虫第六天

摘要：第六天：使用Beautiful Soup解析网页通过requests库已经可以抓到网页源码，接下来要从源码中找到并提取数据。Beautiful Soup是python的一个库，其最主要的功能是从网页中抓取数据。Beautiful Soup目前已经被移植到bs4库中，也就是说在导入Beautifu 阅读全文

posted @ 2019-09-19 20:26 Mr-Su 阅读(323) 评论(0) 推荐(0) 编辑

python爬虫第四天

摘要：第四天： XPATH和LXML类库为什么要学习XPATH和LXML类库： lxml是一款高性能的 Python HTML/XML 解析器，我们可以利用XPath，来快速的定位特定元素以及获取节点信息什么是XPATH： XPath (XML Path Language) 是一门在 HTML\XML 阅读全文

posted @ 2019-09-19 20:24 Mr-Su 阅读(259) 评论(0) 推荐(0) 编辑

python爬虫第五天

摘要：第五天： Selenium Selenium是一个Web的自动化测试工具，最初是为网站自动化测试而开发的，类型像我们玩游戏用的按键精灵，可以按指定的命令自动操作，不同是Selenium 可以直接运行在浏览器上，它支持所有主流的浏览器（包括PhantomJS这些无界面的浏览器）。这里推荐使用pip安阅读全文

posted @ 2019-09-19 20:24 Mr-Su 阅读(347) 评论(0) 推荐(0) 编辑

python爬虫第三天

摘要：第三天：数据的分类数据提取什么是数据的提取？简单来说就是从响应中获取我们想要的数据的过程数据分类数据提取之json 由于把json数据转化为python内建数据类型很简单，所以爬虫中，如果我们能够找到返回json数据的URL，就会尽量使用这种URL JSON(JavaScript Obj 阅读全文

posted @ 2019-09-19 20:22 Mr-Su 阅读(272) 评论(0) 推荐(0) 编辑

python爬虫第二天

摘要：第二天： Requests深入 GET和POST请求的区别： GET请求的参数是附加到URL的后面（?kw=赵丽颖&pn=0） POST请求的参数是附加到请求体中的 GET请求常用在超链接（<a href=”xxx”>） POST请求常用在表单中（form标签）发送post请求哪些地方我们会用到阅读全文

posted @ 2019-09-19 20:14 Mr-Su 阅读(212) 评论(0) 推荐(0) 编辑

python爬虫第一天

摘要：第一天：爬虫概要：为什么我们要学习爬虫？首先请问：都说现在是‘大数据时代’，那数据从何而来？什么是大数据：多大的数据才算大数据？ B: bytes(字节) K:1K = 1024B 1K=2**10 M:1M = 1024K 1M=2**20 G:1G = 1024M 1G=2**30 4 阅读全文

posted @ 2019-09-19 20:13 Mr-Su 阅读(237) 评论(0) 推荐(0) 编辑

导航

2019年9月19日