摘要: 今天咱们要爬取花瓣网 https://huaban.com/ 设计师寻找灵感的天堂!有海量的图片素材可以下载,是一个优质图片灵感库 这次我们用 requests 登录花瓣网,爬取页面,再用正则与json提取有用信息,最后把获取的图片信息 保存到本地 一 、用到技术 python 基础 request 阅读全文
posted @ 2020-10-13 23:25 曾庆林 阅读(435) 评论(0) 推荐(3) 编辑
摘要: Requests 是一个 Python 的 HTTP 客户端库。 Request支持HTTP连接保持和连接池,支持使用cookie保持会话,支持文件上传,支持自动响应内容的编码,支持国际化的URL和POST数据自动编码。 在python内置模块的基础上进行了高度的封装从而使得python进行网络请求 阅读全文
posted @ 2020-10-13 23:24 曾庆林 阅读(1721) 评论(0) 推荐(0) 编辑
摘要: 让我们爬取百度贴吧旅游信息,看看哪些地方是大家旅游关注的热点。 不要问我这个十一去哪儿旅游了,我还在家没日没夜的码代码。 这次我们用 urllib 爬取页面,再用BeautifulSoup提取有用信息,最后用 xlsxwriter 把获取的信息 写入到excel表 一 、用到技术 python 基础 阅读全文
posted @ 2020-10-13 13:22 曾庆林 阅读(227) 评论(0) 推荐(0) 编辑
摘要: 结构化的数据是最好处理,一般都是类似JSON格式的字符串,直接解析JSON数据,提取JSON的关键字段即可。 JSON JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式;适用于进行数据交互的场景,比如网站前台与后台之间的数据交互 Python 3.x中自带 阅读全文
posted @ 2020-10-13 13:20 曾庆林 阅读(1718) 评论(0) 推荐(0) 编辑
摘要: 在以前,商业分析对应的英文单词是Business Analysis,大家用的分析工具是Excel,后来数据量大了,Excel应付不过来了(Excel最大支持行数为1048576行),人们开始转向python和R这样的分析工具了 XlsxWriter xlrd&xlwt OpenPyXL Micros 阅读全文
posted @ 2020-10-13 13:16 曾庆林 阅读(197) 评论(0) 推荐(0) 编辑
摘要: 掌握了XPath、CSS选择器,为什么还要学习正则? 正则表达式,用标准正则解析,一般会把HTML当做普通文本,用指定格式匹配当相关文本,适合小片段文本,或者某一串字符(比如电话号码、邮箱账户),或者HTML包含javascript的代码,无法用CSS选择器或者XPath 在线正则表达式测试网站ht 阅读全文
posted @ 2020-10-13 13:15 曾庆林 阅读(172) 评论(0) 推荐(0) 编辑
摘要: lxml 是一种使用 Python 编写的库,可以迅速、灵活地处理 XML ,支持 XPath (XML Path Language) lxml python 官方文档 http://lxml.de/index.html 学习目的 利用上节课学习的XPath语法,来快速的定位 特定元素以及节点信息, 阅读全文
posted @ 2020-10-12 13:17 曾庆林 阅读(588) 评论(0) 推荐(0) 编辑
摘要: CSS Selector CSS(即层叠样式表Cascading Stylesheet), Selector来定位(locate)页面上的元素(Elements)。Selenium官网的Document里极力推荐使用CSS locator,而不是XPath来定位元素,原因是CSS locator比X 阅读全文
posted @ 2020-10-12 08:47 曾庆林 阅读(346) 评论(0) 推荐(0) 编辑
摘要: XPath 语言 XPath(XML Path Language)是XML路径语言,它是一种用来定位XML文档中某部分位置的语言。 学习目的 将HTML转换成XML文档之后,用XPath查找HTML节点或元素 比如用“/”来作为上下层级间的分隔,第一个“/”表示文档的根节点(注意,不是指文档最外层的 阅读全文
posted @ 2020-10-12 08:46 曾庆林 阅读(238) 评论(0) 推荐(0) 编辑
摘要: ​一般来讲对我们而言,需要抓取的是某个网站或者某个应用的内容,提取有用的价值,内容一般分为两部分,非结构化的文本,或结构化的文本。 关于结构化的数据 JSON、XML、HTML HTML文本(包含JavaScript代码)是最常见的数据格式,理应属于结构化的文本组织,但因为一般我们需要的关键信息并非 阅读全文
posted @ 2020-10-11 21:48 曾庆林 阅读(143) 评论(0) 推荐(0) 编辑