摘要: 在前面我们玩了好多静态的 HTML,但还有一些常见的动态数据,比如,商品的评论数据、实时的直播弹幕等,这些数据是会经常发生改变的,所以很多网站就会用到 Json 来传输这些数据。 Python JSON 可以用 json 模块, 1. 将 python 对象转化为 json是这样的 json.dum 阅读全文
posted @ 2020-01-16 21:21 Rogn 阅读(692) 评论(0) 推荐(0) 编辑
摘要: 简介 BeautifulSoup是一个高效的网页解析库,可以从 HTML 或 XML 文件中提取数据。 beautifulsoup支持不同的解析器,比如,对HTML解析,对XML解析,对HTML5解析。一般情况下,我们用的比较多的是 lxml 解析器。 当前最新的 Beautiful Soup 版本 阅读全文
posted @ 2020-01-16 16:56 Rogn 阅读(1580) 评论(0) 推荐(0) 编辑
摘要: 打开这个书籍排行榜的地址 http://bang.dangdang.com/books/fivestars/01.00.00.00.00.00-recent30-0-0-1-1,很容易就能定位到书籍信息: 难点在于如何写一个正则。。 直接看代码: import requests import re 阅读全文
posted @ 2020-01-16 16:11 Rogn 阅读(627) 评论(0) 推荐(0) 编辑
摘要: 这是一次爬虫尝试,涵盖TED到目前为止共4000+视频标题的提取,结果以文本格式存储,然后使用wordcloud词云库,生成可视化的云图。 TED演讲是啥? 官网地址:https://www.ted.com/ TED(指technology, entertainment, design在英语中的缩写 阅读全文
posted @ 2020-01-16 10:19 Rogn 阅读(547) 评论(0) 推荐(0) 编辑