2019 年 12月随笔档案 - 杨小平#

爬取耶鲁大学公开课

摘要：耶鲁大学（Yale University）是一所坐落于美国康涅狄格州纽黑文的私立研究型大学，创于1701年，初名“大学学院”（Collegiate School），是全美历史第三悠久的高等学府，亦为常春藤盟校成员之一。该校教授阵容、学术创新、课程设置和场馆设施等方面堪称一流。除了研究生课程之外，耶鲁阅读全文

posted @ 2019-12-22 15:19 杨小平# 阅读(586) 评论(0) 推荐(3)

find()和find_all()的具体使用

摘要：在我们学会了BeautifulSoup库的用法后，我们就可以使用这个库对HTML进行解析，从网页中提取我们需要的内容。在BeautifulSoup 文档里，find()、find_all()两者的定义如下： find(tag, attributes, recursive, text, keywor 阅读全文

posted @ 2019-12-12 16:32 杨小平# 阅读(6640) 评论(0) 推荐(1)

爬取猫眼电影Top100

摘要：首先我们先找到它的首页：https://maoyan.com/board/4 点击“下一页”，可以看到第二页的URL为：https://maoyan.com/board/4?offset=10 此时我们可以分析出，第一页的URL为：https://maoyan.com/board/4?offset= 阅读全文

posted @ 2019-12-06 21:38 杨小平# 阅读(1068) 评论(0) 推荐(3)

爬取小说并以章节名保存

摘要：今天我们爬取网页中的文字，与上次的爬取网页中的图片相似，网页的中的文字也是在网页的源码中（一般情况下）。所以我们就以在某小说网站上爬取小说《圣墟》为例，使用爬虫爬取网页中的文本内容，并根据小说的章节名保存。我们的思路如下： 1.爬取当前网页的源码： 2.提取出需要的数据（标题，正文） 3.保存（阅读全文

posted @ 2019-12-01 18:30 杨小平# 阅读(2023) 评论(0) 推荐(1)

##

12 2019 档案

公告