12 2019 档案
摘要:耶鲁大学(Yale University)是一所坐落于美国康涅狄格州纽黑文的私立研究型大学,创于1701年,初名“大学学院”(Collegiate School),是全美历史第三悠久的高等学府,亦为常春藤盟校成员之一。该校教授阵容、学术创新、课程设置和场馆设施等方面堪称一流。除了研究生课程之外,耶鲁
阅读全文
摘要:在我们学会了BeautifulSoup库的用法后,我们就可以使用这个库对HTML进行解析,从网页中提取我们需要的内容。 在BeautifulSoup 文档里,find()、find_all()两者的定义如下: find(tag, attributes, recursive, text, keywor
阅读全文
摘要:首先我们先找到它的首页:https://maoyan.com/board/4 点击“下一页”,可以看到第二页的URL为:https://maoyan.com/board/4?offset=10 此时我们可以分析出,第一页的URL为:https://maoyan.com/board/4?offset=
阅读全文
摘要:今天我们爬取网页中的文字,与上次的爬取网页中的图片相似,网页的中的文字也是在网页的源码中(一般情况下)。 所以我们就以在某小说网站上爬取小说《圣墟》为例,使用爬虫爬取网页中的文本内容,并根据小说的章节名保存。 我们的思路如下: 1.爬取当前网页的源码: 2.提取出需要的数据(标题,正文) 3.保存(
阅读全文

浙公网安备 33010602011771号