摘要: 1.这个好像是爬虫入门必备项目,练练手 练习网站:http://bang.dangdang.com/books/fivestars 2.requests + bs4模式,因为这个网站比较简单,不多说废话了。 (此次下载的内容没有输出到文本文件中,而是存储到mongodb数据库中) #!/usr/bi 阅读全文
posted @ 2020-08-24 22:52 遗世独立的愚公 阅读(566) 评论(0) 推荐(0) 编辑
摘要: 1.最近在爬取文献,提取摘要,并将其翻译成中文。 2.每次会在不同的item出报错,错误信息如下所示: 3.百度搜索原因:原因:服务器限制了User-Agent的访问。 4.UA的作用 UA:即user-agent,中文名称为用户代理;在爬虫中使用user-agent可以对爬虫 进行适当的伪装。 U 阅读全文
posted @ 2020-08-24 14:39 遗世独立的愚公 阅读(277) 评论(0) 推荐(0) 编辑
摘要: 1.爬虫实战项目,爬取小说,只能爬取免费小说(VIP小说需要充钱登陆:方法有所差异,后续会进行讲解) 本教程出于学习目的,如有犯规,请留言联系 爬取网站:起点中文网,盗墓笔记免费篇 https://book.qidian.com/info/68223#Catalog 2.网页结构分析 结构分析发现: 阅读全文
posted @ 2020-08-24 12:39 遗世独立的愚公 阅读(2097) 评论(0) 推荐(0) 编辑