随笔分类 -  爬虫

多记几个小项目
摘要:# encoding:utf-8 import requests import pandas as pd import urllib3 urllib3.disable_warnings() Lists_tot = [] T = "" for i in range(0, 1): header = {' 阅读全文
posted @ 2022-10-11 14:24 土星狗蛋 阅读(98) 评论(0) 推荐(0)
摘要:最近在做一个ai推荐明星项目,首先需要进行数据的收集所以这些天都在着手爬虫其中需要我完善师兄爬的数据,自己爬百度百科去完善数据库里的词条在启动爬虫的时候碰到一个问题需要我遍历表单,提取明星名、作品名分别更改爬虫关键词启动爬虫→收集数据但是碰到一个问题,这需要我在循环中调用爬虫自己写的时候 一直碰到R 阅读全文
posted @ 2020-09-28 16:20 土星狗蛋 阅读(541) 评论(0) 推荐(0)
摘要:为了入门scrapy框架,昨天写了一个爬取静态小说网站的小程序 下面我们尝试爬取全书网中网游动漫类小说的书籍信息。 一、准备阶段 明确一下爬虫页面分析的思路: 对于书籍列表页:我们需要知道打开单本书籍的地址、以及获取点开下一页书籍列表页的链接 对于书籍信息页面,我们需要找到提取:(书名、作者、书本简 阅读全文
posted @ 2019-04-22 09:02 土星狗蛋 阅读(1349) 评论(0) 推荐(0)
摘要:Pexel上有大量精美的图片,没事总想看看有什么好看的自己保存到电脑里可能会很有用 但是一个一个保存当然太麻烦了 所以不如我们写个爬虫吧(๑•̀ㅂ•́)و✧ 一开始学习爬虫的时候希望爬取pexel上的壁纸,然而自己当时不会 上周好不容易搞出来了,周末现在认真地总结一下上周所学的内容 也希望自己写的东 阅读全文
posted @ 2019-04-20 17:22 土星狗蛋 阅读(3306) 评论(0) 推荐(0)
摘要:Before 在实现一个例子之前,首先要明确自己想要获得怎样的结果:爬取近六年出版评分在7分以上的漫画 最后我想要得到的信息是所有满足要求的书名 要求有二:1、近六年出版,即出版时间 >= 2013年 2、评分在7分以上 接下来针对我们的要求,去观察页面元素 我们观察一下页面(https://boo 阅读全文
posted @ 2019-04-13 17:29 土星狗蛋 阅读(755) 评论(0) 推荐(0)
摘要:应老师分的方向,昨天开始自学入门爬虫了 虽然实现了一个比较简单的小爬虫,自己还是非常兴奋的,还是第一次实现 真的好开心 本来想爬pexel上的壁纸,然而发现对方的网页不知道设置了什么,反正有反爬虫机制,用python访问直接Fobbiden!真小气qwq 最后还是乖乖去爬zol上的壁纸了 Befor 阅读全文
posted @ 2019-04-10 09:57 土星狗蛋 阅读(2659) 评论(1) 推荐(8)