爬虫 - 随笔分类 - 土星狗蛋

构建request访问公开的api接口

摘要：# encoding:utf-8 import requests import pandas as pd import urllib3 urllib3.disable_warnings() Lists_tot = [] T = "" for i in range(0, 1): header = {' 阅读全文

posted @ 2022-10-11 14:24 土星狗蛋阅读(106) 评论(0) 推荐(0)

在循环中启动scrapy爬虫

摘要：最近在做一个ai推荐明星项目，首先需要进行数据的收集所以这些天都在着手爬虫其中需要我完善师兄爬的数据，自己爬百度百科去完善数据库里的词条在启动爬虫的时候碰到一个问题需要我遍历表单，提取明星名、作品名分别更改爬虫关键词启动爬虫→收集数据但是碰到一个问题，这需要我在循环中调用爬虫自己写的时候一直碰到R 阅读全文

posted @ 2020-09-28 16:20 土星狗蛋阅读(556) 评论(0) 推荐(0)

爬虫入门（四）——Scrapy框架入门：使用Scrapy框架爬取全书网小说数据

摘要：为了入门scrapy框架，昨天写了一个爬取静态小说网站的小程序下面我们尝试爬取全书网中网游动漫类小说的书籍信息。一、准备阶段明确一下爬虫页面分析的思路：对于书籍列表页：我们需要知道打开单本书籍的地址、以及获取点开下一页书籍列表页的链接对于书籍信息页面，我们需要找到提取：（书名、作者、书本简阅读全文

posted @ 2019-04-22 09:02 土星狗蛋阅读(1369) 评论(0) 推荐(0)

爬虫入门（三）——动态网页爬取：爬取pexel上的图片

摘要：Pexel上有大量精美的图片，没事总想看看有什么好看的自己保存到电脑里可能会很有用但是一个一个保存当然太麻烦了所以不如我们写个爬虫吧(๑•̀ㅂ•́)و✧ 一开始学习爬虫的时候希望爬取pexel上的壁纸，然而自己当时不会上周好不容易搞出来了，周末现在认真地总结一下上周所学的内容也希望自己写的东阅读全文

posted @ 2019-04-20 17:22 土星狗蛋阅读(3323) 评论(0) 推荐(0)

爬虫入门（二）——静态页面爬取：豆瓣爬取近六年出版评分在7分以上的漫画

摘要：Before 在实现一个例子之前，首先要明确自己想要获得怎样的结果：爬取近六年出版评分在7分以上的漫画最后我想要得到的信息是所有满足要求的书名要求有二：1、近六年出版，即出版时间 >= 2013年 2、评分在7分以上接下来针对我们的要求，去观察页面元素我们观察一下页面（https://boo 阅读全文

posted @ 2019-04-13 17:29 土星狗蛋阅读(757) 评论(0) 推荐(0)

爬虫入门（一）——静态网页爬取：批量获取高清壁纸

摘要：应老师分的方向，昨天开始自学入门爬虫了虽然实现了一个比较简单的小爬虫，自己还是非常兴奋的，还是第一次实现真的好开心本来想爬pexel上的壁纸，然而发现对方的网页不知道设置了什么，反正有反爬虫机制，用python访问直接Fobbiden！真小气qwq 最后还是乖乖去爬zol上的壁纸了 Befor 阅读全文

posted @ 2019-04-10 09:57 土星狗蛋阅读(2676) 评论(1) 推荐(8)

来了

干！

随笔分类 - 爬虫

公告