夕瑶^ - 博客园

2024年7月16日

摘要：今天写了一个简单的爬虫程序，为了爬取kfc官网的餐厅数据，代码如下 # ajax的post请求--肯德基官网 def create_request(page): url='http://www.kfc.com.cn/kfccda/ashx/GetStoreList.ashx' data={ 'cna 阅读全文

posted @ 2024-07-16 21:14 夕瑶^ 阅读(107) 评论(0) 推荐(0)

2024年7月10日

Python爬虫（1-4）-基本概念、六个读取方法、下载（源代码、图片、视频）、user-agent反爬

摘要： Python爬虫一、爬虫相关概念介绍 1.什么是互联网爬虫如果我们把互联网比作一张大的蜘蛛网，那一台计算机上的数据便是蜘蛛网上的一个猎物，而爬虫程序就是一只小蜘蛛，沿着蜘蛛网抓取自己想要的数据解释1：通过一个程序，根据URL进行爬取网页，获取有用信息解释2：使用程序模拟浏览器，去向服务器发送阅读全文

posted @ 2024-07-10 23:25 夕瑶^ 阅读(51) 评论(0) 推荐(0)

解决“网页源代码编码形式为utf-8，但爬虫代码设置为decode('utf-8')仍出现汉字乱码”的问题

摘要：为了用爬虫获取百度首页的源代码，检查了百度的源代码，显示编码格式为utf-8 但这样写代码，却失败了….. (这里提示：不要直接复制百度的URL，应该是http，不是https！！！) # 获取百度首页的源码 import urllib.request #(1)定义一个URL url='http:/ 阅读全文

posted @ 2024-07-10 17:36 夕瑶^ 阅读(165) 评论(0) 推荐(0)

lxxa

公告