2020 年 7月随笔档案 - 夏日的向日葵

python爬虫之动态渲染页面抓取-（Selenium）的使用

摘要：我们在爬虫的过程中，有一些动态渲染的页面，我们是请求不到数据的。因此，我们可以直接通过使用模拟浏览器运行的方式实现，那么就可以实现原本浏览器中可以看到的，抓取的数据就是什么样，即所见即所"得"(爬)；此时我们不用再去关心网页中JS使用了什么算法或者结构实现了页面渲染。 Python提供了许多模拟浏览阅读全文

posted @ 2020-07-15 22:44 夏日的向日葵阅读(4129) 评论(0) 推荐(0)

python之小米应用商店搜索

摘要：需求：我有一系列appname，想要判断这些appname是否在小米应用市场存在解决方案：小编写了一个爬虫小程序，返回搜索第一条appname，以此判断该APP是否在小米应用市场存在。 import requestsfrom bs4 import BeautifulSoup def save_fi 阅读全文

posted @ 2020-07-14 11:46 夏日的向日葵阅读(327) 评论(0) 推荐(0)

python之小米应用商店爬虫

摘要：以下是小米应用商店热门APP的爬虫代码：只爬取前十页： # coding=utf-8 import requests import re from bs4 import BeautifulSoup count=1 #爬取小米应用市场前十页 while count<11: # 获取排行榜页面的网页内阅读全文

posted @ 2020-07-12 23:36 夏日的向日葵阅读(1052) 评论(0) 推荐(0)

python之Beautiful Soup的基本用法

摘要：Beautiful Soup就是Python的一个HTML或XML的解析库，可以用它来方便地从网页中提取数据。它有如下三个特点： Beautiful Soup提供一些简单的、Python式的函数来处理导航、搜索、修改分析树等功能。它是一个工具箱，通过解析文档为用户提供需要抓取的数据，因为简单，所以不阅读全文

posted @ 2020-07-08 23:27 夏日的向日葵阅读(3091) 评论(0) 推荐(0)

夏日的向日葵

07 2020 档案

公告