会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
TzySec
博客园
首页
新随笔
联系
管理
订阅
上一页
1
2
3
4
5
6
下一页
2022年2月9日
Pandas
摘要: #!/usr/bin/env python # -*- encoding: utf-8 -*- # @Time : 2022/2/8 0008 12:25 # @Author : Tzy0425 # @File : Pandas入门.py import pandas as pd import num
阅读全文
posted @ 2022-02-09 11:48 Sunshine_y
阅读(64)
评论(0)
推荐(0)
2022年2月7日
NumPy
摘要: NumPy两种基本对象: ndarray:储存单一数据类型的多维数组,相当于一系列同类型数据的集合,集合中元素的索引以0下标为开始。 ufunc:是一种能够对数组每个元素进行运算的函数,运算速度非常快。一、ndarray的创建 import numpy as np # 输出3行4列的数组(矩阵),从
阅读全文
posted @ 2022-02-07 20:30 Sunshine_y
阅读(92)
评论(1)
推荐(1)
2022年1月29日
scrapy + selenium爬取网易新闻
摘要: 前言:这算是一个比较综合的案例,理清了该案例会感到最近学的知识变的很条例、很清晰。需求是爬取五大板块对应的新闻标题以及每个标题对饮的新闻内容。 (一)分析网易页面 对于首页,通过定位发现每个板块都是嵌套在<ul>中,以单独的<li>存在。 点击每个板块,进去后发现页面是这样加载的: 说明每个板块的新
阅读全文
posted @ 2022-01-29 10:31 Sunshine_y
阅读(359)
评论(0)
推荐(1)
2022年1月27日
scrapy之请求传参、图片爬取与中间件
摘要: 请求传参 使用场景:如果解析的数据不在同一个页面中(深度爬取)。 举个例子:假如我们首先爬取了首页数据,然后再解析详情页数据,如何操作? 1 # 解析首页的岗位名称 2 def parse(self, response): 3 li_list = response.xpath('//*[@id="m
阅读全文
posted @ 2022-01-27 21:19 Sunshine_y
阅读(150)
评论(0)
推荐(0)
2022年1月26日
scrapy之五大组件
摘要: 先说明一下五大组件各自的作用: 引擎(Scrapy) 用来完成整个系统的数据流处理,触发事务(框架核心)。 调度器(Scheduler) 包括两部分:过滤器和队列,用来接受引擎发过来的请求,先经过过滤器对请求进行去重,然后压入队列中,可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列,由它
阅读全文
posted @ 2022-01-26 16:40 Sunshine_y
阅读(394)
评论(0)
推荐(0)
scrapy持久化存储
摘要: 方法一:基于终端指令 说明:只可以将parse()的返回值存储到本地的文件中,而且存储的文本文件的类型只能为:'json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pickle' 指令:终端输入命令,scrapy crawl xxx -o file
阅读全文
posted @ 2022-01-26 16:25 Sunshine_y
阅读(53)
评论(0)
推荐(0)
2022年1月25日
scrapy的安装最新完整版(包括坑的预处理)
摘要: 环境的安装 — mac 和 Linux的不要太轻松,直接:pip install scrapy — windows相比而言可是麻烦不少,分以下几部分安装: (1)pip install wheel (2)下载Twisted,下载地址为 http://www.lfd.uci.edu/~gohlke/p
阅读全文
posted @ 2022-01-25 09:57 Sunshine_y
阅读(343)
评论(0)
推荐(0)
2022年1月24日
selenium模拟携程旅行自动登录
摘要: 携程旅行实现自动登录还是有点麻烦的,我们先看官网: 不用多说,肯定需要先进行标签定位,定位到红框处,通过click()实现跳转,来到了下面的页面: 这里的话,先标签定位到输入用户名和密码的地方,然后通过send_keys()可以输入用户名和密码,这里很简单,然后定位到滑块,定义个动作链,再通过cli
阅读全文
posted @ 2022-01-24 17:18 Sunshine_y
阅读(769)
评论(0)
推荐(0)
2022年1月23日
iframe处理以及动作链的使用
摘要: selenium处理iframe - 如果定位的标签存在于iframe标签之中,则必须使用switch_to.frame(id) - 动作链(拖动):from selenium.webdriver import ActionChains - 实例化一个动作链对象:action = ActionCha
阅读全文
posted @ 2022-01-23 16:32 Sunshine_y
阅读(117)
评论(0)
推荐(0)
selenium实现浏览器自动化(玩起来了)
摘要: selenium模块简单介绍 selenium是基于浏览器自动化的一个模块,可以便捷的获取网站中的动态加载数据,便捷的实现模拟登录。 使用流程 1、下载一个浏览器的驱动程序(笔者下载的是谷歌驱动程序) 玩什么浏览器就下载什么样的驱动程序,下载路径与驱动程序和浏览器版本对应关系的链接如下: http:
阅读全文
posted @ 2022-01-23 12:47 Sunshine_y
阅读(526)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
下一页
公告