摘要: # 有些网站使用 ‘检查元素’也不能够好使,它们会对地址进行加密,此时使用Selenium 调用浏览器渲染引擎可以模拟用户的操作,完成抓取: # 注:selenium既可以抓取静态网页也可以抓取动态网页。 # selenium的安装及 webdriver的安装见之前发的selenium专题博客。 # 阅读全文
posted @ 2020-06-16 18:27 collin_pxy 阅读(259) 评论(0) 推荐(0)
摘要: # 静态网页在浏览器中展示的内容都在HTML的源码中,但主流网页使用 Javascript时,很多内容不出现在HTML的源代码中,我们需要使用动态网页抓取技术。 # Ajax: Asynchronous Javascript And XML,异步JvvaScript和 XML; 在不重新加载整个网页 阅读全文
posted @ 2020-06-14 21:14 collin_pxy 阅读(898) 评论(0) 推荐(0)
摘要: 网络爬虫(一) 一、简介 1、robot协议(爬虫协议):这个协议告诉引擎哪些页面可以抓取,哪些不可以 -User-agent:爬虫引擎 -allow:允许robot访问的URL -disallow:禁止访问的URL 2、爬虫约束:过快/频繁的网络爬虫会对服务器产生巨大的压力,网站可能封锁你的IP, 阅读全文
posted @ 2020-06-10 21:59 collin_pxy 阅读(397) 评论(0) 推荐(0)
摘要: 咖啡金额 首先要申请博客园 js权限 点击查看折叠代码块 +阿斯顿的风格 +22 ```Python for i in rang(5) print(i) </details> 阅读全文
posted @ 2020-06-09 15:29 collin_pxy 阅读(85) 评论(0) 推荐(0)
摘要: 写在前面 第一次考证的时候,就是为了考证而考证,从网上获取了试题,修改了一下,就通过了,对 REFramework的了解甚少,经过几周的学习,决定赶在 4.30号考证收费之前再重新考一次。 原文章发表在 CSDN,以下文章列表,目前都还在CSDN没有迁移过来。 以下12篇博客是通过认证考试的整个过程 阅读全文
posted @ 2020-06-03 18:22 collin_pxy 阅读(525) 评论(0) 推荐(0)
摘要: Sub copyreport() Application.ScreenUpdating = False Application.Calculation = xlCalculationManual Application.DisplayStatusBar = False Application.Dis 阅读全文
posted @ 2020-06-03 17:21 collin_pxy 阅读(396) 评论(0) 推荐(0)
摘要: # login12306_02 # 图像识别涉及到深度学习,这里直接将验证码识别任务发送到大佬的验证码解析地址,不过现在已经失效了,程序跑到这会报错。 # 用户名和密码存储在本地工作目录中的 username_password_12306.txt文件中。 from selenium import w 阅读全文
posted @ 2020-06-03 16:57 collin_pxy 阅读(146) 评论(0) 推荐(0)
摘要: # Selenium (firefox) # 1,介绍: # selenium 是一个 web 的自动化测试工具,是一个包,可以支持 C、 java、ruby、python、或都是 C# 语言。 # 1)安装: # 1-1)安装 selenium # pip install selenium # 在 阅读全文
posted @ 2020-06-03 16:56 collin_pxy 阅读(474) 评论(0) 推荐(0)
摘要: import numpy as np import pandas as pd from pandas import Series,DataFrame # 1--读取数据文件 file_obj=open('Baltimore_City_Employee_Salaries_FY2016.csv') sa 阅读全文
posted @ 2020-06-03 16:51 collin_pxy 阅读(649) 评论(0) 推荐(0)
摘要: Pandas基础(全) 引言 Pandas是基于Numpy的库,但功能更加强大,Numpy专注于数值型数据的操作,而Pandas对数值型,字符串型等多种格式的表格数据都有很好的支持。 关于Numpy的基础知识,请查看 Numpy基础(全) 内容介绍 1.数据结构(Series,DataFrame) 阅读全文
posted @ 2020-06-03 16:47 collin_pxy 阅读(164) 评论(0) 推荐(0)