随笔分类 -  Python

摘要:写了几篇网络爬虫的博文后,有网友留言问Python爬虫如何入门?今天就来了解一下什么是爬虫,如何快速的上手Python爬虫。 一、什么是网络爬虫 网络爬虫,英文名称为Web Crawler或Spider,是一种通过程序在互联网上自动获取信息的技术。它根据指定的规则,从互联网上下载网页、图片、视频等内 阅读全文
posted @ 2024-03-27 17:38 xiejava 阅读(349) 评论(0) 推荐(0)
摘要:最近小伙伴们是否发现访问我的个人博客http://xiejava.ishareread.com/图片显示特别快了? 我的博客的图片是放在github上的,众所周知的原因,github访问不是很快,尤其是hexo博客用github做图床经常图片刷不出来。一直想换图床,直到找到了jsDelivr,通过j 阅读全文
posted @ 2024-03-20 16:56 xiejava 阅读(121) 评论(0) 推荐(0)
摘要:文章目录 一、分析需要爬取的页面二、实现爬取商品评价信息的代码1、通过解析显示评价信息的元素获取商品评价信息2、通过mitmproxy代理进行流量抓包获取商品评价信息 三、附-完整代码 前期出了一个《爬取京东商品评价信息实战》的教程,最近又有网友提到要出一个爬淘宝商品评论的教程。说实话淘宝的反爬机制 阅读全文
posted @ 2024-03-16 18:58 xiejava 阅读(362) 评论(0) 推荐(0)
摘要:文章目录 一、分析商品评价的页面信息1、请求参数分析2、接口返回信息分析 二、爬取京东商品评价信息代码实现1、具体代码2、运行效果 上期介绍了通过《mitmproxy实战-通过mitmdump爬取京东金榜数据》,能够上京东金榜的商品一般评价都是比较好的,这次介绍如何爬取京东商品的评价信息。 一、分析 阅读全文
posted @ 2024-03-11 12:51 xiejava 阅读(223) 评论(0) 推荐(0)
摘要:对于APP的数据爬取或需要构建复杂的接口参数数据的爬取可以通过mitmproxy抓包还原流量,解析流量数据包来获取。mitmproxy是一个免费的开源交互式的HTTPS代理工具。它类似于其他抓包工具如WireShark和Fiddler,支持抓取HTTP和HTTPS协议的数据包,并可以通过控制台形式进 阅读全文
posted @ 2024-03-04 13:03 xiejava 阅读(152) 评论(0) 推荐(0)
摘要:文章目录 一、mitmproxy的安装二、运行mitmproxy1、配置客户端代理方式一,设置全局代理方式二,设置浏览器代理 2、客户端安装mitmproxy提供的CA证书手工安装步骤:自动安装步骤: mitmproxy是一个免费的开源交互式的HTTPS代理工具。它类似于其他抓包工具如WireSha 阅读全文
posted @ 2024-02-29 18:29 xiejava 阅读(1197) 评论(0) 推荐(0)
摘要:文章目录 一、通过Selenium模拟登录淘宝1、分析淘宝登录页面2、通过Selenium实现模拟登录代码3、Selenium接管已经运行的Chrome浏览器1)启动Chrome的远程调试模式2)代码中实现接管已经运行的Chrome浏览器 4、运行效果 二、通过Selenium自动爬取淘宝商品信息1 阅读全文
posted @ 2024-02-26 12:59 xiejava 阅读(808) 评论(0) 推荐(0)
摘要:文章目录 一、selenium安装1. Python环境准备:2. 安装Selenium:3. 浏览器驱动安装:4. 验证安装: 二、常见问题1. Selenium版本与浏览器驱动程序不兼容:2. 浏览器驱动程序路径未正确设置: Selenium是一个用于Web应用程序测试的自动化工具。它直接运行在 阅读全文
posted @ 2024-02-22 22:34 xiejava 阅读(1649) 评论(0) 推荐(0)
摘要:文章目录 一、图片识别文字1、导包2、代码实现3、运行效果 二、avif格式图片转jpg格式1、导包2、代码实现3、运行效果4、注意事项 三、Python实现avif图片转jpg格式并识别文字全部代码 在做数据分析的时候有些数据是从图片上去获取的,这就需要去识别图片上的文字。Python有很多库可以 阅读全文
posted @ 2024-01-31 21:01 xiejava 阅读(261) 评论(0) 推荐(0)
摘要:在应用机器学习的过程中,很大一部分工作都是在做数据的处理,一个非常常见的场景就是将一个list序列的特征数据拆成多个单独的特征数据。 比如数据集如下所示: data = [['John', '25', 'Male',[99,100,98]], ['Emily', '22', 'Female',[97 阅读全文
posted @ 2023-12-26 16:51 xiejava 阅读(285) 评论(0) 推荐(0)
摘要:做数据分析很大一部分工作量都是在对数据处理,因为数据来源的质量问题,不能保证所有的数据都是正常的。对于数据分析和处理来说pandas无疑是常用的利器。下面通过一个实例来用pandas对波形异常数据进行实战处理 读取数据 import numpy as np import pandas as pd i 阅读全文
posted @ 2023-12-18 11:20 xiejava 阅读(61) 评论(0) 推荐(0)
摘要:用Python做数据处理常常会将数据写到文件中进行保存,又或将保存在文件中的数据读出来进行使用。通过Python将列表中的数据写入到csv文件中很多人都会,可以通过Python直接写文件或借助pandas很方便的实现将列表中的数据写入到csv文件中,但是写进去以后取出有些字段会有变化有些坑还是要避免 阅读全文
posted @ 2023-12-16 21:10 xiejava 阅读(231) 评论(0) 推荐(0)
摘要:我们在做机器学习项目的时候,很大部分的精力都在做数据的整理,不管是用爬虫在网上爬取数据还是对已有的数据进行整理,往往需要对一些特定的字符串进行处理,正则表达式则是进行数据处理的利器。 一、什么是正则表达式 正则表达式,又称规则表达式,(Regular Expression,在代码中常简写为regex 阅读全文
posted @ 2023-10-06 11:55 xiejava 阅读(24) 评论(0) 推荐(0)
摘要:Python实现爬虫是很容易的,一般来说就是获取目标网站的页面,对目标页面的分析、解析、识别,提取有用的信息,然后该入库的入库,该下载的下载。以前写过一篇文章《Python爬虫获取电子书资源实战》,以一个电子书的网站为例来实现python爬虫获取电子书资源。爬取整站的电子书资源,按目录保存到本地,并 阅读全文
posted @ 2023-09-12 22:53 xiejava 阅读(48) 评论(0) 推荐(0)
摘要:平时在做数据分析的时候,会要对特征进行相关性分析,分析某些特征之间是否存在相关性。本文将通过一个实例来对数据进行相关性分析与展示。 一、数据集介绍 本次分析的是企业合作研发模式效果分析,企业的合作研发大致分为 企企合作、企学合作、企研合作、企学研合作,也就是企业与企业合作研发、企业与大学合作研发、企 阅读全文
posted @ 2023-08-31 17:55 xiejava 阅读(367) 评论(0) 推荐(0)
摘要:最近重保,经常需要通过Excel上报威胁事件。安全设备的告警很多都是json格式的,就需要将json转成Excel。 用Python将json转成excel也就三行代码的事,先将json串导入形成字典对象,再通过pandas转成DataFrame直接输出excel。 实现如下: 一、引包 引入pan 阅读全文
posted @ 2023-08-18 11:04 xiejava 阅读(79) 评论(0) 推荐(0)
摘要:一、什么是日志 在《网络安全之认识日志采集分析审计系统》中我们认识了日志。日志数据的核心就是日志消息或日志,日志消息是计算机系统、设备、软件等在某种刺激下反应生成的东西。 日志数据(log data)就是一条日志消息的内在含义,用来告诉你为什么生成日志消息的信息。日志(log)指用于展示某些事件全貌 阅读全文
posted @ 2023-03-19 14:00 xiejava 阅读(35) 评论(0) 推荐(0)
摘要:在有些项目中需要对信号进行滤波处理,尤其是在医疗的设备中如心跳、脉搏等设备的采样后进行处理。滤波的目的就是除去某些频率的信号如噪声。常见的包括有低通滤波、高通滤波、带通滤波。 低通滤波指的是去除高于某一阈值频率的信号;高通滤波去除低于某一频率的信号;带通滤波指的是类似低通高通的结合保留中间频率信号; 阅读全文
posted @ 2023-03-13 15:11 xiejava 阅读(112) 评论(0) 推荐(0)
摘要:最近有位做医疗项目的同学咨询有一批人员的身高、体重、性别、年龄、心电图、是否有心脏病等数据是否可以根据这些数据预测某个人是否有心脏病的迹象。这当然是可以的,AI机器学习不就是干这事的吗?这是一个典型的分类算法。根据这些人体特征来判断是否存在潜在的疾病。问题是如何对心电图进行特征提取,提取出相关的特征 阅读全文
posted @ 2023-01-06 20:38 xiejava 阅读(32) 评论(0) 推荐(0)
摘要:用Django框架进行web开发非常的快捷方便,但Django框架请求/响应是同步的。但我们在实际项目中经常会碰到一些耗时的不能立即返回请求结果任务如:数据爬取、发邮件等,如果常时间等待对用户体验不是很好,在这种情况下就需要实现异步实现,马上返回响应请求,但真正的耗时任务在后台异步执行。Django 阅读全文
posted @ 2022-12-30 21:33 xiejava 阅读(273) 评论(0) 推荐(0)