随笔分类 -  机器学习

摘要:文章目录 一、图片识别文字1、导包2、代码实现3、运行效果 二、avif格式图片转jpg格式1、导包2、代码实现3、运行效果4、注意事项 三、Python实现avif图片转jpg格式并识别文字全部代码 在做数据分析的时候有些数据是从图片上去获取的,这就需要去识别图片上的文字。Python有很多库可以 阅读全文
posted @ 2024-01-31 21:01 xiejava 阅读(261) 评论(0) 推荐(0)
摘要:在应用机器学习的过程中,很大一部分工作都是在做数据的处理,一个非常常见的场景就是将一个list序列的特征数据拆成多个单独的特征数据。 比如数据集如下所示: data = [['John', '25', 'Male',[99,100,98]], ['Emily', '22', 'Female',[97 阅读全文
posted @ 2023-12-26 16:51 xiejava 阅读(286) 评论(0) 推荐(0)
摘要:做数据分析很大一部分工作量都是在对数据处理,因为数据来源的质量问题,不能保证所有的数据都是正常的。对于数据分析和处理来说pandas无疑是常用的利器。下面通过一个实例来用pandas对波形异常数据进行实战处理 读取数据 import numpy as np import pandas as pd i 阅读全文
posted @ 2023-12-18 11:20 xiejava 阅读(61) 评论(0) 推荐(0)
摘要:用Python做数据处理常常会将数据写到文件中进行保存,又或将保存在文件中的数据读出来进行使用。通过Python将列表中的数据写入到csv文件中很多人都会,可以通过Python直接写文件或借助pandas很方便的实现将列表中的数据写入到csv文件中,但是写进去以后取出有些字段会有变化有些坑还是要避免 阅读全文
posted @ 2023-12-16 21:10 xiejava 阅读(231) 评论(0) 推荐(0)
摘要:最近大模型通用智能应用持续发酵,各大科技公司都陆续推出了基于通用大模型的智能应用产品,典型的如OpenAI的ChatGPT、微软的BingChat、百度的文心一言、360的智脑、阿里的通义千问等。当然最火的要属于ChatGPT了,从去年年底推出到现在已经有很多人体验了,并惊叹于如今的人工智能已经发展 阅读全文
posted @ 2023-10-28 16:00 xiejava 阅读(20) 评论(0) 推荐(0)
摘要:平时在做数据分析的时候,会要对特征进行相关性分析,分析某些特征之间是否存在相关性。本文将通过一个实例来对数据进行相关性分析与展示。 一、数据集介绍 本次分析的是企业合作研发模式效果分析,企业的合作研发大致分为 企企合作、企学合作、企研合作、企学研合作,也就是企业与企业合作研发、企业与大学合作研发、企 阅读全文
posted @ 2023-08-31 17:55 xiejava 阅读(367) 评论(0) 推荐(0)
摘要:在有些项目中需要对信号进行滤波处理,尤其是在医疗的设备中如心跳、脉搏等设备的采样后进行处理。滤波的目的就是除去某些频率的信号如噪声。常见的包括有低通滤波、高通滤波、带通滤波。 低通滤波指的是去除高于某一阈值频率的信号;高通滤波去除低于某一频率的信号;带通滤波指的是类似低通高通的结合保留中间频率信号; 阅读全文
posted @ 2023-03-13 15:11 xiejava 阅读(112) 评论(0) 推荐(0)
摘要:最近有位做医疗项目的同学咨询有一批人员的身高、体重、性别、年龄、心电图、是否有心脏病等数据是否可以根据这些数据预测某个人是否有心脏病的迹象。这当然是可以的,AI机器学习不就是干这事的吗?这是一个典型的分类算法。根据这些人体特征来判断是否存在潜在的疾病。问题是如何对心电图进行特征提取,提取出相关的特征 阅读全文
posted @ 2023-01-06 20:38 xiejava 阅读(32) 评论(0) 推荐(0)
摘要:一、背景 数字新时代正在加速全面到来,网络环境变得更加多元、人员变得更复杂、接入方式多种多样,网络边界逐渐模糊甚至消失,同时伴随着企业数据的激增。数字化转型促进组织的业务发展的同时,也带来了重大的网络安全挑战。 1.越来越多的外部攻击,包括被利益驱动或国家驱动的难以察觉的高级攻击; 2.心怀恶意的内 阅读全文
posted @ 2022-03-24 15:26 xiejava 阅读(180) 评论(0) 推荐(0)
摘要:Pandas 是一个开源的第三方 Python 库,从 Numpy 和 Matplotlib 的基础上构建而来,享有数据分析“三剑客之一”的盛名(NumPy、Matplotlib、Pandas)。是学习数据分析、AI机器学习必学组件之一。 Pandas 这个名字来源于面板数据(Panel Data) 阅读全文
posted @ 2022-02-23 10:18 xiejava 阅读(40) 评论(0) 推荐(0)
摘要:一图胜千言,将信息可视化(绘图)是数据分析中最重要的工作之一。它除了让人们对数据更加直观以外,还可以帮助我们找出异常值、必要的数据转换、得出有关模型的想法等等。pandas 在数据分析、数据可视化方面有着较为广泛的应用。本文将通过实例介绍pandas的数据绘图。 pandas的数据可视化依赖于mat 阅读全文
posted @ 2022-02-16 11:28 xiejava 阅读(59) 评论(0) 推荐(0)
摘要:在数据分析的过程中,分析师常常希望通过多个维度多种方式来观察分析数据,重塑和透视是常用的手段。 数据的重塑简单说就是对原数据进行变形,为什么需要变形,因为当前数据的展示形式不是我们期望的维度,也可以说索引不符合我们的需求。对数据的重塑不是仅改变形状那么简单,在变形过程中,数据的内在数据意义不能变化, 阅读全文
posted @ 2022-02-14 00:27 xiejava 阅读(112) 评论(0) 推荐(0)
摘要:在数据分析过程中,经常会需要根据某一列或多列把数据划分为不同的组别,然后再对其进行数据分析。本文将介绍pandas的数据分组及分组后的应用如对数据进行聚合、转换和过滤。 在关系型数据库中我们常用SQL的GROUP BY操作进行分组分析计算。在pandas中要完成数据的分组操作同样可用groupby( 阅读全文
posted @ 2022-02-12 09:52 xiejava 阅读(70) 评论(0) 推荐(0)
摘要:在许多应用中,数据可能来自不同的渠道,在数据处理的过程中常常需要将这些数据集进行组合合并拼接,形成更加丰富的数据集。pandas提供了多种方法完全可以满足数据处理的常用需求。具体来说包括有join、merge、concat、append等。 一般来说 方法说明join最简单,主要用于基于索引的横向合 阅读全文
posted @ 2022-02-10 12:44 xiejava 阅读(61) 评论(0) 推荐(0)
摘要:对于数据分析来说,在构造或载入数据后最基本的操作应该就是对数据的访问了。看一看数据的结构、组成、分布等,根据需要从数据集中检索提取出相应的数据。pandas作为数据分析的利器,当然提供了多种查看和检索数据的方法。本文就来捋一捋pandas基本的数据访问。 一、查看数据 当我们拿到数据集后,第一步可能 阅读全文
posted @ 2022-02-07 23:36 xiejava 阅读(121) 评论(0) 推荐(0)
摘要:我们在数据处理的过程中经常碰到需要对数据进行转换的工作,比如将原来数据里的字典值根据字典转义成有意义的说明,将某些数据转换成其他的数据,将空值转换成其他值,将数据字段名进行重命名等。pandas作为数据处理分析的利器当然为上述的这些数据转换提供了便捷的方法。我们可以利用pandas提供的映射、替换、 阅读全文
posted @ 2022-02-04 21:58 xiejava 阅读(142) 评论(0) 推荐(1)
摘要:数据分析离不开数据运算,在介绍完pandas的数据加载、排序和排名、数据清洗之后,本文通过实例来介绍pandas的常用数据运算,包括逻辑运算、算术运算、统计运算及自定义运算。 一、逻辑运算 逻辑运算是程序代码中经常用到的一种运算。pandas的逻辑运算与Python基础语法中的逻辑运算存在一些差异。 阅读全文
posted @ 2022-02-03 13:01 xiejava 阅读(144) 评论(0) 推荐(0)
摘要:在数据分析和建模的过程中,有相当多的时间要用在数据准备上:加载、清理、转换以及重塑。这些工作会占到分析师时间的80%或更多。幸运的是pandas和内置的Python标准库提供了高效、灵活的工具可以帮助我们轻松的做这些事情。 本文重点介绍通过pandas进行数据的清洗。数据处理中的清洗工作主要包括对需 阅读全文
posted @ 2022-02-02 00:21 xiejava 阅读(197) 评论(0) 推荐(0)
摘要:对数据集进行排序和排名的是常用最基础的数据分析手段,pandas提供了方便的排序和排名的方法,通过简单的语句和参数就可以实现常用的排序和排名。 本文以student数据集的DataFrame为例来演示和介绍pandas数据分析之排序和排名(sort和rank)。 数据集内容如下,包括学生的学号、姓名 阅读全文
posted @ 2022-01-30 09:04 xiejava 阅读(317) 评论(0) 推荐(0)
摘要:简介 无可非议,pandas是Python最强大的数据分析和探索工具之一,因金融数据分析工具而开发,支持类似于SQL语句的模型,可以对数据进行增删改查等操作,支持时间序列分析,也能够灵活的处理缺失的数据。它含有使数据分析工作变得更快更简单的高级数据结构和操作工具。pandas是基于NumPy构建的, 阅读全文
posted @ 2022-01-23 18:57 xiejava 阅读(49) 评论(0) 推荐(0)