摘要: DataFrame是一个表格型数据结构,它含有一组有序的列,每列可以是不用的值类型(数值、字符串、布尔值等)。 DataFrame既有行索引,也有列索引,与其它类似的数据结构相比(如R的data.frame),DataFrame面向行和面向列的操作基本是平衡的。 DataFrame中的数据一般是以一 阅读全文
posted @ 2022-01-15 14:37 苏时运 阅读(81) 评论(0) 推荐(0) 编辑
摘要: Series是一种类似于一维数组的对象,它由一组数据(各种Numpy数据类型)以及一组与之相关的数据标签(即索引)构成。 创建Series 如果没有为数据指定索引,就会自动创建0到N-1的整数型索引。 In [2]: obj = pd.Series([4, 7, -5, 3]) In [3]: ob 阅读全文
posted @ 2022-01-15 12:00 苏时运 阅读(30) 评论(0) 推荐(0) 编辑
摘要: 一、Boosting和Bagging的异同点 Boosting和Bagging都是集成学习方法,思想都是将一堆弱学习器串联到一起,变成一个强学习器,两者的区别在于: Bagging的连接方式是并行的,每个学习器都是学习最终结果 Boosting的连接方式是串行的,每个学习器学习的是上一个学习器的ou 阅读全文
posted @ 2022-01-15 11:15 苏时运 阅读(36) 评论(0) 推荐(0) 编辑
摘要: 一、做几个小项目学习使用数据 使用已有的数据集 自己使用爬虫获取想要的数据 可视化 数据量较少,可以使用excel可视化 数据量较多,可以使用python可视化 二、统计学知识 使用简单的可视化形式进行数据分析,会发现得到的知识并不是很多,想要做更精细化的分析,就需要补充统计学知识。 在具体的数据分 阅读全文
posted @ 2022-01-15 11:13 苏时运 阅读(129) 评论(0) 推荐(0) 编辑
摘要: 关系一共分为三种: 一对一 一对多 多对多 一、一对一 比如夫妻关系中,丈夫与妻子形成一对一关系。 分析: 在一对一关系中,为了查询方便,需要两个表,但是如果为了省空间,也可以只建一个表,通过建立两个视图(虚表,view)来实现一对一查询。 视图只是逻辑概念,并不独立占用物理空间,依附于具体的数据表 阅读全文
posted @ 2022-01-15 11:10 苏时运 阅读(126) 评论(0) 推荐(0) 编辑
摘要: 一、版本库的创建到提交操作 在当前文件夹新建一个版本库 通过git init命令,创建git可以管理的仓库 git init 将工作区文件修改添加到暂存区 git add 文件名 添加全部文件 git add --all 将改动从暂存区提交到版本库 通过git commit把改动提交到版本库,可以一 阅读全文
posted @ 2022-01-15 11:06 苏时运 阅读(16) 评论(0) 推荐(0) 编辑