191127随笔记

1. 进行了Python的安装,安装完以后在cmd命令中安装了pandas,然后numpy就可以使用了,安装完pandas以后可以不用安装numpy吗

2.在命令行中可以使用pandas和numpy,在PC中可以使用吗,PyCharm中不自带各种类库,需要导入

3. Python在做数据挖掘和数据分析时,需要pandas,pandas是基于numpy的一种工具,该工具为了解决数据分析任务而创建的,其纳入了大量的库和一些标准的数据模型,提供了高效的操作大数据所需的工具http://blog.csdn.net/bylhjcsmmd/article/details/77530812?locationNum=9&fps=1中介绍了如何导入(感谢,侵删)

4.Jupyter 是一种Web应用,能让用户将说明文本,数学方程,代码和可视化内容全部组合到一个易于共享的文档中,已经迅速成为数据分析,机器学习的必备工具,因为他可以让数据分析师集中精力向用户解释整个分析过程。是一款开放源代码的Web应用程序,他提供了一个环境,你可以在其中记录代码,运行代码,查看结果,可视化数据并查看输出结果,可以用于数据清洗,统计建模,构建和训练机器学习模型,可视化数据等,构建项目时,Jupyter Notebooks代码是被写入单独的数据单元并且被单独执行,允许用户测试项目中的特定代码块,从而无需从脚本的开始执行代码,允许运行Python以及其他语言,如R,SQL等

5.数据挖掘

(1)明确目标:明确数据挖掘要挖掘出什么有价值的东西
(2)数据获取:收集数据
(3)数据探索:数据探索就是分析数据结构和规律过程
         ①.数据质量分析:缺失值分析、异常值分析、一致性分析
         ②.数据特征分析:分布分析、对比分析、统计量分析、周期性分析、贡献度分析
(4)数据处理:数据探索是给我们指引了方向,告诉我们沙漠中哪个方向有黄金,属于有依据的猜测,但是范围还是很大,就需要进一步缩小范围,而数据处理就能帮我们再次缩小范围
         ①.数据清洗:缺失值处理、异常值处理、
         ②数据集成:实体识别、冗余属性识别
         ③数据变换:简单韩饰变换、规范化、连续属性离散化、属性构造、小波变换
         ④数据规约:属性规约、数值规约
数据处理的目的在于提高数据的质量,使数据更易于建模

(5)数据建模:建模的本质就是一个函数,或者说是一个公式,通过大量的数据推演出的公式,这个公式通过输入得到我们想要的输出。
          ①分类与预测:分类算法、预测算法、回归分析、决策树、人工神经网络
          ②聚类分析
          ③关联分析
          ④时系模式
          ⑤离群点检测

 (6)模型评价

 

 

 

 

 

 

 

 

posted @ 2019-11-28 15:53  逐月晚星明  阅读(114)  评论(0)    收藏  举报