随笔分类 -  Python进化论

摘要:1、输入一个整数数组,实现一个函数来调整该数组中数字的顺序,使得所有的奇数位于数组的前半部分,所有的偶数位于数组的后半部分,并保证奇数和奇数,偶数和偶数之间的相对位置不变。 2、给定一个double类型的浮点数base和int类型的整数exponent。求base的exponent次方。 3、在一个 阅读全文
posted @ 2018-09-27 15:45 我不是小鲁班 阅读(254) 评论(0) 推荐(0)
摘要:查找路径下指定文件名并返回 os.walk()返回Directory tree generator。每次生成格式为(dirpath, dirnames, filenames) 的tuple,元素依次是当前路径、当前路径下文件夹列表、当前路径下文件名列表。 list的.append()、.extend 阅读全文
posted @ 2018-08-04 09:31 我不是小鲁班 阅读(229) 评论(0) 推荐(0)
摘要:1、pandas解决“pandas.parser.CParserError: Error tokenizing data. C error: Expected 2 fields in line 3, s” 2、中文编码问题 【所谓unicode】 unicode是一种类似于符号集的抽象编码,它只规定 阅读全文
posted @ 2018-08-02 14:08 我不是小鲁班 阅读(1121) 评论(0) 推荐(0)
摘要:在Python3 中,print函数必须添加括号才能输出。 阅读全文
posted @ 2018-07-04 16:13 我不是小鲁班 阅读(140) 评论(0) 推荐(0)
摘要:读入的时间数据是字符串格式,转换成datetime格式 计算时间差: 结果:单位还是毫秒 进一步将其转换成秒 补充学习: Python time strptime()方法 描述 Python time strptime() 函数根据指定的格式把一个时间字符串解析为时间元组。 语法 strptime( 阅读全文
posted @ 2018-06-05 13:36 我不是小鲁班 阅读(3609) 评论(0) 推荐(0)
摘要:一、查看数据(查看对象的方法对于Series来说同样适用) 1.查看DataFrame前xx行或后xx行 a=DataFrame(data); a.head(6)表示显示前6行数据,若head()中不带参数则会显示全部数据。 a.tail(6)表示显示后6行数据,若tail()中不带参数则也会显示全 阅读全文
posted @ 2018-05-31 16:22 我不是小鲁班 阅读(30593) 评论(0) 推荐(1)
摘要:#打开txt文件 数据合并 数据聚合 csv数据合并: 读取片段: 按照列名读取 要把第三列数据中的0值删除,今天弄了好几个小时,写了个循环,还是不行,最后发现,只要选择数据中大于0的就可以了 另一种思路,是把该列中数据为0的值挑出来,然后给赋值成nan,再用下面代码将nan值删除 字符串数据转换成 阅读全文
posted @ 2018-05-14 17:28 我不是小鲁班 阅读(1791) 评论(0) 推荐(0)
摘要:梯度提升树是一种决策树的集成算法。它通过反复迭代训练决策树来最小化损失函数。决策树类似,梯度提升树具有可处理类别特征、易扩展到多分类问题、不需特征缩放等性质。Spark.ml通过使用现有decision tree工具来实现。 梯度提升树依次迭代训练一系列的决策树。在一次迭代中,算法使用现有的集成来对 阅读全文
posted @ 2018-05-09 10:32 我不是小鲁班 阅读(2490) 评论(0) 推荐(0)
摘要:线性回归 线性回归是最基础的机器学习算法,它是用一条直线去拟合数据,适用于线性数据。 线性回归包括一元线性回归和多元线性回归,一元的是只有一个x和一个y。多元的是指有多个x和一个y。 (一元) (多元) 我们希望这些点尽量离这条直线近一点。即去找每个点和直线的距离 最小的那条线,为了简单起见,将绝对 阅读全文
posted @ 2018-05-08 15:50 我不是小鲁班 阅读(2469) 评论(0) 推荐(0)
摘要:首先,切换文件路径到所在文件夹 然后,将txt文件内容按行读取,写入到all.txt #读取为DataFrame格式 阅读全文
posted @ 2018-05-07 21:20 我不是小鲁班 阅读(1702) 评论(0) 推荐(0)
摘要:https://blog.csdn.net/suzyu12345/article/details/69029106一篇很详细的博客 这里只画了不同特征之间关系的图,即用pairpoint函数,用到的数据是电影数据,上篇博客当中有下载链接,结果如下: 代码如下: 数据分布直方图 阅读全文
posted @ 2018-05-03 16:31 我不是小鲁班 阅读(575) 评论(0) 推荐(1)
摘要:数据说明:MovieLens数据集,它包含来自于943个用户以及精选的1682部电影的100K个电影打分。每个用户至少为20部电影打分,数据类型user id | item id | rating | timestamp. 地址:https://grouplens.org/datasets/movi 阅读全文
posted @ 2018-04-19 18:36 我不是小鲁班 阅读(4099) 评论(0) 推荐(0)