代码改变世界

Hadoop Python MapReduce

2019-11-09 23:56 by DataBases, 355 阅读, 0 推荐, 收藏,
摘要:环境:Linux + hadoop python3 需要注意python不同版本的语法; 解决的问题:对文本文件进行词频统计; hadoop mapreduce计算流程 inputdata->HDFS ->datasplit ->map-(shuffer&sort)->reudce->output( 阅读全文

Python faker生成数据

2019-11-09 11:29 by DataBases, 1479 阅读, 0 推荐, 收藏,
摘要:https://faker.readthedocs.io/en/master/locales.html Faker是一个Python包,开源的GITHUB项目,主要用来创建伪数据,使用Faker包,无需再手动生成或者手写随机数来生成数据,只需要调用Faker提供的方法,即可完成数据的生成。 http 阅读全文

Pandas数据清洗

2019-11-09 09:54 by DataBases, 415 阅读, 0 推荐, 收藏,
摘要:删除多列 在进行数据分析时,并非所有的列都有用,用df.drop可以方便地删除你指定的列。 def drop_multiple_col(col_names_list, df): INPUT -> List of column names, df OUTPUT -> updated df with d 阅读全文

PySpark与jupyer notebook

2019-10-21 23:08 by DataBases, 365 阅读, 0 推荐, 收藏,
摘要:PySpark与jupyer notebook 阅读全文

虚拟机与宿主机网络共享

2019-09-22 23:14 by DataBases, 406 阅读, 0 推荐, 收藏,
摘要:虚拟机与宿主机网络共享 阅读全文

集合覆盖问题与贪婪算法

2019-08-28 10:27 by DataBases, 1215 阅读, 0 推荐, 收藏,
摘要:贪婪算法的思想:每步都选择局部最优解,最终得到的就是全局最优解。 近似算法:在获得精确解需要的时间太长是,可使用近似算法。 判断近似算法的标准: 速度又多快; 得到的近似解与最优解的接近程度; 贪婪算法是不错的选择,不仅简单,而且通常运行速度很快。 集合运算: 并集运算:setA | setB 交集 阅读全文

最快路径与狄克斯特拉

2019-08-24 21:43 by DataBases, 302 阅读, 0 推荐, 收藏,
摘要:要找出从起点到终点耗时最短的路径需要使用狄克斯特拉算法。 狄克斯特拉算法用于找出最快的路径。 狄克斯特拉算法只适用于有向无环图DAG(directed acyclic graph)。 狄克斯特拉算法用于每条边都 有关联数字的图,这些数字为权重。 带权重的图称为加权图,不带权重的图称为非加权图; 要计 阅读全文

最短路径问题与广度优先搜索

2019-08-18 22:54 by DataBases, 2927 阅读, 0 推荐, 收藏,
摘要:最短路径问题与广度优先搜索 阅读全文

散列表特性与使用

2019-08-18 22:26 by DataBases, 287 阅读, 0 推荐, 收藏,
摘要:安全散列算法(secure hash algorithm,SHA)函数;给定一个字符串,SHA反回其散列值。 SHA可以用来判断两个文件是否相同。 SHA-0,SHA-1,SHA-2,SHA-3> 最安全的密码散列函数:bcrypt。 散列函数时间复杂度为O(1)。 散列函数将输入映射到数字; 散列 阅读全文

递归与D&C思想 快速排序

2019-08-17 17:41 by DataBases, 302 阅读, 0 推荐, 收藏,
摘要:递归函数的两个条件: 1.基线条件:函数不 再调用自己; 2.递归条件:函数调用自己; 分而治之(divide and conquer,D&C)是一种通用的问题解决方法; D&C是递归的。使用D&C解决问题的过程的两个步骤: 1.找出基线条件,这种条件必须尽可能简单; 2.不断将问题分解(或者说缩小 阅读全文
上一页 1 ··· 11 12 13 14 15 16 17 18 19 ··· 40 下一页