DataBases - 博客园

Hadoop Python MapReduce

2019-11-09 23:56 by DataBases, 356 阅读, 0 推荐, 收藏,

摘要：环境：Linux + hadoop python3 需要注意python不同版本的语法；解决的问题：对文本文件进行词频统计； hadoop mapreduce计算流程 inputdata->HDFS ->datasplit ->map-(shuffer&sort)->reudce->output( 阅读全文

0 Comment

Python faker生成数据

2019-11-09 11:29 by DataBases, 1481 阅读, 0 推荐, 收藏,

摘要：https://faker.readthedocs.io/en/master/locales.html Faker是一个Python包，开源的GITHUB项目，主要用来创建伪数据，使用Faker包，无需再手动生成或者手写随机数来生成数据，只需要调用Faker提供的方法，即可完成数据的生成。 http 阅读全文

0 Comment

Pandas数据清洗

2019-11-09 09:54 by DataBases, 417 阅读, 0 推荐, 收藏,

摘要：删除多列在进行数据分析时，并非所有的列都有用，用df.drop可以方便地删除你指定的列。 def drop_multiple_col(col_names_list, df): INPUT -> List of column names, df OUTPUT -> updated df with d 阅读全文

0 Comment

PySpark与jupyer notebook

2019-10-21 23:08 by DataBases, 369 阅读, 0 推荐, 收藏,

摘要：PySpark与jupyer notebook 阅读全文

0 Comment

虚拟机与宿主机网络共享

2019-09-22 23:14 by DataBases, 408 阅读, 0 推荐, 收藏,

摘要：虚拟机与宿主机网络共享阅读全文

0 Comment

集合覆盖问题与贪婪算法

2019-08-28 10:27 by DataBases, 1219 阅读, 0 推荐, 收藏,

摘要：贪婪算法的思想：每步都选择局部最优解，最终得到的就是全局最优解。近似算法：在获得精确解需要的时间太长是，可使用近似算法。判断近似算法的标准：速度又多快；得到的近似解与最优解的接近程度；贪婪算法是不错的选择，不仅简单，而且通常运行速度很快。集合运算: 并集运算：setA | setB 交集阅读全文

0 Comment

最快路径与狄克斯特拉

2019-08-24 21:43 by DataBases, 306 阅读, 0 推荐, 收藏,

摘要：要找出从起点到终点耗时最短的路径需要使用狄克斯特拉算法。狄克斯特拉算法用于找出最快的路径。狄克斯特拉算法只适用于有向无环图DAG(directed acyclic graph)。狄克斯特拉算法用于每条边都有关联数字的图，这些数字为权重。带权重的图称为加权图，不带权重的图称为非加权图；要计阅读全文

0 Comment

最短路径问题与广度优先搜索

2019-08-18 22:54 by DataBases, 2929 阅读, 0 推荐, 收藏,

摘要：最短路径问题与广度优先搜索阅读全文

0 Comment

散列表特性与使用

2019-08-18 22:26 by DataBases, 290 阅读, 0 推荐, 收藏,

摘要：安全散列算法（secure hash algorithm,SHA)函数;给定一个字符串，SHA反回其散列值。 SHA可以用来判断两个文件是否相同。 SHA-0,SHA-1,SHA-2,SHA-3> 最安全的密码散列函数：bcrypt。散列函数时间复杂度为O(1)。散列函数将输入映射到数字；散列阅读全文

0 Comment

递归与D&C思想快速排序

2019-08-17 17:41 by DataBases, 305 阅读, 0 推荐, 收藏,

摘要：递归函数的两个条件： 1.基线条件：函数不再调用自己； 2.递归条件：函数调用自己；分而治之（divide and conquer,D&C）是一种通用的问题解决方法； D&C是递归的。使用D&C解决问题的过程的两个步骤： 1.找出基线条件，这种条件必须尽可能简单； 2.不断将问题分解（或者说缩小阅读全文

0 Comment

About