桌子哥 - 博客园

2020年4月17日

Leetcode练习(Python)：数组类：第16题：给定一个包括 n 个整数的数组 nums 和一个目标值 target。找出 nums 中的三个整数，使得它们的和与 target 最接近。返回这三个数的和。假定每组输入只存在唯一答案。

摘要：题目：给定一个包括 n 个整数的数组 nums 和一个目标值 target。找出 nums 中的三个整数，使得它们的和与 target 最接近。返回这三个数的和。假定每组输入只存在唯一答案。思路：三指针法，和牛顿下降法的思路很类似，给定一个初始值，不断迭代找到符合要求的最优值 class Sol 阅读全文

posted @ 2020-04-17 19:02 桌子哥阅读(498) 评论(0) 推荐(0)

Leetcode练习(Python)：数组类：第15题：给你一个包含 n 个整数的数组 nums，判断 nums 中是否存在三个元素 a，b，c ，使得 a + b + c = 0 ？请你找出所有满足条件且不重复的三元组。注意：答案中不可以包含重复的三元组。

摘要：题目：给你一个包含 n 个整数的数组 nums，判断 nums 中是否存在三个元素 a，b，c ，使得 a + b + c = 0 ？请你找出所有满足条件且不重复的三元组。注意：答案中不可以包含重复的三元组。思路：可以参考两个数求和的思路，但是需要考虑结果重复的情况。代码1：使用两个数求和思路阅读全文

posted @ 2020-04-17 17:16 桌子哥阅读(2216) 评论(0) 推荐(0)

Leetcode练习(Python)：数组类：第11题：给你 n 个非负整数 a1，a2，...，an，每个数代表坐标中的一个点 (i, ai) 。在坐标内画 n 条垂直线，垂直线 i 的两个端点分别为 (i, ai) 和 (i, 0)。找出其中的两条线，使得它们与 x 轴共同构成的容器可以容纳最多的水。

摘要：题目：给你 n 个非负整数 a1，a2，...，an，每个数代表坐标中的一个点 (i, ai) 。在坐标内画 n 条垂直线，垂直线 i 的两个端点分别为 (i, ai) 和 (i, 0)。找出其中的两条线，使得它们与 x 轴共同构成的容器可以容纳最多的水。说明：你不能倾斜容器，且 n 的值至少为阅读全文

posted @ 2020-04-17 14:38 桌子哥阅读(1111) 评论(0) 推荐(0)

LeetCode练习(Python)：数组类：第4题：给定两个大小为 m 和 n 的有序数组 nums1 和 nums2。请你找出这两个有序数组的中位数，并且要求算法的时间复杂度为 O(log(m + n))。你可以假设 nums1 和 nums2 不会同时为空

摘要：题目：给定两个大小为 m 和 n 的有序数组 nums1 和 nums2。请你找出这两个有序数组的中位数，并且要求算法的时间复杂度为 O(log(m + n))。你可以假设 nums1 和 nums2 不会同时为空思路：看到要求的时间复杂度为O(log(m + n))，想到了二分搜索，使用二分阅读全文

posted @ 2020-04-17 13:36 桌子哥阅读(390) 评论(0) 推荐(0)

LeetCode练习(Python)：数组类：第1题：给定一个整数数组 nums 和一个目标值 target，请你在该数组中找出和为目标值的那 两个 整数，并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是，数组中同一个元素不能使用两遍。

摘要：题目：给定一个整数数组 nums 和一个目标值 target，请你在该数组中找出和为目标值的那两个整数，并返回他们的数组下标。你可以假设每种输入只会对应一个答案。但是，数组中同一个元素不能使用两遍。思路：本题较为简单，一个元素不能使用两遍，因此只能用一次循环，在一次循环里解决所有问题。 cl 阅读全文

posted @ 2020-04-17 10:25 桌子哥阅读(780) 评论(0) 推荐(0)

2020年4月9日

Python+Spark2.0+hadoop学习笔记——Spark ML Pipeline机器学习流程

摘要：情况一：二元分类这部分使用的数据集是判断网页是暂时的还是长青的。因为涉及到了文本的信息，所以需要进行文本的数字化和向量化。在这部分中，机器学习分为三个部分，第一部分是建立机器学习流程pipeline，第二部分是训练，第三部分是预测。在建立机器学习流程pipeline中包含4个阶段，如下所示：阅读全文

posted @ 2020-04-09 17:05 桌子哥阅读(1012) 评论(0) 推荐(0)

2020年4月7日

Python+Spark2.0+hadoop学习笔记——RDD、DataFrame和Spark SQL数据库相关操作

摘要：在Spark中可以使用RDD API、DataFrame API和Spark API这三个接口来进行数据的相关操作。且这三者也互相有联系，RDD没有定义框架，DataFrame在创建时必须定义Schema，而Spark SQL是由DataFrame派生出来的，此外Spark API适用于只有SQL操阅读全文

posted @ 2020-04-07 17:36 桌子哥阅读(465) 评论(0) 推荐(0)

2020年4月6日

Python+Spark2.0+hadoop学习笔记——Python Spark MLlib决策树回归

摘要：机器学习领域中分类方法和回归方法是相对的，大多数的方法可以相互转换，即一般的机器学习方法如果可以分类的话，也会可以做回归预测。在本例的回归方法中，使用的评价指标是RMSE。第一步：导入数据库 import sysfrom time import timeimport pandas as pdimp 阅读全文

posted @ 2020-04-06 15:30 桌子哥阅读(436) 评论(0) 推荐(0)

2020年4月5日

Python+Spark2.0+hadoop学习笔记——Python Spark MLlib Decision Tree MultiClassification多分类

摘要：二分类分类器大多可以用来进行开展多分类的问题，这篇以决策树为例来介绍Spark里MLlib的多分类问题实例，在这一篇中使用的评价指标是Accuracy。第一步：导入库函数 import sysfrom time import timeimport pandas as pdimport matplo 阅读全文

posted @ 2020-04-05 23:30 桌子哥阅读(458) 评论(0) 推荐(0)

2020年4月3日

Python+Spark2.0+hadoop学习笔记——Python Spark MLlib Naive Bayes二分类

摘要：朴素贝叶斯是一种经典的分类方法，其原理在高中或大学的概率论部分学习了很多了，下面开始介绍在Spark环境下使用MLlib来使用Naive Bayes来对网站性质进行分类判断。第一步：导入库函数 import sysfrom time import timeimport pandas as pdim 阅读全文

posted @ 2020-04-03 22:57 桌子哥阅读(298) 评论(0) 推荐(0)