摘要: 前言 本系列为机器学习算法的总结和归纳,目的为了清晰阐述算法原理,同时附带上手代码实例,便于理解。 目录 k近邻(KNN) 决策树 线性回归 逻辑斯蒂回归 朴素贝叶斯 支持向量机(SVM) 组合算法(Ensemble Method) K-Means 机器学习算法总结 本章主要介绍无监督学习中的k-m 阅读全文
posted @ 2019-03-10 17:53 eo_will 阅读(5413) 评论(0) 推荐(0)
摘要: 一、背景 1.1 深度神经网络 深度神经网络是连接主义系统,通过它通过学习例子来完成任务,而不需要事先了解这些任务。它们可以很容易地扩展到数百万个数据点,并且可以通过随机梯度下降进行优化。 CNN是DNN的变体,能够适应各种非线性数据点。起始层学习更简单的特征,如边和角,后续层学习复杂的特征,如颜色 阅读全文
posted @ 2019-03-07 20:37 eo_will 阅读(7056) 评论(2) 推荐(0)
摘要: 一、四大基础理论 1 空间概率 空间概率是一种符合地理学第一定律的联合概率joint probabilities AB同时发生滑坡,比AD同时发生概率要高 <!--5f39ae17-8c62-4a45-bc43-b32064c9388a:W3siYmxvY2tJZCI6IjEwNTAtMTU1MDU 阅读全文
posted @ 2019-03-05 16:52 eo_will 阅读(9720) 评论(0) 推荐(0)
摘要: · 交叉检验 核心思想是通过保留一部份训练集数据作为检验集来估计真实检验集的错误率与模型拟合效果。常用的有留一法、K折交叉验证 偏差方差权衡:使用的训练集数据越多,估计偏差越小,方差越大(相关性越高的方差越大) · 统计量:样本X1,…,Xn的函数g(X1,…,Xn)是一个统计量。所有对总体的估计都 阅读全文
posted @ 2019-03-05 16:43 eo_will 阅读(5080) 评论(0) 推荐(0)
摘要: 一、介绍 LaTeX 基于 TeX的一个文档编辑器/排版系统(个人理解),学术界尤其是数学、计算机等学科论文采用 LaTeX 编写可以极大优化版面结构。在编辑器中按照一定“语法结构”进行录入,编译后可直接生成pdf。 二、安装 网上详细教程很多,简单记录几个关键步骤 1)分别下载和安装LaTeX,M 阅读全文
posted @ 2019-01-17 00:41 eo_will 阅读(22294) 评论(0) 推荐(1)
摘要: 在默认情况下,Python 程序是单个进程,使用单 CPU 核心执行。致使多核设备无法利用而算力浪费。通过使用 Python 的 concurrent.futures 模块,可以让一个普通的程序转换成适用于多核处理器并行处理的程序,进而提升数据预处理的效率。 案例: 简单例子,在单个文件夹中有一个图 阅读全文
posted @ 2018-10-08 20:40 eo_will 阅读(687) 评论(0) 推荐(0)
摘要: 一、简介 Scrapy是一个基于Twisted 的异步处理框架,是针对爬虫过程中的网站数据爬取、结构性数据提取而编写的应用框架。 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。 1.1 安装 1.2 框架介绍 组成: · Engine 引擎,处理整个系统的数据流处理、触发事务 · 阅读全文
posted @ 2018-09-29 22:50 eo_will 阅读(291) 评论(0) 推荐(0)
摘要: 总体学习路径: 1、学习 Python 包并实现基本的爬虫过程 2、了解非结构化数据的存储 3、学习scrapy,搭建工程化爬虫 4、学习数据库知识,应对大规模数据存储与提取 5、掌握各种技巧,应对特殊网站的反爬措施 6、分布式爬虫,实现大规模并发采集,提升效率 · 目标驱动 · 在一开始的时候,尽 阅读全文
posted @ 2018-09-28 11:04 eo_will 阅读(1740) 评论(0) 推荐(0)
摘要: JavaScript 动态渲染的页面不止 Ajax 这一种 另外有的ajax渲染接口含有很多加密参数,难以直接找出其规律 通过模拟浏览器运行的方式来实现,Selenium、Splash、PyV8、Ghost 等 7.1 Selenium的使用 自动化测试工具,支持多种浏览器。爬虫中主要用来解决js渲 阅读全文
posted @ 2018-09-28 10:57 eo_will 阅读(3122) 评论(0) 推荐(0)
摘要: request得到和浏览器数据不同 数据加载是异步加载方式,原始页面不包含数据,加载完后会会再向服务器请求某个接口获取数据,然后数据再被处理才呈现到网页上,这其实就是发送了一个 Ajax 请求。这样Web 开发上可以做到前后端分离,而且降低服务器直接渲染页面带来的压力。 因此遇到这种情况,用requ 阅读全文
posted @ 2018-09-28 10:57 eo_will 阅读(2817) 评论(0) 推荐(0)