博客园 - 晋好林
uuid:6cbd1ba2-f883-4c34-aed1-30dde64a3a3e;id=666230
2021-07-30T15:12:21Z
晋好林
https://www.cnblogs.com/jinhaolin/
feed.cnblogs.com
https://www.cnblogs.com/jinhaolin/p/15082900.html
I/O多路复用详解 - 晋好林
上一篇《Linux网络I/O模型》提到了多路复用是目前实现高并发网络模型的主流方式。那么今天我们就来了解下I/O多路复用的实现原理。 在正式讲解之前,我们必须先来了解一下什么是文件描述符。 什么是文件描述符 在Linux系统中,把所有I/O设备都被抽象为了文件这个概念,一切皆文件。磁盘、网络、终端,
2021-07-30T15:12:00Z
2021-07-30T15:12:00Z
晋好林
https://www.cnblogs.com/jinhaolin/
【摘要】上一篇《Linux网络I/O模型》提到了多路复用是目前实现高并发网络模型的主流方式。那么今天我们就来了解下I/O多路复用的实现原理。 在正式讲解之前,我们必须先来了解一下什么是文件描述符。 什么是文件描述符 在Linux系统中,把所有I/O设备都被抽象为了文件这个概念,一切皆文件。磁盘、网络、终端, <a href="https://www.cnblogs.com/jinhaolin/p/15082900.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/jinhaolin/p/9792807.html
Elasticsearch X-Pack破解 - 晋好林
[TOC] 1. 概述 接上一篇文章: "Elasticsearch + Kibana + X Pack + Head集群安装部署" 安装部署好Elasticsearch环境并安装了安全组件x pack。但是运行一段时间以后,Kibana无法正常登陆,但是程序却可以正常访问es,猜测可能Kibana
2018-10-15T10:57:00Z
2018-10-15T10:57:00Z
晋好林
https://www.cnblogs.com/jinhaolin/
【摘要】[TOC] 1. 概述 接上一篇文章: "Elasticsearch + Kibana + X Pack + Head集群安装部署" 安装部署好Elasticsearch环境并安装了安全组件x pack。但是运行一段时间以后,Kibana无法正常登陆,但是程序却可以正常访问es,猜测可能Kibana <a href="https://www.cnblogs.com/jinhaolin/p/9792807.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/jinhaolin/p/9649203.html
Elasticsearch + Kibana + X-Pack + Head集群安装部署 - 晋好林
[TOC] 1. 概述 近期使用到Elasticsearch作为数据的存储与检索引擎,初期安装了2.4.0版本,找对应版本的插件还着实费了些时间。后由于引入spark的版本和Elasticsearch 2.4.0版本不匹配,所以决定将Elasticsearch 升级到5.5.0版本。 升级之后的El
2018-09-28T01:27:00Z
2018-09-28T01:27:00Z
晋好林
https://www.cnblogs.com/jinhaolin/
【摘要】[TOC] 1. 概述 近期使用到Elasticsearch作为数据的存储与检索引擎,初期安装了2.4.0版本,找对应版本的插件还着实费了些时间。后由于引入spark的版本和Elasticsearch 2.4.0版本不匹配,所以决定将Elasticsearch 升级到5.5.0版本。 升级之后的El <a href="https://www.cnblogs.com/jinhaolin/p/9649203.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/jinhaolin/p/9018028.html
python爬虫总结 - 晋好林
[TOC] 由于某些原因最近终于可以从工作的琐事中抽出身来,有时间把之前的一些爬虫知识进行了一个简单的梳理,也从中体会到阶段性地对过往知识进行梳理是真的很有必要。 常用第三方库 对于爬虫初学者,建议在了解爬虫原理以后,在不使用任何爬虫框架的情况下,使用这些常用的第三方库自己实现一个简单的爬虫,这样会
2018-05-10T01:38:00Z
2018-05-10T01:38:00Z
晋好林
https://www.cnblogs.com/jinhaolin/
【摘要】[TOC] 由于某些原因最近终于可以从工作的琐事中抽出身来,有时间把之前的一些爬虫知识进行了一个简单的梳理,也从中体会到阶段性地对过往知识进行梳理是真的很有必要。 常用第三方库 对于爬虫初学者,建议在了解爬虫原理以后,在不使用任何爬虫框架的情况下,使用这些常用的第三方库自己实现一个简单的爬虫,这样会 <a href="https://www.cnblogs.com/jinhaolin/p/9018028.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/jinhaolin/p/8268198.html
Python使用Tabula提取PDF表格数据 - 晋好林
今天遇到一个批量读取pdf文件中表格数据的需求,样式大体是以下这样: python读取PDF无非就是三种方式(我所了解的), 、``pdf2htmlEX Tabula``。综合考虑后,选择了最后一种。下面对三种方式分别介绍: pdfminer 该方式从网上搜索的结果是,可以提取pdf文本数据,但是提
2018-01-11T06:29:00Z
2018-01-11T06:29:00Z
晋好林
https://www.cnblogs.com/jinhaolin/
【摘要】今天遇到一个批量读取pdf文件中表格数据的需求,样式大体是以下这样: python读取PDF无非就是三种方式(我所了解的), 、``pdf2htmlEX Tabula``。综合考虑后,选择了最后一种。下面对三种方式分别介绍: pdfminer 该方式从网上搜索的结果是,可以提取pdf文本数据,但是提 <a href="https://www.cnblogs.com/jinhaolin/p/8268198.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/jinhaolin/p/8177663.html
2017总结:迷茫的一年 - 晋好林
如果要把过去的2017总结为一个词的话,那就是:迷茫 关于工作 回首过往的一年,工作中有哪些突出的成绩,答案是Nothing。每天淹没在琐碎的工作中,做的也都是从1到n的工作,虽然加班也不少,但却找不到任何的成就感。曾无数次后悔为什么一年前没有接受那个大数据的offer,或许现在我已经成了半个大数据
2018-01-02T08:11:00Z
2018-01-02T08:11:00Z
晋好林
https://www.cnblogs.com/jinhaolin/
【摘要】如果要把过去的2017总结为一个词的话,那就是:迷茫 关于工作 回首过往的一年,工作中有哪些突出的成绩,答案是Nothing。每天淹没在琐碎的工作中,做的也都是从1到n的工作,虽然加班也不少,但却找不到任何的成就感。曾无数次后悔为什么一年前没有接受那个大数据的offer,或许现在我已经成了半个大数据 <a href="https://www.cnblogs.com/jinhaolin/p/8177663.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/jinhaolin/p/6750295.html
Hadoop版本选择 - 晋好林
刚开始学习Hadoop时就曾经一直抱怨Hadoop的安装部署为什么这么麻烦,对于一个新手需要捯饬一天才能把分布式环境安装配置好。而对于一个自学Hadoop而周围又没人交流的菜鸟来说,我对Hadoop的理解一直停留在很肤浅的层面,能应用,但对内部的原理知之甚少。最近和一个做这方面的朋友聊天,他问我你学
2017-04-22T15:44:00Z
2017-04-22T15:44:00Z
晋好林
https://www.cnblogs.com/jinhaolin/
【摘要】刚开始学习Hadoop时就曾经一直抱怨Hadoop的安装部署为什么这么麻烦,对于一个新手需要捯饬一天才能把分布式环境安装配置好。而对于一个自学Hadoop而周围又没人交流的菜鸟来说,我对Hadoop的理解一直停留在很肤浅的层面,能应用,但对内部的原理知之甚少。最近和一个做这方面的朋友聊天,他问我你学 <a href="https://www.cnblogs.com/jinhaolin/p/6750295.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/jinhaolin/p/6200635.html
企业级网络爬虫应用(1) 开篇 - 晋好林
开篇不打算写太多技术细节,只想来阐述一下计划写该系列博客的初衷。 公司有一项业务是做政策收集及发布的,说白了就是人工查看哪些政府网站有新的政策发布了,就复制粘贴,修改下格式发布到我们的网站上,这算是一个政策信息的聚合平台吧。但是这种方式确实是费时费力,搞得这方面的人手一直紧张。后来leader一看一
2016-12-19T13:23:00Z
2016-12-19T13:23:00Z
晋好林
https://www.cnblogs.com/jinhaolin/
【摘要】开篇不打算写太多技术细节,只想来阐述一下计划写该系列博客的初衷。 公司有一项业务是做政策收集及发布的,说白了就是人工查看哪些政府网站有新的政策发布了,就复制粘贴,修改下格式发布到我们的网站上,这算是一个政策信息的聚合平台吧。但是这种方式确实是费时费力,搞得这方面的人手一直紧张。后来leader一看一 <a href="https://www.cnblogs.com/jinhaolin/p/6200635.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/jinhaolin/p/5980932.html
数据分析之Pandas(三) DataFrame入门 - 晋好林
DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。 DataFrame有多种不同的创建方法: Dict of 1D ndarrays, lis
2016-10-20T07:03:00Z
2016-10-20T07:03:00Z
晋好林
https://www.cnblogs.com/jinhaolin/
【摘要】DataFrame是一个表格型的数据结构,它含有一组有序的列,每列可以是不同的值类型(数值、字符串、布尔值等)。DataFrame既有行索引也有列索引,它可以被看做由Series组成的字典(共用同一个索引)。 DataFrame有多种不同的创建方法: Dict of 1D ndarrays, lis <a href="https://www.cnblogs.com/jinhaolin/p/5980932.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/jinhaolin/p/5979793.html
数据分析之Pandas(二) Series入门 - 晋好林
Pandas基本的数据结构是Series和DataFrame。Series是1 D的,DataFrame是2 D的。 首先引入Pandas和Numpy from pandas import Series, DataFrame import pandas as pd import numpy as n
2016-10-20T02:18:00Z
2016-10-20T02:18:00Z
晋好林
https://www.cnblogs.com/jinhaolin/
【摘要】Pandas基本的数据结构是Series和DataFrame。Series是1 D的,DataFrame是2 D的。 首先引入Pandas和Numpy from pandas import Series, DataFrame import pandas as pd import numpy as n <a href="https://www.cnblogs.com/jinhaolin/p/5979793.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/jinhaolin/p/5979456.html
数据分析之Pandas(一) 学习资料汇总 - 晋好林
Pandas为所有中等规模数据分析的最有效的工具,它依赖Numpy。 学习过程中我搜集了一些资料汇总如下: 作为开始,你可以先看一个关于Pandas的 "10分钟简短介绍" ,中文版在 "这里" 。 然后可以学习一个更详细的 "Pandas教程" ,百度文库也有一个系列的 "Pandas教程" 。
2016-10-20T00:44:00Z
2016-10-20T00:44:00Z
晋好林
https://www.cnblogs.com/jinhaolin/
【摘要】Pandas为所有中等规模数据分析的最有效的工具,它依赖Numpy。 学习过程中我搜集了一些资料汇总如下: 作为开始,你可以先看一个关于Pandas的 "10分钟简短介绍" ,中文版在 "这里" 。 然后可以学习一个更详细的 "Pandas教程" ,百度文库也有一个系列的 "Pandas教程" 。 <a href="https://www.cnblogs.com/jinhaolin/p/5979456.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/jinhaolin/p/5772103.html
Markdown基本语法 - 晋好林
最近无意中发现了一款轻量级的标记语言,语法简单,排版方便,正好最近想学习大数据与机器学习相关的知识,并计划时常写一些博客来做笔记,感觉Markdown应该是比较适合编辑,所以把博客园的编辑器改成了markdown,并在以后的记录中习惯使用。下面就总结一些Markdown的基本语法方便随时查阅。 1.
2016-08-15T03:01:00Z
2016-08-15T03:01:00Z
晋好林
https://www.cnblogs.com/jinhaolin/
【摘要】最近无意中发现了一款轻量级的标记语言,语法简单,排版方便,正好最近想学习大数据与机器学习相关的知识,并计划时常写一些博客来做笔记,感觉Markdown应该是比较适合编辑,所以把博客园的编辑器改成了markdown,并在以后的记录中习惯使用。下面就总结一些Markdown的基本语法方便随时查阅。 1. <a href="https://www.cnblogs.com/jinhaolin/p/5772103.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/jinhaolin/p/5128973.html
python2编码总结 - 晋好林
以下依次列出python2常遇到的几个问题及讲解。 # -*- coding:utf-8 -*- python2默认以ASCII编码,但是在实际编码过程中,我们会用到很多中文,为了不使包含中文的程序报错,也是为了符合国际通用惯例,一般将我们的文件编码设置为utf-8格式。 设定编码的格式有很多种,只
2016-01-13T16:53:00Z
2016-01-13T16:53:00Z
晋好林
https://www.cnblogs.com/jinhaolin/
【摘要】以下依次列出python2常遇到的几个问题及讲解。 # -*- coding:utf-8 -*- python2默认以ASCII编码,但是在实际编码过程中,我们会用到很多中文,为了不使包含中文的程序报错,也是为了符合国际通用惯例,一般将我们的文件编码设置为utf-8格式。 设定编码的格式有很多种,只 <a href="https://www.cnblogs.com/jinhaolin/p/5128973.html" target="_blank">阅读全文</a>
https://www.cnblogs.com/jinhaolin/p/5033733.html
scrapy爬虫部署 - 晋好林
在开始之前先要吐槽一下CSDN,昨晚怀着激动得心情写下了我人生中的第一篇博文,今天审核通过后发现所有的图片都不见了,瞬间就不开心了。所以不得不又申请了博客园的账号,重新开始。 前段时间一直研究通用爬虫,做的过程中也是各种问题,不过好在磕磕绊绊搞出点眉目,中间学到了不少东西,感觉互联网真的好神奇。 但
2015-12-09T10:25:00Z
2015-12-09T10:25:00Z
晋好林
https://www.cnblogs.com/jinhaolin/
【摘要】在开始之前先要吐槽一下CSDN,昨晚怀着激动得心情写下了我人生中的第一篇博文,今天审核通过后发现所有的图片都不见了,瞬间就不开心了。所以不得不又申请了博客园的账号,重新开始。 前段时间一直研究通用爬虫,做的过程中也是各种问题,不过好在磕磕绊绊搞出点眉目,中间学到了不少东西,感觉互联网真的好神奇。 但 <a href="https://www.cnblogs.com/jinhaolin/p/5033733.html" target="_blank">阅读全文</a>