小林子1022 - 博客园

2021年7月30日

摘要：上一篇《Linux网络I/O模型》提到了多路复用是目前实现高并发网络模型的主流方式。那么今天我们就来了解下I/O多路复用的实现原理。在正式讲解之前，我们必须先来了解一下什么是文件描述符。什么是文件描述符在Linux系统中，把所有I/O设备都被抽象为了文件这个概念，一切皆文件。磁盘、网络、终端，阅读全文

posted @ 2021-07-30 23:12 小林子1022 阅读(1268) 评论(0) 推荐(0)

2018年10月15日

Elasticsearch X-Pack破解

摘要： [TOC] 1. 概述接上一篇文章： "Elasticsearch + Kibana + X Pack + Head集群安装部署" 安装部署好Elasticsearch环境并安装了安全组件x pack。但是运行一段时间以后，Kibana无法正常登陆，但是程序却可以正常访问es，猜测可能Kibana 阅读全文

posted @ 2018-10-15 18:57 小林子1022 阅读(3091) 评论(0) 推荐(0)

2018年9月28日

Elasticsearch + Kibana + X-Pack + Head集群安装部署

摘要： [TOC] 1. 概述近期使用到Elasticsearch作为数据的存储与检索引擎，初期安装了2.4.0版本，找对应版本的插件还着实费了些时间。后由于引入spark的版本和Elasticsearch 2.4.0版本不匹配，所以决定将Elasticsearch 升级到5.5.0版本。升级之后的El 阅读全文

posted @ 2018-09-28 09:27 小林子1022 阅读(2977) 评论(1) 推荐(1)

2018年5月10日

python爬虫总结

摘要： [TOC] 由于某些原因最近终于可以从工作的琐事中抽出身来，有时间把之前的一些爬虫知识进行了一个简单的梳理，也从中体会到阶段性地对过往知识进行梳理是真的很有必要。常用第三方库对于爬虫初学者，建议在了解爬虫原理以后，在不使用任何爬虫框架的情况下，使用这些常用的第三方库自己实现一个简单的爬虫，这样会阅读全文

posted @ 2018-05-10 09:38 小林子1022 阅读(4940) 评论(1) 推荐(6)

2018年1月11日

Python使用Tabula提取PDF表格数据

摘要：今天遇到一个批量读取pdf文件中表格数据的需求，样式大体是以下这样： python读取PDF无非就是三种方式（我所了解的），、``pdf2htmlEX Tabula``。综合考虑后，选择了最后一种。下面对三种方式分别介绍： pdfminer 该方式从网上搜索的结果是，可以提取pdf文本数据，但是提阅读全文

posted @ 2018-01-11 14:29 小林子1022 阅读(47310) 评论(8) 推荐(9)

2018年1月2日

2017总结：迷茫的一年

摘要：如果要把过去的2017总结为一个词的话，那就是：迷茫关于工作回首过往的一年，工作中有哪些突出的成绩，答案是Nothing。每天淹没在琐碎的工作中，做的也都是从1到n的工作，虽然加班也不少，但却找不到任何的成就感。曾无数次后悔为什么一年前没有接受那个大数据的offer,或许现在我已经成了半个大数据阅读全文

posted @ 2018-01-02 16:11 小林子1022 阅读(3118) 评论(32) 推荐(25)

2017年4月22日

Hadoop版本选择

摘要：刚开始学习Hadoop时就曾经一直抱怨Hadoop的安装部署为什么这么麻烦，对于一个新手需要捯饬一天才能把分布式环境安装配置好。而对于一个自学Hadoop而周围又没人交流的菜鸟来说，我对Hadoop的理解一直停留在很肤浅的层面，能应用，但对内部的原理知之甚少。最近和一个做这方面的朋友聊天，他问我你学阅读全文

posted @ 2017-04-22 23:44 小林子1022 阅读(15218) 评论(1) 推荐(5)

2016年12月19日

企业级网络爬虫应用（1）开篇

摘要：开篇不打算写太多技术细节，只想来阐述一下计划写该系列博客的初衷。公司有一项业务是做政策收集及发布的，说白了就是人工查看哪些政府网站有新的政策发布了，就复制粘贴，修改下格式发布到我们的网站上，这算是一个政策信息的聚合平台吧。但是这种方式确实是费时费力，搞得这方面的人手一直紧张。后来leader一看一阅读全文

posted @ 2016-12-19 21:23 小林子1022 阅读(4492) 评论(6) 推荐(7)

2016年10月20日

数据分析之Pandas(三) DataFrame入门

摘要： DataFrame是一个表格型的数据结构，它含有一组有序的列，每列可以是不同的值类型（数值、字符串、布尔值等）。DataFrame既有行索引也有列索引，它可以被看做由Series组成的字典（共用同一个索引）。 DataFrame有多种不同的创建方法： Dict of 1D ndarrays, lis 阅读全文

posted @ 2016-10-20 15:03 小林子1022 阅读(28531) 评论(0) 推荐(0)

数据分析之Pandas(二) Series入门

摘要： Pandas基本的数据结构是Series和DataFrame。Series是1 D的，DataFrame是2 D的。首先引入Pandas和Numpy from pandas import Series, DataFrame import pandas as pd import numpy as n 阅读全文

posted @ 2016-10-20 10:18 小林子1022 阅读(15349) 评论(0) 推荐(2)

晋好林

成长是不断重构自己的过程

公告