Loading

随笔分类 -  A-数据开发

包括数据爬取、ETL、数据库等知识沉淀
摘要:1 下载软件 下载版本为社区版3.4.5 curl -O http://dist.neo4j.org/neo4j-community-3.4.5-unix.tar.gz 2 配置JVM环境 Neo4J是依赖Java运行环境的,所以需要配置Java环境,如果你已经安装了,跳过该步骤即可。 # 1. 解 阅读全文
posted @ 2023-03-17 14:55 selfcs 阅读(576) 评论(0) 推荐(0)
摘要:thriftpy2.transport.base.TTransportException: TTransportException(type=4, message='TSocket read 0 bytes') 解决方法 import happybase CDH6_HBASE_THRIFT_VER= 阅读全文
posted @ 2023-03-14 15:23 selfcs 阅读(532) 评论(0) 推荐(0)
摘要:crond 服务管理 (1)重新启动 crond 服务 [root@hadoop101 ~] service crond restart crontab 定时任务设置 1. 基本语法 crontab [选项] 2. 选项说明 选项 功能 -e 编辑crontab定时任务 -l 查询crontab任务 阅读全文
posted @ 2020-11-20 15:06 selfcs 阅读(130) 评论(0) 推荐(0)
摘要:进程是正在执行的一个程序或命令,每一个进程都是一个运行的实体,都有自己的地址空间,并占用一定的系统资源。 ps 查看当前系统进程状态 1. 基本用法 ps aux | grep xxx (功能描述:查看系统中所有进程) ps -ef | grep xxx (功能描述:可以查看子父进程之间的关系) 2 阅读全文
posted @ 2020-11-20 11:23 selfcs 阅读(454) 评论(0) 推荐(0)
摘要:find 查找文件或目录 find 指令将从指定目录向下递归地遍历其各个子目录,将满足条件的文件显示在终端。 1. 基本语法 find [搜索范围] [选项] 2. 选项说明 选项 功能 -name<查询方式> 按照指定的文件名查找模式查找文件 -user<用户名> 查找属于指定用户名所有文件 -s 阅读全文
posted @ 2020-11-19 09:45 selfcs 阅读(517) 评论(0) 推荐(0)
摘要:文件属性 Linux系统是一种典型的多用户系统,不同的用户处于不同的地位,拥有不同的权限。为了保护系统的安全性,Linux系统对不同的用户访问同一文件(包括目录文件)的权限做了不同的规定。在Linux中我们可以使用ll或者ls -l命令来显示一个文件的属性以及文件所属的用户和组。 1.从左到右的10 阅读全文
posted @ 2020-11-17 14:13 selfcs 阅读(508) 评论(0) 推荐(0)
摘要:more 文件内容分屏查看器 more指令是一个基于VI编辑器的文本过滤器,它以全屏幕的方式按页显示文本文件的内容。more指令中内置了若干快捷键,详见操作说明。 操作 功能说明 空白键 (space) 代表向下翻一页; Enter 代表向下翻『一行』; q 代表立刻离开 more ,不再显示该文件 阅读全文
posted @ 2020-11-17 11:25 selfcs 阅读(127) 评论(0) 推荐(0)
摘要:使用 man 获取帮助信息 1. 基本语法 man [命令或配置文件] 2. 案例实操 (1)查看ls命令的帮助信息man ls 3. 显示说明 信息 功能 NAME 命令的名称和单行描述 SYNOPSIS 怎样使用命令 DESCRIPTION 命令功能的深入讨论 EXAMPLES 怎样使用命令的例 阅读全文
posted @ 2020-11-17 10:22 selfcs 阅读(205) 评论(0) 推荐(0)
摘要:RPM(RedHat Package Manager),RedHat软件包管理工具,类似windows里面的setup.exe。 是Linux这系列操作系统里面的打包安装工具,它虽然是RedHat的标志,但理念是通用的。 RPM包的命名格式 Apache-1.3.23-11.i386.rpm “ap 阅读全文
posted @ 2020-11-17 10:08 selfcs 阅读(903) 评论(0) 推荐(0)
摘要:Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决海量数据的存储和海量数据的分析计算问题。广义上讲,Hadoop通常指的是一个更广泛的概念——Hadoop生态圈 一、Hadoop的发展历史 Lucene框架是由Doug Cutting开创的开源软件,用Java进行编写的,实现 阅读全文
posted @ 2020-11-09 18:03 selfcs 阅读(544) 评论(0) 推荐(0)
摘要:一、安装 二、启动 启动服务 三、配置 创建用户管理员 使用admin 创建远程连接用户 修改/etc/mongod.conf 配置远程 参考 https://docs.mongodb.com/manual/tutorial/install mongodb on ubuntu/ 阅读全文
posted @ 2020-04-13 15:57 selfcs 阅读(1492) 评论(0) 推荐(0)
摘要:最近再清洗一些国外的数据,有英语,葡萄牙语等,因此查找了解决办法做个记录。 简单测试一下: 附上语言(文化)代码与国家地区对照表: 国家/地区 | 语言代码 | 国家/地区 | 语言代码 | | | 简体中文(中国) | zh cn | 繁体中文(台湾地区) | zh tw 繁体中文(香港) | z 阅读全文
posted @ 2020-04-13 15:36 selfcs 阅读(7187) 评论(0) 推荐(0)
摘要:前言 Neo4j是比较常用的一种图形数据库,本篇文章是介绍如何在 ubuntu 上安装和简单使用它。 安装依赖 在安装Neo4j前,我们需要安装Java环境,Neo4j3.5版本需要Java8。这里官方建议的是使用OpenJDK8安装,而不是Oracle Java 8。命令如下: 安装后检测一下时候 阅读全文
posted @ 2020-04-08 11:19 selfcs 阅读(817) 评论(0) 推荐(0)
摘要:所有代码均在ubuntu16.04,python3下通过 1、不使用scrapy splash 比如我想爬取该人物关注了哪些贴吧, 但是这些内容是javascript解析的: 以在贴吧的人物主页爬取为例,在spider.py文件里面输入下面的内容。 你会看到这样的信息: 2、使用scrapy spl 阅读全文
posted @ 2020-04-01 10:52 selfcs 阅读(374) 评论(0) 推荐(0)
摘要:如果没有安装docker,就先安装docker 1、安装docker 安装docker可以使用 进行安装,更加便捷的是使用Docker 官方的安装脚本,Ubuntu 系统上可以使用这套脚本安装,另外可以通过 选项使用国内源进行安装: 1.1、安装校验 如图所示, 我们安装的是 版本的。 1.2 do 阅读全文
posted @ 2020-04-01 10:49 selfcs 阅读(1107) 评论(0) 推荐(0)
摘要:最近在做一个VPN中间件的配置工作,在配置iptables的时候,当用户想删除EIP(即释放当前连接),发现使用iptables的相关命令会提示错误。 iptables: Bad rule (does a matching rule exist in that chain?). 我就纳闷了,怎么会出 阅读全文
posted @ 2020-04-01 10:33 selfcs 阅读(1271) 评论(0) 推荐(0)