摘要: 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)进行词频统计。 启动Hive 2.在Hdfs上创建文件夹并查看 2.在Hdfs上创建文件夹并查看 3.把下载的英文小说novers.txt文件上传至hdfs 4.启动Hive 5.创建原始文档表,把文件内容导入到表fict 阅读全文
posted @ 2018-05-25 22:00 186-叶晓钿 阅读(215) 评论(0) 推荐(0) 编辑
摘要: cd /usr/hadoopsodu mkdir qxcd /usr/hadoop/qx wget -D --accept-regex=REGEX -P data -r -c ftp://ftp.ncdc.noaa.gov/pub/data/noaa/2017/2* cd /usr/hadoop/q 阅读全文
posted @ 2018-05-09 21:55 186-叶晓钿 阅读(215) 评论(0) 推荐(0) 编辑
摘要: import requests from bs4 import BeautifulSoup from datetime import datetime import locale import re locale.setlocale(locale.LC_CTYPE,'chinese') def getClickCount(newsUrl): newsId = re.findall(... 阅读全文
posted @ 2018-04-11 21:57 186-叶晓钿 阅读(155) 评论(0) 推荐(0) 编辑
摘要: 下载一长篇中文文章。 从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) 生成词频 阅读全文
posted @ 2018-03-28 17:09 186-叶晓钿 阅读(197) 评论(0) 推荐(0) 编辑
摘要: 1 song = '''During my childhood, think lucky money and new clothes are necessary for New Year, but as the advance of the age, will be more and more found that those things are optional; Junior high ... 阅读全文
posted @ 2018-03-26 21:56 186-叶晓钿 阅读(124) 评论(0) 推荐(0) 编辑
摘要: # -*- coding:utf-8 -*- from turtle import * def mygoto(x,y): up() goto(x,y) down() def drawStar(r): begin_fill() for i in range(5): forward(r) right(144) end_... 阅读全文
posted @ 2018-03-20 10:49 186-叶晓钿 阅读(69) 评论(0) 推荐(0) 编辑
摘要: cd命令:切换目录 (1)切换到目录 /usr/local cd/usr/local (2)去到目前的上层目录 cd .. (3)回到自己的主文件夹 cd ~ ls命令:查看文件与目录 (4)查看目录/usr下所有的文件 #Is /usr mkdir命令:新建新目录 (5)进入/tmp目录,创建一个 阅读全文
posted @ 2018-03-14 15:11 186-叶晓钿 阅读(432) 评论(0) 推荐(0) 编辑
摘要: 1.试述大数据对思维方式的重要影响 大数据对数据的计算模式主要分为批处理计算,流计算,图计算和查询分析计算,这些计算模式通过对不用的数据模式进行处理,得到不同的结果。而这些结果,恰恰有助于我们对数据进行分析和利用,相比百分之十的结构化数据,这些数据具有更好的精准性和思维理性。也有助于我们对未来做出预 阅读全文
posted @ 2018-03-07 15:56 186-叶晓钿 阅读(91) 评论(0) 推荐(0) 编辑
摘要: 1.编译原理就是什么? 个人理解,编译就是像翻译一样,将一种语言翻译成另一种语言,编译就是将高级语言或汇编语言翻译成电脑能识别的二进制机器语言,编译原理就是讲解这 个编译的过程。内容包括语言和文法、词法分析、语法分析、语法制导翻译、中间代码生成、存储管理、代码优化和目标代码生成。 编译原理是计算机专 阅读全文
posted @ 2016-09-09 23:16 186-叶晓钿 阅读(104) 评论(1) 推荐(0) 编辑