会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
sjchen
博客园
首页
新随笔
联系
订阅
管理
2019年6月20日
大数据应用期末总评
摘要: 作业要求:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/3363 Hadoop综合大作业 要求: 1.将爬虫大作业产生的csv文件上传到HDFS 2.对CSV文件进行预处理生成无标题文本文件 3.把hdfs中的文本文件最终导入到数据仓
阅读全文
posted @ 2019-06-20 15:15 陈世炯
阅读(171)
评论(0)
推荐(0)
2019年6月4日
利用Shell命令与HDFS进行交互
摘要: 1.目录操作 在HDFS中为hadoop用户创建一个用户目录(hadoop用户) 在用户目录下创建一个input目录 在HDFS的根目录下创建一个名称为input的目录 删除HDFS根目录中的“input”目录 2.文件操作 使用vim编辑器,在本地Linux文件系统的“/home/hadoop/”
阅读全文
posted @ 2019-06-04 20:24 陈世炯
阅读(566)
评论(0)
推荐(0)
2019年5月15日
安装Hadoop
摘要: 1.安装Linux,MySql 2.windows 与 虚拟机互传文件 3.安装Hadoop 还不能从windows复制文件的,可在虚拟机里用浏览器下载安装文件,课件: 提取文件:hadoop-2.7.1.tar.gz 链接: https://pan.baidu.com/s/1HIVd9JCZstW
阅读全文
posted @ 2019-05-15 23:27 陈世炯
阅读(193)
评论(0)
推荐(0)
2019年5月8日
爬虫综合大作业
摘要: 爬虫综合大作业 1.选择主题:豆瓣电影网,复仇者联盟4 用户评论 2.爬取对象:爬取复仇者联盟4 里的短评 爬取网址规律:每一页的网址都只有改变一个地方 start = (开始为0,每加一页数值加20) 3.了解爬取对象的限制与约束:在未登录的情况下只能查看到一部分的评论 解决办法:在发送获取网页信
阅读全文
posted @ 2019-05-08 23:14 陈世炯
阅读(405)
评论(0)
推荐(0)
2019年4月14日
爬取全部的校园新闻
摘要: 0.从新闻url获取点击次数,并整理成函数 newsUrl newsId(re.search()) clickUrl(str.format()) requests.get(clickUrl) re.search()/.split() str.lstrip(),str.rstrip() int 整理成
阅读全文
posted @ 2019-04-14 22:25 陈世炯
阅读(136)
评论(0)
推荐(0)
2019年3月31日
理解爬虫原理
摘要: 1. 简单说明爬虫原理 程序模拟浏览器送请求来获取网页代码,提取出有用的数据,储存起来。 2. 理解爬虫开发过程 1).简要说明浏览器工作原理; 浏览器提交请求 >下载网页代码 >解析成页面 2).使用 requests 库抓取网站数据; requests.get(url) 获取校园新闻首页html
阅读全文
posted @ 2019-03-31 23:02 陈世炯
阅读(261)
评论(0)
推荐(0)
2019年3月23日
中文词频统计与词云生成
摘要: 中文词频统计 1. 下载一长篇中文小说。 小说:鹿鼎记 作者:金庸 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba jieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇。 jieba.add_
阅读全文
posted @ 2019-03-23 19:15 陈世炯
阅读(592)
评论(0)
推荐(0)
2019年3月17日
复合数据类型,英文词频统计
摘要: 1.列表,元组,字典,集合分别如何增删改查及遍历。 列表: 元组 增:无 删:无 改:无 查: 字典 集合 2.总结列表,元组,字典,集合的联系与区别。参考以下几个方面: 括号 有序无序 可变不可变 重复不可重复 存储与查找方式 联系与区别: 括号:列表:[ ], 元组:( ), 字典与集合:{ }
阅读全文
posted @ 2019-03-17 23:15 陈世炯
阅读(200)
评论(0)
推荐(0)
2019年3月11日
字符串操作、文件操作,英文词频统计预处理
摘要: 1.字符串操作: 解析身份证号:生日、性别、出生地等。 凯撒密码编码与解码 网址观察与批量生成 解析身份证信息: 凯撒密码: 2.英文词频统计预处理 下载一首英文的歌词或文章或小说。 将所有大写转换为小写 将所有其他做分隔符(,.?!)替换为空格 分隔出一个一个的单词 并统计单词出现的次数。 3.文
阅读全文
posted @ 2019-03-11 00:13 陈世炯
阅读(217)
评论(0)
推荐(0)
2019年3月4日
了解大数据的特点、来源与数据呈现方式
摘要: 一.浏览2019春节各种大数据分析报告,例如: 这世间,再无第二个国家有能力承载如此庞大的人流量。http://www.sohu.com/a/290025769_313993 春节人口迁徙大数据报告!http://www.sohu.com/a/293854116_679156 春节大数据:消费首破万
阅读全文
posted @ 2019-03-04 01:11 陈世炯
阅读(360)
评论(0)
推荐(0)
2018年10月24日
【软件工程实践】结对项目-四则运算 “软件”之升级版
摘要: 本次作业来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2213 GitHub库地址:https://github.com/570048926/Software 一、本次作业要求 从个人项目出发,将程序改造成一个单机带用户界面(
阅读全文
posted @ 2018-10-24 20:40 陈世炯
阅读(267)
评论(2)
推荐(0)
2018年10月9日
第三次作业:个人项目-小学四则运算 “软件”之初版
摘要: 本次作业要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2166 我的项目GitHub远程仓库地址:https://github.com/1182760943/chen 第一部分:要求 具体要求:任何编程语言都可以,命令行程
阅读全文
posted @ 2018-10-09 22:11 陈世炯
阅读(207)
评论(0)
推荐(0)
2018年9月17日
第二次作业
摘要: 本次作业来源:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2103 GitHub仓库:1182760943/chen.git 第二次作业:分布式版本控制系统Git的安装与使用 1.下载安装配置用户名和邮箱并查看用户名和邮箱 2. 创
阅读全文
posted @ 2018-09-17 20:26 陈世炯
阅读(170)
评论(0)
推荐(0)
2018年9月8日
第一次作业
摘要: 这个作业的要求来自于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE1/homework/2082 你为何要来上课并且认真参与? 参考:http://www.scalerstalk.com/816-attention 身为一个大学生来上课是为了让自己更好的
阅读全文
posted @ 2018-09-08 20:37 陈世炯
阅读(192)
评论(10)
推荐(0)
公告