啊涵呀

导航

2019年6月19日 #

将爬取的实习僧网站数据传入HDFS

摘要: 一、引言: 作为一名大三的学生,找实习对于我们而言是迫在眉睫的。实习作为迈入工作的第一步,它的重要性不言而喻,一份好的实习很大程度上决定了我们以后的职业规划。 那么,一份好的实习应该考量哪些因素呢?对于我们计算机专业的学生而言现在的实习趋势是什么呢? 我从实习僧网站爬取了5000条全国互联网行业的职 阅读全文

posted @ 2019-06-19 12:41 啊涵呀 阅读(1136) 评论(1) 推荐(0) 编辑

2019年5月31日 #

分布式文件系统HDFS 练习

摘要: 利用Shell命令与HDFS进行交互 以”./bin/dfs dfs”开头的Shell命令方式 1.目录操作 在HDFS中为hadoop用户创建一个用户目录(hadoop用户) 在用户目录下创建一个input目录 在HDFS的根目录下创建一个名称为input的目录 删除HDFS根目录中的“input 阅读全文

posted @ 2019-05-31 21:00 啊涵呀 阅读(196) 评论(0) 推荐(0) 编辑

2019年4月27日 #

什么是生命,这取决于肝脏。——《调音师》影评

摘要: 调音师是一部很有看点的电影,在朋友的安利下看了两遍!不错!就是两遍!我觉得我爬完这个数据还可以再来一遍! 10分钟的剧情给我反转反转再反转! 是一部人性的剧,最后结局导演给大家留下了一个很悬的疑点:“剧中究竟死了多少人?” !!! 确实,这也成为了大家讨论的点。因为有太多的可能性,一个个镜头的暗喻, 阅读全文

posted @ 2019-04-27 22:56 啊涵呀 阅读(1088) 评论(0) 推荐(0) 编辑

2019年4月12日 #

爬取全部的校园新闻

摘要: 1.从新闻url获取新闻详情: 字典,anews 2.从列表页的url获取新闻url:列表append(字典) alist 3.生成所页列表页的url并获取全部新闻 :列表extend(列表) allnews *每个同学爬学号尾数开始的10个列表页 4.设置合理的爬取间隔 import time i 阅读全文

posted @ 2019-04-12 21:17 啊涵呀 阅读(142) 评论(0) 推荐(0) 编辑

2019年4月3日 #

获取一篇新闻的全部信息

摘要: 给定一篇新闻的链接newsUrl,获取该新闻的全部信息 标题、作者、发布单位、审核、来源 发布时间:转换成datetime类型 点击: newsUrl newsId(使用正则表达式re) clickUrl(str.format(newsId)) requests.get(clickUrl) newC 阅读全文

posted @ 2019-04-03 20:46 啊涵呀 阅读(112) 评论(0) 推荐(0) 编辑

2019年3月26日 #

理解爬虫原理

摘要: 1. 简单说明爬虫原理 什么是爬虫 爬虫:请求网站并提取数据的自动化程序 百科:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 2. 理解爬虫 阅读全文

posted @ 2019-03-26 22:43 啊涵呀 阅读(221) 评论(0) 推荐(0) 编辑

2019年3月18日 #

Python中文词频统计

摘要: 1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵') #逐个添加 阅读全文

posted @ 2019-03-18 21:44 啊涵呀 阅读(16116) 评论(0) 推荐(1) 编辑

2019年3月14日 #

复合数据类型,英文词频统计

摘要: 1.列表,元组,字典,集合分别如何增删改查及遍历。 列表 2.总结列表,元组,字典,集合的联系与区别。参考以下几个方面: 括号 列表[]; 元组(); 字典{};集合()或者{} 有序无序 列表和元组有序,字典和集合无序 可变不可变 列表,字典可变,元组不可变,集合可变也可不变 重复不可重复 列表, 阅读全文

posted @ 2019-03-14 21:58 啊涵呀 阅读(187) 评论(0) 推荐(0) 编辑

2019年3月6日 #

Python——字符串、文件操作,英文词频统计预处理

摘要: 一.字符串操作: 解析身份证号:生日、性别、出生地等。 凯撒密码编码与解码 网址观察与批量生成 2.凯撒密码编码与解码 凯撒加密法的替换方法是通过排列明文和密文字母表,密文字母表示通过将明文字母表向左或向右移动一个固定数目的位置。例如,当偏移量是左移3的时候(解密时的密钥就是3),所有的字母A将被替 阅读全文

posted @ 2019-03-06 21:56 啊涵呀 阅读(372) 评论(0) 推荐(0) 编辑

2019年2月25日 #

了解大数据的特点,来源与数据的呈现方式

摘要: 作业来源于:https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2620 1.分析所采用数据的来源有哪些? 作业文档中数据的来源有,航空公司的购票记录,文章中文字出现频率,百度地图出行记录,京东购买记录,微信红包发送记录等。 由此可知,数据 阅读全文

posted @ 2019-02-25 11:45 啊涵呀 阅读(213) 评论(0) 推荐(0) 编辑