摘要: import requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeimport reres = requests.get('http://news.gzcc.cn/html/xiaoyuanxinwen/')res.en 阅读全文
posted @ 2018-06-06 22:49 Gardien 阅读(330) 评论(0) 推荐(0) 编辑
摘要: 1.取出一个新闻列表页的全部新闻 包装成函数。 2.获取总的新闻篇数,算出新闻总页数。 3.获取全部新闻列表页的全部新闻详情。 4.找一个自己感兴趣的主题,进行数据爬取,并进行分词分析。不能与其它同学雷同。 1-3: 4(爬慕课网): 阅读全文
posted @ 2018-06-06 22:47 Gardien 阅读(120) 评论(0) 推荐(0) 编辑
摘要: 向HDFS中上传任意文本文件,如果指定的文件在HDFS中已经存在,由用户指定是追加到原有文件末尾还是覆盖原有的文件; cd bin/ $ if $(./hdfs dfs -test -e input/hzh.txt); then $(./hdfs dfs -appendToFile ~/hzh.tx 阅读全文
posted @ 2018-06-06 22:45 Gardien 阅读(1611) 评论(0) 推荐(0) 编辑
摘要: 1.用Hive对爬虫大作业产生的文本文件(或者英文词频统计下载的英文长篇小说)词频统计。 1.启动hadoop 2.Hdfs上创建文件夹并查看 上传英文词频统计文本至hdfs 启动Hive 导入文件内容到表docs并查看 进行词频统计,结果放在表t_word_count2里 查看统计结果 阅读全文
posted @ 2018-05-24 22:30 Gardien 阅读(146) 评论(0) 推荐(0) 编辑
摘要: 1.大数称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。所以利用大数据的人们思维更加的敏锐,也会对人们的思维方式产生扩大化,通过大量的数据进行分析,从而形成更多推进人类社会进步的产品,走上更新的时代。 2.物联网产生大数据,大数据助力物联 阅读全文
posted @ 2018-03-07 15:28 Gardien 阅读(1899) 评论(0) 推荐(0) 编辑
摘要: overflow属性是规定的内容溢出内容框所要发生的事情 阅读全文
posted @ 2017-10-12 20:25 Gardien 阅读(200) 评论(0) 推荐(0) 编辑
摘要: 悬浮进而改变样式 阅读全文
posted @ 2017-10-12 20:15 Gardien 阅读(111) 评论(0) 推荐(0) 编辑