04 2018 档案

摘要:爬取的是网易——人间——记事栏目的文章 阅读全文
posted @ 2018-04-29 14:19 162--麦振澎 阅读(165) 评论(0) 推荐(0)
摘要:在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. 在本地查看文件位置(ls) 在本地显示文件内容 使用命令把本地文件系统中的“txt”上传到HDFS中的当前用户目录的input目录下。 查看hdfs中的文件(-ls) 显示hdfs中该的文件 阅读全文
posted @ 2018-04-25 21:03 162--麦振澎 阅读(369) 评论(0) 推荐(0)
摘要:1. 将新闻的正文内容保存到文本文件。 2. 将新闻数据结构化为字典的列表: 单条新闻的详情-->字典news def gzcc_content_info(content_url): content_info = {} resp = requests.get(content_url) resp.en 阅读全文
posted @ 2018-04-11 20:55 162--麦振澎 阅读(203) 评论(0) 推荐(0)
摘要:获取全部校园新闻: 爬取网易_人间_记事栏目的文章: 阅读全文
posted @ 2018-04-10 22:50 162--麦振澎 阅读(408) 评论(0) 推荐(0)
摘要:import requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeimport redef gzcc_content_clicks(content_url): content_id = re.search('(\d{2,})\.html', content_url).group(1) click_url ... 阅读全文
posted @ 2018-04-03 20:38 162--麦振澎 阅读(359) 评论(0) 推荐(0)