04 2018 档案
摘要:在本地Linux文件系统的“/home/hadoop/”目录下创建一个文件txt,里面可以随意输入一些单词. 在本地查看文件位置(ls) 在本地显示文件内容 使用命令把本地文件系统中的“txt”上传到HDFS中的当前用户目录的input目录下。 查看hdfs中的文件(-ls) 显示hdfs中该的文件
阅读全文
摘要:1. 将新闻的正文内容保存到文本文件。 2. 将新闻数据结构化为字典的列表: 单条新闻的详情-->字典news def gzcc_content_info(content_url): content_info = {} resp = requests.get(content_url) resp.en
阅读全文
摘要:获取全部校园新闻: 爬取网易_人间_记事栏目的文章:
阅读全文
摘要:import requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeimport redef gzcc_content_clicks(content_url): content_id = re.search('(\d{2,})\.html', content_url).group(1) click_url ...
阅读全文

浙公网安备 33010602011771号