04 2018 档案
爬虫大作业
摘要:我爬取的是新浪新闻,打开网页链接http://news.sina.com.cn/china/: 打开网页获取需要的链接:,然后开始做项目。 1,获取评论数: 2 获取新闻内容: 3 保存为txt: 得到txt文本: 4 词频分析并生成词云: 得到词云图片: 在做大作业的过程中,遇到的主要问题还是在安 阅读全文
posted @ 2018-04-27 19:10 Runka 阅读(421) 评论(0) 推荐(0)
第三章 熟悉常用的HDFS操作
摘要:一、Hadoop提供的Shell命令完成相同任务: 二、 阅读全文
posted @ 2018-04-26 18:30 Runka 阅读(277) 评论(0) 推荐(0)
数据结构化与保存
摘要:import requests from bs4 import BeautifulSoup from datetime import datetime import re import pandas #获取点击次数 def getClickCount(newsUrl): newsId = re.findall('\_(.*).html', newsUrl)[0].split('/'... 阅读全文
posted @ 2018-04-17 22:07 Runka 阅读(117) 评论(0) 推荐(0)
使用正则表达式
摘要:#判断邮箱格式 import re mail = '^(\w)+(\.\w+)*@(\w)+((\.\w{2,3}){1,3})$' myMail = '45612563@qq.com' if re.match(mail, myMail): print(re.match(mail, myMail).group(0)) else: print('error') #用正则... 阅读全文
posted @ 2018-04-10 17:41 Runka 阅读(210) 评论(0) 推荐(0)
爬取校园新闻首页的新闻
摘要:import requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeres=requests.get('http://news.gzcc.cn/html/xiaoyuanxinwen/')res.encoding='utf-8'soup=BeautifulSoup(res.text,'html.parser')for ... 阅读全文
posted @ 2018-04-03 15:55 Runka 阅读(156) 评论(0) 推荐(0)