随笔档案「2018年4月」 - Runka

爬虫大作业

摘要：我爬取的是新浪新闻，打开网页链接http://news.sina.com.cn/china/：打开网页获取需要的链接：，然后开始做项目。 1，获取评论数： 2 获取新闻内容： 3 保存为txt：得到txt文本： 4 词频分析并生成词云：得到词云图片：在做大作业的过程中，遇到的主要问题还是在安阅读全文

posted @ 2018-04-27 19:10 Runka 阅读(421) 评论(0) 推荐(0)

第三章熟悉常用的HDFS操作

摘要：一、Hadoop提供的Shell命令完成相同任务：二、阅读全文

posted @ 2018-04-26 18:30 Runka 阅读(277) 评论(0) 推荐(0)

数据结构化与保存

摘要：import requests from bs4 import BeautifulSoup from datetime import datetime import re import pandas #获取点击次数 def getClickCount(newsUrl): newsId = re.findall('\_(.*).html', newsUrl)[0].split('/'... 阅读全文

posted @ 2018-04-17 22:07 Runka 阅读(117) 评论(0) 推荐(0)

使用正则表达式

摘要：#判断邮箱格式 import re mail = '^(\w)+(\.\w+)*@(\w)+((\.\w{2,3}){1,3})$' myMail = '45612563@qq.com' if re.match(mail, myMail): print(re.match(mail, myMail).group(0)) else: print('error') #用正则... 阅读全文

posted @ 2018-04-10 17:41 Runka 阅读(210) 评论(0) 推荐(0)

爬取校园新闻首页的新闻

摘要：import requestsfrom bs4 import BeautifulSoupfrom datetime import datetimeres=requests.get('http://news.gzcc.cn/html/xiaoyuanxinwen/')res.encoding='utf-8'soup=BeautifulSoup(res.text,'html.parser')for ... 阅读全文

posted @ 2018-04-03 15:55 Runka 阅读(156) 评论(0) 推荐(0)

公告