网络爬虫基础
摘要:0.可以新建一个用于练习的html文件,在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 import requests newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get(
阅读全文
posted @
2018-03-28 21:57
148崔格畅
阅读(154)
推荐(0)
中文的分词+词频统计
摘要:下载一长篇中文文章。 从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) 生成词频
阅读全文
posted @
2018-03-28 16:18
148崔格畅
阅读(1875)
推荐(0)
字符串练习
摘要:字符串练习: http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html 取得校园新闻的编号 https://docs.python.org/3/library/turtle.html 产生python文档的网址 http://news.g
阅读全文
posted @
2018-03-20 23:03
148崔格畅
阅读(157)
推荐(0)
熟悉常用的Linux操作
摘要:请按要求上机实践如下linux基本命令。 cd命令:切换目录 (1)切换到目录 /usr/local cd /usr/local (2)去到目前的上层目录 cd .. (3)回到自己的主文件夹 cd ~ ls命令:查看文件与目录 (4)查看目录/usr下所有的文件 ls /usr mkdir命令:新
阅读全文
posted @
2018-03-14 15:36
148崔格畅
阅读(108)
推荐(0)
大数据论述
摘要:1.试述大数据对思维方式的重要影响。 (1)全样而非抽样 过去,由于数据存储和处理能力的限制,在科学分许中,通常采用抽样的方法,即从全集数据中抽取一部分样本数据,通过对样本数据的分析来推断全集数据的总体特征。现在,大数据时代的到来,为我们提供了海量数据的存储和处理。因此,在大数据技术的支持下,科学分
阅读全文
posted @
2018-03-07 15:42
148崔格畅
阅读(466)
推荐(0)