随笔档案「2018年3月」 - 148崔格畅

网络爬虫基础

摘要：0.可以新建一个用于练习的html文件，在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 import requests newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get( 阅读全文

posted @ 2018-03-28 21:57 148崔格畅阅读(156) 评论(0) 推荐(0)

中文的分词+词频统计

摘要：下载一长篇中文文章。从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) 生成词频阅读全文

posted @ 2018-03-28 16:18 148崔格畅阅读(1875) 评论(0) 推荐(0)

词频统计

摘要：截图如下：阅读全文

posted @ 2018-03-21 21:02 148崔格畅阅读(251) 评论(1) 推荐(1)

字符串练习

摘要：字符串练习： http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html 取得校园新闻的编号 https://docs.python.org/3/library/turtle.html 产生python文档的网址 http://news.g 阅读全文

posted @ 2018-03-20 23:03 148崔格畅阅读(158) 评论(0) 推荐(0)

Python基础

摘要：运行结果阅读全文

posted @ 2018-03-14 20:17 148崔格畅阅读(148) 评论(0) 推荐(0)

熟悉常用的Linux操作

摘要：请按要求上机实践如下linux基本命令。 cd命令：切换目录（1）切换到目录 /usr/local cd /usr/local （2）去到目前的上层目录 cd .. （3）回到自己的主文件夹 cd ~ ls命令：查看文件与目录（4）查看目录/usr下所有的文件 ls /usr mkdir命令：新阅读全文

posted @ 2018-03-14 15:36 148崔格畅阅读(109) 评论(0) 推荐(0)

大数据论述

摘要：1.试述大数据对思维方式的重要影响。（1）全样而非抽样过去，由于数据存储和处理能力的限制，在科学分许中，通常采用抽样的方法，即从全集数据中抽取一部分样本数据，通过对样本数据的分析来推断全集数据的总体特征。现在，大数据时代的到来，为我们提供了海量数据的存储和处理。因此，在大数据技术的支持下，科学分阅读全文

posted @ 2018-03-07 15:42 148崔格畅阅读(467) 评论(1) 推荐(0)