03 2018 档案
网络爬虫基础练习
摘要:0.可以新建一个用于练习的html文件,在浏览器中打开。 1.利用requests.get(url)获取网页页面的html文件 import requests newsurl='http://news.gzcc.cn/html/xiaoyuanxinwen/' res = requests.get( 阅读全文
posted @ 2018-03-29 21:59 189黄思慧 阅读(157) 评论(0) 推荐(0)
中文词频统计
摘要:下载一长篇中文文章。 从文件读取待分析文本。 news = open('gzccnews.txt','r',encoding = 'utf-8') 安装与使用jieba进行中文分词。 pip install jieba import jieba list(jieba.lcut(news)) 生成词频 阅读全文
posted @ 2018-03-28 16:48 189黄思慧 阅读(103) 评论(0) 推荐(0)
综合练习:英文词频统计
摘要:词频统计预处理 下载一首英文的歌词或文章 将所有,.?!’:等分隔符全部替换为空格 将所有大写转换为小写 生成单词列表 生成词频统计 排序 排除语法型词汇,代词、冠词、连词 输出词频最大TOP10 # -*- coding: UTF-8 -*-# -*- str='''An empty street 阅读全文
posted @ 2018-03-26 21:51 189黄思慧 阅读(134) 评论(0) 推荐(0)
字符串、组合数据类型练习
摘要:1.字符串练习: http://news.gzcc.cn/html/2017/xiaoyuanxinwen_1027/8443.html 取得校园新闻的编号 https://docs.python.org/3/library/turtle.html 产生python文档的网址 http://news 阅读全文
posted @ 2018-03-21 21:57 189黄思慧 阅读(118) 评论(0) 推荐(0)
Python基础
摘要:Pycharm开发环境设置与熟悉。 练习基本输入输出: print('你好,{}.'.format(name)) uprint(sys.argv) 库的使用方法: import ... from ... import ... 条件语句: if (abs(pos()))<1: break 循环语句: 阅读全文
posted @ 2018-03-15 15:19 189黄思慧 阅读(124) 评论(0) 推荐(0)
熟悉常见的Linux操作
摘要:请按要求上机实践如下linux基本命令。 cd命令:切换目录 (1)切换到目录 /usr/local cd /usr/local (2)去到目前的上层目录 cd .. (3)回到自己的主文件夹 cd ~ ls命令:查看文件与目录 (4)查看目录/usr下所有的文件 ls -al ~ mkdir命令: 阅读全文
posted @ 2018-03-14 21:59 189黄思慧 阅读(132) 评论(0) 推荐(0)
大数据概述
摘要:1.试述大数据对思维方式的重要影响 (1)大数据的核心是海量数据的存储和处理,分布式文件系统和分布式数据库技术提供了近乎无限的数据存储能力,分布式并行编程框架MapReduce讨论强大的海量数据并行处理能力,这比一起数据存储和处理能力受限制时采用抽样方法要快的多。 (2)过去的科学分析中采用的抽样分 阅读全文
posted @ 2018-03-07 17:34 189黄思慧 阅读(320) 评论(0) 推荐(0)