随笔分类 -  生活日志

摘要:今天主要对从CSDN爬取的标题利用jieba(结巴)进行分词,但在分词过程中发现,如大数据被分成了大/数据,云计算被分隔成了云/计算。 后来又从百度百科 》信息领域爬取了相关词语作为词典,预计今天晚上完成切词任务。 其中分割代码如下: 1 import jieba 2 import io 3 4 # 阅读全文
posted @ 2020-02-09 22:00 雾霾王者 阅读(540) 评论(0) 推荐(0)
摘要:爬取积分榜前3000名博主前20页的博客标题, 根据左下角 博客列表页面 进行爬取 代码如下: 1 import requests 2 from bs4 import BeautifulSoup 3 import io 4 import re 5 6 url="" 7 8 #写入内容 9 def C 阅读全文
posted @ 2020-02-08 23:12 雾霾王者 阅读(242) 评论(0) 推荐(0)
摘要:首先新建一个Lei.txt 内容为: CloudComputingParentBlockchainTechnologyEnterpriseDotNETJavaWebDevelopVCVBDelphiBCBCppOtherLanguageMSSQLPowerBuilderOracleLinuxWind 阅读全文
posted @ 2020-02-08 20:52 雾霾王者 阅读(413) 评论(0) 推荐(0)
摘要:正则表达式*通用的字符串表达框架*简介表达一组字符串的表达式*判断某字符串的特征归属 例:'PY' 'PYY' 'PYYY' 'PYYYY' ...... P后面有无穷多个Y >正则表达式:PY+ 例:'PY'开头 后续存在不多于10个字符后续字符不能是'P'或'Y'如:'PYABC' √ 'PYK 阅读全文
posted @ 2020-02-07 21:41 雾霾王者 阅读(368) 评论(0) 推荐(0)
摘要:.find_all(name,attrs,recursive,string,**kwargs) name:对标签名称的检索字符串attrs:对标签属性值的检索字符串,可标注属性检索recursive:是否对子孙全部检索,默认为Truestring <>....</>中字符串区域的检索字符串 soup 阅读全文
posted @ 2020-02-07 21:34 雾霾王者 阅读(1526) 评论(0) 推荐(0)
摘要:今天主要又继续了Python网络爬虫的学习,并完成了首都之窗百姓信件单一页面的爬取,明天打算完成整个爬虫任务。 源代码如下: import requests from bs4 import BeautifulSoup kv = {'user-agent': 'Mozilla/5.0'} id="AH 阅读全文
posted @ 2020-02-05 15:25 雾霾王者 阅读(215) 评论(0) 推荐(0)
摘要:今天通过Python网络爬虫视频复习了一下以前初学的网络爬虫,了解了网络爬虫的相关规范。 案例:京东的Robots协议 https://www.jd.com/robots.txt 说明可以爬虫的范围 #注释. *代表所有 /代表根目录 robots协议 http://www.baidu.com/ro 阅读全文
posted @ 2020-02-04 22:07 雾霾王者 阅读(352) 评论(0) 推荐(0)
摘要:今天完成了实验四的第二问和第三问 第二题 对于两个输入文件 A 和 B,编写 Spark 独立应用程序,对两个文件进行合并,并剔除其 中重复的内容,得到一个新文件 C。下面是输入文件和输出文件的一个样例,供参考。 输入文件 A 的样例如下: 20170101 x 20170102 y 2017010 阅读全文
posted @ 2020-02-03 20:12 雾霾王者 阅读(553) 评论(0) 推荐(0)
摘要:1.今天把Spark编程第三个实验的Scala独立程序编程写完了。使用 sbt 打包 Scala 程序,然后提交到Spark运行。 2.完成了实验四的第一项 (1)该系总共有多少学生; map(t => t.split(",")(0))表示:lines这个RDD中每个元素被split()函数拆分成3 阅读全文
posted @ 2020-02-02 21:53 雾霾王者 阅读(454) 评论(0) 推荐(0)
摘要:1.安装 Hadoop 和 Spark 进入 Linux 系统,参照本教程官网“实验指南”栏目的“Hadoop 的安装和使用”,完 成 Hadoop 伪分布式模式的安装。完成 Hadoop 的安装以后,再安装 Spark(Local 模式)。 2.HDFS 常用操作 使用 hadoop 用户名登录进 阅读全文
posted @ 2020-02-01 18:59 雾霾王者 阅读(656) 评论(0) 推荐(0)
摘要:1.配置Scala环境所需要的所有命令(Ubuntu系统下) 其中scala-2.13.1版本在官网:https://www.scala-lang.org/download/ 下载 2.出现该提示则配置成功。 然后进行简单的测试: Scala环境配置完成。 3.实验 1. 计算级数 请用脚本的方式编 阅读全文
posted @ 2020-01-31 17:32 雾霾王者 阅读(402) 评论(0) 推荐(0)
摘要:题目: Linux 系统的安装和常用命令 姓名: 赵路仓 日期: 2020.1.24 实验环境: Ubuntu 实验内容与完成情况: (1)切换到目录 /usr/bin; (2)查看目录/usr/local 下所有的文件; (3)进入/usr 目录,创建一个名为 test 的目录,并查看有多少目录存 阅读全文
posted @ 2020-01-24 13:45 雾霾王者 阅读(450) 评论(0) 推荐(0)
摘要:今天阅读的是人月神话,首先理解一个工作量:人月,成本随着开发人数和时间的不同,有着很大变化,进度却不一样,因此作者认为用人月来描述一个项目的规模是一个危险和具有欺骗性的神话。 人数和时间的互换仅仅适用于一种情况,不需要交流的单纯的工作积累,如割小麦时给具体的人分配具体的工作,这种情况下,人数和时间是 阅读全文
posted @ 2019-06-17 22:13 雾霾王者 阅读(144) 评论(0) 推荐(0)
摘要:软件工程概论这门课,在我感觉看来最其他课程有着很大的不同。这学期其他的课程,主要讲的都是知识点与高中或者以前那种学习模式大同小异,而教我们这门课的王老师则感觉更重视个人能力的提升以及观念的革新。而技术层面的知识主要依靠自己的自学能力去完成,这种方式可能对于有些同学习惯了哪些手把手教学模式的人有很大不 阅读全文
posted @ 2019-06-16 21:18 雾霾王者 阅读(258) 评论(1) 推荐(0)
摘要:第十六周 所花时间 8h 代码量 800 博客数 3 所学知识点 数据库的备份,还原。以及jsp+java+javascript的复习 阅读全文
posted @ 2019-06-16 20:28 雾霾王者 阅读(100) 评论(0) 推荐(0)
摘要:Test1.java Test2.java 阅读全文
posted @ 2019-06-09 18:21 雾霾王者 阅读(176) 评论(0) 推荐(0)
摘要:十五周 所花时间 9h 代码量 700 博客数 2 所学知识点 数据库的备份,以及权限的授予拒绝, 阅读全文
posted @ 2019-06-09 18:05 雾霾王者 阅读(99) 评论(0) 推荐(0)
摘要:我使用的是QQ拼音输入法 1.用户界面 提供大字显示,或者简洁皮肤。或者个性皮肤,各个功能按键和传统标准一致并有QQ登陆统计功能。 2.记住用户的选择: 识别胜于回忆,提供必要的信息提示(可视&易取),减少记忆负担 ,以前输入的词语系统能够记忆,在下次输入时,还未输全就可以提示以前输入过类似的词语 阅读全文
posted @ 2019-06-02 22:40 雾霾王者 阅读(169) 评论(0) 推荐(0)
摘要:十四周 所花时间 12h 代码量 1000 博客数 3 学习知识点 php连接数据库增删改查 阅读全文
posted @ 2019-06-02 22:34 雾霾王者 阅读(86) 评论(0) 推荐(0)
摘要:第十三周 所花时间 8h 代码量 700 博客量 2 所学知识 多态,finall 阅读全文
posted @ 2019-05-31 17:52 雾霾王者 阅读(87) 评论(0) 推荐(0)