07 2021 档案

摘要:之前爬取博客园新闻的标题,很成功的就可以爬取到,但最近爬取博客园新闻的具体内容时出现了一些小问题。 而对于这种情况,需要登录博客园获取网页的cookie,添加到headers中去 先登录 然后F12,复制cookie 最后加入到hearders: 这时候运行就可以爬取新闻详细内容。 阅读全文
posted @ 2021-07-31 23:53 哦心有 阅读(59) 评论(0) 推荐(0)
摘要:(1) 项目名称:信息化领域热词分类分析及解释 (2) 功能设计: 1) 数据采集:要求从定期自动从网络中爬取信息领域的相关热 词; 2) 数据清洗:对热词信息进行数据清洗,并采用自动分类技术 生成信息领域热词目录,; 3) 热词解释:针对每个热词名词自动添加中文解释(参照百度 百科或维基百科); 阅读全文
posted @ 2021-07-31 19:04 哦心有 阅读(66) 评论(0) 推荐(0)
摘要:在使用finalshell连接虚拟机的,有时会连接不上,打开虚拟机发现有时自己设置的网络会消失 如图,ens33现在是有的,但有时会消失。 基于这种情况,通过查询和尝试,分享自己的一些方法。 1.可以使用reboot进行重启,一般重启可以解决很多问题。这种方法对于我这种情况有时也会失效。 2.重启网 阅读全文
posted @ 2021-07-29 10:10 哦心有 阅读(76) 评论(0) 推荐(0)
摘要:今天学习了爬虫提取数据的另一种方法,xpath方法提取所需数据,安装了xpath-helper插件。 路径表达式 结果bookstore 选择bookstore元素。/bookstore 选取根元素 bookstore。注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径!boo 阅读全文
posted @ 2021-07-26 23:04 哦心有 阅读(37) 评论(0) 推荐(0)
摘要:本周做了信息领域热词分类分析,学习了对爬取数据的分词和爬取相关热词解释,学习大数据Hadoop,已经部署了大数据学习所需的环境。 并学习软件设计师的基本知识。 花费时间:20h 代码时间:10h 下周会继续学习做信息领域热词分类分析和大数据。 阅读全文
posted @ 2021-07-25 00:26 哦心有 阅读(35) 评论(0) 推荐(0)
摘要:1) 项目名称:信息化领域热词分类分析及解释 2) 功能设计: 1) 数据采集:要求从定期自动从网络中爬取信息领域的相关热 词; 2) 数据清洗:对热词信息进行数据清洗,并采用自动分类技术 生成信息领域热词目录,; 3) 热词解释:针对每个热词名词自动添加中文解释(参照百度 百科或维基百科); 4) 阅读全文
posted @ 2021-07-23 18:55 哦心有 阅读(88) 评论(0) 推荐(0)
摘要:1. 项目名称:信息化领域热词分类分析及解释 2. 功能设计: 1) 数据采集:要求从定期自动从网络中爬取信息领域的相关热 词; 2) 数据清洗:对热词信息进行数据清洗,并采用自动分类技术 生成信息领域热词目录,; 3) 热词解释:针对每个热词名词自动添加中文解释(参照百度 百科或维基百科); 4) 阅读全文
posted @ 2021-07-21 22:10 哦心有 阅读(116) 评论(0) 推荐(0)
摘要:本周学习了:大数据Hadoop虚拟机的配置 花费时间:10h 代码时间:4h 下周:信息化热词分类分析,算法题,大数据Hadoop 阅读全文
posted @ 2021-07-18 20:33 哦心有 阅读(22) 评论(0) 推荐(0)
摘要:本周重新配置了centos7.5的虚拟机,为学习Hadoop做准备,初步学习了大数据的基本概念对,MapReduce、yarn、hdfs有了初步了解, 本周也复习了linux的一些常用命令,并且重新复习了js,加深了对js的基本语法,变量的理解。对js的正则表达式也进行了深入学习。 花费时间:15h 阅读全文
posted @ 2021-07-11 11:10 哦心有 阅读(35) 评论(0) 推荐(0)
摘要:linux进入终端方法: (1)ctrl+alt+F1~F6 都可以进入,每个需要login一次——多用户,之间通过alt+F1~F7自由切换;ctrl+alt+F7返回图形界面(2)桌面:右键“打开终端”(3)桌面:应用程序——附件——终端第一种方法: 第二种方法: 之前学习linux大多数是使用 阅读全文
posted @ 2021-07-09 17:08 哦心有 阅读(32) 评论(0) 推荐(0)
摘要:今天学习了大数据的一些基本的概念。 什么是Hadoop: 大数据主要还是解决海量数据的存储和海量数据的分析计算。 大数据的特点:大量、高效、多样(结构化数据和非结构化数据)、低价值密度。 Hadoop的三大发行版本: Apache、cloundera、hortonworks。 当然现在clounde 阅读全文
posted @ 2021-07-08 21:09 哦心有 阅读(55) 评论(0) 推荐(0)
摘要:1、定义: 一个正则表达式就是由普通字符以及特殊字符(称为元字符)组成的文字模式。该模式描述在查找文字主体时待匹配的一个或多个字符串。 正则表达式作为一个模板,将某个字符模式与所搜索的字符串进行匹配。 2、作用: 正则表达式提供了功能强大、灵活而又高效的方法来处理文本。正则表达式的全面模式匹配表示法 阅读全文
posted @ 2021-07-08 15:18 哦心有 阅读(69) 评论(0) 推荐(0)
摘要:1.变量 javascript的变量命名规范: (1)必须以字母或下划线开头,中间可以用数字、字符、下划线。 (2)变量名不能有空格等符号。 (3)不能使用javascript的关键字命名变量,例:function不能作为变量名。 (4)javascript严格区分大小写。 变量的声明: var 变 阅读全文
posted @ 2021-07-08 00:13 哦心有 阅读(123) 评论(0) 推荐(0)
摘要:1.何为javascript javascript被设计用来向HTML页面添加交互行为。 javascript是一种脚本语言 javascript是一种解释性语言(解释性语言:代码执行不进行预编译)。 2.javascript的作用 使用javascript添加页面动画效果,提供用户操作体验。主要应 阅读全文
posted @ 2021-07-07 23:35 哦心有 阅读(68) 评论(0) 推荐(0)
摘要:暑假期间,在学校小学期做了数据结构的第二阶段作业,就诊管理。 就诊管理模拟病人到医院看病,选择看病的诊室排队看医生的情况。在病人排队过程中,主要重复两件事:①病人到达诊室,将病历本交给护士,排到等待队列中候诊。②护士从等待队列中取出下一位病人的病历,该病人进入诊室就诊(请参照铁大医院设置科室) 设计 阅读全文
posted @ 2021-07-06 15:15 哦心有 阅读(344) 评论(0) 推荐(0)