摘要: 利用python中的socket模块中的来实现UDP协议,这里写一个简单的服务器和客户端。为了说明网络编程中UDP的应用,这里就不写图形化了,在两台电脑上分别打开UDP的客户端和服务端就可以了。 UDP:用户数据报协议,是一个面向无连接的协议。采用该协议不需要两个应用程序先建立连接。UDP协议不提供 阅读全文
posted @ 2017-06-13 20:11 AsuraDong 阅读(3896) 评论(0) 推荐(0) 编辑
摘要: 利用python3来实现TCP协议,和UDP类似。UDP应用于及时通信,而TCP协议用来传送文件、命令等操作,因为这些数据不允许丢失,否则会造成文件错误或命令混乱。下面代码就是模拟客户端通过命令行操作服务器。客户端输入命令,服务器执行并且返回结果。 TCP(Transmission Control 阅读全文
posted @ 2017-06-13 20:09 AsuraDong 阅读(1688) 评论(0) 推荐(1) 编辑
摘要: 对于简单的运算符,可以参考之前的博文。之后会有一篇关于从等号运算符重载的角度研究深浅拷贝的博文。这里是讲: 逗号,取成员运算符,输入输出运算符,下标运算符,括号,new和delete 的重载。 逗号运算符重载 逗号运算符重载需要一个参数,并且返回自身类。逗号运算符在复制操作中比较常见,下面就是以赋值 阅读全文
posted @ 2017-06-13 19:57 AsuraDong 阅读(385) 评论(0) 推荐(0) 编辑
摘要: [TOC] 词性标注器 之后的很多工作都需要标注完的词汇。nltk自带英文标注器 标注语料库 表示已经标注的标识符: 读取已经标注的语料库 nltk语料库ue肚脐提供了统一接口,可以不必理会不同的文件格式。格式: 。参数可以指定categories和fields 名词、动词、形容词等 这里以名词为例 阅读全文
posted @ 2017-06-13 00:05 AsuraDong 阅读(4524) 评论(0) 推荐(1) 编辑
摘要: 自然语言处理中算法设计有两大部分:分而治之 和 转化 思想。一个是将大问题简化为小问题,另一个是将问题抽象化,向向已知转化。前者的例子:归并排序;后者的例子:判断相邻元素是否相同(与排序)。 这次总结的 自然语言中常用的一些基本算法 ,算是入个门了。 递归 使用递归速度上会受影响,但是便于理解算法深 阅读全文
posted @ 2017-06-12 21:33 AsuraDong 阅读(1891) 评论(1) 推荐(3) 编辑
摘要: 循环链表的实现 单链表只有向后结点,当单链表的尾链表不指向NULL,而是指向头结点时候,形成了一个环,成为单循环链表,简称循环链表。当它是空表,向后结点就只想了自己,这也是它与单链表的主要差异,判断node next是否等于head。 代码实现分为四部分: 1. 初始化 2. 插入 3. 删除 4. 阅读全文
posted @ 2017-06-11 23:42 AsuraDong 阅读(704) 评论(0) 推荐(0) 编辑
摘要: 腾讯的一道面试题:如何快速找到位置长度单链表的中间节点?普通方法,就是先遍历,在从头找到2/length的中间节点。算法复杂度是:O(3 n/2)。而更快的方法就是利用 快慢指针 的原理。 快慢链表:利用标尺的思想,设置两个指针(一快一慢)\ serach和\ mid,刚开始都指向单链表的头结点。但 阅读全文
posted @ 2017-06-11 23:40 AsuraDong 阅读(644) 评论(0) 推荐(0) 编辑
摘要: 主要总结一下简单的工具:条件频率分布、正则表达式、词干提取器和归并器。 条件分布频率 《自然语言学习》很多地方都用到了条件分布频率,nltk提供了两种常用的接口: 和 。后面很多都会用到这两种方法,特别是第二个。因为第二个更符合定义,会智能的找到条件。 然后根据绘图的库,可以做出来很漂亮的图形。 简 阅读全文
posted @ 2017-06-10 12:56 AsuraDong 阅读(4368) 评论(0) 推荐(0) 编辑
摘要: 类型转化(运算符重载函数) 用转换构造函数可以将一个指定类型的数据转换为类的对象。但是不能反过来将一个类的对象转换为一个其他类型的数据(例如将一个Complex类对象转换成double类型数据)。在C++提供类型转换函数(type conversion function)来解决这个问题。类型转换函数 阅读全文
posted @ 2017-06-09 23:55 AsuraDong 阅读(729) 评论(0) 推荐(0) 编辑
摘要: 这篇主要记录一下如何实现对数据库的并行运算来节省代码运行时间。语言是Python,其他语言思路一样。 前言 一共23w条数据,是之前通过自然语言分析处理过的数据,附一张截图: 要实现对news主体的读取,并且找到其中含有的股票名称,只要发现,就将这支股票和对应的日期、score写入数据库。 显然,几 阅读全文
posted @ 2017-06-09 00:10 AsuraDong 阅读(8233) 评论(0) 推荐(2) 编辑
摘要: 这是 python3下 的MySQL基本操作。其他类型的数据库用法基本一样。就是库的名字不同。因为python官方很早之前就规定了数据库第三方库的借口,来避免API混乱的情况。 安装与准备 这是python3的库,所以windows下安装不会像python2那样各种奇葩VC错误。是比较方便的傻瓜安装 阅读全文
posted @ 2017-06-08 18:57 AsuraDong 阅读(643) 评论(0) 推荐(0) 编辑
摘要: [TOC] 语料库基本函数表 | 示例 | 描述 | | | : | |fileids() | 语料库中的文件 | |fileids([categories]) | 对应分类中的语料库文件 | |categories()| 语料库的分类 | |categories([fileids]) | 文件对应 阅读全文
posted @ 2017-06-07 21:00 AsuraDong 阅读(4014) 评论(0) 推荐(0) 编辑
摘要: 目录 [TOC] nltk资料下载 其中, 参数默认是all,可以在脚本里面加上 来进行下载 文本和词汇 首先,通过 引入需要的内置9本书 搜索文本 上下文: ,concordance是一致性的意思。即在Text对象中monstrous出现的上下文 相同上下文单词: ,查找哪些词还有相同的上下文 。 阅读全文
posted @ 2017-06-07 16:49 AsuraDong 阅读(4799) 评论(2) 推荐(1) 编辑
摘要: 早期语言没有c,更不用说java等一些高级语言。那么是怎么描述链表这种实现呢?这次以单链表的模拟为例,深究一下 静态链表 的实现。 静态链表结构 按照之前单链表的性质,我们需要 游标和数据 。当然,每个元素都有下标(类似数组) 游标的含义 静态链表中,首节点和尾结点都没有数据( 数据为空 ) 首节点 阅读全文
posted @ 2017-06-06 16:33 AsuraDong 阅读(1090) 评论(0) 推荐(1) 编辑
摘要: 先接一下上次的笔记,实现对单链表进行删除 思路实现 1. 声明结点p和q 2. 首节点赋值给p,下一个结点赋值给q 3. 循环执行释放p,将q赋值给p的操作(删除第一个结点后,之后的结点就是首节点了,以此类推) 问题 不可以代替循环体吗? 注意 释放了数据域和指针域,所以无法记录下一节点了。 应用 阅读全文
posted @ 2017-06-06 14:45 AsuraDong 阅读(177) 评论(0) 推荐(0) 编辑
摘要: 文本特征提取方法研究 引言:转载大神的文章(http://blog.csdn.net/tvetve/article/details/2292111),存一下用于日后查找 一、课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘、机器学习、模式识别、人工智能、统计学、计算机语言学、计算机网络技术、信息 阅读全文
posted @ 2017-06-03 13:48 AsuraDong 阅读(845) 评论(0) 推荐(0) 编辑
摘要: 随意观看 "工具准备" "全角和半角字符" "网页字符实体" "Code实现" "之后..." 工具准备 python3.6 正则表达式(别的语言思路一样,容易借鉴) python正则表达式:flags的应用 这里主要介绍一下 里面的flags用法 | 标识符 | 作用| | | : | |re.I 阅读全文
posted @ 2017-06-02 23:17 AsuraDong 阅读(7336) 评论(1) 推荐(0) 编辑
摘要: 这一个星期的工作主要分两部分,分别是 "分词" "html文本去标签代码的编写和优化" "研究python中的多进程和多线程,并将其运用到分词中来" 分词 去重和检查之后,拿到了218个词 Idea 可以先写一段脚本,提取数据库里面所有'《》'中间的东西 有些词语不明所以 /同/系/将军/澳/南海/ 阅读全文
posted @ 2017-06-02 22:06 AsuraDong 阅读(209) 评论(0) 推荐(0) 编辑
摘要: 英文分词的第三方库NLTK不错,中文分词工具也有很多(盘古分词、Yaha分词、Jieba分词等)。但是从加载自定义字典、多线程、自动匹配新词等方面来看。 大jieba 确实是中文分词中的 战斗机 。 请随意观看表演 "安装" "分词" "自定义词典" "延迟加载" "关键词提取" "词性标注" "词 阅读全文
posted @ 2017-05-30 15:06 AsuraDong 阅读(5425) 评论(5) 推荐(2) 编辑
摘要: 顺序表和单链表 真正意义上自己弄出来的,发篇博客记录一下 "顺序表" "单链表" 顺序表 类似于数组,元素都是相邻的,这也决定了它比较容易和比较适合查询。但缺点就是长度有限。 时间复杂度 查询操作 O(1) 插入和删除操作 O(n) 代码实现 c++ include include using na 阅读全文
posted @ 2017-05-29 21:25 AsuraDong 阅读(520) 评论(0) 推荐(0) 编辑