摘要: 伏草惟存,五年博客精选系列文章 作者:白宁超 2017年8月28日10:18:28 摘要:在技术学习的过程中,坚持记录是一个不错的习惯,笔者坚持五年来收益颇丰。不久前,反观之前之前的文章,层次不齐,质量不一,篇间散乱。于是着手对170余篇文章反复整理完善得到如下入口,主要是分类形式展示,多为笔者学习阅读全文
posted @ 2017-08-28 10:19 伏草惟存 阅读(1206) 评论(8) 编辑
摘要: 摘要:近来自然语言处理行业发展朝气蓬勃,市场应用广泛。笔者学习以来写了不少文章,文章深度层次不一,今天因为某种需要,将文章全部看了一遍做个整理,也可以称之为概述。关于这些问题,博客里面都有详细的文章去介绍,本文只是对其各个部分高度概括梳理。(本文原创,转载注明出处:自然语言处理学习中需要了解的几个问题 )阅读全文
posted @ 2016-09-23 00:51 伏草惟存 阅读(37788) 评论(5) 编辑
摘要: 写下本文档的初衷和动力,来源于上篇的《oracle基本操作手册》。oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总。然后形成体系的总结,一则进行回顾复习,另则便于查询使用。本图文文档亦源于此。阅读Oracle RAC安装与使用教程前,笔者先对这篇文章整体构思和形成进行梳理。由于阅读者知识储备层次不同,我将从Oracle RAC安装前的准备与规划开始进行整体介绍安装部署Oracle RAC。始于唐博士指导,对数据库集群进行配置安装,前后经历2,3个月的摸索。中间遇到不少问题。此文档也将一一记录整理。本文原创/整理,转载请标注原文出处:集群概念介绍(一)阅读全文
posted @ 2015-07-16 12:31 伏草惟存 阅读(14548) 评论(2) 编辑
摘要: hadoop集群配置系列文档,是笔者在实验室真机环境实验后整理而得。以便随后工作所需,做以知识整理,另则与博客园朋友分享实验成果,因为笔者在学习初期,也遇到不少问题。但是网上一些文档大多互相抄袭,里面错误百出。笔者结合自学书籍视频等资料,完成这一套配置资料。实验结果和过程经过反复测试无误后方整理出来的。配置过程中,初学者若有实验环境,可以在真机环境下完成,若无条件,可补习下虚拟机与Linux操作系统的基础知识,以及里面对linux常规命令使用,建议读者边配置学学习。(若有转载,请注释出处:http://www.cnblogs.com/baiboy)阅读全文
posted @ 2015-07-11 22:25 伏草惟存 阅读(8118) 评论(1) 编辑
摘要: 最近基于WinForm+Access数据库完成一个法律咨询管理系统。本系统要求类似网页后台管理效果,并且基于局域网内,完成多客户端操作同一数据库,根据权限不同分别执行不同功能模块。核心模块为级联统计类型管理、数据库咨询数据扇形统计、树的操作、咨询数据的管理、手写分页、Excel数据的导出、多用户操作服务器数据等。并支持多用户同时操作,远程连接数据库且对数据IP信息的修改。开发过程中特别对界面的要求和事后多用户操作显得略为麻烦。自此,本项目得以完善交付,然后对其进行小结。依旧采用整个框架认识,核心知识逐个梳理分析,以便于二次开发和需要之程序员共享。阅读全文
posted @ 2014-08-24 18:10 伏草惟存 阅读(3546) 评论(9) 编辑
摘要: 【小记】:大胆尝试才能突破,某个中医药大学有一批图片需要处理(ORC),然后进行数据挖掘。之前没有接触过ORC这个东西,但是还是应允了。在网上搜索一番,关于中文图片识别,最终敲定为基于微软的OneNote,其识别率相对较高。网上这个技术点的资料真心不多,后来于博客园找到一篇博文,但是那个程序还是bug百出,而且只是单处理。后来经过一番摸索逐个突破,批处理完成。然后进行界面设计,这些零碎工作完成后,便是入库处理。由于OneNote生成的xml文件封装好的,即不可视的。便将其代码处理生成txt文件,再进行Oracle入库处理。入库前需要文件内容审核,并且在WPF开发中数据绑定和分页中做了独特处理。现在经过半个月的工作,本项目做个阶段总结。一则知识总结便于二次开发,尽量保持程序流畅性,核心知识做以梳理;另外,相关WPF和OneNote常用技术共享,便于部分园友所需。本人技术有限,欢迎交流。项目还未结束,暂作阶段文章发布,随后相继发布。阅读全文
posted @ 2014-07-24 09:57 伏草惟存 阅读(4108) 评论(34) 编辑
摘要: 集合大家都不陌生,但是实际应用确实有时候让人无从下手。其比数组最大的好处就是针对多变的动态的元素降服之功能!妙哉,笔者通过《C#高级编程》集合章节发现集合也会“博大精深,变化多端”的。但是有不同于书本,那么大一本厚书,让人敬而远之,特别一些些一套套理论的东西更是头大。笔者准备从集合的列表,队列,栈,链表,有序表,字典,等分系列发布。尽可呢避免大篇理论(核心的还是要强调的)。然后笔者自己做一些小实例,通过自己总结描述设计思想,结合代码实现,加以重点强调语句。最后配上运行结果!尽可能达到初学者有所悟吧。阅读全文
posted @ 2013-03-30 23:34 伏草惟存 阅读(8395) 评论(4) 编辑
摘要: 表格语法 无序列表 有序列表 分割线 MarkdownPad 2 常用快捷键 代码高亮 在线公式编辑 点击在线LaTeX编辑方式:http://www.codecogs.com/latex/eqneditor.php 在对话框中输入数学公式(使用TeX语法),比如输入 x=\frac{-b\pm\s阅读全文
posted @ 2018-08-15 10:23 伏草惟存 阅读(3) 评论(0) 编辑
摘要: 导读:机器学习算法中KNN属于比较简单的典型算法,既可以做聚类又可以做分类使用。本文通过一个模拟的实际案例进行讲解。整个流程包括:采集数据、数据格式化处理、数据分析、数据归一化处理、构造算法模型、评估算法模型和算法模型的应用。(本文原创,转载必须注明出处: 基于KNN分类算法模型为案例进行机器学习研究)阅读全文
posted @ 2018-07-24 08:52 伏草惟存 阅读(170) 评论(0) 编辑
摘要: 导读:随着大数据的快速发展,自然语言处理、数据挖掘、机器学习技术应用愈加广泛。针对大数据的预处理工作是一项庞杂、棘手的工作。首先数据采集和存储,尤其高质量数据采集往往不是那么简单。采集后的信息文件格式不一,诸如pdf,doc,docx,Excel,ppt等多种形式。然而最常见便是txt、pdf和word类型的文档。本文主要对pdf和word文档进行文本格式转换成txt。格式一致化以后再进行后续预处理工作。笔者采用一些工具转换效果都不理想,于是才出现本系统的研究与实现。(本文原创,转载必须注明出处: 数据分析:基于Python的自定义文件格式转换系统 )阅读全文
posted @ 2018-07-18 17:29 伏草惟存 阅读(232) 评论(2) 编辑
摘要: 本书分四个部分,第一部分主要介绍基础知识,包括认识机器学习和自然语言处理、快速上手Python、线性代数、概率论和统计学;第二部分主要介绍自然语言处理技术,包括自然语言处理介绍、语料库技术、中文分词、数据预处理、马尔科夫模型、条件随机场、模型评估、剖析自然处理工具背后的原理;第三部分主要介绍机器学习技术,包括认识机器学习、常见机器学习算法、机器学习算法案例源码实现。第四部分主要介绍工程项目实践,包括Python项目实战、自然语言处理项目实战、机器学习结合自然语言处理综合项目实战。阅读全文
posted @ 2018-07-13 16:38 伏草惟存 阅读(167) 评论(0) 编辑
摘要: 在阅读python相关书籍中,对其进行简单的笔记纪要。旨在注意一些细节问题,在今后项目中灵活运用,并对部分小notes进行代码标注。阅读全文
posted @ 2018-07-09 11:08 伏草惟存 阅读(536) 评论(2) 编辑
摘要: 手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中结巴分词使用手记 代码封装类: 运行效果:阅读全文
posted @ 2017-10-16 11:41 伏草惟存 阅读(2120) 评论(0) 编辑
摘要: 手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中结巴分词使用手记 语料预处理封装类: 执行结果:阅读全文
posted @ 2017-10-16 11:39 伏草惟存 阅读(1661) 评论(0) 编辑
摘要: 手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中结巴分词使用手记 HanLP方法封装类: HanLP运行结果: python调用HanLP的jar包阅读全文
posted @ 2017-10-16 11:37 伏草惟存 阅读(2202) 评论(0) 编辑
摘要: 手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中结巴分词使用手记 结巴分词方法封装类 结巴分词的运行结果阅读全文
posted @ 2017-10-16 11:34 伏草惟存 阅读(1962) 评论(0) 编辑
摘要: 手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中结巴分词使用手记 1 中文自然语言预处理 实验数据预处理(本文采用python版结巴分词) 1.对于阅读全文
posted @ 2017-10-16 11:27 伏草惟存 阅读(298) 评论(0) 编辑
摘要: 伏草惟存,五年博客精选系列文章 作者:白宁超 2017年8月28日10:18:28 摘要:在技术学习的过程中,坚持记录是一个不错的习惯,笔者坚持五年来收益颇丰。不久前,反观之前之前的文章,层次不齐,质量不一,篇间散乱。于是着手对170余篇文章反复整理完善得到如下入口,主要是分类形式展示,多为笔者学习阅读全文
posted @ 2017-08-28 10:19 伏草惟存 阅读(1206) 评论(8) 编辑
摘要: 摘要:上文号称【最为简明实用的Django上手教程】介绍了django基本概念、配置和相关操作。相信通过上文的阅读,基本明白django运行机制和操作。假设你现在通过dome和相关书籍已经基本理解django这台机器的运行。下一步如何像asp.net、Jsp,PHP等常规网站开发,进行前后台交互呢?又如何采用较为简洁美观的前端框架进行设计呢?假设你需要配置多个数据库怎么办?静态文件单独存放需要哪些配置?针对这些配置有哪些便利?最后,假设你又是一名对数据开发很感兴趣的,且学过一些机器学习,数据挖掘,自然语言处理,云计算等技术之一,想挖掘分析数据并进行可视化,怎么办?本文就是针对这些问题开始的。(本文原创编著,转载注明出处:号称最为简明实用的Django上手教程(下))阅读全文
posted @ 2017-08-25 08:52 伏草惟存 阅读(889) 评论(0) 编辑
摘要: 摘要:Django的学习教程也是分门别类,形式不一。或是较为体系的官方文档,或者风格自由的博客文档,或者偏向实例的解析文档。即使官方文档,章节较多,文字阐述累赘,有时候我们只是关注某个功能用法而已,而自由博文最大的问题是互相抄袭,结构混乱,涵盖面小且错误较为明显。由此,本文结合学习期间资料梳理和项目开发经验,整理出一套较为常用实用的文章。适用于(1)新手入门,无论C#,C,java,Python,R等具有任何编程语言基础均可;(2)想快速了解Django并可以快速开发上手者。(3)适用于作为资料查询,技术点参考。(本文原创编著,转载注明出处:号称最为简明实用的Django上手教程)阅读全文
posted @ 2017-08-24 13:38 伏草惟存 阅读(2015) 评论(1) 编辑
摘要: 前端知识十分钟预览之学习札记 1 HTML,描述网页的语言 ——————————————————编码 <meta charset="utf-8">HTML5头标识 <!DOCTYPE html>换行 <br/>水平线 <hr/>空格 &nbsp;超链接 未访问:蓝色下划线。访问过:紫色下划线。点击:阅读全文
posted @ 2017-08-04 09:57 伏草惟存 阅读(225) 评论(0) 编辑
摘要: Python实现邮件的批量发送 1 发送文本信息 2 发送带图片附件的邮件 3 发送带图片附件的邮件 4 完整代码阅读全文
posted @ 2017-07-28 17:30 伏草惟存 阅读(1389) 评论(0) 编辑
摘要: Python实现doc转化pdf python源码实现doc转化pdf php调用py程序阅读全文
posted @ 2017-07-28 17:24 伏草惟存 阅读(819) 评论(0) 编辑
摘要: sublime下运行 1 下载并安装必要的插件 BeautifulSoup selenium phantomjs 采用方式可以下载后安装,本文采用pip pip install BeautifulSoup pip install selenium pip install phantomjs 2 核心阅读全文
posted @ 2017-07-28 17:20 伏草惟存 阅读(1482) 评论(0) 编辑
摘要: cd E:\wamp\www\Python\python-webapp\pro_test http://code.ziqiangxuetang.com/django/django-models.html bnc bnc123456 Django 环境搭建 Django 1.8.x 支持 Python阅读全文
posted @ 2017-07-24 16:20 伏草惟存 阅读(127) 评论(0) 编辑
摘要: 摘要:数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。但是,这并不就意味着数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。然而,设计人员往往并不能很好地把握设计与功能之间的平衡,从而创造出华而不实的数据可视化形式,无法达到其主要目的,也就是传达与沟通信息。数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。当前,在研究、教学和开发领域,数据可视化乃是一个极为活跃而又关键的方面。“数据可视化”这条术语实现了成熟的科学可视化领域与较年轻的信息可视化领域的统一。(本文原创编著,转载注明出处:一文搞懂matplotlib数据可视化)阅读全文
posted @ 2017-07-19 11:07 伏草惟存 阅读(2202) 评论(0) 编辑
摘要: **Markdown** 是一种轻量级的「标记语言」,它的优点很多,目前也被越来越多的写作爱好者,撰稿者广泛使用。看到这里请不要被「标记」、「语言」所迷惑,Markdown 的语法十分简单。常用的标记符号也不超过十个,这种相对于更为复杂的 HTML 标记语言来说,Markdown 可谓是十分轻量的,学习成本也不需要太多,且一旦熟悉这种语法规则,会有一劳永逸的效果。[Markdown下载地址](https://pan.baidu.com/s/1eSzNSiA)。如果右侧不能即使显示请[下载安装awesomium](https://pan.baidu.com/s/1jIn411O)阅读全文
posted @ 2017-05-22 19:41 伏草惟存 阅读(580) 评论(0) 编辑