摘要: 伏草惟存,五年博客精选系列文章 作者:白宁超 2017年8月28日10:18:28 摘要:在技术学习的过程中,坚持记录是一个不错的习惯,笔者坚持五年来收益颇丰。不久前,反观之前之前的文章,层次不齐,质量不一,篇间散乱。于是着手对170余篇文章反复整理完善得到如下入口,主要是分类形式展示,多为笔者学习阅读全文
posted @ 2017-08-28 10:19 伏草惟存 阅读(670) 评论(8) 编辑
摘要: 摘要:近来自然语言处理行业发展朝气蓬勃,市场应用广泛。笔者学习以来写了不少文章,文章深度层次不一,今天因为某种需要,将文章全部看了一遍做个整理,也可以称之为概述。关于这些问题,博客里面都有详细的文章去介绍,本文只是对其各个部分高度概括梳理。(本文原创,转载注明出处:自然语言处理学习中需要了解的几个问题 )阅读全文
posted @ 2016-09-23 00:51 伏草惟存 阅读(16806) 评论(5) 编辑
摘要: 写下本文档的初衷和动力,来源于上篇的《oracle基本操作手册》。oracle基本操作手册是作者研一假期对oracle基础知识学习的汇总。然后形成体系的总结,一则进行回顾复习,另则便于查询使用。本图文文档亦源于此。阅读Oracle RAC安装与使用教程前,笔者先对这篇文章整体构思和形成进行梳理。由于阅读者知识储备层次不同,我将从Oracle RAC安装前的准备与规划开始进行整体介绍安装部署Oracle RAC。始于唐博士指导,对数据库集群进行配置安装,前后经历2,3个月的摸索。中间遇到不少问题。此文档也将一一记录整理。本文原创/整理,转载请标注原文出处:集群概念介绍(一)阅读全文
posted @ 2015-07-16 12:31 伏草惟存 阅读(9174) 评论(1) 编辑
摘要: hadoop集群配置系列文档,是笔者在实验室真机环境实验后整理而得。以便随后工作所需,做以知识整理,另则与博客园朋友分享实验成果,因为笔者在学习初期,也遇到不少问题。但是网上一些文档大多互相抄袭,里面错误百出。笔者结合自学书籍视频等资料,完成这一套配置资料。实验结果和过程经过反复测试无误后方整理出来的。配置过程中,初学者若有实验环境,可以在真机环境下完成,若无条件,可补习下虚拟机与Linux操作系统的基础知识,以及里面对linux常规命令使用,建议读者边配置学学习。(若有转载,请注释出处:http://www.cnblogs.com/baiboy)阅读全文
posted @ 2015-07-11 22:25 伏草惟存 阅读(7500) 评论(1) 编辑
摘要: 最近基于WinForm+Access数据库完成一个法律咨询管理系统。本系统要求类似网页后台管理效果,并且基于局域网内,完成多客户端操作同一数据库,根据权限不同分别执行不同功能模块。核心模块为级联统计类型管理、数据库咨询数据扇形统计、树的操作、咨询数据的管理、手写分页、Excel数据的导出、多用户操作服务器数据等。并支持多用户同时操作,远程连接数据库且对数据IP信息的修改。开发过程中特别对界面的要求和事后多用户操作显得略为麻烦。自此,本项目得以完善交付,然后对其进行小结。依旧采用整个框架认识,核心知识逐个梳理分析,以便于二次开发和需要之程序员共享。阅读全文
posted @ 2014-08-24 18:10 伏草惟存 阅读(3296) 评论(9) 编辑
摘要: 【小记】:大胆尝试才能突破,某个中医药大学有一批图片需要处理(ORC),然后进行数据挖掘。之前没有接触过ORC这个东西,但是还是应允了。在网上搜索一番,关于中文图片识别,最终敲定为基于微软的OneNote,其识别率相对较高。网上这个技术点的资料真心不多,后来于博客园找到一篇博文,但是那个程序还是bug百出,而且只是单处理。后来经过一番摸索逐个突破,批处理完成。然后进行界面设计,这些零碎工作完成后,便是入库处理。由于OneNote生成的xml文件封装好的,即不可视的。便将其代码处理生成txt文件,再进行Oracle入库处理。入库前需要文件内容审核,并且在WPF开发中数据绑定和分页中做了独特处理。现在经过半个月的工作,本项目做个阶段总结。一则知识总结便于二次开发,尽量保持程序流畅性,核心知识做以梳理;另外,相关WPF和OneNote常用技术共享,便于部分园友所需。本人技术有限,欢迎交流。项目还未结束,暂作阶段文章发布,随后相继发布。阅读全文
posted @ 2014-07-24 09:57 伏草惟存 阅读(3644) 评论(34) 编辑
摘要: 集合大家都不陌生,但是实际应用确实有时候让人无从下手。其比数组最大的好处就是针对多变的动态的元素降服之功能!妙哉,笔者通过《C#高级编程》集合章节发现集合也会“博大精深,变化多端”的。但是有不同于书本,那么大一本厚书,让人敬而远之,特别一些些一套套理论的东西更是头大。笔者准备从集合的列表,队列,栈,链表,有序表,字典,等分系列发布。尽可呢避免大篇理论(核心的还是要强调的)。然后笔者自己做一些小实例,通过自己总结描述设计思想,结合代码实现,加以重点强调语句。最后配上运行结果!尽可能达到初学者有所悟吧。阅读全文
posted @ 2013-03-30 23:34 伏草惟存 阅读(7816) 评论(4) 编辑
摘要: 手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中结巴分词使用手记 代码封装类: 运行效果:阅读全文
posted @ 2017-10-16 11:41 伏草惟存 阅读(30) 评论(0) 编辑
摘要: 手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中结巴分词使用手记 语料预处理封装类: 执行结果:阅读全文
posted @ 2017-10-16 11:39 伏草惟存 阅读(30) 评论(0) 编辑
摘要: 手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中结巴分词使用手记 HanLP方法封装类: HanLP运行结果:阅读全文
posted @ 2017-10-16 11:37 伏草惟存 阅读(37) 评论(0) 编辑
摘要: 手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中结巴分词使用手记 结巴分词方法封装类 结巴分词的运行结果阅读全文
posted @ 2017-10-16 11:34 伏草惟存 阅读(22) 评论(0) 编辑
摘要: 手记实用系列文章: 1 结巴分词和自然语言处理HanLP处理手记 2 Python中文语料批量预处理手记 3 自然语言处理手记 4 Python中调用自然语言处理工具HanLP手记 5 Python中结巴分词使用手记 1 中文自然语言预处理 实验数据预处理(本文采用python版结巴分词) 1.对于阅读全文
posted @ 2017-10-16 11:27 伏草惟存 阅读(13) 评论(0) 编辑
摘要: 伏草惟存,五年博客精选系列文章 作者:白宁超 2017年8月28日10:18:28 摘要:在技术学习的过程中,坚持记录是一个不错的习惯,笔者坚持五年来收益颇丰。不久前,反观之前之前的文章,层次不齐,质量不一,篇间散乱。于是着手对170余篇文章反复整理完善得到如下入口,主要是分类形式展示,多为笔者学习阅读全文
posted @ 2017-08-28 10:19 伏草惟存 阅读(670) 评论(8) 编辑
摘要: 摘要:上文号称【最为简明实用的Django上手教程】介绍了django基本概念、配置和相关操作。相信通过上文的阅读,基本明白django运行机制和操作。假设你现在通过dome和相关书籍已经基本理解django这台机器的运行。下一步如何像asp.net、Jsp,PHP等常规网站开发,进行前后台交互呢?又如何采用较为简洁美观的前端框架进行设计呢?假设你需要配置多个数据库怎么办?静态文件单独存放需要哪些配置?针对这些配置有哪些便利?最后,假设你又是一名对数据开发很感兴趣的,且学过一些机器学习,数据挖掘,自然语言处理,云计算等技术之一,想挖掘分析数据并进行可视化,怎么办?本文就是针对这些问题开始的。(本文原创编著,转载注明出处:号称最为简明实用的Django上手教程(下))阅读全文
posted @ 2017-08-25 08:52 伏草惟存 阅读(382) 评论(0) 编辑
摘要: 摘要:Django的学习教程也是分门别类,形式不一。或是较为体系的官方文档,或者风格自由的博客文档,或者偏向实例的解析文档。即使官方文档,章节较多,文字阐述累赘,有时候我们只是关注某个功能用法而已,而自由博文最大的问题是互相抄袭,结构混乱,涵盖面小且错误较为明显。由此,本文结合学习期间资料梳理和项目开发经验,整理出一套较为常用实用的文章。适用于(1)新手入门,无论C#,C,java,Python,R等具有任何编程语言基础均可;(2)想快速了解Django并可以快速开发上手者。(3)适用于作为资料查询,技术点参考。(本文原创编著,转载注明出处:号称最为简明实用的Django上手教程)阅读全文
posted @ 2017-08-24 13:38 伏草惟存 阅读(610) 评论(0) 编辑
摘要: 前端知识十分钟预览之学习札记 1 HTML,描述网页的语言 ——————————————————编码 <meta charset="utf-8">HTML5头标识 <!DOCTYPE html>换行 <br/>水平线 <hr/>空格 &nbsp;超链接 未访问:蓝色下划线。访问过:紫色下划线。点击:阅读全文
posted @ 2017-08-04 09:57 伏草惟存 阅读(90) 评论(0) 编辑
摘要: Python实现邮件的批量发送 1 发送文本信息 2 发送带图片附件的邮件 3 发送带图片附件的邮件 4 完整代码阅读全文
posted @ 2017-07-28 17:30 伏草惟存 阅读(159) 评论(0) 编辑
摘要: Python实现doc转化pdf python源码实现doc转化pdf php调用py程序阅读全文
posted @ 2017-07-28 17:24 伏草惟存 阅读(215) 评论(0) 编辑
摘要: sublime下运行 1 下载并安装必要的插件 BeautifulSoup selenium phantomjs 采用方式可以下载后安装,本文采用pip pip install BeautifulSoup pip install selenium pip install phantomjs 2 核心阅读全文
posted @ 2017-07-28 17:20 伏草惟存 阅读(226) 评论(0) 编辑
摘要: cd E:\wamp\www\Python\python-webapp\pro_test http://code.ziqiangxuetang.com/django/django-models.html bnc bnc123456 Django 环境搭建 Django 1.8.x 支持 Python阅读全文
posted @ 2017-07-24 16:20 伏草惟存 阅读(59) 评论(0) 编辑
摘要: 摘要:数据可视化主要旨在借助于图形化手段,清晰有效地传达与沟通信息。但是,这并不就意味着数据可视化就一定因为要实现其功能用途而令人感到枯燥乏味,或者是为了看上去绚丽多彩而显得极端复杂。为了有效地传达思想概念,美学形式与功能需要齐头并进,通过直观地传达关键的方面与特征,从而实现对于相当稀疏而又复杂的数据集的深入洞察。然而,设计人员往往并不能很好地把握设计与功能之间的平衡,从而创造出华而不实的数据可视化形式,无法达到其主要目的,也就是传达与沟通信息。数据可视化与信息图形、信息可视化、科学可视化以及统计图形密切相关。当前,在研究、教学和开发领域,数据可视化乃是一个极为活跃而又关键的方面。“数据可视化”这条术语实现了成熟的科学可视化领域与较年轻的信息可视化领域的统一。(本文原创编著,转载注明出处:一文搞懂matplotlib数据可视化)阅读全文
posted @ 2017-07-19 11:07 伏草惟存 阅读(879) 评论(0) 编辑
摘要: **Markdown** 是一种轻量级的「标记语言」,它的优点很多,目前也被越来越多的写作爱好者,撰稿者广泛使用。看到这里请不要被「标记」、「语言」所迷惑,Markdown 的语法十分简单。常用的标记符号也不超过十个,这种相对于更为复杂的 HTML 标记语言来说,Markdown 可谓是十分轻量的,学习成本也不需要太多,且一旦熟悉这种语法规则,会有一劳永逸的效果。[Markdown下载地址](https://pan.baidu.com/s/1eSzNSiA)。如果右侧不能即使显示请[下载安装awesomium](https://pan.baidu.com/s/1jIn411O)阅读全文
posted @ 2017-05-22 19:41 伏草惟存 阅读(459) 评论(0) 编辑
摘要: 关于查重系统很多人并不陌生,无论本科还是硕博毕业都不可避免涉及论文查重问题,这也对学术不正之风起到一定纠正作用。单位主要针对科技项目申报审核,传统的方式人力物力比较大,且伴随季度性的繁重工作,效率不高。基于此,单位觉得开发一款可以达到实用的智能查重系统。遍及网络文献,终未得到有价值的参考资料,这个也是自然。首先类似知网,paperpass这样的商业公司其毕业申报专利并进行保密,其他科研单位因发展需要也不会开源。笔者就结合NLP相关知识进行设计一款自主的查重系统,首先采用自然语言处理方法主要提出两个模型:科技项目查重的训练模型和科技项目查重的测试模型。其中训练模型主要对数据的清洗预处理及其规约化处理,测试系统也是主查重系统,对其查重原理和性能进行设计实现。最后将其封装成包,PHP或者Java等语言调用即可。(本文原创编著,转载注明出处:Python实例:申报项目查重系统设计与实现)阅读全文
posted @ 2017-05-18 17:53 伏草惟存 阅读(990) 评论(3) 编辑
摘要: 关于自然语言处理模型训练亦或是数据挖掘、文本处理等等,均离不开数据清洗,数据预处理的工作。这里的数据不仅仅指狭义上的文本数据,当然也包括视频数据、语音数据、图片数据、监控的流数据等等。其中数据预处理也有必要强调下,决然不是简单是分词工具处理后,去去停用词那么简单。即使去停用词,你选择的粒度尺寸也是有影响的,这跟工作性质和精确度要求也有着紧密的联系。其次选择多大的规模以及怎样维度都是有讲究的。本文由于主要针对新闻文本语料处理,经处理后可用于文本分类、文本聚类、特征提取、文本摘要等学习模型的训练。首先本文介绍下新闻语料的文本信息和编码问题;其次,对本实验运行的环境进行简单介绍,以及整个预处理器的框架构造;接着对单文本和批量文本的预处理工作的原理和实现介绍;还有对python如何调用java程序也通过实例进行演示。最后,对jieba分词工具的主要实现进行补充。本人邮箱:datathinks@qq.com,主页:http://www.cnblogs.com/baiboy/(本文原创,转载请标注原文出处:3000篇搜狐新闻语料数据预处理器的python实现 )阅读全文
posted @ 2017-05-05 19:46 伏草惟存 阅读(491) 评论(0) 编辑
摘要: FastDFS是一个开源的轻量级分布式文件系统,功能包括:文件存储、文件同步、文件访问(文件上传、文件下载)等,解决了大容量存储和负载均衡的问题。特别适合中小文件(建议范围:4KB < file_size <500MB),对以文件为载体的在线服务,如相册网站、视频网站等。本文通过两次单机环境配置均没有错误,第1-4章节主要是对FastDFS背景发展原理及linux基本介绍,如果读者只是安装分布式文件系统,只是想简单关注其原理,建议阅读第二节与第五节。如果读者仅仅就是安装为目的建议直接阅读弟五节5节。本人邮箱:datathinks@qq.com,主页:http://www.cnblogs.com/baiboy/(本文原创/整理,转载请标注原文出处:Ubuntu下FastDFS分布式文件系统配置与部署 )阅读全文
posted @ 2017-04-15 09:07 伏草惟存 阅读(743) 评论(2) 编辑
摘要: 摘要:随着单位开发项目的需求,关于政务办公多年来一直使用php开发管理平台。笔者早年asp开发经验算是有些帮助,但是之前从未接触过php,如何快速上手还是费了一些时间的。好在php中wamp集成环境比较好,故而开发体验还是不错的。首先,本文选用sublime作为开发平台,这个根据读者喜好而定;选择其作为开发平台的主要原因是,之前一直用其开发python等,其跨语言性和跨系统均好。这里可以大大减少我们学新技术新语言新平台,而浪费很多时间在开发工具上,笔者是深有感受。其次,主要介绍sublime下php开发环境的配置。然后,使用登录的案例介绍php基本的增删改查。最后,完成一个列表分页的功能。本文实验经过测试均可以正常运行,适用于初学或者初级php开发人员。(本文原创,转载请注明出处:Sublime下PHP网站开发指南) 目录阅读全文
posted @ 2017-03-16 11:57 伏草惟存 阅读(76) 评论(0) 编辑
摘要: 随着机器学习和深度学习的热潮,各种图书层出不穷。然而多数是基础理论知识介绍,缺乏实现的深入理解。本系列文章是作者结合视频学习和书籍基础的笔记所得。本系列文章将采用理论结合实践方式编写。首先介绍机器学习和深度学习的范畴,然后介绍关于训练集、测试集等介绍。接着分别介绍机器学习常用算法,分别是监督学习之分类(决策树、临近取样、支持向量机、神经网络算法)监督学习之回归(线性回归、非线性回归)非监督学习(K-means聚类、Hierarchical聚类)。本文采用各个算法理论知识介绍,然后结合python具体实现源码和案例分析的方式(本文原创编著,转载注明出处:KNN算法虹膜图片识别实战(4))阅读全文
posted @ 2017-01-03 22:07 伏草惟存 阅读(740) 评论(3) 编辑