文本问答生成和图像处理

文本问答生成和图像处理

前言

如果使用市面上的框架来进行研发这些功能,非常简单,只需要集成别做做好的框架就行了,但是学习东西得学习其原理,

我用到的框架介绍

 

框架名 简介 备注
HanLP 中文自然语言处理包,提供分词,词性标注,命名实体识别  
Stanford CoreNLP 一个英文的自然语言处理包吗,提供 词语法和情感分析 重要
SnowNLP 一个中文的自然语言处理包吗,提供 词语法和情感分析 重要
deeplearning4j 深度学习库,提供了RNN,LSTM等模型 重要
nd4j 数值计算库,提供多维数组,用于底层数值计算 重要
pytesseract 处理图像库,基于OCR提取文本信息  
Matplotlib 绘制图表库  
Word2Vec 语义相似度处理,可用于 词语推荐、文本分类、信息检索, 重要
OpenCV 图像处理框架,人脸识别等 重要
n-gram 概率文本生成  
RNN 循环网络神经算法 重要
LSTN 长短记忆网络神经算法 重要

准备工作

1、思路

  1.1数据收集 可以抓取互联网上的数据,最好是某个领域的文章,这样数据能纯一些,不乱,毕竟你的计算机资源一定是有限的。

  1.2数据清洗,把抓取来的文章,一些特殊符号进行正则替换,

  1.3分词/分句-停用词,需要把文章进行分词处理,并且去掉一些停用词,因为这些词语对计算机存在一定的迷惑行为 例如 (了,的 )这类

  1.4分词/分句-重要词,需要判断次频率,词语逆文档率,和情感类型,这些库有很多现成的,自己做就需要费事了,在计算重要词语的时候我们可以根据很多种方式进行判断,例如在本地库中的词频率,或者当前文章中出现的次数,每个词生成需要依赖前面的两个词在进行概率计算,从而计算出后一个词出现的概率,然后在进行拼接,这种方式是可以做到的,但是不完美

  1.5向量 为什么需要向量,向量具备方向和长短特征,假设他的取值是从 -1到1之间,我们在一个二维平面图上,词意越相近 这两个词的向量越接近,例如 (我爱你 0.3456 )和(我喜欢你0.3457)

他们两个向量就会跟接近,那么在使用概率生成语句的时候 可选择的维度就多了,我可以在你指向的这个近似向量值之间任意抽取一个近似词生成 例如 [第一次生成句子  {我的女神 , 我爱你}    第二次生成句子{我的女神 我喜欢你} ]

  1.6升级处理,需要让计算机有记忆性,就需要保留上次的状态和上次处理的信息,目的是为了本地继续使用,在本次处理完毕之后 还会生成一个本次的隐藏状态 和本次信息 是为了给下次 使用,但是,如果无限的增加势必会产生爆炸行为,所以需要进行一定的舍弃,

  1.7至于图像处理更是简单了,每个图都是由像素点拼接而成的,每个像素点都是0-255颜色值搭配而来的,可以理解成一个三维数组 int[图横向位置][图列位置][颜色值],

在识别图像的时候还需要考虑 图中每个像素位置颜色的深浅和重要程度,例如动物的主要轮廓和背景,其中背景就可以不做处理或确定好了轮廓 北京可以任意切换,

  1.8在进行图像识别匹配的时候 我们应该需要接受系统的识别计算错误率,即使这是一个很庞大的次数,通过不断试过,更新梯度不断切换匹配概率  最终目的是让系统的概率组合逼真到目标原图

功能版本

1版本v1.0完成了100%

目标:  完成问答功能的自动生成,依托上下文词句库的概率进行生成,每次生成需要循环依赖前面的词句内容进行概率计算,我的库只有26kb大小,资源有限

2版本v2.0完成了50%

目标:  实现了处理图像识别功能,根据每个平面位置像素的重要程度进行处理,还有灰度值进行OCR文字提取,然后基于1.0版本进行处理,可以用作爬取移动端 部分App工具

测试: 识别BOSS招聘  http://42.51.41.112:8089/autoplay.html

3版本v3.0 完成了20%

目标: 能够分析出视频里的内容,需要建立在2.0和1.0版本基础之上做处理,可能还需要GPU的计算能力,对于4k的视频每秒可能需处理30张图像

4版本v4.0 计划中

目标: 调用OpenAI接口生成语音,生成视频,我个人ChatGTP账号几十个,具备不限量创建的方式,可以绕开OpenAI验证,学习用点野路子也能理解哈

5版本 v5.0 计划中

目标: 生成图 、视频、语音

技术点: 循环神经网络、长短时记忆网络、NLGHanLP、NLP、CNN、决策树、pytesseract、Matplotlib 、Stanford CoreNLP

、SnowNLP、deeplearning4j、nd4j、opencv、ChatGPT、情感分析、Word2Vec

 

posted @ 2024-04-04 13:36  郎小乐  阅读(40)  评论(0)    收藏  举报