文本问答生成和图像处理
文本问答生成和图像处理
前言
如果使用市面上的框架来进行研发这些功能,非常简单,只需要集成别做做好的框架就行了,但是学习东西得学习其原理,
我用到的框架介绍
| 框架名 | 简介 | 备注 |
| HanLP | 中文自然语言处理包,提供分词,词性标注,命名实体识别 | |
| Stanford CoreNLP | 一个英文的自然语言处理包吗,提供 词语法和情感分析 | 重要 |
| SnowNLP | 一个中文的自然语言处理包吗,提供 词语法和情感分析 | 重要 |
| deeplearning4j | 深度学习库,提供了RNN,LSTM等模型 | 重要 |
| nd4j | 数值计算库,提供多维数组,用于底层数值计算 | 重要 |
| pytesseract | 处理图像库,基于OCR提取文本信息 | |
| Matplotlib | 绘制图表库 | |
| Word2Vec | 语义相似度处理,可用于 词语推荐、文本分类、信息检索, | 重要 |
| OpenCV | 图像处理框架,人脸识别等 | 重要 |
| n-gram | 概率文本生成 | |
| RNN | 循环网络神经算法 | 重要 |
| LSTN | 长短记忆网络神经算法 | 重要 |
准备工作
1、思路
1.1数据收集 可以抓取互联网上的数据,最好是某个领域的文章,这样数据能纯一些,不乱,毕竟你的计算机资源一定是有限的。
1.2数据清洗,把抓取来的文章,一些特殊符号进行正则替换,
1.3分词/分句-停用词,需要把文章进行分词处理,并且去掉一些停用词,因为这些词语对计算机存在一定的迷惑行为 例如 (了,的 )这类
1.4分词/分句-重要词,需要判断次频率,词语逆文档率,和情感类型,这些库有很多现成的,自己做就需要费事了,在计算重要词语的时候我们可以根据很多种方式进行判断,例如在本地库中的词频率,或者当前文章中出现的次数,每个词生成需要依赖前面的两个词在进行概率计算,从而计算出后一个词出现的概率,然后在进行拼接,这种方式是可以做到的,但是不完美
1.5向量 为什么需要向量,向量具备方向和长短特征,假设他的取值是从 -1到1之间,我们在一个二维平面图上,词意越相近 这两个词的向量越接近,例如 (我爱你 0.3456 )和(我喜欢你0.3457)
他们两个向量就会跟接近,那么在使用概率生成语句的时候 可选择的维度就多了,我可以在你指向的这个近似向量值之间任意抽取一个近似词生成 例如 [第一次生成句子 {我的女神 , 我爱你} 第二次生成句子{我的女神 我喜欢你} ]
1.6升级处理,需要让计算机有记忆性,就需要保留上次的状态和上次处理的信息,目的是为了本地继续使用,在本次处理完毕之后 还会生成一个本次的隐藏状态 和本次信息 是为了给下次 使用,但是,如果无限的增加势必会产生爆炸行为,所以需要进行一定的舍弃,
1.7至于图像处理更是简单了,每个图都是由像素点拼接而成的,每个像素点都是0-255颜色值搭配而来的,可以理解成一个三维数组 int[图横向位置][图列位置][颜色值],
在识别图像的时候还需要考虑 图中每个像素位置颜色的深浅和重要程度,例如动物的主要轮廓和背景,其中背景就可以不做处理或确定好了轮廓 北京可以任意切换,
1.8在进行图像识别匹配的时候 我们应该需要接受系统的识别计算错误率,即使这是一个很庞大的次数,通过不断试过,更新梯度不断切换匹配概率 最终目的是让系统的概率组合逼真到目标原图
功能版本
1版本v1.0完成了100%
目标: 完成问答功能的自动生成,依托上下文词句库的概率进行生成,每次生成需要循环依赖前面的词句内容进行概率计算,我的库只有26kb大小,资源有限
2版本v2.0完成了50%
目标: 实现了处理图像识别功能,根据每个平面位置像素的重要程度进行处理,还有灰度值进行OCR文字提取,然后基于1.0版本进行处理,可以用作爬取移动端 部分App工具
测试: 识别BOSS招聘 http://42.51.41.112:8089/autoplay.html
3版本v3.0 完成了20%
目标: 能够分析出视频里的内容,需要建立在2.0和1.0版本基础之上做处理,可能还需要GPU的计算能力,对于4k的视频每秒可能需处理30张图像
4版本v4.0 计划中
目标: 调用OpenAI接口生成语音,生成视频,我个人ChatGTP账号几十个,具备不限量创建的方式,可以绕开OpenAI验证,学习用点野路子也能理解哈
5版本 v5.0 计划中
目标: 生成图 、视频、语音
技术点: 循环神经网络、长短时记忆网络、NLG、HanLP、NLP、CNN、决策树、pytesseract、Matplotlib 、Stanford CoreNLP
、SnowNLP、deeplearning4j、nd4j、opencv、ChatGPT、情感分析、Word2Vec

浙公网安备 33010602011771号