Azure (Google Cloud) + Flask + Tensorflow + OpenCV + pytesseract + Gunicorn + Apache2 应用部署

这是我在给公司打工时候做的工作,现在这部分已经完成的差不多了,所以特别的在自己的博客上记录一下,给自己看,也是给有缘人看,说不定会给你灵感。

需求

给公司设计一个工具,它的输入是pdf文档,其中的内容是图片格式的许多法律条文。程序会读取所有的pdf文档,使用OpenCV对图片进行切割,使用pytesseract进行ocr识别,然后使用regular Expression剔除脏东西,保存成格式化的文件,这里为了快速测试,使用了csv。

工具的最终目的,是当用户随意输入一段条文时,工具会检索已经生成好的csv文档,并将用户输入与数据库中的相互比较(这里使用了tensorflow),最后输出前N个数据库中存储的类似条文。

工具设计完以后,我使用FLask + Html + css +boostrap ,做了一个简单的web gui。

以上是准备工作,不打算细讲,就是搭一个流水线,这篇内容主要记录的是如何将着一切复制到云端进行网页部署,最后让所有人能够使用。

 

模块

以下是大类,按照时间顺序排列

  1. 服务器创建和设置:创建账号,确认端口开放
  2. 服务器系统设置:软件升级,VIM简单设置,OpenCV 二进制文件的安装,OCR二进制文件的安装
  3. Python虚拟venv创建和设置,库的安装:Opencv,pytesseract, tensorflow(和 tf hub)
  4. 测试程序是否能够在Linux云端运行
  5. 安装配置Gunicorn + 添加Gunicorn服务
  6. 安装配置Apache2
  7. 测试网页

 

以上内容会缓慢更新。

更新日期:6.26 星期五

 

posted @ 2020-06-27 04:23  schaffen  阅读(9)  评论(0编辑  收藏