• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录

10zuaduidui

  • 博客园
  • 联系
  • 订阅
  • 管理

公告

View Post

团队冲刺

今天总结一下前几天的:

刚开始做了拍照技术,用来拍图片。

然后用tesseract ORC技术来进行文字识别。

把代码储存成文件,放到openVC库中。

今天的问题:tesseract导包的问题,因为这里面用了太多的识别技术,导致有些包导不全,自己还要上网去查问题,有一些包不存在得添加一些配置,导致这两天这个很难弄。

具体的步骤

  1. 使用Java图像处理库(如OpenCV)读取输入图像,提取出其中的表格区域;
  2. 对提取出的表格区域进行图像处理和分割,将表格分割成单独的单元格;
  3. 对每个单元格进行OCR(光学字符识别)处理,将识别出的文字内容保存到一个二维数组中,以便后续转换成HTML表格;
  4. 使用Java生成HTML代码,根据OCR识别出的文字内容和表格结构生成HTML表格;
  5. 将生成的HTML代码传到Web端,以便在浏览器中显示出电子表格。

 

posted on 2023-05-15 16:26  10组啊对对  阅读(20)  评论(0)    收藏  举报

刷新页面返回顶部
 
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3