摘要: Mask TextSpotter 结构 a feature pyramid network (FPN) as backbone. a region proposal network (RPN) for generating text proposals. a Fast R CNN for bound 阅读全文
posted @ 2019-10-19 09:52 larkii 阅读(115) 评论(0) 推荐(0) 编辑
摘要: 300维的词嵌入表格 词嵌入可视化 词嵌入与迁移学习 词汇相似度的计算 词汇相似度的作用 因为词汇相似度, 所以当模型遇到不认识的单词时也能做出预测 阅读全文
posted @ 2019-10-18 21:15 larkii 阅读(234) 评论(0) 推荐(0) 编辑
摘要: 梯度爆炸 比方说当前点刚好在悬崖边上, 这个时候计算这个点的斜率就会变得非常大, 我们跟新的时候是按 斜率 × 学习率 来的, 那么这时候参数的跟新就会非常非常大, loss也会非常大 应对办法就是 当斜率超过某个值比如15时, 设定斜率为15. 造成梯度爆炸的原因并不是来自激活函数 sigmoid 阅读全文
posted @ 2019-10-18 15:16 larkii 阅读(359) 评论(0) 推荐(0) 编辑
摘要: OCR 发展趋势 场景文本检测 场景文字识别 端到端场景文本识别 场景文字检测 方法举例: 基于回归的方法 Gupta et al, CVPR 2016; Tian et al, ECCV 2016; Shi, Bai, et al, ICCV 2017; Liu et al, CVPR 2017; 阅读全文
posted @ 2019-10-18 09:22 larkii 阅读(1059) 评论(0) 推荐(0) 编辑
摘要: link 图像进行卷积的时候,因为每一个卷积核中权值都是共享的,因此无论输入图像的尺寸是多大的都可以都是按照步长滑动做卷积,只不过都是经过卷积运算,不同大小的输入图片提取出的卷积特征的大小也是不同的。 但是, 全连接层的一个神经元对应一个输入。换句话说,全连接层要求固定的输入维度。而不同大小的图像, 阅读全文
posted @ 2019-10-15 09:43 larkii 阅读(394) 评论(0) 推荐(0) 编辑
摘要: CRNN 在文字识别上的优点: 对于序列类型的对象, CRNN所具有的优点: CRNN 由 1. 卷积层 2. 循环层(BLSTM) 3. 转录层 (CTC) 构成 信息提取: 给序列贴标签: 循环网络(BLSTM) 给特征序列中的每个特征向量预测一个标签分布(probability) 循环网络有三 阅读全文
posted @ 2019-10-14 20:51 larkii 阅读(496) 评论(0) 推荐(0) 编辑
摘要: 作者提出了 CTPN(Connectionist Text Proposal Network) 模型, 来直接检测文字序列.(端到端) CTPN 主要做了三个工作使它这么强: 作者的工作: Ren 等人使用 锚回归机制 来使小尺寸滑动窗口能够检测到不同大小的对象 (对象检测). > 作者借鉴了RPN 阅读全文
posted @ 2019-10-12 10:00 larkii 阅读(205) 评论(0) 推荐(0) 编辑
摘要: 作者的模型整体框架包含两部分,分别为 OCR 部分 (采用人家的模型, 输出文本) 特定文本抽取部分 (作者的工作) 1. 引言 早期图像特定文本抽取主要是通过 OCR 中的版面分析(Layout analysis)来实现。即首先利用 版面分析 的方法得到图像中特定的文本区域,然后对特定文本区域进行 阅读全文
posted @ 2019-10-10 19:25 larkii 阅读(375) 评论(0) 推荐(0) 编辑
摘要: For small, simplistic ... 阅读全文
posted @ 2019-10-08 10:44 larkii 阅读(135) 评论(0) 推荐(0) 编辑
摘要: link ... 阅读全文
posted @ 2019-10-08 09:49 larkii 阅读(84) 评论(0) 推荐(0) 编辑