摘要:
百度:最全 文字,语音,视频都做。 百度的视频理解主要是内容的理解,将内容来源归纳为4个维度,语音,文字,人脸(公众人物的人脸识别)和场景(类别泛标签提取) 视频融合了多模态元素,包括(语音,文字(弹幕),图像) 对于动作等不太涉及 ocr:通用文字识别,增值税发票,身份证 人脸:检测,识别,查找 阅读全文
posted @ 2020-06-22 17:48
Parallax
阅读(347)
评论(0)
推荐(0)
摘要:
https://blog.csdn.net/Ezereal/article/details/79238150 下载地址账号:HENRY_ 密码:199111 阅读全文
posted @ 2020-06-22 16:07
Parallax
阅读(228)
评论(0)
推荐(0)

浙公网安备 33010602011771号