Amazon研究人员用AI提高曲线文本识别，测试准确度超过83%-开云(中国)Kaiyun

发布日期：2024-11-15 01:25来源：浏览次数：

本文摘要：光学字符识别（OCR），将要手写或打印机文本的图像切换为机器可读书文本，是一门可追溯到70年代早期的技术。

光学字符识别（OCR），将要手写或打印机文本的图像切换为机器可读书文本，是一门可追溯到70年代早期的技术。但是长期以来OCR算法仍然很难辨识出与水平面不平行的字符，于是Amazon的研发人员研发了一项叫“TextTubes”的技术。这是一个大自然图像中曲线文本的检测器，可将文本建模为环绕其中轴线的管状。在一篇叙述他们工作的论文中，合作者声称他们的方法在一个标准化的OCR基准上超过了最先进设备的结果。

【图片来源：venturebeat 所有者：venturebeat 】正如研究人员所说明的，场景文本一般来说被分为两个倒数的任务：文本检测和文本辨识。第一个牵涉到用于上下文线索来定位字符、单词和行，第二个是mRNA其内容。两者都说道一起更容易做到一起无以，自然环境中的文本不仅受到变形的影响，而且还不会受到视点变化和字体的影响。该团队的解决方案是利用文本参照框架的“管状”表现形式，利用目标文本一般来说是大小相近的字符串联而成的事实，从而捕捉大部分可变性。

与用于更容易重合和更容易产生噪声的矩形和四边形来捕捉文本信息的传统方法比起，它被公式化为一种数学函数，需要训练机器学习场景文本检测器。研究人员在CTW-1500上评估了TextTubes的性能。CTW-1500是一个数据集，该数据集由从大自然场景和图像库中搜集的1500张图像（每个图像最少一个曲线实例），多达10000个文本实例构成。

同时在Total-Text上展开了评估，Total-Text包括约1255次训练图像、300个测试图像以及一个或多个曲线文本实例。他们报告说道，他们在CTW-1500上以83.65％的准确度获得了行业领先的结果，而最相似的方法的准确度为75.6％。“对一个实例的中间轴和平均值半径展开建模……可捕捉有关实例整体的信息。”该论文的年出版者写到。

“在由单个单词构成的数据集上，例如Total-Text，我们的模型需要构建最先进设备的性能。在具备行级注解的数据集上，例如CTW-1500，我们的模型需要更佳地捕捉实例中各个单词的文本信息。”假设有一天，TextTubes需要投入使用，对于那些高度倚赖OCR技术开展业务的企业来说，这有可能是一个好消息。据估计，多达80%的数字流程中仍保有着纸张；约有97%的小企业仍在用于纸质支票。

据Grand View Research的数据表明，这也许就是为什么到2025年，OCR解决方案市场的价值预计将超过138.8亿美元原因。((公众号：))via VB原创文章，予以许可禁令刊登。下文闻刊登须知。

本文关键词：开云(中国)Kaiyun,开云(中国)Kaiyun·官方网站,kaiyun全站app登录入口,云开kaiyun官方网站登录,kaiyun官方网站登录入口,yunkai云开网页版登录入口

本文来源：开云(中国)Kaiyun-www.nblhwzhs.cn