
光学字符识别(OCR)技术让机器能够理解图像中的文本信息,从而使程序和脚本能够处理这些文本。OCR技术广泛应用于各种应用场景,其中文档数字化和收据处理是其主要应用领域。
尽管文档OCR解决方案已经得到了广泛的研究和应用,但在非文档OCR应用,例如读取车牌或徽标等方面的先进技术仍待探索。这篇博文将对比评测9种主流的OCR解决方案,并在工业OCR应用的10个不同领域比较它们的性能。
一、OCR解决方案介绍
我们将测试以下9种不同的OCR模型:
1. Tesseract(通过PyTesseract本地测试)
2. EasyOCR(本地)
3. Surya(本地)
4. DocTR(通过Roboflow Hosted API)
5. OpenAI GPT-4 with Vision
6. Google Gemini Pro 1.0
7. Google Gemini Pro 1.5
8. Anthropic Claude 3 Opus
9. Hugging Face Idefics2
除了4个开源OCR专用软件包外,我们还测试了5个大型多模态模型(LMM),这些模型在OCR任务中已表现出有效性。
接下来,我们将展示使用OpenAI GPT-4 with Vision进行车牌识别的工作流演示。
二、OCR测试方法
我们的测试目标是使用实例化的文本样本测试尽可能多的非文档用例领域。根据我们的经验和客户用例,我们列出了10个不同的测试领域,并将使用随机选择的图像样本进行测试。
对于每个领域,我们将从Roboflow Universe中选择一个开源数据集,并导入每个领域数据集中的十张图像。如果图像可以被人类合理读取,则将其纳入测试。
为了创建一个与OCR预测进行比较的基准事实,我们将手动读取每幅图像并用图像现的文本进行标注。然后评估每个OCR解决方案的准确度、速度和成本方面。
三、测试结果
我们的测试使我们对各种OCR解决方案以及何时使用它们有了一定的了解。以下是详细的测试结果:
1. 准确性:在所有领域中,多模态LLM(特别是Gemini和Claude)表现最佳,其次是EasyOCR和GPT-4。Claude在大多数领域中获得了最高的准确率。GPT-4存在拒绝率较高的问题。
2. 速度:虽然准确的OCR很重要,但速度也是一个考虑因素。在这个方面,Gemini和EasyOCR表现最为出色。速度并不能完全说明问题,因此我们计算了一个“速度效率”指标,综合考虑了速度和准确度。根据这个指标,Gemini和EasyOCR仍然表现较好,GPT-4获得亚军。
3. 成本:对于大量使用的情况,执行每个请求的实际成本是一个重要的考虑因素。在这个方面,本地运行的OCR模型(如DocTR、Tesseract和EasyOCR)的运行成本明显低于LMM。我们还计算了一个“成本效率”指标,以综合考虑模型的性能和价格。EasyOCR在成本效益方面表现最佳。
四、结束语
在这篇博文中,我们探讨了不同的OCR解决方案在工业视觉用例中的表现,并在速度、准确性和成本方面进行了比较。我们的测试发现,EasyOCR在成本效益方面表现最佳,同时保持具有竞争力的准确性。而Anthropic的Claude 3 Opus在广泛领域中表现最佳,Google的Gemini Pro 1.0在速度效率方面表现最佳。未来随着技术的不断发展,OCR技术将会有更多的突破和创新。
