光学字符识别(OCR)的实验应用 这个程序是一个实验应用程序,我开发几年前,演示使用TesseractOCR引擎来识别文本的图像捕获的设备相机。 这个程序在您的设备上运行OCR –不上传您的图像到服务器–并适合识别单个单词或文本短语,但这个程序是为业余爱好者和软件开发人员感兴趣的OCR,而不是一般观众。 与 Google 的移动视觉 API 相比,此应用能够识别离线时以非拉丁字体打印的文本。为此,此应用包含多种语言的异常大量的训练数据。此培训数据存储在手机上,此应用占用的空间比普通应用多。 此应用在将捕获的图像帧交给 Tesseract 之前不会执行图像预处理,因此该应用不会针对任何特定用例进行优化,因此,其识别精度和速度在很大程度上取决于透视、照明和字体类型等情况因素。 此应用程序的源代码在 GitHub 上可用(有小的更改以适应 GitHub 文件大小限制)。此应用程序的代码是 ZXing 条形码扫描仪项目中的开源相机相关代码和 Tesseract OCR 项目中的开源光学字符识别代码的组合。 文本捕获 默认的单次捕获在单击快门按钮(如普通照片)时捕获的快照图像上运行 OCR。 选中"连续预览"复选框时,应用会动态、实时地显示设备在相机取景器旁边识别到的是什么。连续预览模式在快速设备上效果最佳。 使用此应用程序 •公牛;将设备指向一个小文本区域,然后触摸屏幕上的快门按钮以启动 OCR。 •要识别单个中文/日语/韩语字符,请将页面分段模式设置为"单个字符"。 识别精度 •牛市;各种因素都可能导致OCR失效:照明不均匀、文字化文本或背景对比度不足的文本。尽量有好的照明。 •牛市;保持设备稳定,并确保图片聚焦。 •bull;如果您需要扫描大块文本或整个文档,请尝试文档扫描应用,如文本仙女。 语言 •此应用程序支持谷歌翻译无法识别的几种语言/脚本。 • OCR 支持的语言: 南非荷兰语 阿尔巴尼亚语 阿姆哈里奇 阿拉伯语 阿萨姆 阿塞拜疆 阿塞拜疆语(西里尔文) 巴士克语 比利时语 孟加拉语 波斯尼亚语 保加利亚语 缅甸 加泰隆语 宿务 切 诺 基 中文(简体) 中文(传统) 克罗地亚语 捷克语 丹麦语 荷兰语 宗卡 英语 英语, 中 (1100-1500) 语 爱沙尼亚语 芬兰语 弗兰基什 法语 法语, 中(约 1400-1600) 加利西亚语 乔治亚语 格鲁吉亚语 - 老 德语 希腊语, 古代 (-1453) 希腊语, 现代 (1453-) 古吉拉特语 海地 希伯来语 印地语 匈牙利语 冰岛语 印度尼西亚语 Inuktitut 爱尔兰语 意大利语 意大利语 - 老 日语 爪 哇 卡纳拉语 哈萨克语 高棉语 朝鲜语 库尔德 吉尔吉斯语 老 拉丁 拉脱维亚语 立陶宛语 马其顿 马来语 马拉雅拉姆语 马耳他语 马拉地语 尼泊尔 挪威语 奥里亚 普什图语 波斯语 波兰语 葡萄牙语 旁遮普语 罗马尼亚 俄语 梵文 塞尔维亚语 塞尔维亚语(拉丁语) 僧伽罗语 斯洛伐克语 斯洛文尼亚语 西班牙语 西班牙语 - 老 斯瓦希里语 瑞典语 叙利亚 塔加洛语 塔吉克斯坦 泰米尔语 泰卢固语 泰语 藏族 蒂格里尼亚 土耳其语 乌克兰语 乌都语 维吾尔 乌兹别克语 乌兹别克语 (西里尔文) 越南语 威尔士语 意第绪语 三星设备说明 •在三星 Galaxy 设备上,您可能需要长按菜单按钮来设置首选项。
版本历史记录
- 版本 0.5.14 发布于 2014-05-11
- 版本 0.4.3 发布于 2011-05-13
若干修复和更新
软件信息
- 软件分类: 发展 > 组件和库
- 发布者: Robert Theis
- 许可: 免费
- 价格: N/A
- 版本: 0.6.0
- 适用平台: android