导航:首页 > 源码编译 > ocr编译

ocr编译

发布时间:2022-01-17 15:52:18

Ⅰ tesseract ocr 3.04有没有编译好的库

#include <iostream>

#include "allheaders.h"
#include "baseapi.h"
#include "basedir.h"
#include "renderer.h"
#include "strngs.h"
#include "tprintf.h"
#include "openclwrapper.h"
#include "osdetect.h"

void PrintVersionInfo() {
char *versionStrP;

printf("tesseract %s\n", tesseract::TessBaseAPI::Version());

versionStrP = getLeptonicaVersion();
printf(" %s\n", versionStrP);
lept_free(versionStrP);

versionStrP = getImagelibVersions();
printf(" %s\n", versionStrP);

Ⅱ 如何在windows上编译Tesseract OCR

获取Tesseract源码的方式有很多。可以直接从repo获取,也可以下载压缩包。不过编译的时候往往也会出现各种奇怪的问题。这里介绍如何简单的配置和编译源码。

编译Tesseract

下载
Windows installer of tesseract-ocr 3.02.02
安装
安装过程中勾选Tesseract development files:

编译
在安装目录中找到vs2008到工程目录:

找到所有编译相关的库:

打开Visual Studio 2008(没有的可以去官网下载express版本),导入工程编译。最后生成DEBUG和RELEASE两个版本的DLL:libtesseract302d.dll ,libtesseract302.dll
在README中注意这段话:
Dependencies and Licenses

=========================

Leptonica is required. (www.leptonica.com). Tesseract no longer compiles
without Leptonica.
Libtiff is no longer required as a direct dependency.

Tesseract依赖Leptonica库,所以再看下Leptonica是怎么编译的。

编译Leptonica
Leptonica是C语言编写的一个图像处理库,支持JPEG, PNG, TIFF,GIF。
下载
源码:leptonica-1.68.tar.gz

VS工程:vs2008-1.68.zip
相关头文件和库:leptonica-1.68-win32-lib-include-dirs.zip

编译
把三个包解压,并按照下面的结构组建编译环境:

BuildFolder\

include\

leptonica-1.68\

lib\

BuildFolder\leptonica-1.68 contents:
config\ Not used for Windows builds
prog\ Regression tests, examples, utilities
src\ Source files for liblept
vs2008\ Visual Studio 2008 specific files
DLL Debug\ liblept DLL Debug build output
DLL Release\ liblept DLL Release build output
LIB Debug\ liblept LIB Debug build output
LIB Release\ liblept LIB Release build output
prog_projects\ Projects for prog programs
ioformats_reg\ Sample project for prog\ioformats_reg.exe
DLL Debug\ DLL Debug build output for sample project
DLL Release\ DLL Release build output for sample project
LIB Debug\ LIB Debug build output for sample project
LIB Release\ LIB Release build output for sample project
ioformats_reg.vcproj The ioformats_reg project file
leptonica.sln The Leptonica solution file
leptonica.vcproj The Leptonica project file

打开Visual Studio 2008,导入工程编译。最后生成DEBUG和RELEASE两个版本的DLL:liblept168d.dll,liblept168.dll。

Ⅲ 如何在windows上编译Tesseract OCR / quweiji

最近要用java实现一个验证码识别系统,选了半天之后最终决定用Tesseract-OCR作为识别引擎。既然是java+Tesseract-OCR,自然就首选Tess4J。由于Tess4J直接且仅提供了编译成dll的3.02版本的Tesseract-OCR,而我的最终目标Linux下使用且想自己更换Tesseract-OCR的版本,就决定自己动手对Tesseract-OCR的代码进行编译。而这篇文章就是这次研究的中间产物。
虽然Tess4J目前支持的是Tesseract-OCR 3.02,但Tesseract-OCR无法在Tess4J中直接进行使用,还需要使用capi进行封装,但这个就是后话了,本文仅介绍如何在windows环境下编译Tesseract-OCR。

准备工作
根据GoogleCode上下载Tesseract-OCR的windows安装版本测试的结果及官方说明文档,Tesseract-OCR支持tiff、png、gif、bmp、jpeg等格式,所以首先就按照这个目标来收集所需的支持库。由于最终目标是在Linux下编译成功,所以我选择了msys+tdm-gcc来模拟Linux下的编译过程。

需要下载的库有:
1) zlib-1.2.7
2) libpng-1.5.10
3) giflib-4.1.6
4) libungif-4.1.4(这个似乎在最终的编译过程中没有起作用)
5) jpeg-8d
6) jbigkit-2.0
7) tiff-3.9.5
8) libwebp-0.1.3 9) leptonica-1.68

编译环境推荐使用最新的msys和tdm-gcc:
1) msys可以通过下载mingw-get-insta-20120426进行安装。

Ⅳ TessBaseAPI在安卓上实现OCR文字识别时候,编译没错误,运行时会异常终止,可能是什么原因急!!

之后,它被谷歌大幅改进,很可能是识别率最高的可用开源 OCR 引擎之一了。结合 ... 接下来需要对下载下来的 tess-two 进行编译 如何用 android ndk 进行 so 的编译我放在了... 包leptonica 的类我们不必使用,只要使用 tess 包的类就行了 下面是 tessBaseAPI 的主要...

Ⅳ 如何在windows上编译Tesseract OCR

源码: https://github.com/tesseract-ocr/tesseract

在github上有在不同系统中编译教程, Url在这里
https://github.com/tesseract-ocr/tesseract/wiki/Compiling

Linux系统的编译

Linux系统中编译过程按照教程来就可以, 可能遇到的问题, 也是我遇到的问题就两处
1. 编译成功后, 使用LSTM识别时, 无法计算点积, 解决方法很简单, 把
SIMDDetect::IsAVXAvailable()
SIMDDetect::IsSSEAvailable()
的返回值修改一下, 直接
return false;
2. 不停显示ScrollView: Waiting for server…, 出现这个问题主要是由于exe无法找到ScrollView.jar, 只需要在出现此句上方不远处, 将
scrollview_path = ".";
替换成你自己的路径即可

Windows系统的编译

windows系统编译就比较坑了. 完全按照教程来理论上是可行的, 但是我不行…困扰许久.
其实思考清楚了也就那么回事儿, 主要就是由于依赖库: Leptonica

在使用Cmake将TesseractOCR编译成vs工程时, 由于在CMakeLists.txt中没有指定Leptonica库的路径, 所以CMake在将TesseractOCR编译成vs工程时会报错

于是, 在教程中, 需要大家安装cppan, 并且在编译TesseractOCR工程之前, 使用cppan安装相关依赖. 这种方式确实简便, 但是对于我天朝闭关锁国来讲, 什么事儿都可能发生, 反正我是各种报错…看到心碎… 搜了不少资料说, 可能需要一些科学技术才能够成功(fanqiang), 我只能帮你们到这了.

当然对于我们这些良民来讲, 怎么能做这种事儿呢(主要是蓝灯没流量了..). 于是只好研究一下其他解决方法. 上面也说了, 问题主要就集中在Leptonica库的寻找上, 那好, 我们自己加上不就得了…于是, 就是下面

Leptonica网站: http://www.leptonica.com/
Leptonica Github: https://github.com/danbloomberg/leptonica
把源码下载下来, 自己手动编译一下, 很简单,源码目录下执行
cd build
cmake ..
1
2
1
2
即可在build目录下生成对应sln, 打开编译即可
- 在TesseractOCR工程目录下找到CMakeLists.txt, 在

``` if(NOT EXISTS ${PROJECT_SOURCE_DIR}/.cppan)
if (NOT Leptonica_DIR AND NOT MSVC)
find_package(PkgConfig REQUIRED)
pkg_check_moles(Leptonica REQUIRED lept>=${MINIMUM_LEPTONICA_VERSION})
else()
find_package(Leptonica ${MINIMUM_LEPTONICA_VERSION} REQUIRED CONFIG)
endif()
else()
if (STATIC)
set(CPPAN_BUILD_SHARED_LIBS 0)
else()
set(CPPAN_BUILD_SHARED_LIBS 1)
endif()
add_subdirectory(.cppan)
endif()```
之前加上这么一句
set(Leptonica_DIR E:/dl/leptonica-master/build)
意思就是我们将我们的Leptonica_DIR路径告诉编译系统, 让他不要乱找了
- OK, 到这里, Leptonica导致的问题就已经解决啦
- 还剩下的就是一些由于字符集导致的编译问题, 就是下面这句
static const STRING kCharsToEx[] = {"'", "`", "\"", "\\", ",", ".",
"〈", "〉", "《", "》", "”", "“", ""};
有两种解决方案:
一种是去vs的文件->高级保存选项, 将编码修改为简体中文(GB2312) - 代码页936
另一种是按照这个Url: http://blog.csdn.net/fengbingchun/article/details/51628957 修改, 诸位喜欢哪种方式就采用哪种方式即可.
- 到此结束…

Ⅵ 如何在windows上编译Tesseract OCR

分别在LIB_Debug和LIB_Release下编译libtesseract304工程,便能生成tesseract静态库。

仿照libtesseract304工程,编译tesseract工程,将静态库zlib、tiff、lept和tesseract加入到工程属性中即可。
新建Tesseract-OCR_Test控制台工程,将相应头文件和静态库加入到此工程中,测试代码来自于src/api/tesseractmain.cpp,如下:

[cpp] view plain
#include <iostream>

#include "allheaders.h"
#include "baseapi.h"
#include "basedir.h"
#include "renderer.h"

Ⅶ 如何在windows上编译Tesseract OCR

最近要用java实现一个验证码识别系统,选了半天之后最终决定用Tesseract-OCR作为识别引擎。既然是java+Tesseract-OCR,自然就首选Tess4J。由于Tess4J直接且仅提供了编译成dll的3.02版本的Tesseract-OCR,而我的最终目标Linux下使用且想自己更换Tesseract-OCR的版本,就决定自己动手对Tesseract-OCR的代码进行编译。而这篇文章就是这次研究的中间产物。虽然Tess4J目前支持的是Tesseract-OCR3.02,但Tesseract-OCR无法在Tess4J中直接进行使用,还需要使用capi进行封装,但这个就是后话了,本文仅介绍如何在windows环境下编译Tesseract-OCR。准备工作根据GoogleCode上下载Tesseract-OCR的windows安装版本测试的结果及官方说明文档,Tesseract-OCR支持tiff、png、gif、bmp、jpeg等格式,所以首先就按照这个目标来收集所需的支持库。由于最终目标是在Linux下编译成功,所以我选择了msys+tdm-gcc来模拟Linux下的编译过程。

Ⅷ 如何在windows上编译Tesseract OCR

安装 安装过程中勾选Tesseract development files: 编译 在安装目录中找到vs2008到工程目录: 找到所有编译相关的库: 打开Visual Studio 2008(没有的可以去官网下载express版本),导入工程编译。最后生成DEBUG和RELEASE两个版本的DLL

Ⅸ 如何用python 自己写一个ocr

Tesseract其实对中文的识别很垃圾,下了最新版的编译,从pdf第一页识别,大的特别清晰的可以识别,其他的就惨了,有时候还能识别成错别字。

阅读全文

与ocr编译相关的资料

热点内容
极简欧洲史中文版pdf 浏览:908
python显示变量值 浏览:387
副路由器为什么要关服务器 浏览:575
国家反诈骗app苹果怎么设置 浏览:464
我的世界如何用指令造服务器方熊 浏览:304
鸭题库是哪里的培训机构app 浏览:689
如何对服务器取证 浏览:440
有什么系统像友价源码 浏览:570
圆柱弹簧压缩量 浏览:811
我的世界国际版为什么没法进去服务器 浏览:103
我的世界如何创造一个服务器地址 浏览:837
皮皮虾app怎么玩视频教程 浏览:253
python整型转化字符串 浏览:804
android数据共享方式 浏览:375
编译环境控制台 浏览:620
宁波欣达压缩机空气过滤器价位 浏览:665
幂函数的运算法则总结 浏览:138
方舟自己的服务器怎么搞蓝图 浏览:915
校园网怎么加密ip 浏览:786
kotlin可以编译双端吗 浏览:327