EmguCV学习笔记 C# 12.3 OCR

news/2024/9/21 18:57:13 标签: c#, 计算机视觉, opencv, emgucv, ocr, vb.net

  版权声明:本文为博主原创文章,转载请在显著位置标明本文出处以及作者网名,未经作者允许不得用于商业目的。

EmguCV是一个基于OpenCV的开源免费的跨平台计算机视觉库,它向C#和VB.NET开发者提供了OpenCV库的大部分功能。

教程VB.net版本请访问:EmguCV学习笔记 VB.Net 目录-CSDN博客

教程C#版本请访问:EmguCV学习笔记 C# 目录-CSDN博客

笔者的博客网址:https://blog.csdn.net/uruseibest

教程配套文件及相关说明以及如何获得pdf教程和代码,请移步:EmguCV学习笔记

学习VB.Net知识,请移步: vb.net 教程 目录_vb中如何用datagridview-CSDN博客

 学习C#知识,请移步:C# 教程 目录_c#教程目录-CSDN博客

 

 

12.3 OCR       

EmguCV中使用Tesseract类         进行文字识别。

Tesseract类的构造函数:

public Tesseract(

           string dataPath,

                    string language,

                    OcrEngineMode mode,

                    string whiteList = null,

           bool enforceLocale = true

)

参数说明:

  1. dataPath:存放语言识别模型文件的目录,该目录必须是tessdata。
  2. language:要用来识别的语言,例如简体中文是chi_sim.traineddata,英文是eng.traineddata。如果需要识别的内容包含多种语言,那么这里需要使用加号连接,如:chi_sim+eng,将加载简体中文和英语。需要注意的是,加载额外的语言将影响速度和准确性。
  3. mode:OCR引擎模式。这是一个OcrEngineMode枚举,它包含四个成员:TesseractOnly:速度最快;LstmOnly:精度最好,但是速度慢;TesseractLstmCombined:速度和精度比较平衡;Default:自动选择上述三种引擎。
  4. whiteList:用于指定OCR的白名单。例如,指定“1234567890”仅识别数字。请注意,白名单目前只适用于OcrEngineModel.OEM_TESSERACT_only
  5. enforceLocale:指定是否强制使用特定的区域设置。当设置为 True 时,Tesseract将强制使用特定的区域设置,这意味着它将使用与指定区域设置相关的语言模型和字典进行文本识别。例如,如果您希望在美国使用 Tesseract,可以将 enforceLocale 参数设置为 True,并将区域设置设置为 "en_US"。这样,Tesseract 将使用与美国英语相关的语言模型和字典进行文本识别,从而提高识别准确性。相反,如果将 enforceLocale 参数设置为 False,Tesseract 将不会强制使用特定的区域设置,而是使用默认的区域设置进行文本识别。

具体操作步骤:

经过构造函数后,通过SetImage方法传入需要OCR的图像,Recognize方法识别图像,但是该方法不会直接返回结果,而是通过GetUTF8Text方法获得识别出的字符串,或者通过GetCharacters方法获得Tesseract.Character结构数组,Tesseract.Character结构包含了识别出的字符串和字符串所在的区域坐标。

【代码位置:frmChapter12】Button4_Click

        //OCR识别

        private void Button4_Click(object sender, EventArgs e)

        {

            //使用中文

            Tesseract ocr = new Tesseract("C:\\learnEmgucv\\tessdata", "chi_sim", OcrEngineMode.LstmOnly);

            //如果中英文都要使用,那么使用加号连接。但不要超过2个语言。

            //Tesseract ocr = new Tesseract("C:\\learnEmgucv\\tessdata", "chi_sim+eng", OcrEngineMode.LstmOnly);

            Mat m = new Mat("C:\\learnEmgucv\\ocr2.jpg", ImreadModes.Color);

            ImageBox1.Image = m;

            //设置需要识别文字的图像

            ocr.SetImage(m);

            //识别

            ocr.Recognize();

            //获得识别结果

            string textout;

            textout = ocr.GetUTF8Text();

            Console.WriteLine(textout);

            //标记识别区域

            Tesseract.Character[] charout;

            charout = ocr.GetCharacters();

            for (int i = 0; i < charout.Length; i++)

                CvInvoke.Rectangle(m, charout[i].Region, new MCvScalar(0, 0, 255), 1);

            ImageBox2.Image = m;

        }

输出结果如下图所示:

 

图12-4 OCR获得图像中的文字

需要注意的是,识别结果和传入的图像质量有关系,请在识别前做好图像处理。


http://www.niftyadmin.cn/n/5669286.html

相关文章

Vue使用axios实现Ajax请求

1、什么是 axios 在实际开发过程中&#xff0c;浏览器通常需要和服务器端进行数据交互。而 Vue.js 并未提供与服务器端通信的接口。从 Vue.js 2.0 版本之后&#xff0c;官方推荐使用 axios 来实现 Ajax 请求。axios 是一个基于 promise 的 HTTP 客户端。 关于 promise 的详细介…

【CPU】CPU的物理核、逻辑核、超线程判断及L1、L2、L3缓存、CacheLine和CPU的TBL说明

CPU物理核及L1、L2、L3及缓存 CPU缓存 CPU 缓存是一种用于存储临时数据以提高计算机程序性能的内存层次结构。它通常分为三个层次&#xff1a;L1&#xff08;一级&#xff09;、L2&#xff08;二级&#xff09;和L3&#xff08;三级&#xff09;缓存。缓存大小是CPU的重…

API - Math,System,Runtime,BigDecimal,日期时间,Arrays...

01 Math类 【注意】&#xff1a;round在四舍五入时&#xff0c;只会四舍五入小数点后第一位&#xff0c;例如&#xff1a;4.499&#xff0c;的结果是4. 02 System类 【解释】&#xff1a;currentTimeMillis返回的是从1970-1-1 0:0:0开始到此刻的毫秒值&#xff0c;所以返回值才…

【Linux】简易日志系统

目录 一、概念 二、可变参数 三、日志系统 一、概念 一个正在运行的程序或系统就像一个哑巴&#xff0c;一旦开始运行我们很难知晓其内部的运行状态。 但有时在程序运行过程中&#xff0c;我们想知道其内部不同时刻的运行结果如何&#xff0c;这时一个日志系统可以有效的帮…

集成学习详细介绍

以下内容整理于&#xff1a; 斯图尔特.罗素, 人工智能.现代方法 第四版(张博雅等译)机器学习_温州大学_中国大学MOOC(慕课)XGBoost原理介绍------个人理解版_xgboost原理介绍 个人理解-CSDN博客 集成学习(ensemble)&#xff1a;选择一个由一系列假设h1, h2, …, hn构成的集合…

【Python】Anaconda插件:Sublime Text中的Python开发利器

上班的时候没人问我苦不苦&#xff0c;下班的时候总有人问为什么走这么早。 Anaconda 是一个专为Sublime Text打造的开源Python开发插件&#xff0c;旨在为开发者提供类似于IDE的丰富功能&#xff0c;提升Python编码效率。该插件提供了代码补全、语法检查、代码片段提示等多项…

基于FPGA+GPU异构平台的遥感图像切片解决方案

随着遥感和成像技术的不断进步和普及&#xff0c;获取大量高分辨率的遥感图像已成为可能。这些大规模的遥感图像数据需要进行有效的处理和分析&#xff0c;以提取有用的信息&#xff0c;进行进一步的应用。遥感图像切片技术应运而生&#xff0c;该技术可以将大型遥感图像分割成…

C++初始化列表详解 + explicit关键字

构造函数初始化列表 构造函数&#xff1a; class Date { public:// 构造函数Date(int year 0, int month 1, int day 1){_year year;_month month;_day day;//可以修改值_year 2024;_month 9;_day 21;} private:int _year;int _month;int _day; }; 这样的构造函数和…