OCR的全称是光学字符识别,通过扫描等光学输入方法,将各种票据、报纸、书籍、手稿等印刷品的文字转换成图像信息,
然后利用文字识别技术将图像信息转换成可用的计算机输入技术,通俗来说就是将图片上的文字,自动识别并提取出来。
二、OCR工作原理
OCR文字识别技术,是在对图片上的内容进行认知分析的过程,其中比较重要的是横排文本、竖排文本、表格、配图。
而每篇文章都是由这四个基本要素构成的。该算法的工作原理是:首先对图片中的几个布局区域进行分析,然后对横排、竖排、表格、配图照片等区域进行分析,然后根据各自的特征对字符进行切分,保留区域类型,进行OCR识别调整,因此可以适应各种类型的文本识别。一些小角度倾斜的文字,OCR程序也可以通过智能调节来识别。
三、OCR与档案数字化加工
可以说OCR与档案数字化加工的关系是密不可分的,让我们先回顾一下档案数字化加工的环节:档案调取、档案整理、档案扫描、图像处理、数据挂接、数据质检、数据存储、档案归还。而图像处理就需要用到OCR技术,利用OCR技术能自动识别扫描文件,并与原始图像一起生成PDF文件,为全文检索提供了自动建立图像索引的功能。
生成的PDF文件识别为双层PDF文件,OCR识别出的文本附着在PDF图像上,既满足了档案管理的实际存储需要,又满足了档案数字化利用的需要。
四、OCR与档案管理存储成数字化的信息多为PDF或图片形式,而有时档案管理人员需要将上面的资料转化成文字,而手动的抄录既浪费时间又加大档案管理人员的工作量,
非常不利于工作的开展,使用一款强大的OCR办公软件则能很好的解决上述问题,使得办公效率都得到了有效的提升,让档案管理者不再身心俱疲。
五、OCR在其他领域应用
不光在档案管理领域,在其他领域OCR也都发挥了重要作用,在信息时代,个人信息的认证也尤为重要,
个人信息OCR系统已经在各大市场都有了良好的应用,个人信息OCR识别能够自动提取个人信息(如姓名、证件号码、地址等)以及头像信息,使得信息传播更为便捷。
深圳市畅飞扬信息系统有限公司专注于数据采集、图像处理、OCR/ CR/BARCODE智能识别等底层技术的研究,是国内档案数据检测设备及检测服务领先供应商。畅飞扬研发的新一代电子档案管理系统正是引用了这种技术,让检索、查找更加方便;提供纸质档案与电子档案统一管理,以档案全生命周期管理为核心,支持档案收集、档案整理、档案利用、档案鉴定、档案销毁等全过程,构建一个数字化成果100%归档、有效防篡改、可查可验的数字化档案管理系统。
,