深度实践OCR

刘树春 贺盼 马建奇 王佳军 等
推荐序 文字识别(OCR)是视觉感知中一个重要的技术,目的是从照片中提取文字信息。这项技术有着广泛的应用前景。比如,自动驾驶汽车路标识别,或把扫描文档转化成结构化的文字信息以方便检索。近几年来,随着深度学习等技术的发展,文字识别相关技术取得了突破性进展,特别是场景文字的检测、识别和结构化技术。这些技术的发展使得文字识别在工业界受到了广泛关注。阿里巴巴、腾讯、百度、谷歌、微软等互联网公司都有大规模的文字识别应用,提供了各式各样的文字识别相关的服务。 本书系统地介绍了文字识别的各类方法,内容翔实,包括图像预处理、数据生成与增强、文字检测、文字识别以及后处理和结构化等,这些方法是文字识别的基础。同时,本书还介绍了学习这些方法所必需的一些基础,比如,残差神经网络以及通用目标检测技术。另外,本书详细地介绍了这些方法具体的代码实现,供读者学习和使用。目前,关于文字识别的专业书籍还比较缺乏,本书将给广大文字识别研究人员和应用人员带来便利。 本书的作者在文字识别学术研究和产业应用方面有丰富的经验,书中很好地融合了学术理论和产业化实践。相信本书的出版对于文字识别技术的普及和发展会产生积极的作用。 ——FCOS,CTPN模型作者,田植 前言 文字作为人类传播文明、传递信息、记录思想的重要载体,在我们的生活中占据着举足轻重的地位,所以文字识别是目前最受关注的AI技术之一。OCR技术应用非常广泛,相较于图像,文字作为抽象的符号,承载着大量的信息,所以识别文字有非常大的价值。从历史角度看,文字识别是一门古老的技术,但是从实验室走出来,走进人们的生活,也只是近些年才发生的事情。特别是在深度学习应用于文字识别领域后,文字识别精度逼近人工水平,发展出非常多的应用。 笔者作为机器视觉方面的从业者,在刚开始将最新的深度学习技术应用到文字识别时遇到很多困难,常常苦恼于市面上鲜有全面介绍文字识别实现原理和方…