辨认古文字、修正老相片AI让OCR玩出“新花样” 36氪专访
米乐体育直播

  2022年人工智能大会上,合合信息运用智能文字辨认技能应战钟鼎文辨认。在没有人工干预的状况下,钟鼎文从内凹状况被拉平,并被转译成简体字,“克曰穆朕文且師華父悤譲氒心安静于猷淑哲氒”等本来连在一同的凌乱句子,也经过“AI断句”功用主动处理后被区别开来。

  2010年合合信息正式上线扫描全能王,后者是最早将AI、OCR等技能归纳运用的APP之一。经过技能迭代,扫描全能王现在印刷体文档字符均匀辨认率能到达99.77%,手写体文档字符均匀辨认率到达97.00%。

  本次辨认钟鼎文,是合合信息继去年在人工智能大会应战辨认甲骨文后寻求的新应战。合合信息扫描全能王事业部负责人曹超阳向36氪表明,古文的辨认会涉及到OCR工作两大典型难点——图画优化处理与文字精确辨认。

  图画优化处理方面,古文字的载体与惯例平面差异较大。甲骨文与钟鼎文对应的载体是龟壳和青铜器,外表存在不同程度曲折、反光、高低不平的状况。进行文字辨认前,首要需将拍照到的图片素材进行智能图画处理,进行“拉平”等纠正作业,并排除去暗影、噪点的搅扰,达到增强图画质量的意图。

  文字精确辨认方面,以《桃花源记》古籍辨以为例,古书的纸张比惯例印刷用纸更薄,会有“毛边”、“透字”现象,对文字辨认发生搅扰,这时AI就需求去区别哪些是运用者需求的文字内容,遇到单个显现不明晰的文字,还要经过智能算法去了解判别这个文字是什么。

  曹超阳以为,处理古文辨认中面临的应战,实质上是处理文档图画质量退化(页面不明晰)、文字检测及版面剖析困难、非约束条件文字辨认率低、结构化智能了解能力差等工作性难题,这些技能迭代带来的服务体会优化将更广泛地服务日常用户。

  关于用户日常需求的发掘,曹超阳表明公司非常注重用户反应以发现产品迭代点,首要从相似场景下的用户规划以及需求底层逻辑两个方面考量。2019年起开端,扫描全能王发布一系列中心功用,包含“老相片修正”,“书本扫描”,“拍PPT”等,切中了学习、日子、作业场景中被忽视的隐形需求,为公司产品商业化做好衬托。

  更多功用的迭代协助扫描全能王在商业化道路上更进一步,扫描全能王在持续免费为用户供给内容扫描、辨认处理方案的一同,将比较深化、精密的功用作为付费功用供给给用户。

  近年来,因疫情影响,长途作业的需求量和需求品种迎来爆发式增加,文档数字化从头成为各界注重的议题。大环境利好人工智能技能开展的一同,文字辨认商业化需求激增。提早布局细分需求功用,成果了扫描全能王在智能辨认范畴的“抢滩登陆”。

  扫描全能王的母公司合合信息布局“人工智能+大数据”两大技能范畴,在“B+C”端一同获得商业化落地成效。

  C端方面,扫描全能王现在不只发力于国内商场,产品推出后免费版曾在120个国家App Store功率类榜单上排名榜首;B端方面,经过迭代智能文字辨认技能,合合信息成功与国际 500 强公司中超越 80 家头部企业达到协作,这些头部公司为合合信息供给了重要的营收支撑。

  合合信息现在正在科创板拟上市阶段,为进一步了解合合信息“AI+OCR”产品的特征,36氪对扫描全能王事业部负责人曹超阳进行专访。以下为专访对话内容,经修改:

  36氪:现在OCR商场增加较快,您觉得扫描全能王从布局开端到现在有哪些要害时刻节点?别离是什么?

  曹超阳:榜首个重要节点是2010年前后,扫描全能王正式上线。扫描全能王母公司合合信息为产品供给了“智能文字辨认”技能支撑,使得扫描全能王成为最早将AI、OCR等技能归纳运用的APP之一。

  第二个节点是海外事务的蓬勃开展,扫描全能王多次在海外App Store功率类榜单上排名榜首,让欧美厂商也做起了“国产代替”。

  第三个节点是2019年起开端,扫描全能王发布的一些中心功用,比方“老相片修正”,还有后来发布的“书本扫描”,“拍PPT”等,都切中了学习、日子、作业场景中被忽视的隐形需求。

  现阶段也很要害,文档数字化现已迎来了的开展高峰期。19年末20年头的疫情催化和数字化转型大潮,让文档数字化从头成为各界注重的议题。近五年来方针在人工智能范畴的利好和文字辨认商业化需求的激增,也是公司“抢滩”商场的可贵时机。 现在,C端APP的月活全球现已过亿,其中有疫情催化的原因,例如公司的技能为长途作业和日子场景中的各种辨认、扫描供给了支撑。究其底子,企业及政府的数字化转型大潮已至,文档的数字化关于事务沉积、功率提高非常重要,智能文字辨认技能正在不断发明着商场的新增量。

  比方“拍PPT”功用。该功用用到了智能图画处理模块中的主动切边技能,使图画更明晰。拍完后跟原始PPT保持一致的阅览与体会。首要是经过去除剩余的布景和暗影搅扰,为用户供给更直观的文档阅览体会。“拍PPT”不只能对拍照到的PPT做图画处理,让其以完好的、被优化过的图画方式被保存,如果有文字辨认需求,还能精准地把PPT图画里的内容提取出来。

  还有“书本拍照”功用。用到了智能图画处理中的曲折纠正和抗搅扰技能,能够把不平坦的册页拍成扫描仪扫出来相同平坦的页面,把书上的手指、暗影去掉,尽可能复原平面阅览体会。

  “手写擦除”功用现在也很受注重,咱们用“笔迹擦除”技能协助广阔家长、学术“解放双手,在家庭作业等场景里很受欢迎。扫描全能王用神经网络技能将待处理图画划分为手写“擦除区域”和印刷题干等“非擦除区域”,对噪点、暗影、布景凌乱等凌乱场景进行处理,一同运用切边纠正、图画增强等滤镜技能,让旧的卷子像刚发下来相同,为用户出现明晰漂亮试卷图画。

  曹超阳:经过产品的不断打磨,在日常作业、日子范畴,扫描全能王为群众供给“口袋里”的便当。比方从2019年开端推出拍照证件照,只需在相对明晰洁净布景下拍照人像,即可主动生成不同尺度,适用于各类报名、签证等场景的证件照,还能依据需求切换布景底色。除此之外,扫描全能王还上线了包含PDF加密、一键增加水印等功用,满意了用户在不同场景里的需求。这些都成为拉动营收增加的要害。

  扫描全能王的母公司合合信息是工作中罕见的在“人工智能+大数据”两大技能一同布局,“B+C”两大范畴一同获得商业化落地成效的企业。所以,除了在C端场景的运用,智能文字辨认技能做得越来越好,为也企业客户带来更好的体会感,现已获得了超越30个工作的客户的认可;国际 500 强公司名单中有超越 80 家与合合信息达到协作,这些头部客户为公司供给了重要的营收支撑。

  曹超阳:从来历上,扫描全能王特别注重用户反应,会实时跟进剖析,每周也会分门别类做汇总,协助咱们发现产品时机的迭代点。用户的反应实质上是他们在运用进程中想到的,能对咱们产品精进有协助的点。咱们会从这些点里去剖析:有相似场景的用户多不多?他终究需求什么?以此去提炼用户的痛点来迭代产品。

  比方拍PPT这个功用,就来自于用户反应。之前课堂上授课多用黑板,现在会用电子屏、投影来展现PPT。拍PPT的人时分一般离显现屏比较远,并且相片拍出来会有水波样的底纹,也便是常说的“摩尔纹”。咱们就在测验:怎么让用户拍照时去掉底纹,以及在相对比较远的间隔上拍出比较好的作用。

  接下来咱们也将持续为免费用户供给高价值的功用,去处理他们在日常日子和作业中遇到的内容扫描、辨认问题;有些用户的需求比较深化、也更精密,咱们会作为付费功用来对待。比方用户拍完之后要发给搭档,扫描、发送自身是免费的。更进一步,发送时要对PDF加密,这个加密便是一个付费功用。

  36氪:扫描全能王此前展现了许多运用AI将古文原文转文字的事例,会涉及到辨认率的问题,这傍边需求处理的难点有哪些?

  曹超阳:智能文字辨认技能首要包含了智能图画处理、根据深度学习的凌乱场景文字辨认、自然语言处理三个中心技能层。就古文的辨认而言,一般会涉及到工作存在两大典型难点,一个是图画的优化处理,再者是古文字的辨认,具体要处理的问题有下面几种:

  先说古文字多种多样的载体带来的辨认应战。公司曾在国际人工智能大会上展现过对甲骨文、钟鼎文的辨认,无论是龟壳,仍是青铜器,它们的外表都会不同程度地存在曲折、反光、高低不平的状况。在进行文字辨认之前,首要要将拍照到的图片素材在技能上进行“拉平”等纠正处理,并做好关于暗影、噪点的处理,这部分便是智能图画处理,也便是增强图画的“质量”。

  除了硬质的外表外,纸质载体的辨认也存在难点。比方在大会展出的《桃花源记》古籍辨认项目中,古书的纸张比惯例印刷用纸更薄,并且会有“毛边”、“透字”现象,都会对文字辨认发生搅扰,这时AI就需求去区别哪些是运用者需求的文字内容,遇到单个显现不明晰的文字,还要经过智能算法去“了解”去判别这个文字是什么。

  36氪:古文辨认率的难点是日常运用场景的难点的晋级版吗?AI技能还能够怎样赋能咱们的日子出产?

  曹超阳:古文的研讨是扫描全能王用技能促进文明传承和文物保护的社会职责表现,也是产学研研讨中的一个方向,古文辨认中面临的样本量小、非惯例载体辨认搅扰要素多,是全工作面临的应战。

  处理古文辨认中面临的应战,实质上是处理文档图画质量退化,比方页面不明晰的状况,文字检测及版面剖析困难、非约束条件文字辨认率低、结构化智能了解能力差等全球性的难题。这些问题的处理将为更广泛的受众带来服务体会的优化。

  AI技能还协助咱们完成了多语言辨认。实际上,针对古文的辨认仅是智能文字辨认运用场景之一,扫描全能王还可辨认中、英、俄等56种语言文字,被运用于全球不同国家、不同工作的收据、证件、定制辨认等多个场景。

  经过应战并处理技能难点,咱们在工作中也落地了许多立异功用,比方现已在扫描全能王中上线的“去屏幕纹”、“老相片修正”,以及上述说到的“手写擦除”功用,都是经过处理一个个“小众”场景里的难题,终究服务于群众;

  还有一些功用现已研制出来,进入许多大型企业的评价进程中了,比方“PS篡改检测”,运用了一种直接针对图画特征信息的篡改检测办法,在工作中归于立异运用,可称得上是“像素级”反诈东西。“PS篡改检测”技能能对身份证、护照、驾驶证、港澳通行证等证照类别,以及增值税发票、普通发票、小票、合平等多种文档类别进行检测,在金融等许多工作都有广泛的需求。

  曹超阳:母公司合合信息对AI底层技能的注重为扫描全能王承载亿等级用户的高频运用供给了支撑。现在,经权威机构检测,合合信息的印刷体文档字符均匀辨认率为99.77%。在产品做小做轻的一同,公司技能的辨认精度依然稳居榜首队伍。这些都是对底层AI技能注重带来的。

  现在咱们产品在全球范围内被广泛运用,支撑超越五十多种语言的辨认。一同咱们特别靠近用户的场景需求,比方咱们推出的高档文件夹,教资文件夹、考研文件夹,能够协助用户在扫描之外,一键完成文档收纳。

  曹超阳:扫描全能王非常注重用户痛点,并针对性地进行产品优化。扫描全能王积累了巨大的用户基数,掩盖各个工作和集体,协助咱们一同打磨产品,比方:

  团队非常注重用户反应,每一条用户反应都会由客服、技能人员、产品司理等实时跟进和剖析;在改进用户体会的一同,也会进一步发现产品的时机和迭代点。

  咱们还晋级了千元机功用体会,直面画质与像素的应战。有不少白叟、学生集体在运用千元机,摄像头、CPU和内存等硬件条件比较差,由于CPU约束,这些相机拍照出来的图片质量不行明晰,处理速度也比一般手机慢许多。技能团队为此特别成立了攻坚项目组,针对千元机用户的运用问题进行了一系列优化,保证不同设备条件的用户在运用扫描全能王时都能得到流通的体会。从中也发现了许多迭代产品的时机。