The past life of image recognition technology and multi-disciplinary applications_Guangdong Samsun Technology Co.,Ltd._Intelligent Automatic Inspection Solution Provider

Technical Articles

The past life of image recognition technology and multi-disciplinary applications

Date：2018-10-10 Source：Samsun Technology

图像识别技术是指利用计算机对图像进行处理、分析和理解，以识别各种不同模式的目标和对像的技术。简单来说，就是让机器能够通过对感知信息的处理像人类一样读懂图片的内容，而不是只看到像素。现代社交网络的发展带来了海量图片视频信息，目前人类现有信息中百分之七十的信息为视频图片信息。伴随着图片成为人类社会中的主要信息载体，难题随之出现。图片给我们带来了快捷的信息记录和分享方式，却无法高效的进行检索。在这样的环境下，人工智能中的图像识别技术就显得尤为重要。本文将从图像识别技术原理出发，介绍这一技术的前世今生，以前在各行业的具体应用前景。
  1、图像识别技术原理
  图像识别技术其主要的作用就是按照所观测到的图像，对图像中的物体进行分辨，以此来做好相应的具有意义的判断，具体实现则是应用现代信息处理技术，以及计算机技术对人类认知过程进行模拟。通常情况下，一个图像识别系统由图像分割、图像特征提取、分类器的识别这三个部分所组成，其中，图像分割主要的作用就是将图像划分成为多个区域；图像特征提取则是对多个区域的图像进行相应的特征提取；分类器的识别则是按照图像特征所提取的結果进行适当的分类。从某种程度来说，图像分割其本身就能将其称之为图像识别的过程。
  借助图像识别技术，我们不仅可以通过图片搜索更快的获取信息，还可以产生一种新的与外部世界交互的方式，甚至会让外部世界更加智能的运行。随着图形识别技术的不断进步，越来越多的科技公司开始涉及图形识别领域，这标志着读图时代正式到来，并且将引领我们进入更加智能的未来。
  2、图像识别技术的前世今生
  图像识别的初级阶段——娱乐化、工具化
  在这个阶段，用户主要是借助图像识别技术来满足某些娱乐化需求。例如，百度魔图的“大咖配”功能可以帮助用户找到与其长相最匹配的明星，百度的图片搜索可以找到相似的图片；Facebook研发了根据相片进行人脸匹配的DeepFace；雅虎收购的图像识别公司IQEngine开发的Glow可以通过图像识别自动生成照片的标签以帮助用户管理手机上的照片；国内专注于图像识别的创业公司旷视科技成立了VisionHacker游戏工作室，借助图形识别技术研发移动端的体感游戏。
  这个阶段还有一个非常重要的细分领域——OCR（OpticalCharacterRecognition，光学字符识别），是指光学设备检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程，就是计算机对文字的阅读。语言和文字是我们获取信息最基本、最重要的途径。在比特世界，我们可以借助互联网和计算机轻松的获取和处理文字。但一旦文字以图片的形式表现出来，就对我们获取和处理文字平添了很多麻烦。这一方面表现为数字世界中由于特定原因被存储称图片格式的文字；另一方面是我们在现实生活中看到的所有物理形态的文字。所以我们需要借助OCR技术将这些文字和信息提取出来。在这方面，国内产品包括百度的涂书笔记和百度翻译等；而谷歌借助经过DistBelief训练的大型分布式神经网络，对于Google街景图库的上千万门牌号的识别率超过90%，每天可识别百万门牌号。
  在这个阶段，图像识别技术仅作为我们的辅助工具存在，为我们自身的人类视觉提供了强有力的辅助和增强，带给了我们一种全新的与外部世界进行交互的方式。我们可以通过搜索找到图片中的关键信息；可以随手拍下一件陌生物体而迅速找到与之相关的各类信息；可以将潜在搭讪对象拍下提前去她的社交网络了解一番；也可以将人脸识别作为主要的身份认证方式……这些应用虽然看起来很普通，但当图像识别技术渗透到我们行为习惯的方方面面时，我们就相当于把一部分视力外包给了机器，就像我们已经把部分记忆外包给了搜索引擎一样。
  这将极大改善我们与外部世界的交互方式，此前我们利用科技工具探寻外部世界的流程是这样：人眼捕捉目标信息、大脑将信息进行分析、转化成机器可以理解的关键词、与机器交互获得结果。而当图像识别技术赋予了机器“眼睛”之后，这个过程就可以简化为：人眼借助机器捕捉目标信息、机器和互联网直接对信息进行分析并返回结果。图像识别使摄像头成为解密信息的钥匙，我们仅需把摄像头对准某一未知事物，就能得到预想的答案。就像百度科学家余凯所说，摄像头成为连接人和世界信息的重要入口之一。
  图像识别的高级阶段——拥有视觉的机器
  目前的图像识别技术是作为一个工具来帮助我们与外部世界进行交互，只为我们自身的视觉提供了一个辅助作用，所有的行动还需我们自己完成。而当机器真正具有了视觉之后，它们完全有可能代替我们去完成这些行动。目前的图像识别应用就像是盲人的导盲犬，在盲人行动时为其指引方向；而未来的图像识别技术将会同其他人工智能技术融合在一起成为盲人的全职管家，不需要盲人进行任何行动，而是由这个管家帮助其完成所有事情。举个例子，如果图像识别是一个工具，就如同我们在驾驶汽车时佩戴谷歌眼镜，它将外部信息进行分析后传递给我们，我们再依据这些信息做出行驶决策；而如果将图像识别利用在机器视觉和人工智能上，这就如同谷歌的无人驾驶汽车，机器不仅可以对外部信息进行获取和分析，还全权负责所有的行驶活动，让我们得到完全解放。
  《人工智能：一种现代方法》中提到，在人工智能中，感知是通过解释传感器的响应而为机器提供它们所处的世界的信息，其中它们与人类共有的感知形态包括视觉、听觉和触觉，而视觉最为重要，因为视觉是一切行动的基础。在一次论坛上百度IDL的余凯院长问大家，你觉得哪种感觉最重要？没有人能很快作答，后来余凯院长换了个提问方式，如果要放弃一种感觉，你最不愿意放弃的是那一种？这时大家都回答是视觉。ChrisFrith在《心智的构建》中提到，我们对世界的感知不是直接的，而是依赖于“无意识推理”，也就是说在我们能感知物体之前，大脑必须依据到达感官的信息来推断这个物体可能是什么，这构成了人类最重要的预判和处理突发时间的能力。而视觉是这个过程中最及时和准确的信息获取渠道，人类感觉信息中的80%都是视觉信息。机器视觉之于人工智能的意义就是视觉之于人类的意义，而决定着机器视觉的就是图像识别技术。
  更重要的是，在某些应用场景，机器视觉比人类的生理视觉更具优势，它更加准确、客观和稳定。人类视觉有着天然的局限，我们看起来能立刻且毫无费力的感知世界，而且似乎也能详细生动的感知整个视觉场景，但这只是一个错觉，只有投射到眼球中心的视觉场景的中间部分，我们才能详细而色彩鲜明的看清楚。偏离中间大约10度的位置，神经细胞更加分散并且智能探知光和阴影。也就是说，在我们视觉世界的边缘是无色、模糊的。因此，我们才会存在“变化盲视”，才会在经历着多样事物发生时，仅仅关注其中一样，而忽视了其他样事物的发生，而且不知道它们的发生。而机器在这方面就有着更多的优势，它们能够发现和记录视力所及范围内发生的所有事情。拿应用最广的视频监控来说，传统监控需要有人在电视墙前时刻保持高度警惕，然后再通过自己对视频的判断来得出结论，但这往往会因为人的疲劳、视觉局限和注意力分散等原因影响监控效果。但有了成熟的图像识别技术之后，再加以人工智能的支持，计算机就可以自行对视频进行分析和判断，发现异常情况直接报警，带来了更高的效率和准确度；在反恐领域，借助机器的人脸识别技术也要远远优于人的主观判断。
  许多科技巨头也开始了在图像识别和人工智能领域的布局，Facebook签下的人工智能专家YannLeCun最重大的成就就是在图像识别领域，其提出的LeNet为代表的卷积神经网络，在应用到各种不同的图像识别任务时都取得了不错效果，被认为是通用图像识别系统的代表之一；Google借助模拟神经网络“DistBelief”通过对数百万份YouTube视频的学习自行掌握了猫的关键特征，这是机器在没有人帮助的情况下自己读懂了猫的概念。值得一提的是，负责这个项目的AndrewNG已经转投百度领导百度研究院，其一个重要的研究方向就是人工智能和图像识别。这也能看出国内科技公司对图像识别技术以及人工智能技术的重视程度。
  3、图像识别技术的行业应用
  尽管还未达到真正的人工智能，但日渐成熟的图像识别技术已开始探索各类行业的应用。当前，图像识别技术已成功应用到工业机器人、自动驾驶、医疗诊断、安防监控和工业检测等多个领域。其中，图像识别在工业中的应用最为广泛，而工业中又以电子制造占比最大，约占40%至50%。随着科技业新技术迭出，图像识别的应用领域窗口将被打开，未来这一应用技术将扩展至消费电子、可穿戴式装置、汽车先进驾驶辅助系统、智能化监控等更贴近大众生活的领域以及当前各炙手可热的新兴行业。
  （1）图像识别技术在安防行业大显身手
  在AI的赋能下，图像识别技术在安防领域可谓是如虎添翼，大显身手。对于掌握了许多视频图像资源的安防行业来说，深度学习和安防的结合拥有比较高的契合度。公安行业借助智能视频分析主要用于实现城市道路、广场及各类重点场所的人、车、物等目标的识别，提取包括人的性别、人脸、全身等信息，车的车标、车牌、车身颜色等信息，这些信息均可提炼为计算机能识别的结构化数据，送入后端进行专业的安全管理应用，主要包括实时布控、高危人员比对、以图搜图、多点碰撞、语义搜索等方面。
  （2）图像识别技术助力农林业
  在农林行业，图像识别技术已经得到应用。例如，木材的生产包含多个环节，过去这些环节往往牵涉到大量的人力投入。如今，图像识别已在多个环节中得到应用，例如森林调查，通过无人机对图像进行采集，再通过图像分析系统对森林树种的覆盖比例、林木的健康状况进行分析，从而可以做出更科学的开采方案。而原木检验方面，图像识别可以快速对木材的树种、优劣、规格进行判断，省去了大量人工参与的环节。
  （3）图像识别技术应用于金融领域
  在金融领域，身份识别和智能支付将提高身份安全性与支付的效率和质量。比如，在传统金融中，用户在申请银行贷款或证券开户时，均必须到实体门店上做身份信息核实，完成面签。如今，通过人脸识别技术，用户只需要打开手机摄像头，自拍一张照片，系统将会做一个活体检测，并进行一系列的验证、匹配和判定，最终会判断这个照片是否是用户本人操作，完成身份核实。
  （4）图像识别技术应用于智能家居
  在智能家居领域，通过摄像头获取到图像，然后通过图像识别技术识别出图像的内容，从而做出不同的响应。举个例子，我们在门口安装了摄像头，当有物体出现在摄像头范围内的时候，摄像头自动拍摄下图像进行识别，如果发现是可疑的人或物体，就可以及时报警给户主。如果图像和主人的面部匹配，则会主动为主人开门。
还有家庭用的智能机器人，通过图像识别技术可以对物体进行识别，并且实现对人的跟随，搭配上人工智能系统，它能分辨出你是它的哪个主人，并且能你进行一些简单的互动，比如检测到是家里的老人，它可能会为你测一测血压，如果是小孩子，它可能给你讲个故事。
  （5）图像识别技术促进电商发展，帮你寻找喜欢的衣服鞋子
  网购时消费者使用的“相似款（拍照识别/扫描识别）”搜索功能，就是基于图像识别技术，当消费者将鼠标停留在感兴趣的商品上后，就可以选择查看相似的款式；同时通过调整算法，还能够更好的猜测消费者的意图，搜素结果即使不能提供完全匹配的商品，也会为消费者推荐最为相关的商品，尽量满足消费者的购物需求。这对于商家来说，也是一种从外界导流和提高移动端用户黏度的方式之一。
  （6）图像识别技术助力医学影像智能识别
  医生资源短缺将促进AI智能影像识别的应用落地。将图像识别技术应用到医疗领域，可以更精准更快速地分辨X光片、MRI和CT扫描图片，上至诊断预防癌症，下至加速发现治病救命的新药。一个放射科医生一生可能会看上万张扫描图像，但是，一台计算机可能会看上千万张。智能影像识别市场分类多空间大，人工智能方法在医学图像处理中的应用十分广泛，涉及医学图像分割、图像配准、图像融合、图像压缩、图像重建等多个领域。
  （7）图像识别技术助力智慧交通
具有分析、感知能力的智能摄像机通过视频识别分析技术，可对每辆车进行完整的违法行为分析、识别、抓拍和录像，记录车辆违法的整个过程，再将每条记录生成非结构化的视频、照片数据和结构化的文本数据提交给后端智能管理与分析系统，由系统进行高度智能的交通违法行为处理。基于智能视频分析技术，智能交通管理系统还能得出不同品牌的车型拥有量、过车高峰期、车辆进出城高峰期及行驶方向等丰富的交通数据，为城市交通流量管控、交通道路规划等提供详实的数据支撑。
  总之，图像识别技术，连接着机器和这个一无所知的世界，帮助它越发了解这个世界，并最终代替我们完成更多的任务。

Returns List

Technical Articles

The past life of image recognition technology and multi-disciplinary applications

Company News

Project Case