面向最新的计算机视觉应用程序的快速跟踪自定义人工智能
认识一下 Walker,一款智能人形服务机器人。Walker 可以完成各种任务,从与人互动到倒饮料、运送货物、擦拭表面和做笔记。这款机器人甚至可以爬楼梯(视频 1)。
视频 1. Walker 是 UBTECH Robotics Inc. 开发的一款利用先进的计算机视觉 (CV) 技术的智能服务机器人。
Walker 的问世需要许多工程学科的共同努力,但使其与众不同的是计算机视觉技术。物体检测、面部识别、目标跟踪、人类姿态估计以及同步定位和映射 (SLAM) 算法对于 Walker 的能力至关重要。
自定义计算机视觉仍然是一个挑战
但是,仅仅因为先进的计算机视觉技术已经通过 OpenFace 和 OpenCV 等开源项目变得广泛可用,并不意味着它可以直接拿来使用。实际上,尝试将 CV 软件直接从一种环境移植到另一种环境,同时保持可比较性能的尝试很少成功(如果有的话)。
以医疗助理中的人体姿态估计与客户服务代表中的相同功能为例。在医疗使用案例中,算法可能会被进行优化来发现跌倒或丧失能力的患者。在客户服务使用案例中,它可能注重可用于推断个人情绪的姿态。
这两种实例甚至可能使用类似的神经网络类型,但单个应用程序仍然决定最终人工智能架构的巨大差异。
上面的示例甚至没有考虑最适合特定用例的令人眼花缭乱的硬件组合。这些可能包括不同的连接接口和协议、摄像机镜头和等待时间、处理器类型和内存配置等。 这些功能包括不同的连接接口和协议,摄像头镜像和延迟,处理器类型和内存配置等。它也没有考虑到硬件的持续商品化实际上使得开发独特的、专业化的计算机视觉成为一个增值的差异化因素。
总而言之,创新的计算机视觉技术需要自定义人工智能模型。不幸的是,这需要时间。通常情况下,会需要很多时间。
“嵌入式系统有多种软件框架可供选择,各种神经网络模型可供构建,并且有多种硬件组件和外围设备可供使用,” Avnet, Inc. 的嵌入式解决方案高级经理 Christian Lang 表示, “设计人员需要花费几个月的时间来评估适合某个应用程序的正确硬件和软件设置。”
加快应用程序开发
尽管如此,用于高级计算机视觉的所有支持技术已经存在。因此,评估摄像头和计算硬件、选择软件开发框架以及从开源资源库导入模型所花费的时间其实是一个技术整合挑战,而这会延迟自定义人工智能模型的快速原型设计。
“加快计算机视觉应用程序开发的最佳方法是在边缘提供开箱即用的智能实时分析来避免耗时的评估过程,使应用程序可以在数小时内启动并运行,” Lang 说。
Avnet 通过将基于边缘的计算机视觉系统所需的所有组件整合到 Edge 平台的 Visual Analytics 中来实现这一目标,该平台拥有快速制作高级计算机视觉模型原型所需的所有基本硬件和软件组件。
公司创建了一个概念验证,以展示其灵活的软硬件解决方案堆栈如何适应零售、教育、工业自动化和公共安全等行业的需求。它由完整的视觉摄像机设置,Avnet 子公司 Softweb Solutions Inc. 的应用软件以及稳定的边缘人工智能处理器平台组成。它利用了基于八个英特尔® Movidius™ Myriad™ X VPU 的英特尔® 神经计算棒技术。
但其他大部分神奇的功能都是由英特尔® OpenVINO® 工具包™ 实现的,这是一个人工智能模型优化环境,通过一个直观的 API 集成了数十个计算机视觉软件组件。它为神经计算棒提供开放式神经网络交换 (ONNX) 支持,从而使开发人员可以访问所有最受欢迎的计算机视觉开发框架,例如 TensorFlow 和 Caffe。
将这些软件组件集成到 OpenVINO 环境中后,该工具包就会通过模型优化器和推理引擎优化它们,以减少总体占用空间并增强计算机视觉工作负载的性能。同样重要的是,开源开发工具不仅可以为 VPU 实现该过程的自动化,在 CPU、GPU 和 FPGA 同样可以实现。
因此,计算机视觉工程师几乎可以立即开始自定义人工智能模型,而不必担心上市后的硬件配置是否与原型平台有所不同。
迄今为止,该平台已用于自定义匿名行为和模式分析模型以及实时姿态检测算法的快速原型设计(图 1)。
Lang 解释说:“创新在于将新技术整合到一个平台上,将复杂的硬件和软件设置简化到客户可以在几小时内启动并测试其应用程序的程度。”“目标是将客户学习做某件事情的典型经历转变成“啊哈! 这样就可以了!”
姿态中都有什么?
视觉至上的人工智能几乎颠覆了每个行业,更不用说我们的日常生活了。当然,每个人都希望参与这个新一代的技术革命。不幸的是,要在先进的计算机视觉世界中进行创新,就必须积累大量的经验。
进入市场的新人弥补这一困境的方法就是拒绝重新发明已经存在的轮子,以及利用他人已经完成的工作来节省时间。那些创造规则和新事物的人会赢得真正的奖励。