JavaScript 已停用。必须启用 JavaScript 才能使用本网站的所有功能。
人工智能的使用范围不断扩大,其能力迅速增强。我们的生活、商业、社会活动的方方面面都在发生着巨大的变化。人间とAIが共生する未来がやってきたことを実感している人は多いのではないか。从深度学习进化到生成式AI的AI将继续进化为AGI(通用人工智能)和ASI(人工超级智能),其影响将不断增长和扩大。然而,到目前为止,人工智能的活动范围仅限于虚拟空间(数字世界)。即使AGI和ASI出现,这一点也不会改变。在我们生活的现实空间(物理世界)中,人、事、环境都处于一种不确定的状态,意想不到的现象和事件接连发生。随着人工智能目前的发展,已经不可能识别和理解这种真实空间并自主执行复杂的动作。因此,在现实空间中利用人工智能产生的分析结果和产品时,需要利用人类的认知能力和运动能力来灵活应对环境。另一方面,将人工智能的力量从数字世界扩展到物理世界的努力已经出现,例如自动驾驶汽车。这个想法是赋予人工智能先进的态势判断能力,摄像头和传感器作为它的眼睛和耳朵,以及用于行驶、转向和停止的自动控制机制作为它的手和脚。而现在,在汽车以外的领域,技术发展和应用探索也同样在加速,为的是赋予人工智能“具身”,演变成能够“看到”物理世界、“理解”情况、做出判断、甚至“采取行动”的面向领域的人工智能。物理AI(学术上也称为Embodied AI)是一种新的AI进化轴,与将智力能力提升为AGI和ASI的进化轴方向不同(图1)。
物理 AI 是一种能够“感知”复杂且不确定的真实空间、对情况进行“推理”并通过将传感器(视觉、触觉、触觉)和执行器(电机、驱动系统)集成到最先进的 AI 模型中进行物理“行动”的 AI(图 2)。
物理人工智能可以作为大脑来控制机器人和其他设备,实现不同于单纯自动化的智力能力。传统上,机器人和自动化机器只是按照程序、遵循预先指定的程序、轨迹和条件移动。相比之下,配备物理人工智能的机器人能够通过思考实现目标所需采取的行动,并根据环境条件调整自己的程序和行为,从而自主执行任务。
随着一代人工智能的出现,生成文本、图像和程序代码等信息的成本已大大降低。然而,在制造、物流、建筑、护理等与物理实体打交道的行业中,无论多么先进、多么大规模的语言模型都无法解决很多问题。物理世界并不像数字世界那样干净有序。更重要的是,即使那里的物体看起来是一样的,但也存在或多或少的个体差异和状态变化。它充满了摩擦力、重力、光反射、意想不到的障碍物和不可预测的人类运动。现代社会的时代观被描述为“VUCA(Vatility、Uncertainty、Complexity、Ambiguity)时代”,首先可以说,现实世界本身就是一个VUCA环境。
那么,以生成式人工智能为代表的传统数字人工智能与物理人工智能在人工智能能力上有何区别? ChatGPT等大规模语言模型(LLM)从互联网上的文本数据中学习,因此它们具有作为“知识”的物理定律和空间概念,但它们没有“经验”,无法将它们与行动联系起来。这称为“符号接地问题”。物理AI可以通过将LLM的语义与机器人的传感器数据(视觉、触觉等)相结合,将单词的含义转化为物理动作。
在 VUCA 环境中,正在研究和开发物理 AI,目的是展示已经在数字世界中展示的 AI 的力量。可以肯定的是,随着它成为现实并扩大其使用范围,它对我们的生活、商业和社会活动产生的影响将远远大于当前这一代人工智能。
传统工业机器人只能在结构严格的环境中运行。组件需要放置在精确到毫米的位置,如果照明条件发生变化或者物体稍微错位,系统就会因错误而停止。为了正确地发挥作用,人类有必要提前教授所有预期的动作。相比之下,配备物理人工智能的机器人将能够适应非结构化环境。它通过摄像头、激光雷达和触觉传感器实时掌握环境,即使零件放置杂乱或工作时有人干预,也能够根据情况重新计算轨迹并完成任务。
物理 AI 的快速发展主要得益于两项技术突破(图 3)。
一个是VLA(视觉-语言-动作)模型,它是机器人技术的基本模型。基础模型是一种通用的人工智能模型,它使用大量数据进行预训练,并作为可重复使用以创建各种用途的人工智能模型的基础。随着生成式人工智能之一的大规模语言模型(LLM)的成功,机器人领域已经开始构建基础模型。其核心是 VLA 模型。实际上,它是一个输入视觉信息(Vision)和语言信息(Language)并输出机器人具体动作(Action)的神经网络。
代表性的 VLA 模型包括 Google DeepMind(英国)的“RT-2(机器人变压器 2)”和 NVIDIA(美国)的“Project GR00T”。 RT-2将从网络上的图像和文本中学到的知识应用于机器人控制。另一方面,GR00T项目是一个通用的类人基础模型,通过结合模仿学习(人类演示)和强化学习(模拟数据)来学习。
另一种是利用世界模型的“Sim2Real(模拟现实)”技术。在物理世界中收集数据成本高昂且存在风险。 Sim2Real 技术消除了这一瓶颈。世界模型是用人工智能模型表示的现实世界的简单模拟器。通过根据从机器人操作环境中收集的视觉信息来预测接下来会发生什么,机器人在实际移动之前模拟大脑中的动作结果,并利用它来制定最佳计划。这使得即使在未知的环境中也可以采取适当的行动,而无需反复试验。 Sim2Real 是一种根据模拟结果连接现实世界中应采取的行动的技术,是数字孪生的人工智能版本。
Sim2Real 的代表性平台包括 NVIDIA 的“Isaac Sim”和“Omniverse”。这些系统可以根据物理定律忠实地再现重力、摩擦力、物体的弹性和光的反射等现象。在这个数字孪生环境中,机器人可以高速执行数百万次试验和错误(强化学习)。然后,在那里获得的技能将作为控制代码转移到实际的机器人中。
随着生成式人工智能的实际应用及其应用领域的扩大,白领工作正在迅速变得更加高效、取代,并变得更具附加值。另一方面,如果物理人工智能投入实际应用,应用范围扩大,蓝领职业的工作,特别是那些需要工匠精神、微调、灵活反应、热情好客的高技能人力资源所从事的工作,有可能会变得更加高效、被取代,并变得更具附加值(图4)。预计这将产生极大的影响,特别是在日本等技术工人短缺的国家。在这里,我们将介绍几个行业中预期的应用及其影响。
首先是制造和物流。日本的制造业和物流业的劳动力短缺现象日益明显,最基本、最频繁发生的任务,例如拾取物品并将其放置在指定位置(所谓的拾取和放置)正在成为降低生产率的因素。乍一看,这似乎是一项可以轻松实现自动化的简单任务,但很难应用传统的自动化方法,因为它需要根据要提升的物体的形状和位置进行灵活性。这使得这项工作变得劳动密集型。
它不仅适用于简单的任务。在制造业中,由于少子老龄化,高技能人才短缺问题日益突出。在许多情况下,资深技术人员退休后无法将其技能传授给下一代,从而使企业本身陷入危险。配备物理人工智能的机器人预计将被用作自动化劳动密集型任务的手段和传递高级技能的手段。这些新时代机器人的引入已经扩展到更广泛的生产线,将工厂生产线从“低品种、大批量生产”的刚性生产线转变为能够“多品种、多批量生产”的柔性单元,实现大规模定制,有效地生产符合客户要求的规格产品。它有可能彻底改变制造业。
此外,物理人工智能预计将应用于农业、建筑、医疗、护理和零售等行业,这些行业需要根据不同的目标和环境提供量身定制的工作和服务。农业、建筑等现场作业看似一遍又一遍地重复同样的工作,但为了提高工作质量和效率,现场往往需要进行细致的微调和个性化的应对。例如,被称为“水稻种植者”的敬业农民会评估每棵秧苗的生长状况和田地状况,并单独照顾每棵秧苗,例如控制水温和除草。配备物理人工智能的机器人将能够自动化并自主处理这些个人反应。此外,由于无需依赖人力资源,因此可以全年365天、每天24小时实时进行灵活工作。
另一方面,医疗、护理和零售行业为不同条件和需求的人们提供服务。这些行业是典型的手工服务行业,由于体力劳动,容易出现服务质量参差不齐、效率低下、服务提供受到限制的情况。因此,可以说,这些行业的服务提供是最值得期待物理AI运用的领域。
例如,如果使用配备物理人工智能的机器人来提供护理,不仅可以减轻护理人员的繁重劳动,还可以通过参考医疗数据库中的个人数据来提供最佳的护理。有些人可能认为温暖和人性化的服务对于护理来说很重要。然而,在现实中,被照顾者往往很难毫不犹豫地向照顾者寻求小额帮助。在老龄化社会中,护理对象可能会有更多机会在没有人为干预的情况下购物和进行其他活动。物理人工智能将成为在不久的将来需要的技术。同样,在医疗和零售环境中,在许多情况下,由于依赖人力,提供服务的机会受到限制。
物理人工智能的进化才刚刚开始。从这里开始,我们将介绍未来技术演进的方向(图5)。
首先,实现物理人工智能所必需的两项技术突破,即VLA模型和Sim2Real技术,需要进一步推进,以提高其多功能性和准确性。在物理AI的早期阶段,与生成式AI类似,幻觉(基于幻觉和妄想的错误输出)可能会频繁发生。由于物理世界是 VUCA 环境,这一点尤其正确。如果机器人或其他机器人做出错误的动作,降低其安全性和多功能性,则可能会导致重大损坏和损坏。为了解决这些问题,VLA模型正在取得进展,进化出集成语言、视觉和运动的大规模模型,并提高机器人处理物理世界中各种任务的能力。同时,Sim2Real技术加快了在虚拟世界中学习并在现实世界中验证的过程,并且正在加强研究以弥合模拟与现实之间的差距。
此外,技术开发正在进行中,以克服高技能人员的“灵巧性”障碍。将这项技术应用于制造和其他工作场所时,控制指尖、手腕和力量水平是一个障碍。这需要触觉传感及其所支持的软机器人技术的进步。这是因为,执行涉及接触(组装、抓取等)任务的机器人很难仅利用视力来掌握周围环境和工件的状态,因此必须集成先进触觉传感器的信息。
此外,技术的发展是为了提高人工智能代理在现实世界中学习和进化的能力,即提高其自主适应环境的能力。你在现实世界中行动时收集的各种数据越多,并经历学习、模拟和重新部署的循环,你的行动就会变得越熟练。这将需要传感器、执行器、实时推理和快速学习循环。
技术的发展和成熟也在进步,不仅允许一个机器人,而且允许多个机器人一起工作并有效地行动。其目的是建立一种技术,允许多个机器人创建并执行计划,根据情况将合适的人员分配到合适的地方,即使其中一个机器人发生意外情况,其他机器人也可以避免或协助。此外,在开发允许人类在同一空间中安全、准确、高效地共存和协作的技术方面正在取得进展。最新的研究还提出了协作智能系统,该系统可以理解人类的行为和意图并进行实时协作。
除了技术方面之外,还存在其他问题。社会和经济活动、工作方法、生活习惯等是在许多任务和职责将由人类执行的假设下创建的。法律体系、组织结构、商业模式等也是如此。随着配备物理人工智能的机器人在现实世界中的作用不断增强,重新定义社会、经济、工作和生活将变得必要。为了迎接自动驾驶汽车的推出,《道路交通法》的修正案已经在进行中。未来,在使用实体人工智能机器人的前提下,将制定法律体系,规定发生事故或损害时事故和损害的责任方、行为限制、隐私保护、责任追究等;公司内部将设立治理机构;将重新定义组织架构,以提高运营效率;此外,我们将努力培育和教育道德和文化,让人们做出最终决定,而不是过度依赖机器人。此外,很可能会创建和扩展各种新业务,例如针对机器人执行任务的非人寿保险。
物理 AI 是一种趋势,正在将 AI 从“数字智能”推向“在现场创造价值的智能”。随着平台模型和模拟(数字孪生)等基础技术的发展,促进制造、物流、建筑、农业和医药等“现实世界行业”的高度适应性和自主运营成为可能。
扩大应用范围的关键可能是综合设计,不仅包括人工智能模型的性能,还包括安全、操作和数据流通。如果我们能够克服这个问题,人工智能的使用将不仅限于数字空间,还将提高工作场所的生产力、安全性和可持续性,并对生活和社会产生重大影响。
日本是机器人产业的强国,传感器、电机、减速机等关键零部件占有率很高。如果我们不能赶上物理人工智能的趋势,我们可能会失去现有的优势。另一方面,如果你应对得当,你也许能够进一步拓展你的业务,扩大你的优势。当然,引领人工智能模型技术也很重要,人工智能模型是充当机器人大脑的软件。然而,为了在现实世界中发挥作用,硬件(身体)是必不可少的。日本的制胜策略可以说在于“整合能力”,将尖端人工智能与优质硬件相结合,运用到现场运营中。
伊藤元明(伊藤元明)
光线有限公司代表
在富士通担任工程师 3 年半导体开发经验,在 Nikkei Micro Devices、Nikkei Electronics、Nikkei BP Semiconductor Research 等公司担任记者/台/主编 12 年新闻工作,在 Techno Associates(Nikkei BP 与三菱公司的合资智库、Nikkei BP)担任顾问 6 年制造商业务支持
2014年,他独立成立了光线有限公司。该公司提供专门从事技术营销的支持服务,公司考虑并付诸实践如何向目标受众(主要是科技公司)准确传达技术的价值。