JavaScript 已停用。
必须启用 JavaScript 才能使用本网站的所有功能。

提交者

科学报告: 科学报告

最前沿的“人工智能代理”，自主执行任务以实现目标

作者：伊藤元明: 2026.03.04

自 2022 年底推出“ChatGPT”以来，“AI”的使用在日常生活和商业环境中迅速发展。撰写电子邮件、总结材料、协助编程。许多商人开始充分利用人工智能作为一种“有用的工具”。然而，现在人工智能的使用已经进入了一个新的水平。人工智能曾经是一个只对指令做出反应的“工具”，现在已经发展成为生活和商业中自主决策并完成目标的“伙伴（代理）”。

从“一问一答”到“共同目标”

到目前为止，无论生成式 AI 多么先进，AI 的使用方式都是与用户进行“问答”交流（图 1）。如果你发出指令（提示）“总结昨天的会议记录”，AI就会做出回应。在人工智能和用户之间的这种关系中，决定“下一步做什么”的主动权和决定权始终掌握在人类用户手中。

AI曾经是一种根据指令移动的“工具”，现在已经进化成为一个自主朝着目标移动的“伙伴（代理）” — [图1]人工智能曾经是根据指令移动的“工具”，现已演变为自主朝着目标移动的“伙伴（代理）”

创建者：Motoaki Ito（使用 Google 一代 AI“Nano Banana Pro”）

另一方面，目前备受关注的“AI代理”则完全不同。用户提供给AI的并不是详细的指令，而是AI要实现的“目标”。如果你告诉他们，“下个月，我想举办一次网络研讨会，向制造业客户介绍最新的 DX 示例。请完成提案的准备、潜在演讲者名单以及电子邮件预订以吸引客户”，AI代理将研究互联网上的最新示例，参考公司内部过去的成功案例，并在必要时操作外部API（应用程序接口）来创建电子邮件草稿。与传统人工智能最大的区别在于，它具有“思考→规划→执行→评估”的自主工作循环（代理工作流程）。

支持人工智能代理进化的基本技术

为了实现人工智能代理并将其发展到更高水平，不仅需要简单地提高人工智能模型的性能，还需要集成和成熟多种基础技术。具体来说，需要整合“认知/推理/规划”、“记忆/知识管理”、“行动/执行”和“自主/元认知”四种基本的人工智能技术（图2）。

[图2]实现和推进人工智能代理的基本技术

创建者：Motoaki Ito（使用 Google 一代 AI“Nano Banana Pro”）

AI 执行相当于认知、推理和规划的功能，首先使用大规模语言模型 (LLM) 来理解目的，然后掌握并洞察针对给定目的的“现在正在发生什么”和“下一步要做什么”。将抽象目标分解为具体的小任务，例如“先做 A，然后检查 B。如果不起作用，再做 C”。人工智能会自己创建一个“待办事项列表”，确定优先级并制定长期计划。如果情况发生变化，您还需要能够重新计划。现代人工智能模型（例如 OpenAI 的 o1 系列）现在在给出答案之前会采取“思维链”步骤。这极大地提高了复杂数学推理和长期项目管理的准确性，而这在以前是很困难的。此外，到目前为止，人工智能主要处理文本，但最新的人工智能代理现在可以集成和利用来自眼睛（相机/屏幕识别）和耳朵（语音识别）的信息。

人工智能执行相当于记忆和知识管理的功能，充当积累经验的“知识库”。它同时使用短期记忆（记住过去的对话内容）和长期记忆（RAG技术等），让您可以参考公司大量的手册和专业知识。这使得根据对话的上下文做出决策成为可能。还需要组织重要性、管理遗忘、不断学习知识、整合新知识以及解决与现有知识不一致的功能。

AI负责相当于行动和执行的功能，操作浏览器检查信息，操作Excel等应用软件进行计算，并使用商务聊天和其他工具向人类发送消息。当通过API（应用程序之间的连接）等使用数字世界中的各种工具时，需要适当判断何时以及如何使用每个工具，并控制每个工具的使用。此外，还需要有在发生故障时考虑恢复的能力。近年来，出现了学习计算机操作（动作）的称为“大型动作模型（LAM）”的模型。这项技术允许用户通过观看操作人员的视频来学习如何在网站上填写预订表格并操作复杂的业务系统。因此，人工智能可操作的应用范围正在爆炸性扩展。

AI具有相当于自主和元认知的功能，在采取行动后观察现实世界和虚拟世界的状态，评估行动的结果，并自主地将结果反映到下一步行动中。特别是，有必要意识到不确定性和局限性，并在必要时灵活地改变政策和行动策略。此外，根据动作的结果，可以调整AI模型的学习条件，以实现更有效的学习。

通过多智能体协作扩展应用场景，提高安全性和可靠性

以上是实现AI代理的基本要素技术，但为了处理更复杂、更大规模的任务，扩大应用范围，可以结合使用其他要素技术。

在某些情况下，人工智能代理的使用方式是赋予它们与合作性和社交性相对应的功能。多个人工智能代理可以协同使用来划分角色，与人类协作专注于每个代理擅长的任务，并解决指令中的歧义。多智能体合作需要适当的分工、协商和建立共识的技术，估计其他智能体意图的技术，以及在竞争和合作环境中形成策略的技术。与人类的协作需要技术来解释来自背景信息的模糊指令，需要技术来解释代理的行为意图，以及技术来建立信任和实现干预。人们越来越有动力引入一种系统，在该系统中，可以在正确的地方使用“规划代理”、“调查代理”和“校对代理”等多个“专业人工智能代理”，并协同工作，以自我纠正的方式提高输出质量，而不是创建一个单一的“通用人工智能代理”。

此外，当执行涉及人类生命或财产的工作时，有必要使用功能来提高安全性和可靠性。有了这些能力，AI代理的应用范围可以进一步扩大。提高安全性和可靠性的具体方法包括检测偏离特定条件的行为并在必要时停止的功能、权限管理和沙箱功能以及防止目标意外优化等。此外，还需要技术来对代理行为进行基准测试、评估长期任务的性能以及将故障案例系统化。

工业/AI带来的“革命性”愿景

通过利用人工智能代理，我们开始看到为各行业的企业创造新价值的可能性。例如，在金融行业，实现“24小时专职基金经理”，能够察觉市场的突然变化并自主重新安排投资组合正在成为现实。此外，在零售行业，“自主店长”的引入正在取得进展，人工智能不仅会检查顾客过去的购买数据，还会检查当天的天气和SNS趋势，让他们自己完成从补充库存到发布SNS广告的所有事情。其中，预计制造业的变化最为显着。在这里，我想以制造业为例，更深入地探讨一下传统人工智能和人工智能代理之间会发生什么变化，并假设一个具体的图景（图3）。

将人工智能代理引入制造业等企业创造的新价值 — [图3]将AI代理引入制造业等业务创造的新价值

创建者：Motoaki Ito（使用 Google 一代 AI“Nano Banana Pro”）

应用示例1：实现永不停止的工厂

到目前为止，人工智能在制造现场的作用一直围绕“异常检测”。一个典型的例子就是所谓的“预测性维护”。通过分析传感器数据，将“电机可能在一周内出现故障”等维护信息发送给管理员（警报）。这个想法是让管理者在故障真正发生之前主动处理它们。通过引入人工智能代理，如果检测到故障迹象，人工智能将能够自主执行以下步骤。首先，我们检查内部库存并自动订购替换零件。根据零件的预计到达时间，将维护工作安排在生产效率降低最少的时间。然后，系统向维护人员的可穿戴设备发送一条指令，说：“请在下午 3:00 使用此程序更换部件。”今天，”以及必要的手册。在这个应对过程中，人类所做的唯一工作就是“批准”人工智能制定的计划。通过让人工智能作为“肢体”四处移动，可以最大限度地减少停机时间（操作停止的时间）。

应用示例2：供应链“自我优化”

困扰现代制造业的是自然灾害和地缘政治风险导致的供应网络中断。在这里，人工智能代理再次展示了远远超过传统“预测工具”的力量。例如，假设有消息称海外主要港口发生罢工。 AI代理立即获取消息并计算对公司物流路线的影响。在人类掌握情况之前，机器人可以提出“确保替代运输路线”或“重新安排生产订单以弥补零部件短缺”，甚至在预先设定的权限范围内实施。以前依靠资深员工的经验和直觉进行故障排除，现在将由人工智能基于实时数据以全公司范围内的优化方式进行处理。

应用示例3：“自主响应”多样化需求

制造业中有一种新的商业模式，称为“大规模定制”，即为每个客户生产不同规格的产品。然而，在实施过程中，制造工艺的复杂性成为不可避免的问题。传统系统每次生产项目发生变化时都需要人工重新编程生产线。配备人工智能代理的机器人将能够理解模糊的口头或文本指令，例如“下次，制造符合这些规格的产品”，并且能够生成和调整自己的操作程序。这将极大地提高多品种、小批量生产的成本和速度，制造业将从单纯的“制造”转变为为每个客户量身定制的“服务”。

在制造业中使用人工智能代理的挑战

到目前为止提到的使用人工智能代理的所有未来愿景都非常有吸引力。然而，这并不意味着即使人工智能技术进步，明天就会成为现实。从实践的角度来看，实现的几个主要挑战和障碍变得显而易见（图 4）。

阻止使用 AI 代理的墙 — [图4]阻止使用AI代理的墙

创建者：Motoaki Ito（使用 Google 一代 AI“Nano Banana Pro”）

第一堵墙是“治理墙”。随着人工智能自主决策和行动，责任变得无形。到目前为止，软件仅根据人类输入运行。然而，人工智能代理会自主选择他们的行动方针以实现他们的目标。如果AI以“降低成本”为目标，任意取消与长期合作伙伴的合同，谁来负责？或者说，如果因为AI判断失误而出现大规模错单，到底是系统部门的责任，还是给AI下达目标的业务部门的责任？为了防止此类问题的出现，实践中需要严格界定赋予人工智能的“权限范围（沙箱）”。制定“10万日元或以下的订单将自动执行，超过该金额的订单将由人类批准”等规则至关重要，并引入“可解释的人工智能（XAI）”来可视化人工智能的思维过程。除了技术之外，还需要建立组织的道德规范和法律护栏。

第二堵墙是“安全和隐私墙”。人工智能代理将可以访问各种数据，包括电子邮件、日程安排、内部数据库，甚至外部网络服务，以展示其能力。这意味着它成为网络攻击者的完美目标，他们只需劫持一个人工智能即可访问组织的所有信息。特别值得关注的是一种称为“即时注入”的攻击。通过让外部方将精心设计的指令读入人工智能，人工智能可能会被操纵，向外部方发送机密信息或进行欺诈性汇款。此外，当人工智能与外部工具自主协作时，人们担心客户的个人信息可能会作为学习数据而无意中泄露。从业者将面临“人工智能行动越自主，监管就越复杂”的矛盾挑战。

第三堵墙是“实施和投资回报率墙”。为了让人工智能代理充当用户的手脚，它必须能够与内部核心系统和旧数据库顺利协作。然而，许多日本公司的系统都很复杂，人工智能无法轻松访问。准备这些数据的成本是巨大的，并且需要时间才能看到明显的结果。此外，当地的心理阻力也不容忽视。在那些根深蒂固的文化中，自动执行自己任务的人工智能被视为“窃取工作的敌人”而不是“可靠的伙伴”，引入的人工智能系统就变成了一个空壳。人工智能代理的引入不仅仅是一次 IT 更新，还必须被视为一种“组织转型 (DX)”，从根本上重写业务流程和员工思维方式。

用户通过人工智能致富所需的“重新技能”和“思维”

如果人工智能代理用于生活和商业中的各种目的，工作和商业的效率和质量将大幅提高。但另一方面，也存在一种风险，即我们长期以来视为美德的“用手完成任务”的技能价值将相对缩水。为了最大限度地发挥人工智能的有效性，有必要重新定义人类（用户）执行任务的方式及其价值。可以说，我们将被迫将我们的技能从“工人”转变为“编排者”，将多个AI代理聚集在一起以产生结果。为了适应这个时代，用户似乎有必要培养以下三项技能（图5）。

物理 AI 演进路线图 — [图5]用户有效利用AI代理所需的三项技能

创建者：Motoaki Ito（使用 Google 一代 AI“Nano Banana Pro”）

技能1：获取“AI管理技能”

无需编程或记忆复杂公式即可使用人工智能代理。最重要的技能是适当有效地处理人工智能的管理能力，这是一个“优秀但过于忠诚的下属”。人工智能无法自行决定做什么。用户需要有能力将“他们想要实现什么”和“为什么有必要”等抽象愿景转化为人工智能可以解释的具体目标（目标设定能力）。它还需要能够将粗略的目标分解为人工智能可以执行的步骤，并设计哪些部分应该留给人工智能，哪些部分应该由人类检查（业务流程编辑技能）。此外，“编辑”的权力（批判性修改的权力）不仅要从表面上接受人工智能的输出，还要冷静地判断它是否逻辑一致、道德适当、是否符合公司品牌，并指导修改。

技能2：回归人性

人工智能掌握的逻辑和效率越多，只有人类才能做的事情就会变得更加稀有和有价值。效率提高节省的时间可能需要重新投入到与人工智能协作的重新技能培训中。首先，通过感知他人的情绪并进行真诚的对话来培养同理心和热情好客。这是人工智能在财务咨询、零售客户服务以及与制造业客户建立深厚信任方面永远无法获得的技能。其次是基于“数据是正确的，但从社会角度来看是否真诚？”等伦理判断做出决策的技能以及“超越理性的感动”的直觉。这些是人类作为人类进行社会活动的“最后堡垒”。人工智能将用于提高工作效率和质量，而人类将为他们所执行的工作和任务创造意义和价值。这种角色分工将使业务变得更加人性化和丰富。

技能 3：学习敏捷并控制风险

假设有效使用人工智能代理需要重新定义用户行为和工作，那么在应用人工智能时似乎有必要从小规模（小规模试验）开始。这是因为人类无法像人工智能那样突然改变自己的工作方式或改变自己的价值观。如果你开始将它应用到日常生活中的小项目和琐碎任务中，即使人工智能判断失误，也不会是致命的。从这些失败中学习“如何向AI发出指令”和“管理要点”（学习循环）是最大的风险对冲。小的胜利可以缓解组织内部的心理阻力。人工智能不是敌人而是盟友，让事情变得更容易，这种感觉的积累将加速人工智能的有效利用。

重要的是，不仅是 AI 代理，还有用户共同成长。这样，人工智能代理将扩展我们的能力，成为我们未来生活和事业中不可或缺的伴侣。

#tag

作家

伊藤元明（伊藤元明）

光线有限公司代表

在富士通担任工程师 3 年半导体开发经验，在 Nikkei Micro Devices、Nikkei Electronics、Nikkei BP Semiconductor Research 等公司担任记者/台/主编 12 年新闻工作，在 Techno Associates（日经 BP 与三菱商事株式会社、Nikkei BP 的合资智库）担任顾问 6 年为制造商业务提供支持

2014年，他独立成立了光线有限公司。该公司提供专门从事技术营销的支持服务，公司考虑并付诸实践如何向目标受众（主要是科技公司）准确传达技术的价值。

网址：http://wwwenlight-inccojp/

我也想读

科学报告

新文章

阅读最多的文章

加载中

我也想读

加载中

分享！