LAM – 微软推出的大型行动模型，能自主操作Windows程序-爱论文

LAM是什么

LAM是微软推出的名为“Large Action Model”（简称 LAM）的新人工智能模型。与传统语言模型不同，LAM能够自主操作Windows程序，实现真实任务执行。能理解文本，将用户请求转化为具体行动，如启动程序或控制设备。 LAM是首个专门与Microsoft Office产品和其他Windows应用协同工作的模型。在Word环境中的测试显示，LAM完成任务的成功率为71%，高于GPT-4的63%，执行速度更快。

LAM的主要功能

用户意图解读：LAM能从多种输入形式（如自然语言、语音、图像等）中准确理解用户的意图，将其转化为可执行的计划和行动步骤。行动生成：LAM将用户意图转化为具体的行动指令，行动可能包括图形用户界面（GUI）操作、API调用、机器人物理操作等。动态规划与适应：LAM能将复杂任务分解为多个子任务，根据环境变化动态调整计划和行动，应对执行过程中的意外情况。专业化与效率：针对特定环境或任务，LAM基于专业化训练，提高在特定领域的准确性和适应性，同时减少计算开销，提升响应速度。环境交互：LAM与代理系统集成，能与外部工具互动，维持记忆，并与环境进行接**互，实现对物理世界的实际影响。自主执行：LAM能够自主执行任务，包括理解任务、规划行动步骤、执行行动，并根据反馈进行调整。自动化软件任务：LAM可以执行文档编辑、数据录入和表格处理等办公自动化任务。

LAM的技术原理

多模态输入理解：LAM能解读自然语言请求、语音命令、图像或视频等多样化输入，理解用户的意图。数据收集与准备：LAM的训练基于收集用户请求、环境状态和对应行动的数据，这些数据经过清洗和预处理，为模型训练提供基础。模型训练：使用收集的数据，基于监督式微调、强化学习等技术，训练LAM执行特定行动。环境集成：将训练好的LAM集成到代理系统中，与环境互动，包括收集观察数据、使用工具、维持记忆和实施反馈循环。评估：在实际部署前，对LAM进行严格的可靠性、鲁棒性和安全性评估，确保在不同环境和任务中的表现，并有效处理意外情况。

LAM的应用场景

自动化软件任务：LAM可以执行文档编辑、数据录入和表格处理等办公自动化任务，提高工作效率。智能家居管理：LAM能控制智能家居设备，如调节灯光、温度和安全监控，为用户提供更加智能化的居住环境。客户服务与支持：基于聊天机器人提供实时帮助和技术支持，LAM可以自动诊断问题并提供解决方案，改善客户体验。电子商务：LAM可以自动化在线购物流程，包括产品搜索、下单和支付处理，为用户提供便捷的购物体验。教育与培训：作为虚拟助教，LAM提供个性化学习计划和教学内容，增强教育的互动性和个性化。