约束层:权限、沙箱和风险分级
约束层决定 Agent 能做什么、什么时候需要确认、失败后如何回滚。它比“信任模型”更可靠。
- 观察:读文件、搜索、截图、请求公开网页。
- 修改:写代码、生成文件、格式化。
- 发布:部署、发消息、交易、修改账号设置。
- 给每类工具标注风险。
- 高风险操作写入人工确认点。
- 所有写操作都要可追踪。
- 生产操作必须有回滚方案。
把“本地运行”误认为没有风险。本地 Agent 同样可能删除文件、泄露日志或误改配置。
约束层决定 Agent 能做什么、什么时候需要确认、失败后如何回滚。它比“信任模型”更可靠。
把“本地运行”误认为没有风险。本地 Agent 同样可能删除文件、泄露日志或误改配置。