1. Test Until Green
适用场景:已有测试套件的代码修复。这个 loop 的核心不是让 agent 更努力,而是把“下一轮该不该继续”交给 测试命令 exit 0 这样的反馈门。触发器通常是 手动或 PR 更新,因此权限设计应贴合触发方式:手动触发可以保守试验,自动触发必须有更明确的日志和停止条件。
主要风险:agent 为了通过而跳过测试。一旦风险发生,表面上看可能仍然“通过了 gate”,但真实质量已经下降。模板必须显式写入 guardrail:不得删除、跳过、降低测试;最多 10 轮;失败重复时停下汇报。这类 guardrail 不应该只藏在团队口头约定里,而要进入可版本化配置,让每次运行都能读取。
落地建议:先用 dry-run 观察三到五次,记录 agent 修改了哪些文件、是否理解错误输出、是否尝试扩大范围。稳定后再把它变成 slash command、Cursor rule、Make target 或 CI 手动按钮。任何时候,只要 diff 过大、检查器被修改、失败重复、需要新权限,就应该停下并输出人工可读摘要。
2. Lint Until Clean
适用场景:团队规范统一、迁移后的清理。这个 loop 的核心不是让 agent 更努力,而是把“下一轮该不该继续”交给 lint/typecheck 无错误 这样的反馈门。触发器通常是 保存文件、提交前、手动,因此权限设计应贴合触发方式:手动触发可以保守试验,自动触发必须有更明确的日志和停止条件。
主要风险:批量重排引发大 diff。一旦风险发生,表面上看可能仍然“通过了 gate”,但真实质量已经下降。模板必须显式写入 guardrail:只改相关文件;自动格式化前先显示范围。这类 guardrail 不应该只藏在团队口头约定里,而要进入可版本化配置,让每次运行都能读取。
落地建议:先用 dry-run 观察三到五次,记录 agent 修改了哪些文件、是否理解错误输出、是否尝试扩大范围。稳定后再把它变成 slash command、Cursor rule、Make target 或 CI 手动按钮。任何时候,只要 diff 过大、检查器被修改、失败重复、需要新权限,就应该停下并输出人工可读摘要。
3. CI Failure Watcher
适用场景:长期分支和多人 PR。这个 loop 的核心不是让 agent 更努力,而是把“下一轮该不该继续”交给 最新 CI run success 这样的反馈门。触发器通常是 CI 失败或定时轮询,因此权限设计应贴合触发方式:手动触发可以保守试验,自动触发必须有更明确的日志和停止条件。
主要风险:频繁推送造成噪声。一旦风险发生,表面上看可能仍然“通过了 gate”,但真实质量已经下降。模板必须显式写入 guardrail:每轮只修一个根因;同类失败 3 次停止;PR 留摘要。这类 guardrail 不应该只藏在团队口头约定里,而要进入可版本化配置,让每次运行都能读取。
落地建议:先用 dry-run 观察三到五次,记录 agent 修改了哪些文件、是否理解错误输出、是否尝试扩大范围。稳定后再把它变成 slash command、Cursor rule、Make target 或 CI 手动按钮。任何时候,只要 diff 过大、检查器被修改、失败重复、需要新权限,就应该停下并输出人工可读摘要。
4. Deploy Verification
适用场景:Web 服务、Workers、Pages、API。这个 loop 的核心不是让 agent 更努力,而是把“下一轮该不该继续”交给 health/smoke endpoints 成功 这样的反馈门。触发器通常是 部署后,因此权限设计应贴合触发方式:手动触发可以保守试验,自动触发必须有更明确的日志和停止条件。
主要风险:误改生产配置。一旦风险发生,表面上看可能仍然“通过了 gate”,但真实质量已经下降。模板必须显式写入 guardrail:默认只读;生产改动需人工审批;保留回滚路径。这类 guardrail 不应该只藏在团队口头约定里,而要进入可版本化配置,让每次运行都能读取。
落地建议:先用 dry-run 观察三到五次,记录 agent 修改了哪些文件、是否理解错误输出、是否尝试扩大范围。稳定后再把它变成 slash command、Cursor rule、Make target 或 CI 手动按钮。任何时候,只要 diff 过大、检查器被修改、失败重复、需要新权限,就应该停下并输出人工可读摘要。
5. Security Audit Weekly
适用场景:依赖多、发布频繁的项目。这个 loop 的核心不是让 agent 更努力,而是把“下一轮该不该继续”交给 审计报告和 remediation plan 这样的反馈门。触发器通常是 每周定时,因此权限设计应贴合触发方式:手动触发可以保守试验,自动触发必须有更明确的日志和停止条件。
主要风险:自动升级依赖带来破坏性变更。一旦风险发生,表面上看可能仍然“通过了 gate”,但真实质量已经下降。模板必须显式写入 guardrail:自动 triage,不自动合并高风险修复;生成补丁 PR。这类 guardrail 不应该只藏在团队口头约定里,而要进入可版本化配置,让每次运行都能读取。
落地建议:先用 dry-run 观察三到五次,记录 agent 修改了哪些文件、是否理解错误输出、是否尝试扩大范围。稳定后再把它变成 slash command、Cursor rule、Make target 或 CI 手动按钮。任何时候,只要 diff 过大、检查器被修改、失败重复、需要新权限,就应该停下并输出人工可读摘要。
6. Spec-First Ship
适用场景:需求明确但步骤较多的功能。这个 loop 的核心不是让 agent 更努力,而是把“下一轮该不该继续”交给 spec checklist 全部完成且测试通过 这样的反馈门。触发器通常是 手动开始 feature,因此权限设计应贴合触发方式:手动触发可以保守试验,自动触发必须有更明确的日志和停止条件。
主要风险:一次实现多个需求导致范围膨胀。一旦风险发生,表面上看可能仍然“通过了 gate”,但真实质量已经下降。模板必须显式写入 guardrail:每轮只完成一个 unchecked item;完成后更新 spec。这类 guardrail 不应该只藏在团队口头约定里,而要进入可版本化配置,让每次运行都能读取。
落地建议:先用 dry-run 观察三到五次,记录 agent 修改了哪些文件、是否理解错误输出、是否尝试扩大范围。稳定后再把它变成 slash command、Cursor rule、Make target 或 CI 手动按钮。任何时候,只要 diff 过大、检查器被修改、失败重复、需要新权限,就应该停下并输出人工可读摘要。
7. Reflexion Debug Loop
适用场景:难以定位的边界 bug。这个 loop 的核心不是让 agent 更努力,而是把“下一轮该不该继续”交给 最小复现通过 这样的反馈门。触发器通常是 复现失败后,因此权限设计应贴合触发方式:手动触发可以保守试验,自动触发必须有更明确的日志和停止条件。
主要风险:反复尝试同一错误假设。一旦风险发生,表面上看可能仍然“通过了 gate”,但真实质量已经下降。模板必须显式写入 guardrail:每轮写一条短反思,下一轮必须读取并改变策略。这类 guardrail 不应该只藏在团队口头约定里,而要进入可版本化配置,让每次运行都能读取。
落地建议:先用 dry-run 观察三到五次,记录 agent 修改了哪些文件、是否理解错误输出、是否尝试扩大范围。稳定后再把它变成 slash command、Cursor rule、Make target 或 CI 手动按钮。任何时候,只要 diff 过大、检查器被修改、失败重复、需要新权限,就应该停下并输出人工可读摘要。
8. Visual Regression Until Match
适用场景:设计系统、营销页、关键路径 UI。这个 loop 的核心不是让 agent 更努力,而是把“下一轮该不该继续”交给 Playwright/Percy 视觉测试通过 这样的反馈门。触发器通常是 UI 变更后,因此权限设计应贴合触发方式:手动触发可以保守试验,自动触发必须有更明确的日志和停止条件。
主要风险:未经确认更新 baseline。一旦风险发生,表面上看可能仍然“通过了 gate”,但真实质量已经下降。模板必须显式写入 guardrail:baseline 变更必须附截图和人工确认。这类 guardrail 不应该只藏在团队口头约定里,而要进入可版本化配置,让每次运行都能读取。
落地建议:先用 dry-run 观察三到五次,记录 agent 修改了哪些文件、是否理解错误输出、是否尝试扩大范围。稳定后再把它变成 slash command、Cursor rule、Make target 或 CI 手动按钮。任何时候,只要 diff 过大、检查器被修改、失败重复、需要新权限,就应该停下并输出人工可读摘要。
9. Docs Drift Repair
适用场景:SDK、内部平台、开发者文档。这个 loop 的核心不是让 agent 更努力,而是把“下一轮该不该继续”交给 文档链接、示例和代码片段验证通过 这样的反馈门。触发器通常是 API/schema 变更后,因此权限设计应贴合触发方式:手动触发可以保守试验,自动触发必须有更明确的日志和停止条件。
主要风险:模型补写不真实 API。一旦风险发生,表面上看可能仍然“通过了 gate”,但真实质量已经下降。模板必须显式写入 guardrail:示例必须能运行;引用源码或测试;不得凭空写参数。这类 guardrail 不应该只藏在团队口头约定里,而要进入可版本化配置,让每次运行都能读取。
落地建议:先用 dry-run 观察三到五次,记录 agent 修改了哪些文件、是否理解错误输出、是否尝试扩大范围。稳定后再把它变成 slash command、Cursor rule、Make target 或 CI 手动按钮。任何时候,只要 diff 过大、检查器被修改、失败重复、需要新权限,就应该停下并输出人工可读摘要。
10. Issue Triage Loop
适用场景:开源项目和客服工程队列。这个 loop 的核心不是让 agent 更努力,而是把“下一轮该不该继续”交给 标签、复现状态、owner、下一步明确 这样的反馈门。触发器通常是 新 issue 或每日批处理,因此权限设计应贴合触发方式:手动触发可以保守试验,自动触发必须有更明确的日志和停止条件。
主要风险:误判优先级或关闭真实问题。一旦风险发生,表面上看可能仍然“通过了 gate”,但真实质量已经下降。模板必须显式写入 guardrail:只建议不关闭;高优先级需人工确认。这类 guardrail 不应该只藏在团队口头约定里,而要进入可版本化配置,让每次运行都能读取。
落地建议:先用 dry-run 观察三到五次,记录 agent 修改了哪些文件、是否理解错误输出、是否尝试扩大范围。稳定后再把它变成 slash command、Cursor rule、Make target 或 CI 手动按钮。任何时候,只要 diff 过大、检查器被修改、失败重复、需要新权限,就应该停下并输出人工可读摘要。
11. Research Synthesis Loop
适用场景:技术调研、竞品分析、投资备忘。这个 loop 的核心不是让 agent 更努力,而是把“下一轮该不该继续”交给 来源覆盖、引用完整、冲突观点列出 这样的反馈门。触发器通常是 资料清单或主题输入,因此权限设计应贴合触发方式:手动触发可以保守试验,自动触发必须有更明确的日志和停止条件。
主要风险:引用幻觉或过度概括。一旦风险发生,表面上看可能仍然“通过了 gate”,但真实质量已经下降。模板必须显式写入 guardrail:只用可点击来源;区分事实、推断和观点。这类 guardrail 不应该只藏在团队口头约定里,而要进入可版本化配置,让每次运行都能读取。
落地建议:先用 dry-run 观察三到五次,记录 agent 修改了哪些文件、是否理解错误输出、是否尝试扩大范围。稳定后再把它变成 slash command、Cursor rule、Make target 或 CI 手动按钮。任何时候,只要 diff 过大、检查器被修改、失败重复、需要新权限,就应该停下并输出人工可读摘要。
12. Cost Budget Loop
适用场景:所有自动或半自动 loop。这个 loop 的核心不是让 agent 更努力,而是把“下一轮该不该继续”交给 未超过 token/时间/CI/API 预算 这样的反馈门。触发器通常是 运行前和每轮后,因此权限设计应贴合触发方式:手动触发可以保守试验,自动触发必须有更明确的日志和停止条件。
主要风险:为了完成任务无限消耗。一旦风险发生,表面上看可能仍然“通过了 gate”,但真实质量已经下降。模板必须显式写入 guardrail:预算硬停止;输出剩余预算和完成概率。这类 guardrail 不应该只藏在团队口头约定里,而要进入可版本化配置,让每次运行都能读取。
落地建议:先用 dry-run 观察三到五次,记录 agent 修改了哪些文件、是否理解错误输出、是否尝试扩大范围。稳定后再把它变成 slash command、Cursor rule、Make target 或 CI 手动按钮。任何时候,只要 diff 过大、检查器被修改、失败重复、需要新权限,就应该停下并输出人工可读摘要。
工程质量:个人试用
以测试、lint、typecheck、build 为主,最适合从个人效率迁移到团队模板。只手动触发,不接触生产,不自动 push。目标是观察 agent 行为和失败模式。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 工程质量 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
工程质量:小组共享
以测试、lint、typecheck、build 为主,最适合从个人效率迁移到团队模板。把 prompt 改写成 spec,加入 owner、适用范围、检查命令和禁止事项。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 工程质量 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
工程质量:团队标准
以测试、lint、typecheck、build 为主,最适合从个人效率迁移到团队模板。进入仓库或开发者门户,和 CI、rules、hooks、issue tracker 连接。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 工程质量 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
工程质量:半自动运行
以测试、lint、typecheck、build 为主,最适合从个人效率迁移到团队模板。允许事件触发,但高风险动作进入审批;所有运行写入日志和指标。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 工程质量 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
工程质量:平台治理
以测试、lint、typecheck、build 为主,最适合从个人效率迁移到团队模板。按风险等级管理权限、预算、审计、复盘和停用策略。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 工程质量 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
前端体验:个人试用
以视觉回归、可访问性、响应式截图和关键路径 smoke 为 gate,需要人工确认设计意图。只手动触发,不接触生产,不自动 push。目标是观察 agent 行为和失败模式。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 前端体验 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
前端体验:小组共享
以视觉回归、可访问性、响应式截图和关键路径 smoke 为 gate,需要人工确认设计意图。把 prompt 改写成 spec,加入 owner、适用范围、检查命令和禁止事项。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 前端体验 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
前端体验:团队标准
以视觉回归、可访问性、响应式截图和关键路径 smoke 为 gate,需要人工确认设计意图。进入仓库或开发者门户,和 CI、rules、hooks、issue tracker 连接。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 前端体验 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
前端体验:半自动运行
以视觉回归、可访问性、响应式截图和关键路径 smoke 为 gate,需要人工确认设计意图。允许事件触发,但高风险动作进入审批;所有运行写入日志和指标。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 前端体验 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
前端体验:平台治理
以视觉回归、可访问性、响应式截图和关键路径 smoke 为 gate,需要人工确认设计意图。按风险等级管理权限、预算、审计、复盘和停用策略。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 前端体验 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
安全治理:个人试用
以依赖审计、静态扫描、secret 检查和供应链 provenance 为 gate,高风险修复应走审批。只手动触发,不接触生产,不自动 push。目标是观察 agent 行为和失败模式。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 安全治理 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
安全治理:小组共享
以依赖审计、静态扫描、secret 检查和供应链 provenance 为 gate,高风险修复应走审批。把 prompt 改写成 spec,加入 owner、适用范围、检查命令和禁止事项。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 安全治理 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
安全治理:团队标准
以依赖审计、静态扫描、secret 检查和供应链 provenance 为 gate,高风险修复应走审批。进入仓库或开发者门户,和 CI、rules、hooks、issue tracker 连接。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 安全治理 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
安全治理:半自动运行
以依赖审计、静态扫描、secret 检查和供应链 provenance 为 gate,高风险修复应走审批。允许事件触发,但高风险动作进入审批;所有运行写入日志和指标。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 安全治理 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
安全治理:平台治理
以依赖审计、静态扫描、secret 检查和供应链 provenance 为 gate,高风险修复应走审批。按风险等级管理权限、预算、审计、复盘和停用策略。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 安全治理 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
产品研究:个人试用
以来源覆盖、引用可点击、观点冲突和结论置信度为 gate,不能把模型总结当事实。只手动触发,不接触生产,不自动 push。目标是观察 agent 行为和失败模式。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 产品研究 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
产品研究:小组共享
以来源覆盖、引用可点击、观点冲突和结论置信度为 gate,不能把模型总结当事实。把 prompt 改写成 spec,加入 owner、适用范围、检查命令和禁止事项。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 产品研究 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
产品研究:团队标准
以来源覆盖、引用可点击、观点冲突和结论置信度为 gate,不能把模型总结当事实。进入仓库或开发者门户,和 CI、rules、hooks、issue tracker 连接。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 产品研究 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
产品研究:半自动运行
以来源覆盖、引用可点击、观点冲突和结论置信度为 gate,不能把模型总结当事实。允许事件触发,但高风险动作进入审批;所有运行写入日志和指标。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 产品研究 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
产品研究:平台治理
以来源覆盖、引用可点击、观点冲突和结论置信度为 gate,不能把模型总结当事实。按风险等级管理权限、预算、审计、复盘和停用策略。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 产品研究 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
数据分析:个人试用
以 SQL 可运行、口径一致、样本检查、异常解释和图表复现为 gate,必须保护敏感数据。只手动触发,不接触生产,不自动 push。目标是观察 agent 行为和失败模式。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 数据分析 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
数据分析:小组共享
以 SQL 可运行、口径一致、样本检查、异常解释和图表复现为 gate,必须保护敏感数据。把 prompt 改写成 spec,加入 owner、适用范围、检查命令和禁止事项。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 数据分析 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
数据分析:团队标准
以 SQL 可运行、口径一致、样本检查、异常解释和图表复现为 gate,必须保护敏感数据。进入仓库或开发者门户,和 CI、rules、hooks、issue tracker 连接。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 数据分析 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
数据分析:半自动运行
以 SQL 可运行、口径一致、样本检查、异常解释和图表复现为 gate,必须保护敏感数据。允许事件触发,但高风险动作进入审批;所有运行写入日志和指标。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 数据分析 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
数据分析:平台治理
以 SQL 可运行、口径一致、样本检查、异常解释和图表复现为 gate,必须保护敏感数据。按风险等级管理权限、预算、审计、复盘和停用策略。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 数据分析 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
客户运营:个人试用
以分类准确、回复模板、升级规则和人工确认为 gate,不能让 agent 自动承诺业务条款。只手动触发,不接触生产,不自动 push。目标是观察 agent 行为和失败模式。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 客户运营 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
客户运营:小组共享
以分类准确、回复模板、升级规则和人工确认为 gate,不能让 agent 自动承诺业务条款。把 prompt 改写成 spec,加入 owner、适用范围、检查命令和禁止事项。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 客户运营 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
客户运营:团队标准
以分类准确、回复模板、升级规则和人工确认为 gate,不能让 agent 自动承诺业务条款。进入仓库或开发者门户,和 CI、rules、hooks、issue tracker 连接。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 客户运营 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
客户运营:半自动运行
以分类准确、回复模板、升级规则和人工确认为 gate,不能让 agent 自动承诺业务条款。允许事件触发,但高风险动作进入审批;所有运行写入日志和指标。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 客户运营 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
客户运营:平台治理
以分类准确、回复模板、升级规则和人工确认为 gate,不能让 agent 自动承诺业务条款。按风险等级管理权限、预算、审计、复盘和停用策略。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 客户运营 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
知识管理:个人试用
以链接有效、版本更新、重复合并和引用来源为 gate,适合做定期维护 loop。只手动触发,不接触生产,不自动 push。目标是观察 agent 行为和失败模式。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 知识管理 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
知识管理:小组共享
以链接有效、版本更新、重复合并和引用来源为 gate,适合做定期维护 loop。把 prompt 改写成 spec,加入 owner、适用范围、检查命令和禁止事项。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 知识管理 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
知识管理:团队标准
以链接有效、版本更新、重复合并和引用来源为 gate,适合做定期维护 loop。进入仓库或开发者门户,和 CI、rules、hooks、issue tracker 连接。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 知识管理 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
知识管理:半自动运行
以链接有效、版本更新、重复合并和引用来源为 gate,适合做定期维护 loop。允许事件触发,但高风险动作进入审批;所有运行写入日志和指标。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 知识管理 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
知识管理:平台治理
以链接有效、版本更新、重复合并和引用来源为 gate,适合做定期维护 loop。按风险等级管理权限、预算、审计、复盘和停用策略。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 知识管理 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
投资研究:个人试用
以原始公告、财报口径、假设表、反方论点和风险清单为 gate,必须区分事实和推断。只手动触发,不接触生产,不自动 push。目标是观察 agent 行为和失败模式。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 投资研究 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
投资研究:小组共享
以原始公告、财报口径、假设表、反方论点和风险清单为 gate,必须区分事实和推断。把 prompt 改写成 spec,加入 owner、适用范围、检查命令和禁止事项。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 投资研究 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
投资研究:团队标准
以原始公告、财报口径、假设表、反方论点和风险清单为 gate,必须区分事实和推断。进入仓库或开发者门户,和 CI、rules、hooks、issue tracker 连接。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 投资研究 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
投资研究:半自动运行
以原始公告、财报口径、假设表、反方论点和风险清单为 gate,必须区分事实和推断。允许事件触发,但高风险动作进入审批;所有运行写入日志和指标。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 投资研究 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
投资研究:平台治理
以原始公告、财报口径、假设表、反方论点和风险清单为 gate,必须区分事实和推断。按风险等级管理权限、预算、审计、复盘和停用策略。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 投资研究 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
教学培训:个人试用
以学习目标、练习验证、反馈记录和安全边界为 gate,适合生成材料但不替代教师判断。只手动触发,不接触生产,不自动 push。目标是观察 agent 行为和失败模式。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 教学培训 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
教学培训:小组共享
以学习目标、练习验证、反馈记录和安全边界为 gate,适合生成材料但不替代教师判断。把 prompt 改写成 spec,加入 owner、适用范围、检查命令和禁止事项。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 教学培训 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
教学培训:团队标准
以学习目标、练习验证、反馈记录和安全边界为 gate,适合生成材料但不替代教师判断。进入仓库或开发者门户,和 CI、rules、hooks、issue tracker 连接。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 教学培训 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
教学培训:半自动运行
以学习目标、练习验证、反馈记录和安全边界为 gate,适合生成材料但不替代教师判断。允许事件触发,但高风险动作进入审批;所有运行写入日志和指标。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 教学培训 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
教学培训:平台治理
以学习目标、练习验证、反馈记录和安全边界为 gate,适合生成材料但不替代教师判断。按风险等级管理权限、预算、审计、复盘和停用策略。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 教学培训 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
平台工程:个人试用
以模板复用、权限策略、trace、成本 dashboard 和审批队列为 gate,是组织级 loop 的承载层。只手动触发,不接触生产,不自动 push。目标是观察 agent 行为和失败模式。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 平台工程 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
平台工程:小组共享
以模板复用、权限策略、trace、成本 dashboard 和审批队列为 gate,是组织级 loop 的承载层。把 prompt 改写成 spec,加入 owner、适用范围、检查命令和禁止事项。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 平台工程 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
平台工程:团队标准
以模板复用、权限策略、trace、成本 dashboard 和审批队列为 gate,是组织级 loop 的承载层。进入仓库或开发者门户,和 CI、rules、hooks、issue tracker 连接。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 平台工程 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
平台工程:半自动运行
以模板复用、权限策略、trace、成本 dashboard 和审批队列为 gate,是组织级 loop 的承载层。允许事件触发,但高风险动作进入审批;所有运行写入日志和指标。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 平台工程 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。
平台工程:平台治理
以模板复用、权限策略、trace、成本 dashboard 和审批队列为 gate,是组织级 loop 的承载层。按风险等级管理权限、预算、审计、复盘和停用策略。在这个阶段,最重要的不是把所有步骤都自动化,而是把 loop 的目标、状态、检查和升级写清楚。对 平台工程 来说,推荐先选择一个能被机器或明确 rubric 判断的小任务,记录至少十次运行结果,再决定是否扩大触发范围。
如果运行中出现三类信号,就应当降低自动化等级:第一,agent 需要解释业务判断但缺少来源;第二,agent 试图修改 gate 或绕过权限;第三,成本、耗时或 diff 大小明显高于人工预期。成熟做法是把这些信号写入模板,让下一次运行在同样条件下自动停下。