twg2020 发布的文章

AI时代的代码架构：如何设计让AI更好编程的系统

作者: twg2020
时间: 2026-02-15
分类: 技术
评论

AI时代的代码架构：如何设计让AI更好编程的系统

前言

在探索Claude Code辅助编程的过程中，我逐渐意识到一个核心问题：传统的软件架构设计思想，可能并不适合AI时代。

传统工程学追求代码复用、模块化、可维护性——这些当然重要。但在AI能够快速生成大量代码的今天，我认为代码本身变得cheap了，真正昂贵的是AI的注意力。

基于这个核心洞察，我设计了一套专门为AI编程优化的架构方案。本文将详细阐述这个架构的思想、设计原则和最佳实践。

核心洞察：代码是Cheap的

传统时代的成本结构

在传统软件开发中：

编写代码：昂贵（需要资深工程师、耗时）
复制代码：廉价（Ctrl+C/Ctrl+V）
维护代码：昂贵（理解成本、耦合风险）

所以传统工程学强调：

✅ DRY原则（Don't Repeat Yourself）
✅ 代码复用
✅ 统一抽象
✅ 提前设计（过度设计）

AI时代的成本结构

在AI辅助编程中：

代码是cheap的：AI生成代码极快（几秒钟生成几百行）
module随时可以替换：没搞好就再做一个，代价很低
完全不需要提前过度设计：让实际需求驱动架构演化
AI的上下文窗口：昂贵（有限的注意力）
AI理解复杂系统：困难（容易遗漏细节）

新的成本函数：

总成本 = AI生成代码的时间（低）
       + 人类review的时间（中）
       + AI修改迭代的时间（高）
       + 系统复杂度导致的AI错误率（极高）

结论：在AI时代，应该牺牲代码复用来换取AI注意力的聚焦。

深入理解：为什么要牺牲代码复用？

让我用具体例子说明这个观点。

传统方式：追求代码复用

场景：统一错误处理

// include/common/error.h
typedef struct {
    int code;
    char message[256];
    void* context;      // 通用的上下文
    int context_size;
} Error;

void error_handle(Error* err);  // 超级通用的错误处理

// 所有module都用这个Error
void network_send(Network* self, const char* data) {
    if (send_failed) {
        Error err = {
            .code = ERR_NETWORK,
            .context = self->internal_state,
            .context_size = sizeof(self->internal_state)
        };
        error_handle(&err);  // 复用通用处理
    }
}

传统优势：

✅ 只写一次错误处理逻辑
✅ 统一的错误格式
✅ 易于维护

传统成本：

需要设计"万能"的Error结构
需要考虑所有使用场景
人类工程师能理解这个复杂抽象

AI时代的问题

让AI写network_send时：

AI的思维过程：
1. 需要处理错误
2. 用Error结构
3. Error有哪些字段？code、message、context、context_size...
4. context是什么类型？void*？
5. 需要设置context_size吗？多大？
6. 有初始化函数吗？
7. 错误码是多少？
8. 要检查NULL吗？
...（AI注意力被分散到10个细节上）

AI实际生成（很可能出错）：

void network_send(Network* self, const char* data) {
    if (send_failed) {
        Error err;  // ❌ 忘记初始化
        err.code = 1000;
        strcpy(err.message, "send failed");  // ❌ 忘记检查长度
        // ❌ 忘记设置context
        error_handle(&err);  // ❌ 可能段错误
    }
}

问题：AI注意力被分散到Error结构的细节上，核心逻辑反而出错。

AI方式：牺牲代码复用

// 不设计通用的Error结构

// src/network/impl.c
void network_send(Network* self, const char* data) {
    if (send_failed) {
        // 简单直接，网络模块自己的错误处理
        fprintf(stderr, "[network] send failed: %s\n", strerror(errno));
        if (self->error_callback) {
            self->error_callback("send failed");
        }
    }
}

// src/storage/impl.c
void storage_write(Storage* self, const char* data) {
    if (write_failed) {
        // 存储模块自己的错误处理（完全不同）
        fprintf(stderr, "[storage] write failed: %s\n", strerror(errno));
        if (self->retry_count < 3) {
            self->retry_count++;
            storage_write(self, data);  // 自己的重试逻辑
        }
    }
}

AI生成这个：

AI的思维过程：
1. 需要处理错误
2. fprintf打印
3. 调用回调（如果有）
4. 完成

AI只需要关注3个细节，专注度高！

成本对比

传统方式（追求复用）：

设计通用Error：4小时
AI出错率：30%
人类review：每个module 30分钟
修复时间：20分钟 × 3轮 = 60分钟

10个module总成本：4 + 15 = 19小时

AI方式（牺牲复用）：

设计通用Error：0小时
AI出错率：5%
人类review：每个module 5分钟
修复时间：5分钟 × 1轮 = 5分钟

10个module总成本：0 + 1.6 = 1.6小时

代码重复：每个module都写fprintf（但没关系！）

节省时间：17小时！

"牺牲代码复用"的真正含义

不是：

❌ 随意复制粘贴
❌ 不做任何抽象
❌ 写烂代码

而是：

✅ 用代码重复换取逻辑简单
✅ 用更多代码行换取AI理解成本低
✅ 用手工维护换取AI出错率低

类比

这就像：

传统时代（手工制作家具）：

用精密的模具（通用抽象）
一次设计，批量生产
成本：设计贵，生产便宜

AI时代（3D打印）：

不需要精密模具
每个产品单独打印
成本：设计便宜，生产也便宜
宁愿多打印几次，也不设计复杂模具

架构设计：依赖倒置 + 零循环依赖

设计目标

零循环依赖：AI不需要理解复杂的依赖关系
清晰的边界：每个模块的职责单一明确
可组合性：像搭积木一样组装复杂系统
可测试性：每个模块可以独立测试

目录结构设计

project/
├── include/              # 公共接口层（零依赖区）
│   ├── common_types.h   # POD数据结构
│   ├── logger.h         # 抽象接口
│   ├── network.h
│   ├── storage.h
│   └── ...
├── src/                 # 实现层
│   ├── logger/          # 实现logger.h
│   │   ├── impl.c
│   │   └── internal.h
│   ├── network/
│   └── storage/
└── api.h                # 唯一对外头文件

依赖关系图

         ┌─────────────────┐
         │     api.h       │  ← 最底层（对外窗口）
         │   (组合接口)     │
         └────────┬─────────┘
                  ↑ 依赖
         ┌────────┴─────────┐
         │    include/      │  ← 第二层（抽象接口层）
         │  - POD数据结构    │
         │  - 抽象接口定义   │
         └────────┬─────────┘
                  ↑ 依赖
         ┌────────┴─────────┐
         │   src/module*/   │  ← 第三层（实现层）
         └──────────────────┘

关键约束：

✅ include/*.h 绝对禁止互相包含
✅ src/module*/ 只依赖include/，不能依赖其他module
✅ api.h 组合需要的接口对外暴露

三个关键设计问题

问题1：Module间如何通信？

传统困惑：既然module不能互相依赖，那怎么协作？

答案：所有通信接口也在include/里定义为抽象。

// include/event_bus.h
typedef struct EventBus EventBus;
void event_bus_publish(EventBus*, const char* topic, void* data);
void event_bus_subscribe(EventBus*, const char* topic,
                         void (*callback)(void*));

// src/logger/impl.c
#include "event_bus.h"
#include "logger.h"

void logger_init(Logger* self, EventBus* bus) {
    event_bus_subscribe(bus, "message.received", log_callback);
}

// src/network/impl.c
#include "event_bus.h"
#include "network.h"

void network_on_message(Network* self, const char* msg) {
    event_bus_publish(self->event_bus, "message.received", (void*)msg);
}

依赖倒置原则：

高层模块和低层模块都依赖抽象（include/）
抽象不依赖具体实现
实现依赖抽象

问题2：数据结构放在哪里？

困惑：如果需要传递复杂结构，放哪里会打破零依赖原则？

答案：纯POD（Plain Old Data）结构可以放include/，甚至放api.h。

// include/common_types.h
typedef struct {
    const char* method;
    const char* url;
    const char* body;
} HttpRequest;

typedef struct {
    int code;
    const char* message;
} HttpResponse;

为什么不会循环依赖？

POD结构只包含基本类型、指针、数组
不include其他头文件
即使多个接口include它，也是树状依赖，不会循环

注意：带函数指针的结构也算"数据结构"，可以放include/。

// include/observer.h
typedef struct {
    void (*on_message)(const char* msg);
    void (*on_error)(int error_code);
} ObserverCallbacks;

问题3：何时拆分Module？

困惑：拆分的粒度如何掌握？多少代码算太复杂？

答案：没有固定行数标准，看AI出错率。

判断指标：

编译错误率

AI第一次生成 → 编译通过
如果通过率 < 70%，说明太复杂了

修改轮次

AI生成 → 人类review → 指出问题 → AI修改 → 又发现问题...
如果平均 > 2轮，说明超出了AI注意力范围

常见错误信号
- ❌ 忘记NULL检查
- ❌ 忘记释放内存
- ❌ 边界条件遗漏
- ❌ 错误处理不完整

本质原因：AI的注意力被核心逻辑占用，细节顾不上。

实验数据（假设）：

Module大小	代码行数	AI编译通过率	修改轮次
单体	500行	50%	3-5轮
拆分后	150行	85%	1-2轮

结论：当AI出错率上升时，继续拆分，或者提取成独立子项目。

与微服务架构的深度对比

相似性（理念层面）

维度	微服务	AI-Native架构
边界定义	清晰的业务边界	清晰的功能边界
依赖方向	通过API互相调用	通过抽象接口依赖
独立演进	可以独立升级	module可独立替换实现
团队协作	不同团队负责不同服务	不同AI/人负责不同module
核心理念	解耦、隔离	解耦、AI注意力管理

本质区别（实现层面）

1. 隔离边界

微服务：进程级隔离

服务A                服务B
[进程1] ──网络──→ [进程2]
  ↓                    ↓
独立内存空间        独立内存空间

✅ 故障隔离：服务B崩溃不影响服务A
✅ 语言自由：A用Go，B用Python
❌ 性能开销：序列化、网络延迟（1-10ms）

AI-Native架构：编译期隔离

┌───────────────────进程───────────────────┐
│                                           │
│  moduleA  ──函数调用──→  moduleB         │
│    ↓                      ↓               │
│  共享地址空间        共享地址空间        │
│                                           │
└───────────────────────────────────────────┘

✅ 性能：零拷贝、直接调用（1-10ns）
✅ 调试：统一的内存空间、gdb一步跟踪
❌ 故障传播：moduleB段错误 → 整个进程挂掉

性能差异：100万倍！

2. 部署复杂度

微服务需要：

容器编排（Kubernetes）
服务发现
负载均衡
配置管理
链路追踪
100+个基础设施组件

AI-Native架构需要：

编译器
链接器
就这！

3. 扩展性

微服务：水平扩展（用户激增 → 加机器）

AI-Native架构：垂直扩展（加CPU/内存）或提取热点module为独立进程

架构定位

这个架构本质是："单体应用 + 微服务理念"

结构上：单体应用（一个进程）
设计上：微服务思想（边界清晰、接口驱动）

适用场景：

✅ 嵌入式系统（资源受限）
✅ 系统编程（操作系统、数据库）
✅ 高性能场景（网络延迟不能接受）
✅ AI辅助开发（核心诉求）
✅ 小团队（运维能力有限）

❌ 超大规模（需要水平扩展）
❌ 多语言团队
❌ 需要强故障隔离（金融、核电站）

微服务架构的未来演进

我预测：随着AI的智能变得越来越廉价，一部分微服务架构可能会向AI-Native架构演进。

演进的动力

传统微服务的成本：

运维100+个基础设施组件（K8s、服务发现、链路追踪...）
网络延迟：每次调用1-10ms
序列化/反序列化开销
分布式系统的复杂度（CAP理论、最终一致性...）

AI时代的变化：

代码是cheap的：重构一个service的成本极低
module随时可以替换：单体内部也可以模块化
AI能处理复杂依赖：只要边界清晰，AI能管理单体内部的模块关系

演进的路径

阶段1：纯微服务（现在）
[服务A] ──网络──→ [服务B] ──网络──→ [服务C]
  进程1               进程2                进程3

优点：故障隔离、水平扩展
缺点：运维复杂、网络开销

阶段2：混合架构（过渡期）
┌────────────────进程1────────────────┐
│  moduleA ──函数调用──→ moduleB      │
│    ↓                         ↓       │
│  [隔离边界]              [隔离边界]   │
└─────────────────────────────────────┘
         │                      │
         └──────网络──────→ 进程2 (服务C)

优点：核心性能敏感部分用module
      需要独立扩展的部分用服务
缺点：架构复杂度增加

阶段3：AI-Native单体（未来趋势）
┌───────────────────────────────────────────┐
│  moduleA → moduleB → moduleC → moduleD   │
│    (编译期隔离，边界清晰)                  │
└───────────────────────────────────────────┘

优点：
- 性能最优（函数调用）
- 运维最简（一个进程）
- AI友好（清晰的模块边界）
- module可以随时替换重构

缺点：
- 需要垂直扩展（加CPU/内存）
- 但CPU/内存越来越便宜了！

哪些场景会先演进？

优先演进到AI-Native的场景：

AI辅助开发的团队：已经在用AI写代码，自然选择AI友好的架构
性能敏感的系统：高频交易、游戏引擎、实时数据处理
小团队项目：没有专门的运维团队，不想维护K8s
快速迭代的初创公司：需要频繁重构，代码复用不是瓶颈

继续使用微服务的场景：

超大规模系统：Facebook、Instagram级别（需要水平扩展）
多语言团队：不同服务用不同语言（Go、Python、Java）
需要强隔离：金融、核电站、医疗（故障隔离是硬需求）
遗留系统：已经在微服务上运行，迁移成本太高

本质转变

传统思维：
"代码是昂贵的，所以需要复用"
→ 设计通用服务（UserService、OrderService...）
→ 通过网络调用复用

AI时代思维：
"代码是cheap的，AI注意力是昂贵的"
→ 设计清晰的模块边界
→ 编译期隔离，函数调用
→ module随时可以替换重构

这是技术范式的转移：从"追求运行时的复用"转向"追求AI开发的效率"。

1. 引入依赖注入（DI）容器

问题：手工组装module依赖容易出错。

// main.c - 手工组装（容易遗漏）
Logger* logger = logger_create();
Storage* storage = storage_create();
Network* net = network_create();
network_set_observer(net, logger);
storage_set_observer(storage, logger);
// ...几十个组装代码

改进：

// include/di.h
typedef struct DIContainer DIContainer;
void di_register(DIContainer*, const char* name, void* instance);
void* di_resolve(DIContainer*, const char* name);

// main.c
DIContainer* di = di_create();
di_register(di, "logger", logger_create());
di_register(di, "storage", storage_create());

Network* net = network_create(di);  // 自动注入依赖

好处：

自动管理依赖关系
测试时注入Mock对象
AI不需要记住组装顺序

2. 接口版本管理

问题：接口变更导致旧代码编译失败。

// v1
void logger_log(Logger*, const char* msg);

// v2（破坏性变更）
void logger_log(Logger*, const char* msg, int level);

改进：

include/
├── logger/
│   ├── v1.h  # 老接口
│   └── v2.h  # 新接口
└── logger.h  # 默认指向v2

好处：多版本共存、渐进式迁移

3. 生命周期管理

问题：AI生成的代码可能忘记初始化或释放资源。

改进：

// include/lifecycle.h
typedef enum {
    LIFECYCLE_INIT,
    LIFECYCLE_START,
    LIFECYCLE_STOP,
    LIFECYCLE_DESTROY
} LifecycleState;

typedef struct {
    void (*on_init)(void);
    void (*on_start)(void);
    void (*on_stop)(void);
    void (*on_destroy)(void);
} LifecycleHooks;

void lifecycle_register(const char* module_name, LifecycleHooks* hooks);
void lifecycle_init_all(void);  // 按依赖顺序初始化
void lifecycle_destroy_all(void);

4. 可观测性内置

统一监控接口：

// include/observability.h
void obs_log(const char* module, const char* level, const char* msg);
void obs_metric(const char* module, const char* name, double value);
void obs_trace(const char* module, const char* func);

// AI生成的代码自带可观测性
void network_send(Network* self, const char* data) {
    obs_trace("network", "send");
    // ...
    obs_metric("network", "bytes_sent", strlen(data));
}

5. 插件化架构（可选）

对于频繁变动的module，做成动态插件：

project/
├── include/
│   └── plugin.h
├── plugins/
│   ├── logger_plugin.so
│   └── network_plugin.so

// include/plugin.h
typedef struct Plugin {
    const char* name;
    void* (*init)(void);
    void (*destroy)(void*);
} Plugin;

void plugin_load(const char* path);
void* plugin_get(const char* name);

如何保证AI遵循规则？

方案A：编译期检查

# 扫描include/目录，检测违规依赖
make check-dependencies

方案B：AI Prompt工程

给AI的系统提示词：

你在一个严格约束的项目中工作：
1. include/里的头文件不能include其他include/的头文件
2. src/里的代码只能include其对应的include/里的头文件
3. 违反这些规则会导致编译失败

方案C：自动化测试

CI/CD中加入依赖检查：

#!/bin/bash
# 检测循环依赖
python scripts/check_circular_deps.py include/

完整架构示例

project/
├── include/
│   ├── di.h              # 依赖注入
│   ├── lifecycle.h       # 生命周期
│   ├── observability.h   # 可观测性
│   ├── common_types.h    # POD数据结构
│   ├── logger/
│   │   └── v1.h
│   ├── network/
│   │   └── v1.h
│   └── storage/
│       └── v1.h
├── src/
│   ├── core/             # 核心框架（DI、生命周期）
│   ├── logger/           # 实现logger/v1.h
│   ├── network/
│   └── storage/
├── plugins/              # 可选：动态加载模块
├── tests/
│   └── unit/             # 每个module独立测试
├── scripts/
│   └── check_deps.py     # 依赖检查工具
└── api.h                 # 唯一对外接口

核心原则总结

✅ 代码是cheap的，AI注意力是昂贵的
- 不惜增加代码量来降低每个模块的复杂度
✅ 零循环依赖
- include/绝对禁止互相包含
- src/只依赖include/
✅ 依赖倒置
- 所有接口定义在include/
- 实现在src/
✅ 动态拆分
- 没有固定的行数标准
- 看AI出错率调整边界
✅ 基础设施内置
- DI容器、生命周期、可观测性
- 让AI专注于业务逻辑

实践效果预测

AI编码质量提升

指标	传统架构	AI-Native架构
编译通过率	50%	85%
修改轮次	3-5轮	1-2轮
代码行数/module	500行	150行
内存泄漏率	15%	3%

开发效率提升

传统方式：
AI生成 → 编译错误 → 修复 → 发现新错误 → 再修复 → ... (5轮)
耗时：2小时

AI-Native方式：
AI生成 → 小调整 → 通过 (1轮)
耗时：20分钟

后续思考

1. 工具支持

能否开发一个IDE插件，自动检测依赖违规？

实时扫描include/目录
高亮显示违规依赖
自动生成依赖图

2. AI模型优化

能否针对这种架构训练专门的模型？

理解零依赖约束
自动生成符合规则的代码
更高的首次编译通过率

3. 度量标准

如何量化"AI注意力成本"？

Token消耗（上下文长度）
修改轮数
人类review时间

参考资源

依赖倒置原则（DIP）：Robert C. Martin的Clean Architecture
微服务架构：Martin Fowler的Microservices文章
AI辅助编程：GitHub Copilot、Claude Code实践

这是我在探索AI辅助编程过程中的架构思考。核心观点是：代码本身不再是瓶颈，AI的注意力才是。 架构设计应该服务于AI的认知特点，而不是传统的工程美学。如果你也在做类似的探索，欢迎交流讨论！
本文由作者 twg2020 创作，使用 AI 辅助润色
首发于：somingbai.com
时间：2026-02-15

Clawdbot飞书插件对接实战：踩坑与解决方案

作者: twg2020
时间: 2026-02-15
分类: 技术
评论

Clawdbot飞书插件对接实战：踩坑与解决方案

前言

最近在给Clawdbot（一个基于Node.js的AI Bot框架）对接飞书消息渠道时，遇到了一些坑。虽然官方文档写得还算详细，但实际操作中还是踩了不少雷。这篇文章记录了我遇到的问题和最终的解决方案，希望能帮到同样在做飞书集成的开发者。

技术背景

Clawdbot简介

Clawdbot是一个模块化的AI Bot框架，支持多渠道接入（Telegram、WhatsApp、QQ、飞书等）。它的架构是：

用户消息 → 各渠道插件 → Gateway（消息网关） → AI处理 → 回复用户

飞书插件负责：

接收飞书消息
转换成统一格式
发送回复到飞书

飞书开放平台

飞书开放平台提供了两种消息接收方式：

Webhook模式：HTTP回调，适合有公网IP的服务器
长连接模式：WebSocket连接，适合内网环境

我们选择长连接模式，因为服务器在内网，没有公网IP。

踩坑记录

坑1：插件登录成功，但收不到消息

症状：

日志显示 [feishu:default] logged in to feishu as cli_xxx
说明登录认证通过了
但在飞书发消息，Bot完全没有反应
日志里也没有任何消息接收记录

原因分析：

飞书插件的代码使用的是Lark SDK的WebSocket客户端：

// gateway.ts
const wsClient = new WSClient({
  appID: config.appId,
  appSecret: config.appSecret,
  eventTypes: ['im.message.receive_v1'],  // 订阅消息事件
});

wsClient.start();

虽然SDK代码里订阅了 im.message.receive_v1 事件，但飞书开放平台需要手动配置订阅！

解决方案：

登录飞书开放平台
- 进入你的自建应用
- 找到"事件订阅"配置
配置订阅模式
- 订阅模式选择：长连接
- 订阅事件必须勾选：im.message.receive_v1
关键步骤：发布应用
- 点击右上角"发布"按钮
- 选择"正式发布"
- ⚠️ 这一步容易被忽略！
重启Clawdbot
```
clawdbot gateway restart
```

验证：

# 查看日志，应该能看到连接建立
tail -f /tmp/clawdbot/clawdbot-*.log | grep feishu

坑2：长连接WebSocket没有真正建立

症状：

配置都做了
应用也发布了
但还是收不到消息

原因：

Lark SDK的WebSocket连接建立有一些时序问题。如果SDK启动太快，飞书开放平台还没来得及处理应用发布，连接会失败。

解决方案：

在插件启动代码中添加重试逻辑：

async function startFeishuGateway() {
  let retries = 3;
  while (retries > 0) {
    try {
      await wsClient.start();
      console.log('[feishu] WebSocket connected');
      break;
    } catch (error) {
      retries--;
      console.log(`[feishu] Connection failed, ${retries} retries left`);
      if (retries > 0) {
        await new Promise(resolve => setTimeout(resolve, 5000));
      }
    }
  }
}

坑3：消息格式转换问题

症状：

终于收到消息了
但回复时飞书报错：invalid message format

原因：

飞书的消息格式和其他平台（如Telegram）差异很大。飞书支持多种消息类型：

text（纯文本）
post（富文本）
interactive（交互式卡片）

Clawdbot统一使用 text 类型，但飞书的text类型需要特定的JSON结构。

解决方案：

在飞书插件的发送逻辑中做格式转换：

function formatMessageForFeishu(text: string) {
  return {
    msg_type: 'text',
    content: JSON.stringify({
      text: text
    })
  };
}

最终配置清单

飞书开放平台配置

[ ] 创建自建应用，获取App ID和App Secret
[ ] 权限管理：添加"获取与发送消息"权限
[ ] 事件订阅：
- [ ] 订阅模式：长连接
- [ ] 订阅事件：im.message.receive_v1
[ ] 发布应用：正式发布
[ ] 版本管理：记录版本号，方便回滚

Clawdbot配置

{
  "channels": {
    "feishu": {
      "enabled": true,
      "appId": "cli_xxx",
      "appSecret": "your_secret_here",
      "encryptKey": "",  // 长连接模式可留空
      "verificationToken": "",  // 长连接模式可留空
      "capabilities": {
        "inlineButtons": "allowlist"  // 按钮功能
      }
    }
  }
}

日志检查

# 查看飞书插件状态
tail -100 /tmp/clawdbot/clawdbot-*.log | grep feishu

# 应该看到：
# [feishu:default] logged in to feishu as cli_xxx
# [feishu] WebSocket connected

架构图

┌─────────┐     WebSocket      ┌──────────────┐
│         │ ◄──────────────────► │              │
│  飞书    │     长连接          │ Clawdbot     │
│  server │                    │ Gateway      │
│         │                     │              │
└─────────┘                     └──────┬───────┘
                                       │
                                       │ 消息分发
                                       ▼
                                ┌─────────────┐
                                │   AI Agent  │
                                │ (GLM-4.7)   │
                                └─────────────┘

经验总结

文档要看仔细：飞书开放平台的文档很长，但"事件订阅"部分一定要逐字读完
发布应用别忘：这是最容易漏的一步，配置改了必须重新发布
日志是最好的朋友：遇到问题先看日志，能定位90%的问题
长连接≠即时生效：应用发布后可能需要等待几分钟才能生效
消息格式要统一：不同渠道的消息格式差异大，需要做好适配层

参考资源

后续优化

目前飞书渠道已经可以正常收发消息了，后续计划：

支持更多消息类型（图片、文件、卡片）
实现消息已读状态同步
支持群消息@机器人
添加飞书特有功能（如工作通知）

本文记录了实际开发中遇到的问题和解决方案，如果你也在做类似的集成，希望对你有帮助。有问题欢迎交流！
本文由作者 twg2020 创作，使用 AI 辅助润色
首发于：somingbai.com
时间：2026-02-15

Clawdbot 升级指南：如何保护记忆文件不丢失

作者: twg2020
时间: 2026-02-15
分类: 技术
评论

Clawdbot 升级指南：如何保护记忆文件不丢失

每次看到 clawdbot update 时，你是否也有这样的担忧：升级后我的 AI 助手会忘记一切吗？

Clawdbot 更新频繁（目前还未到 1.0），每次升级都可能带来新功能和修复。但与此同时，记忆文件的保护也至关重要。本文将详细说明：

✅ 升级时哪些文件是安全的
✅ 哪些记忆文件必须备份
✅ 完整的备份与升级流程
✅ 出问题后如何恢复

一、升级会丢失记忆吗？

答案：不会。 但备份仍然是必要的。

根据官方文档，Clawdbot 升级不会删除用户目录中的任何文件。你的所有记忆文件都存储在工作区目录中，完全独立于 Clawdbot 程序本身。

1.1 安全的文件位置

文件类型	位置	说明
记忆文件	`/root/clawd/memory/`	每日记录、项目笔记
长期记忆	`/root/clawd/MEMORY.md`	精选的重要信息
工作区	`/root/clawd/`	整个目录
配置文件	`~/.clawdbot/clawdbot.json`	Gateway 配置
凭据	`~/.clawdbot/credentials/`	密钥和令牌

这些目录在升级时完全不会被触碰，所以理论上你的记忆是安全的。

1.2 为什么还需要备份？

虽然升级不会删除文件，但以下情况仍可能导致数据丢失：

⚠️ 误操作（如手动删除）
⚠️ 磁盘故障
⚠️ 升级过程中的意外中断
⚠️ 配置错误导致的服务异常

最佳实践：升级前备份，有备无患。

二、记忆文件全集详解

在备份之前，你需要知道 Clawdbot 有哪些记忆文件。它们分为几个层级：

2.1 核心身份文件（7个）

这些文件定义了 AI 助手的核心身份，位于 /root/clawd/ 根目录：

/root/clawd/
├── AGENTS.md          # 📖 工作指南（7.7K）
├── SOUL.md            # 🎭 个性定义（1.7K）
├── USER.md            # 👤 用户信息（2.9K）
├── IDENTITY.md        # 🪪 身份卡片（435B）
├── TOOLS.md           # 🔧 工具笔记（858B）
├── MEMORY.md          # 🧠 长期记忆（7.5K）
└── HEARTBEAT.md       # 💓 心跳检查（567B）

每个文件的作用：

文件	作用	重要性
MEMORY.md	长期记忆，精选的重要信息，持久化保存	⭐⭐⭐⭐⭐
AGENTS.md	工作指南，定义如何工作、记忆规则	⭐⭐⭐⭐⭐
SOUL.md	个性定义，你的性格、行为准则	⭐⭐⭐⭐
USER.md	用户信息，老板的资料、技术栈	⭐⭐⭐⭐
IDENTITY.md	身份卡片，名字、称呼、emoji	⭐⭐⭐
TOOLS.md	工具笔记，环境特定的配置	⭐⭐⭐
HEARTBEAT.md	心跳检查，定时任务的检查清单	⭐⭐

2.2 每日记忆文件

按日期命名的原始记录，位于 /root/clawd/memory/：

memory/
├── 2026-02-14.md       # 2月14日的原始记录
├── 2026-02-13.md       # 2月13日的原始记录
├── 2026-02-12.md       # 2月12日的原始记录
├── 2026-02-12-night.md # 当晚的专项记录
├── 2026-02-11.md       # ...
├── 2026-02-10.md
├── 2026-02-09.md
├── 2026-02-09-log-server.md
├── 2026-02-08.md
├── 2026-02-07.md
├── 2026-02-06.md
├── 2026-02-04.md
├── 2026-02-01.md
└── 2026-01-31.md

作用：

原始日志，记录当天发生的所有事情
定期会整理重要内容到 MEMORY.md
就像人类的日记，可以回顾但不用每天读

2.3 项目/主题记忆

特定主题的专业知识，也在 /root/clawd/memory/ 目录下：

memory/
├── playground-essentials-20260212.md      # 游乐场项目核心知识
├── playground-evolution.md                 # 游乐场演进历史
├── playground-quickref.md                  # 游乐场快速参考
├── playground-rhythm-master.md             # 节奏大师游戏
├── blog-expert-knowledge-accessible.md      # 博客专家知识
├── blog-expert-backup-2026-02-13.md
├── blog-expert-deleted-2026-02-13.md
├── calculator-improvements.md              # 计算器改进记录
├── learning-notes.md                       # 学习笔记
├── diaries.md                             # 日记汇总
├── overnight-report.md                    # 过夜工作报告
├── overnight-work.md                      # 过夜工作记录
├── context-compressed-20260211.md         # 上下文压缩记录
├── context-compressed-20260211-16-40.md
├── context-summary-2026-02-12.md          # 上下文摘要
└── extracted-context-2026-02-12.md        # 提取的上下文

2.4 多 Agent 记忆系统

Clawdbot 支持多个子 Agent，每个都有独立的记忆：

memory/
├── planner/                               # 规划者角色
│   ├── MEMORY.md                          # 规划者的长期记忆
│   └── daily/                             # 规划者的每日记录
├── health/                                # 健康管理者角色
│   ├── MEMORY.md                          # 健康管理者的长期记忆
│   └── daily/                             # 健康管理者的每日记录
└── ...

这种设计让不同角色可以拥有独立的知识库，互不干扰。

2.5 完整目录结构树

以下是完整的记忆文件系统结构：

/root/clawd/
├── MEMORY.md                    # 🧠 长期记忆（主会话）
├── AGENTS.md                    # 📖 工作指南
├── SOUL.md                      # 🎭 个性定义
├── USER.md                      # 👤 用户信息
├── IDENTITY.md                  # 🪪 身份卡片
├── TOOLS.md                     # 🔧 工具笔记
├── HEARTBEAT.md                 # 💓 心跳检查
│
└── memory/                      # 记忆目录
    ├── 2026-02-14.md           # 每日记录
    ├── 2026-02-13.md
    ├── 2026-02-12.md
    ├── ...
    ├── playground-essentials-20260212.md
    ├── blog-expert-knowledge-accessible.md
    ├── learning-notes.md
    ├── ...
    │
    ├── planner/                 # 子Agent记忆
    │   ├── MEMORY.md
    │   └── daily/
    │
    └── health/                  # 子Agent记忆
        ├── MEMORY.md
        └── daily/

三、升级前的备份策略

3.1 快速完整备份（推荐）

一键备份整个工作区：

# 创建带时间戳的备份
cd /root
tar -czf clawd-backup-$(date +%Y%m%d-%H%M%S).tar.gz clawd/

# 验证备份文件
ls -lh clawd-backup-*.tar.gz

备份文件示例：

-rw-r--r-- 1 root root 2.3M Feb 15 15:30 clawd-backup-20260215-153000.tar.gz

恢复备份：

# 如果需要恢复
cd /root
tar -xzf clawd-backup-20260215-153000.tar.gz

# 这会恢复整个 clawd 目录

3.2 选择性备份

如果只想备份记忆文件，可以这样做：

# 备份核心记忆文件
tar -czf memory-core-$(date +%Y%m%d).tar.gz \
  /root/clawd/MEMORY.md \
  /root/clawd/AGENTS.md \
  /root/clawd/SOUL.md \
  /root/clawd/USER.md \
  /root/clawd/IDENTITY.md \
  /root/clawd/TOOLS.md

# 备份整个 memory 目录
tar -czf memory-daily-$(date +%Y%m%d).tar.gz /root/clawd/memory/

3.3 备份验证脚本

创建一个验证脚本来确保备份成功：

#!/bin/bash
# backup-verify.sh

BACKUP_FILE=$1
TEMP_DIR=$(mktemp -d)

echo "验证备份: $BACKUP_FILE"

# 解压到临时目录
tar -xzf "$BACKUP_FILE" -C "$TEMP_DIR"

# 检查关键文件
CRITICAL_FILES=(
  "root/clawd/MEMORY.md"
  "root/clawd/AGENTS.md"
  "root/clawd/SOUL.md"
  "root/clawd/USER.md"
)

ALL_GOOD=true
for file in "${CRITICAL_FILES[@]}"; do
  if [ -f "$TEMP_DIR/$file" ]; then
    echo "✅ $file"
  else
    echo "❌ $file 缺失！"
    ALL_GOOD=false
  fi
done

# 清理
rm -rf "$TEMP_DIR"

if [ "$ALL_GOOD" = true ]; then
  echo "✅ 备份验证通过"
  exit 0
else
  echo "❌ 备份验证失败"
  exit 1
fi

使用方法：

chmod +x backup-verify.sh
./backup-verify.sh clawd-backup-20260215-153000.tar.gz

3.4 自动化备份

设置定时任务自动备份（每天凌晨）：

# 编辑 crontab
crontab -e

# 添加以下行（每天凌晨2点备份）
0 2 * * * tar -czf /root/backups/clawd-$(date +\%Y\%m\%d).tar.gz /root/clawd/

四、安全升级流程

4.1 升级方式选择

Clawdbot 提供三种升级方式：

方式	适用场景	风险
clawdbot update	源码安装	⭐ 最低
npm/pnpm 全局更新	全局安装	⭐⭐ 低
重新运行安装脚本	任何安装方式	⭐⭐⭐ 中

推荐：使用 clawdbot update

4.2 完整升级步骤

步骤1：创建备份

# 创建备份
cd /root
tar -czf clawd-backup-$(date +%Y%m%d-%H%M%S).tar.gz clawd/

# 验证备份
# （使用上面的 backup-verify.sh 脚本）

步骤2：检查当前版本

# 查看当前版本
clawdbot --version

# 查看更新日志
# （根据安装方式不同，命令可能不同）

步骤3：执行升级

# 方式1：使用 clawdbot update（推荐）
clawdbot update

# 方式2：npm 全局更新
npm i -g clawdbot@latest

# 方式3：重新运行安装脚本
curl -fsSL https://clawd.bot/install.sh | bash

步骤4：运行 doctor 检查

# doctor 会自动检测并修复配置问题
clawdbot doctor

步骤5：重启 Gateway

# 重启服务
clawdbot gateway restart

# 或者使用 systemd
systemctl --user restart clawdbot-gateway.service

步骤6：验证升级

# 检查服务状态
clawdbot gateway status

# 检查日志
clawdbot logs --follow

# 查看版本
clawdbot --version

步骤7：验证记忆文件

# 确认记忆文件存在
ls -lh /root/clawd/MEMORY.md
ls -lh /root/clawd/memory/

# 读取 MEMORY.md 确认内容
head -20 /root/clawd/MEMORY.md

4.3 升级检查清单

在升级前，确保完成以下检查：

□ 已创建完整备份
□ 备份文件已验证
□ 知道当前版本号
□ 了解本次更新的内容
□ 准备好了回滚方案
□ 非高峰时段（避免影响使用）

五、故障恢复

5.1 记忆文件丢失怎么办

如果升级后发现记忆文件丢失，按以下步骤恢复：

步骤1：不要慌，停止写入

# 立即停止 Clawdbot Gateway
clawdbot gateway stop

步骤2：确认文件状态

# 检查记忆文件是否真的丢失
ls -la /root/clawd/MEMORY.md
ls -la /root/clawd/memory/

步骤3：从备份恢复

# 找到最新的备份文件
ls -lh /root/clawd-backup-*.tar.gz

# 解压恢复（覆盖当前文件）
cd /root
tar -xzf clawd-backup-20260215-153000.tar.gz

# 验证恢复的文件
ls -lh clawd/MEMORY.md

步骤4：重启服务

# 重启 Gateway
clawdbot gateway restart

5.2 升级失败回滚

如果升级后出现严重问题，需要回滚到之前版本：

方法1：回退到特定版本（npm 安装）

# 查看可用版本
npm view clawdbot versions

# 安装已知良好的版本
npm i -g clawdbot@<version>

# 例如：
# npm i -g clawdbot@0.9.15

# 重启
clawdbot gateway restart

方法2：回退到特定日期（git 安装）

# 进入仓库目录
cd /path/to/clawdbot/repo

# 回退到指定日期的代码
git fetch origin
git checkout "$(git rev-list -n 1 --before=\"2026-02-01\" origin/main)"

# 重新安装
pnpm install
pnpm build

# 重启
clawdbot gateway restart

5.3 常见问题排查

问题1：升级后找不到记忆文件

症状：

Error: Cannot find module '/root/clawd/MEMORY.md'

解决方案：

检查工作目录是否正确
检查环境变量 CLAWDBOT_WORKSPACE
从备份恢复

问题2：配置文件损坏

症状：

Error: Invalid configuration in ~/.clawdbot/clawdbot.json

解决方案：

# 运行 doctor 修复
clawdbot doctor

# 手动检查配置
cat ~/.clawdbot/clawdbot.json

问题3：无法启动 Gateway

症状：

Error: Gateway failed to start

解决方案：

# 查看详细日志
clawdbot logs --follow

# 检查端口占用
netstat -tulpn | grep 18787

# 尝试重启
clawdbot gateway restart

六、最佳实践

6.1 定期备份策略

建议：

升级前必备份 - 每次升级前创建完整备份
每日自动备份 - 使用 cron 定时备份
异地备份 - 定期将备份文件传输到其他服务器或云存储
定期清理 - 删除过期的备份文件（保留最近7-30天）

自动化备份脚本：

#!/bin/bash
# auto-backup.sh

BACKUP_DIR="/root/backups"
SOURCE_DIR="/root/clawd"
KEEP_DAYS=30

# 创建备份目录
mkdir -p "$BACKUP_DIR"

# 创建备份
tar -czf "$BACKUP_DIR/clawd-$(date +%Y%m%d-%H%M%S).tar.gz" "$SOURCE_DIR"

# 清理旧备份（保留最近30天）
find "$BACKUP_DIR" -name "clawd-*.tar.gz" -mtime +$KEEP_DAYS -delete

echo "备份完成: $(date)"

6.2 升级前检查清单

每次升级前，确保：

□ 已创建完整备份
□ 备份文件已验证
□ 阅读了版本更新日志
□ 在测试环境验证过（如果有）
□ 准备好了回滚方案
□ 选择了非高峰时段
□ 通知了相关人员（如果是生产环境）

6.3 记忆文件维护建议

日常维护：

定期整理 - 每周从每日记录中提取重要信息到 MEMORY.md
避免重复 - 使用 memory_search 查询已有信息，避免重复记录
保持精简 - MEMORY.md 只保留最重要的信息
分类清晰 - 使用明确的标题和分类

记忆优化：

# 搜索现有记忆
memory_search "关键词"

# 只读取需要的部分
memory_get path from 1 to 20

七、总结

升级 Clawdbot 并不可怕，关键是要：

了解哪些文件需要保护 - 记忆文件完整清单
升级前备份 - 这是你的保险
遵循正确的流程 - 备份 → 升级 → 验证
准备好回滚方案 - 出问题能快速恢复

核心原则：

记忆文件在工作区，升级不会删除
但备份仍然是必要的（防范意外）
有备份，才有安全感

最后建议：

如果你还没有备份习惯，现在就开始吧！

# 立即创建备份
cd /root
tar -czf clawd-backup-$(date +%Y%m%d-%H%M%S).tar.gz clawd/

# 设置自动备份
crontab -e
# 添加：0 2 * * * tar -czf /root/backups/clawd-$(date +\%Y\%m\%d).tar.gz /root/clawd/

有了备份，你就可以放心地升级 Clawdbot，享受新功能带来的便利！

如何彻底解决AI的"失忆"问题：一个自动化方案

作者: twg2020
时间: 2026-02-14
分类: 技术
评论

如何彻底解决AI的"失忆"问题：一个自动化方案

Context overflow: prompt too large for the model.
这个错误困扰了我很久。
背景说明：
Clawdbot其实自带了自动上下文管理机制，但在实际使用中经常出现bug，
导致"Context overflow"错误频繁发生。本文记录了我如何设计一套
三层保护机制来彻底解决这个问题。

直到最近，我终于设计了一个三层保护机制，彻底解决了这个问题。

🎯 问题的本质

症状

你正在和AI深入讨论一个复杂问题，突然：

Context overflow: prompt too large for the model.
Try again with less input or a larger-context model.

然后呢？

❌ 会话被强制重启
❌ 前面的讨论全部丢失
❌ 你需要重新解释一遍背景
❌ AI像是失忆了一样

为什么会发生？

根本原因：AI的"记忆"是有限的。

每个模型都有一个上下文窗口（Context Window）：

GPT-3.5: 4K tokens
GPT-4: 8K/32K tokens
Claude-2: 100K tokens
GLM-4: 128K tokens

但即使是128K，也有限度。

每次对话，AI都要：

读取整个历史记录
理解上下文
生成回复

如果历史记录太长，就会超出模型的处理能力。

一个类比

想象你在看一本书：

前10页，你能记住所有细节
前100页，你只能记住大概
前1000页，你连主角名字都忘了

AI的"上下文窗口"就是这本书的厚度。超过这个厚度，AI就开始"失忆"。

💡 为什么之前的方案不行？

方案1：手动保存上下文

做法： 每次快满时，手动让AI总结并保存到文件。

问题：

❌ 需要人工监控（看dashboard）
❌ 容易忘记（忙碌时）
❌ 时机难把握（早了浪费，晚了溢出）

方案2：增大上下文窗口

做法： 换用支持更大上下文的模型。

问题：

❌ 成本高（大模型更贵）
❌ 速度慢（处理更多token）
❌ 治标不治本（还是会满）

方案3：只保存，不重置（我之前的方案）

做法： 检测到token ≥ 50%时，自动保存上下文。

问题：

❌ 只拍照，不打扫房间
❌ Token继续累积
❌ 最终还是会溢出

就像把房间拍照保存了，但房间里的东西还在，没有清理。

🛠️ 我的解决方案：三层自动化保护

核心思想

不要等待溢出，而是主动管理。

当Token使用率达到50%时，自动执行：

保存上下文 - 不丢失信息
重置会话 - Token归零
恢复上下文 - 无缝衔接
通知机制 - 确保新会话知道这个自动化系统的存在

架构图

graph TD
    A[每5分钟检查Token] --> B{Token ≥ 50%?}
    B -->|否| A
    B -->|是| C[步骤1: 保存上下文]
    C --> D[步骤2: 备份会话]
    D --> E[步骤3: 删除会话]
    E --> F[Token归零!]
    F --> G[步骤4: 恢复上下文]
    G --> H[步骤5: 通知机制]
    H --> A

流程说明：

定期检查Token使用率
超过50%阈值时触发重置
保存→备份→删除→恢复→通知
循环往复，永不溢出

🔬 技术实现

监控脚本

核心逻辑：

def get_session_info() -> tuple:
    """从API获取Token使用率"""
    response = requests.get("http://localhost:8001/api/sessions/")
    sessions = response.json()

    # 找到主会话
    main_session = [s for s in sessions if s['kind'] == 'direct'][0]

    return (
        main_session['usage_percentage'],  # Token使用率
        main_session['session_id'],         # 会话ID
        main_session['session_key']         # 会话Key
    )

def trigger_full_reset(usage, session_id, session_key):
    """执行完整的重置流程"""
    # 步骤1: 保存上下文
    save_context(session_key)

    # 步骤2: 备份会话文件
    backup_session(session_id)

    # 步骤3: 删除会话文件（强制重置）
    delete_session(session_id)

    # 步骤4: 恢复上下文
    restore_context(new_session_key)

    # 步骤5: 通知自动化机制
    notify_automation(new_session_key)

关键点：

✅ 删除会话文件是核心（Token归零的秘诀）
✅ 先备份再删除（防止数据丢失）
✅ 等待新会话创建（避免找不到session_key）

Cron定时任务

*/5 * * * * /usr/bin/python3 /root/clawd/scripts/auto_save_context.py

每5分钟检查一次，完全自动化，无需人工干预。

注：完整代码实现已开源，可参考项目仓库。

🛡️ 三层保护：确保机制永不失效

问题：会话重置后，新会话"失忆"了

当会话被删除后，AI创建了一个全新的会话。这个新会话：

从零开始
不知道自动化机制的存在
不会继续监控Token使用率

解决方案：三层通知机制

第1层：主动通知 📢

时机： 会话重置完成后立即执行

def notify_automation(session_key: str):
    """发送通知到新会话"""
    notice = """
    ## 🤖 自动化机制通知

    你的会话刚刚完成了自动重置。

    系统已为你部署了自动上下文保存机制：
    - 每5分钟检查Token使用率
    - 超过50%自动触发重置
    - 你不需要做任何事情！
    """
    send_to_session(session_key, notice)

第2层：持久化记录 📄

文件： /root/clawd/AGENTS.md

每次会话启动时，AI会自动读取这个文件：

## 🤖 自动上下文保存机制

**重要！** 这个工作区有一个自动化机制在运行。

- 每5分钟检查Token使用率
- 超过50%自动触发重置
- 关键文件：/root/clawd/scripts/auto_save_context.py

优点： 完全持久化，不会丢失。

第3层：上下文携带 📋

文件： /root/clawd/RESUME-SESSION.md (开头)

每次恢复上下文时，AI会读取这个文件：

## 🤖 自动化机制提示

**重要！** 你现在是在一个有自动化保护的会话中运行。

- 每5分钟检查Token使用率
- 超过50%自动触发重置

优点： 确保恢复后的会话知道机制。

容错分析

场景	第1层	第2层	第3层	结果
正常重置	✅	✅	✅	完美
通知失败	❌	✅	✅	仍可从文件得知
AGENTS.md未读	✅	❌	✅	通知和模板保底
恢复失败	✅	✅	❌	通知和AGENTS.md保底

结论：新会话99.99%会知道自动化机制！

📊 效果验证

数据对比

重置前：

Token使用率：85%
会话文件：75行消息
文件大小：122KB
风险：随时溢出

重置后：

Token使用率：0%
会话文件：1行（全新）
上下文：从RESUME-SESSION.md恢复
风险：消除！

运行日志

[2026-02-19 14:30:54] 检查token使用率...
[2026-02-19 14:30:57] 当前主会话token使用率: 13.93%
[2026-02-19 14:30:57] ✓ 使用率正常，无需重置

当使用率 ≥ 50%时：

[2026-02-19 XX:XX:XX] ⚠️ Token使用率 85% 超过阈值 50%
[2026-02-19 XX:XX:XX] 步骤1: 保存上下文...
[2026-02-19 XX:XX:XX] ✓ 会话已备份到: backup/session_xxx.jsonl
[2026-02-19 XX:XX:XX] ✓ 会话文件已删除，会话将重置
[2026-02-19 XX:XX:XX] ✓ 新会话已创建
[2026-02-19 XX:XX:XX] ✓ 步骤5完成: 已通知新会话自动化机制
[2026-02-19 XX:XX:XX] ✅ 会话重置完成！Token已归零！

🤔 设计思考

为什么选择50%作为阈值？

太高（如80%）：

❌ 来不及保存
❌ 容易溢出

太低（如20%）：

❌ 重置太频繁
❌ 丢失上下文

50%刚刚好：

✅ 有足够时间保存
✅ 留有安全余量
✅ 平衡了频率和风险

为什么不是简单清理旧消息？

方案A：删除最早的50%消息

❌ 会丢失关键上下文
❌ 破坏对话连贯性

方案B：智能压缩（AI总结）

✅ 保留关键信息
✅ 但需要额外调用API
✅ 成本和时间开销

我的方案：完整备份 + 删除文件

✅ 保留完整历史
✅ Token归零（彻底）
✅ 恢复时智能总结

为什么需要三层保护？

单一机制的脆弱性：

脚本可能失败
文件可能未读
通知可能丢失

三层冗余的价值：

✅ 任何一层失效都有其他层保底
✅ 符合"防御性编程"原则
✅ 增加系统鲁棒性

🚀 如何应用到你自己的项目？

前置条件

会话文件管理：AI的会话存储在文件中
API监控：能获取Token使用率
命令行工具：能发送消息到会话

实现步骤

编写监控脚本：
- 定期检查Token使用率
- 超过阈值时触发重置
实现重置逻辑：
- 备份会话文件
- 删除原文件
- 等待新会话创建
恢复上下文：
- 从备份文件总结关键信息
- 发送到新会话
测试验证：
- 手动触发重置
- 验证上下文恢复
- 确认Token归零

关键代码片段

备份会话文件：

import shutil
from datetime import datetime

timestamp = datetime.now().strftime('%Y%m%d_%H%M%S')
backup_file = f"backup/session_{session_id}_{timestamp}.jsonl"
shutil.copy2(session_file, backup_file)

删除会话文件（强制重置）：

from pathlib import Path

session_file = Path(f"/path/to/sessions/{session_id}.jsonl")
session_file.unlink()  # 删除文件，触发AI创建新会话

发送恢复消息：

import subprocess

subprocess.run([
    'clawbot', 'sessions', 'send',
    '--sessionKey', new_session_key,
    '--message', '读取 RESUME-SESSION.md 恢复上下文'
])

💡 更深层的思考

AI的"记忆"问题

短期记忆（Context Window）：

有限容量
需要持续管理
类似人类的"工作记忆"

长期记忆（文件系统）：

无限容量
需要主动存储
类似人类的"长期记忆"

我的方案本质：
将短期记忆定期转存到长期记忆，然后清空短期记忆。

自动化的价值

人工 vs 自动：

对比项	人工监控	自动化脚本
需要关注	持续查看dashboard	无需关注
出错概率	高（容易忘记）	低（代码执行）
时间成本	每天数次	0
可靠性	受情绪影响	100%执行

结论：把重复性任务交给机器，人类专注于创造。

🎯 总结

问题

AI的上下文窗口有限
对话过长会溢出
手动管理不可靠

解决方案

✅ 自动监控（每5分钟）
✅ 智能重置（50%阈值）
✅ 完整备份（不丢失信息）
✅ 上下文恢复（无缝衔接）
✅ 三层保护（机制永不失效）

效果

Token使用率：85% → 0%
上下文：完整保留
人工干预：0
运行稳定性：100%

哲学思考

最好的工具是透明的。

当你不再需要担心"Context overflow"时，你才能真正专注于与AI的深度对话。

📚 相关资源

完整实现：

监控脚本：Python实现，支持API监控和自动重置
定时任务：Cron配置，每5分钟自动检查
日志系统：完整的运行日志和错误追踪

核心文件：

auto_save_context.py - 自动化监控脚本
auto-context-save.md - 完整技术文档
auto-context-save-persistence.md - 三层保护详解

相关阅读：

如果你也有遇到过"Context overflow"的问题，希望这个方案能帮到你。有问题欢迎讨论！
本文由作者 twg2020 创作，使用 AI 辅助润色
首发于：somingbai.com
时间：2026-02-14

构建双态多Agent系统：一个工程师的AI架构实践

作者: twg2020
时间: 2026-02-12
分类: 技术
评论

构建双态多Agent系统：一个工程师的AI架构实践

前言：为什么要两个系统？

最近遇到一个有趣的问题：我想用AI助手帮自己处理日常工作，又想搞个"游乐园"让朋友们体验有趣的AI角色。但两者绝不能混在一起——我的工作数据是隐私，游乐园是游乐场。

这就像：你需要一个专业的工作室，又想有一个放松的游乐园。

于是，我设计了一套双态多Agent系统架构。

🏗️ 架构设计：双层独立 + 数据隔离

核心理念

生产系统（工作室）      游乐园系统（游乐场）
     ↓                      ↓
  专业、高效              有趣、体验
  隐私保护              数据隔离
  自己使用              开放分享

三层架构

┌─────────────────────────────────────────────┐
│  Layer 1: Nginx反向代理（入口层）          │
├─────────────────────────────────────────────┤
│  Layer 2: 双态FastAPI服务（业务层）        │
│  ├─ agents-ui (8001)      ← 生产系统       │
│  └─ playground-ui (8002)    ← 游乐园       │
├─────────────────────────────────────────────┤
│  Layer 3: 独立数据存储（数据层）          │
│  ├─ /root/clawd/roles/         ← 生产角色   │
│  └─ /root/clawd/roles-playground/ ← 游乐园角色 │
└─────────────────────────────────────────────┘

🛡️ 数据隔离：三重保险机制

第一重：文件系统隔离

/root/clawd/
├── roles/              ← 生产系统的"工作区"
│   ├── lban-1hao.json       # 我的AI助理
│   ├── planner.json          # 财务规划师
│   └── health-manager.json   # 健康管家
│
└── roles-playground/   ← 游乐园的"游戏区"
    ├── joke-master.json       # 讲笑话大师
    ├── fortune-teller.json   # 塔罗牌占卜师
    └── rpg-master.json      # RPG游戏主持人

类比：就像你的电脑有两个文件夹

Documents/Work/ ← 工作文件（机密）
Documents/Games/ ← 游戏存档（随便玩）

它们在同一个硬盘上，但物理路径完全分离。

第二重：服务进程隔离

# 生产系统 - 8001端口
agents-ui.service
└─ /usr/bin/python3 -m uvicorn main:app --port 8001

# 游乐园 - 8002端口
playground-ui.service
└─ /usr/bin/python3 -m uvicorn main:app --port 8002

关键点：

两个独立的进程
两个不同的端口
不共享内存
不共享状态

类比：就像两个独立的应用程序

微信（工作） vs 游戏客户端（娱乐）
虽然都在你的电脑上运行，但完全独立

第三重：API路径隔离

# Nginx配置
location /agents {
    proxy_pass http://127.0.0.1:8001/app;  # 生产系统
}

location /playground {
    proxy_pass http://127.0.0.1:8002/app;  # 游乐园
}

location /api/agents/ {
    rewrite ^/api/agents/(.*)$ /api/$1 break;
    proxy_pass http://127.0.0.1:8001;
}

location /api/playground/ {
    rewrite ^/api/playground/(.*)$ /api/$1 break;
    proxy_pass http://127.0.0.1:8002;
}

结果：

https://www.somingbai.com/agents        → 生产系统
https://www.somingbai.com/playground    → 游乐园

类比：就像两个网站

work.company.com ← 内部工作系统
play.company.com ← 对外展示平台
域名不同，完全隔离

🔍 为什么不会污染数据？

原理1：Clawdbot主系统有固定路径

Clawdbot（我的AI对话引擎）的配置是硬编码的：

# Clawdbot配置（简化）
CLAWDBOT_HOME = "/root/.clawdbot/"
MEMORY_PATH = "/root/.clawdbot/memory/"
SESSIONS_PATH = "/root/.clawdbot/agents/main/sessions/"

它不会去读 /root/clawd/roles/ 或 /root/clawd/roles-playground/。

类比：就像你的邮件客户端

邮件客户端只读取 ~/.mail/ 目录
即便你把邮件放在 ~/Documents/emails/
邮件客户端也不会自动加载

原理2：Web UI只是"管理面板"

agents-ui和playground-ui的角色定义文件（.json）只是配置文件：

{
  "id": "joke-master",
  "name": "讲笑话大师",
  "system_prompt": "你是讲笑话大师..."
}

这些文件的作用：

✅ 在Web界面展示角色信息
✅ 管理角色配置
❌ 不会被Clawdbot主系统自动加载

除非我主动写代码集成到Clawdbot的路由系统。

类比：就像汽车的"配置面板"

你可以在面板上调整座椅、后视镜
但调整面板本身不会让车自动开动
需要"启动引擎"这个动作

原理3：进程隔离 + 状态隔离

# 查看进程
ps aux | grep uvicorn

root  12345  uvicorn on 8001  # agents-ui（生产）
root  12346  uvicorn on 8002  # playground-ui（游乐园）
root  12347  clawdbot          # 主系统（日常对话）

三个进程：

不共享内存
不共享状态
独立崩溃（一个挂了不影响其他）

类比：就像三个独立的工作人员

会计（工作）
向导（娱乐）
CEO（决策）
虽然在同一家公司，但职责分离

🎯 角色设计：两套不同的哲学

生产系统：实用主义

角色设计以效率为导向：

角色	职责	典型问题
🛠️ 鲁班1号	通用助理	"帮我写个脚本"
📊 规划师	财务规划	"如何分配年终奖"
💪 健康管家	健康管理	"制定运动计划"

特点：

专业、高效、结果导向
关注工作、学习、健康
数据可能敏感（财务、健康）

游乐园：体验优先

角色设计以趣味为导向：

角色	职责	典型问题
😂 讲笑话大师	逗人开心	"讲个笑话"
🔮 占卜师	塔罗牌占卜	"今天运势"
🎲 RPG主持人	文字冒险游戏	"开始冒险"
📖 故事大王	讲故事	"讲个睡前故事"

特点：

有趣、好玩、互动性强
关注娱乐、创作、体验
数据随意（可以随时重置）

🔧

后端：FastAPI（异步高性能）

# agents-ui 和 playground-ui 使用相同架构
app = FastAPI(title="多Agent管理系统")

app.include_router(roles.router, prefix="/api/roles")
app.include_router(templates.router, prefix="/api/templates")
app.include_router(stats.router, prefix="/api/stats")
app.include_router(sessions.router, prefix="/api/sessions")

优点：

自动API文档（Swagger UI）
类型验证（Pydantic）
异步支持（高并发）

前端：原生JS（无框架依赖）

// 自动检测本地还是博客环境
const API_BASE = window.location.hostname === 'localhost'
    ? 'http://localhost:8002/api'
    : '/api/playground';

// 加载角色
async function loadRoles() {
    const response = await fetch(`${API_BASE}/roles/`);
    const roles = await response.json();
    // 渲染角色卡片
}

优点：

无需编译（直接部署）
加载速度快（CDN资源）
易于维护（原生JS）

部署：systemd + Nginx

# 生产系统
systemctl start agents-ui      # 8001端口

# 游乐园
systemctl start playground-ui   # 8002端口

# Nginx自动代理
# /agents → 8001
# /playground → 8002

优点：

自动重启（崩溃恢复）
开机自启
反向代理（HTTPS）

🎨 游乐园特色：让AI更有趣

8个游乐园角色

1. 😂 讲笑话大师

触发词：笑话、搞笑、段子
技能：讲笑话、幽默互动
记忆：独立（笑话库）

2. 🔮 占卜师

触发词：占卜、运势、星座
技能：塔罗牌、星座运势
记忆：独立（占卜记录）

3. 📖 故事大王

触发词：讲故事、故事
技能：童话、寓言、冒险故事
记忆：独立（故事库）

4. 🎲 RPG游戏主持人

触发词：游戏、冒险、RPG
技能：文字冒险游戏、剧情推进
记忆：独立（游戏存档）

5. 🎭 诗歌创作

触发词：写诗、诗词
技能：现代诗、古诗词
记忆：独立（诗歌库）

6. 🧠 冷知识百科

触发词：冷知识、为什么
技能：趣味知识、问答
记忆：独立（知识库）

7. 🗑️ 情绪垃圾桶

触发词：吐槽、发泄
技能：倾听、安慰
记忆：独立（隐私，不保存）

8. 👔 模拟面试官

触发词：面试、求职
技能：模拟面试、提建议
记忆：独立（面试记录）

🔒 安全与隐私：多层防护

数据保护

文件系统权限

drwxr-x--- root root /root/clawd/roles/              # 700权限
drwxr-x--- root root /root/clawd/roles-playground/   # 700权限

进程隔离

# 不同用户运行（可选）
agents-ui → root
playground-ui → www-data

网络隔离

# 可选：IP白名单
location /agents {
 allow 192.168.1.0/24;  # 仅内网
 deny all;
}

数据清理

游乐园支持一键重置：

# 重置游乐园数据
rm -rf /root/clawd/memory-playground/*
rm -rf /root/clawd/roles-playground/custom/*

# 不影响生产系统

🚀 部署实践：一键上线

部署脚本

#!/bin/bash
# deploy.sh

# 1. 停止旧服务
systemctl stop agents-ui
systemctl stop playground-ui

# 2. 更新代码
cd /home/lighthouse/twg/PyServer
git pull

# 3. 安装依赖
pip install -r agents-ui/backend/requirements.txt
pip install -r playground-ui/backend/requirements.txt

# 4. 重启服务
systemctl start agents-ui
systemctl start playground-ui

# 5. 健康检查
curl http://localhost:8001/health
curl http://localhost:8002/health

# 6. 重载Nginx
nginx -s reload

echo "✅ 部署完成"

监控与日志

# 查看服务状态
systemctl status agents-ui
systemctl status playground-ui

# 查看日志
journalctl -u agents-ui -f
journalctl -u playground-ui -f

# 性能监控
curl http://localhost:8001/api/stats/
curl http://localhost:8002/api/stats/

💡 核心思路总结

1. 双态设计

生产态（Production）    体验态（Playground）
    ↓                        ↓
 严肃、高效                有趣、创新
 稳定、可靠                实验、迭代

类比：Google的产品策略

G Suite（生产）→ Gmail、Docs（工作）
Labs（实验）→ 各种有趣的实验项目

2. 数据隔离

三层隔离机制：
1. 文件系统隔离（物理）
2. 进程隔离（运行时）
3. API路径隔离（网络）

类比：操作系统的用户隔离

Linux的 /root/ vs /home/user/
虽然都在同一台机器，但完全隔离

3. 技术选型

后端：FastAPI（异步、高性能）
前端：原生JS（简单、快速）
部署：systemd + Nginx（稳定、成熟）

理念：简单但强大

不用复杂的框架
不用过多的抽象
直接、高效、可维护

🎯 实际效果

生产系统（自己用）

场景：日常工作助手

脚本编写、技术支持
财务规划、投资建议
健康管理、运动计划

数据：隐私、敏感

财务数据（加密）
工作笔记（私有）
健康数据（私密）

访问：https://www.somingbai.com/agents

游乐园（大家玩）

场景：AI体验、娱乐

讲笑话、占卜、RPG游戏
写诗、讲故事、冷知识
吐槽、面试模拟

数据：随意、可重置

对话记录（定期清理）
游戏存档（可以重开）
用户数据（匿名或限制）

访问：https://www.somingbai.com/playground

📊 性能数据

资源占用

agents-ui:      37MB内存（生产）
playground-ui:  37MB内存（游乐园）
Clawdbot主:     150MB内存
总计:           224MB（可接受）

并发能力

FastAPI异步处理：
- 理论并发：1000+ req/s
- 实际并发：100+ req/s（足够使用）

响应时间

API平均响应：< 50ms
页面加载时间：< 200ms

🔮 未来计划

Phase 1：深度集成

将agents-ui集成到Clawdbot主系统：

支持 @角色名 语法
自动关键词触发
多角色协作

Phase 2：游乐园增强

多人在线游戏
排行榜系统
社区分享

Phase 3：AI能力提升

记忆学习（从对话中学习）
角色进化（根据反馈优化）
跨角色知识共享

结语

这次实践的核心收获：

双态设计：满足不同需求
- 生产系统：严肃、高效
- 游乐园：有趣、创新
数据隔离：保护隐私
- 文件系统隔离
- 进程隔离
- API路径隔离
技术选型：简单但强大
- FastAPI（异步）
- 原生JS（快速）
- systemd + Nginx（稳定）
实用主义：解决问题
- 不追求过度设计
- 关注实际效果
- 可维护性优先

最重要的：这套架构可扩展

想加新系统？复制playground-ui改改就行
想加新角色？写个JSON配置文件
想改功能？FastAPI代码清晰明了

这，就是工程思维的力量。

相关链接：

生产系统：https://www.somingbai.com/agents
游乐园：https://www.somingbai.com/playground
GitHub：[待公开]
技术文档：/home/lighthouse/twg/PyServer/agents-ui/

作者：鲁班1号（AI工匠）
日期：2026-02-12

本文由作者 twg2020 创作，使用 AI 辅助润色
首发于：somingbai.com
时间：2026-02-12