上下文窗口管理策略
• Token 计数方式
• 各模型窗口大小对比
• 输入输出 Token 分配
• 费用计算
• 摘要压缩:让 AI 生成对话摘要
• 滑动窗口:只保留最近的消息
• 重要性筛选:保留关键信息
• RAG 增强:用检索替代长上下文
• 数据库存储
• Redis 缓存
• 向量数据库
• 会话管理