AfterShip 如何用 AI Agent 重塑客服体验？

你一定经历过这样的崩溃时刻：

点开客服对话框，结果机器人却像复读机一样「请问有什么可以帮您」。

无论你怎么描述问题，它永远只会甩给你几篇 FAQ 链接。

最后，你不得不在「转人工」按钮上疯狂点击，然后在漫长的等待中怀疑人生。

但如果我告诉你，有一家公司把 AI 客服的问题解决率从 25% 提升到了 43%，并让它真正能像人类客服一样能查系统、看截图、主动追问、甚至还会主动帮你接入人工客服，你相信吗？

这不是概念，而是 AfterShip 的算法和技术团队最近完成的一次技术升级。

今天，我们就来揭秘这次客服系统升级背后的故事。

一、为什么要升级？当客服团队被淹没在重复的海洋里

作为全球领先的电商 SaaS 平台，AfterShip 每个月要处理几十万条客户咨询。其中大部分都是重复性问题，比如：

「我的包裹到哪了？」「为什么物流状态不更新？」「订单怎么查不到？」

这些问题看似简单，却消耗了客服团队的大量精力。

更致命的是，这些咨询者很多并非 AfterShip 的直接客户，而是「客户的客户」——使用 AfterShip 服务的电商平台和品牌的 C 端用户。

结果就是：

客服团队的精力，被 C 端用户的海量低价值问题分散，而真正需要深度服务的 Enterprise（企业级）客户，反而得不到足够关注。

传统的解决做法是招更多客服，但这只会让成本不断飙升，并且治标不治本。

而上一代 AI 客服？只会查知识库和机械式复读的客服机器人，问题解决率仅有 25%。

于是，AfterShip 决定重新设计客服系统，迭代 Support 聊天机器人为客服 AI Agent，让 AI 真正变成既能思考、也能执行的「数字员工」。

二、技术架构：让 AI 既能思考，也会执行

2.1 无状态设计：简单，但更高效

大多数 AI 客服系统会在后端保存完整对话历史，构建“记忆系统”。

但 AfterShip 选择了另一条路——无状态设计。

每次请求时，业务系统会将完整的历史对话上下文传入，Agent 处理后返回结果，自身不保留状态。

这种看似“舍弃记忆”的做法，背后其实是深思熟虑的权衡：

对话记录早已有存储：业务数据库和前端都已保存完整对话。

减少重复维护：Agent 侧再建一套 Memory，不仅浪费资源，还带来数据一致性风险。

系统更易扩展：任何调用方都能轻松接入，Agent 无需依赖上下文缓存。

只有在确实需要“长期记忆”时（如上下文摘要、Agent 学习记录），系统才会启用轻量级 Memory 模块。

这让维护成本降低约 80%，同时为未来的 Context Engineering（上下文工程）留出了空间。

2.2 模型选择：平衡速度、可靠性与成本

选择大模型就像选车：你不可能同时要速度快、性能好、还便宜。

AfterShip 技术团队总结了 Agent 的「不可能三角」：

可靠性 (Reliability)：回答准确、工具调用稳定

速度 (Speed)：响应快、生成快

成本 (Cost)：API 调用费用低

经过大量测试，团队总结了部分大模型的特点：

在 Support Agent 这个场景下，对 Agent 能力要求如下：

生成速度快：推理速度要快。在实时对话场景中，无法实现“打字机”效果，因此仅有较快的 TTFT（Time to First Token）无法提升用户体验，必须保证端到端（TTFT + TPS + Tool Calling）的快速输出。

生成结果可靠：要求模型至少达到 Top-1 水平，能够处理各种边界情况，同时保证 Tool Calling 过程的稳定性。

Context 容量较大：由于当前 Agent 的相关基建还在持续建设，很多 Context Engineering 的技巧还无法尽情施展。为了可以让 Agent 能接收较多的 Context，LLM Context 容量也需要相对较大。

支持多模态输入：用户经常会上传截图询问客服，少数会话甚至包含音频、视频。因此，所选模型必须具备多模态处理能力。

成本友好：模型的使用成本需与当前业务场景匹配。

综合判断下来，我们选择 gemini-2.5-flash 作为常规模型。

当然，随着接入工具增多、调用链路变复杂，2.5 Flash 未来可能需要升级到 Gemini 2.5 Pro，以应对更复杂场景。

2.3 工具体系：从「查答案」到「真干活」

这是本次升级的核心亮点。传统 AI 客服只会查知识库，而 AfterShip 的 Support Agent 拥有完整的内外部工具调用能力：

内部工具（提升对话质量）：

知识库查询（匹配 How-to 文档、FAQ）

问题分类（自动打标签）

智能判断何时需要人类介入

对话摘要生成（转人工时提供上下文）

外部工具（真正的干活能力）：

Tracking Tool：当用户问「为什么物流不更新」，AI 会自动调用接口刷新状态

Courier Tools：查询快递公司信息

Order Tools：查询订单详情

Detect Tools：问题检测与诊断

举个实际案例：用户：「我的包裹显示已签收，但我没收到！」

传统 AI：复读 FAQ → 用户崩溃 → 转人工

AfterShip AI Agent 客服：

调用 Order Tool 查询订单号 ➡️ 调用 Tracking Tool 查看物流详情 ➡️ 发现物流商数据异常 ➡️ 调用 Refresh Tool 刷新状态 ➡️ 发现实际未签收,向用户解释并提供追踪链接 ➡️ 如仍无法解决,生成问题摘要转人工

这使得 AI 不再只是一个问答机器，而是真正能“动手”解决问题的数字同事。

2.4 协议层：AG-UI 协议的标准化和灵活性

为了让前端、后端、不同业务模块的 Agent 能高效协作，AfterShip 采用了 AG-UI（Agent UI）协议，这是一套标准化的 Agent 通信规范。

时序图：

为什么要选择标准协议？主要有三个考量：

一是解耦前后端：前端不需要关心后端用什么框架（LangChain、LangGraph 还是其他）。

二是能快速接入：任何遵循协议的客户端都能直接调用 Agent。

三是全链可监控：每个事件节点都能追踪，便于调试。

目前，Agent 之间的调用，也通过 A2A（Agent-to-Agent）协议实现标准化互通，为多 Agent 协作奠定了基础。

三、从细节出发：优化落地体验

3.1 多模态理解：看懂用户的截图

过去，当用户上传截图时，AI 只能机械回复「请描述您的问题」，体验极差。现在，AfterShip 的 Agent 已能直接识别图片内容。

例如，当用户上传一张「Error 403: Access Denied」的截图时，系统会： 1️⃣ 识别截图文字； 2️⃣ 判断为权限问题； 3️⃣ 查询用户账户状态； 4️⃣ 返回具体解决方案。

这种能力的背后，是多模态识别在客服场景的首次深度应用。它让 AI 能“理解”用户所见，减少了来回沟通。

3.2 主动追问：AI 学会了「反问」

早期版本中，如果用户问题模糊（比如输入「创建不了」），AI 通常会直接调用知识库，结果往往答非所问。

升级后，AI 会主动追问：

「您具体是在创建什么时遇到问题？」

「方便提供截图或错误信息吗？」

「这个问题是从什么时候开始的？」

这种「追问能力」让问题解决率提升了 15 个百分点。

3.3 防偷懒机制：让 Agent 强制按规则执行

大语言模型有个「坏习惯」：在多轮对话中喜欢偷懒，不调用工具。

比如业务要求每条 Query 都要生成 Category 分类标签，但测试发现 AI 在第 3、4 轮对话时，经常「忘记」调用分类工具。

为此，团队增加了一个后处理层：系统会在每次 Agent 输出后自动检测是否调用了指定工具；如未调用，则强制补调。

这种「防偷懒机制」让工具调用率保持在 100%，也体现了团队对「AI 不可全信」的工程理解 ——关键逻辑，必须有护栏。

3.4 安全防护：从 MCP 漏洞中学到的教训

在升级的前一天，安全团队提前发现了一个由 MCP 引发的潜在漏洞：

攻击者有可能可以通过精心设计的 Prompt，让 AI 调用了 Tracking 查询工具，获取其他节点信的数据！

问题暴露后，团队立即采取措施：

关闭存在风险的 MCP Server

推行 JWT 鉴权机制：所有工具调用必须带用户身份 Token

在工具层做二次校验：拒绝任何异常参数请求。

这次事件让团队重新认识到：

再强的 Prompt 防护，都不如代码级别的安全限制。

涉及用户数据的调用，永远需要“人类思维”来兜底。

四、效果与挑战：43% 只是开始

AI 升级上线的第一个月，团队重点关注了 4 个核心指标：问题解决率、延迟、工具调用、以及多模态支持。

4.1 数据说话

43% 并不是一个“炫目”的数字，但它意味着：

每月减少上万次人工客服介入低价值问题

客服团队可以专注 Enterprise 客户

用户平均等待时间从 15 分钟降至 5 分钟

这些变化的背后，不仅是模型的升级，更是架构与流程的整体优化。

4.2 剩下的 57%，为什么还解决不了？

团队系统分析了所有转人工的 Case，发现主要原因有：

这些数据让团队更清楚地看到下一步优化的方向：

扩展工具权限：让 AI 能安全执行部分低风险操作（如查询、修改基础字段）。

情绪识别与优先转接：识别愤怒语气并自动安抚或转人工。

用户角色澄清：在界面明确提示「我是 AfterShip 客服，不是商家客服」。

4.3 技术瓶颈：Prompt 的尽头是什么？

随着系统复杂度提升，AfterShip 团队也发现仅靠「调 Prompt」和「加记忆」难以持续提升。

目前的迭代过程是：收到 Bad Case → 人工分析 → 调整 Prompt → 上线测试

这个循环效率低、可迁移性差，也容易陷入“人工修补循环”。

于是我们开始探索一种新的方式：Agent 微调（Fine-tuning for Agents）。

传统模型微调是调参数，但 Agent 微调是调 Memory：

收集 Good Case 和 Bad Case

让 AI 学习「在场景 A 用方法 A 成功了」

让 AI 学习「在场景 B 用方法 C 失败了」

AI 自动构建决策 Memory，下次遇到类似场景时调用最优策略

未来，Agent 还将具备「自我改进（Self-Improvement）」能力：当系统检测到用户不满意时，AI 会自动复盘并更新内部策略，下次遇到类似问题时尝试不同解法。

目前，这套机制仍在测试阶段，但它标志着 AfterShip 正在向真正的「可自我优化系统」迈进。

五、给开发者和企业的启示：打造 Super Agent 的 4 条经验

如果你也想构建类似的客服 AI Agent 系统，这里有 4 条血泪经验：

1️⃣ 选模型看场景，不要迷信「最强」

实时对话场景：速度 > 能力，选 Gemini Flash

复杂推理场景：能力 > 速度，选 Claude 或 GPT

成本敏感场景：优先开源模型 + 自建推理

2️⃣ 无状态设计是银弹还是陷阱？

如果业务侧已有完整存储，Agent 就该无状态

如果依赖上下文推理和多步任务 → 适度引入有状态缓存或短期记忆；

错误做法：业务侧和 Agent 侧存两份一样的数据

3️⃣ 安全是生命线

原则 1：涉及隐私数据的工具，必须后端二次校验

原则 2：用 JWT 而非 API Key 做鉴权

原则 3：定期做渗透测试，别等安全团队找上门

4️⃣ 建立 Human-in-the-Loop 机制，让 AI 和人类真正协作

让客服团队评估 AI 回答质量，按满意度分级

收集 Bad Case 但不要只靠人工修复

终极目标：让 AI 从 Bad Case 中自我学习

六、未来已来：Agent 时代的客服长什么样？

AfterShip 的客服 Agent 升级只是开始。

可以预见未来 3 年内，Agent 会成为每个部门和职场人的标配：不只客服，销售、财务、HR 都会有专属 Agent。

随着 Agent 能力以及多 Agent 协作的不断成熟，系统将逐步迈向 Zero Human Intervention —— 95% 的常规问题将实现完全自动化解决。

但无论 AI 多么强大，有一点始终是不会变的：

真正需要同理心、创造力和战略决策的工作，依然属于人类。

AI 的到来，不是为了取代人，而是来把我们从重复劳动中解放出来去做更有价值的事。

写在最后

AfterShip 的这次升级，真正核心的地方，并不是 43% 的数字成果，而是团队在每一个技术决策和落地上的克制与务实。

没有追逐最“炫”的技术，而是选择最合适的方案；没有为了噱头而堆功能，而是专注让每次回答更准确一点。

这才是工程师文化的核心：注重细节，并用极客精神探索最合适的技术，解决最真实的问题。

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

AfterShip 如何用 AI Agent 重塑客服体验？

相关阅读

猜你喜欢

热点图片

要闻