6 月 20 日消息,Netflix 高级工程师 Tejas Chopra 开发了一款名为 Headroom 的开源工具,旨在解决 AI 应用日益高昂的词元(Token)成本问题。
该项目于 2026 年 1 月开源,目前已更新至 v0.26.0 版本,但直到近日突然在海外以及国内 AI 圈内爆火,几乎能在各大平台看到推荐它的帖子。截至发稿,该项目在 GitHub 上已获得超过 3.96 万颗星标。

根据 Tejas Chopra 在开源峰会上的分享,Headroom 累计已帮助用户节省约 70 万美元(注:现汇率约合 474.9 万元人民币)的成本,并释放了超过 2000 亿个 Token。

据其本人介绍,Headroom 的诞生源于 Tejas Chopra 在一次个人项目开发中收到的一张 287 美元的 API 账单。他分析后发现,大量成本并非来自其编写的提示词,而是由自动生成的大量冗余数据造成,包括嵌套的 JSON 结构、重复的 API 响应和数据库字段等。有研究指出,AI 应用中约 76% 的 Token 消耗仅用于读取用户输入。
Headroom 的工作原理是在 AI 应用与 LLM 之间建立一个本地运行的透明压缩层。它在工具输出、日志、文件、RAG 检索片段和对话历史等内容到达大模型之前进行压缩,从而显著减少 Token 消耗,同时声称能保持回答质量不变。
当然,其压缩是可逆的,原始内容会被缓存在本地(如 Redis 或 SQLite),当模型需要详细信息时,可通过 CCR(Compress, Cache and Retrieve)机制调取。
在技术实现上,Headroom 包含多个组件:CacheAligner 用于稳定前缀以利用提供商的 KV 缓存;ContentRouter 负责检测内容类型并选择最优压缩算法,包括针对 JSON 的 SmartCrusher、针对代码的 AST 压缩以及基于模型的 Kompress-base 文本压缩。
实测数据显示,在代码搜索场景中,Token 从 17,765 个降至 1,408 个,节省 92%;在 SRE 事故调试场景中,从 65,694 个降至 5,118 个,同样节省 92%。
Headroom 提供多种集成方式以适应不同场景。用户可通过 Python 或 TypeScript 库直接调用 compress (messages) 函数;也可使用智能体模式,执行 headroom proxy --port 8787 实现零代码改动接入;还支持 headroom wrap claude|codex|cursor|aider|copilot 命令直接包装现有 AI 编程智能体。
此外,它还提供 MCP 服务器模式,通过 headroom_compress、headroom_retrieve 和 headroom_stats 三个工具供任何 MCP 客户端调用。
该项目同时提供输出 Token 缩减功能,通过精简 AI 回复中仅能提供情绪价值的客套话和重复代码来进一步降低成本。
参考资料:
官网文档:https://headroom-docs.vercel.app/docs
GitHub:https://github.com/chopratejas/headroom