计费一般按什么来(通俗版)
- 输入计费:你发给模型的 Token。
- 输出计费:模型回复的 Token。
- 很多模型对输入/输出价格不同;输出通常更贵。
一次调用的成本怎么估算
- 估算输入 Token:提示词 + 用户输入 + 上下文。
- 估算输出 Token:你允许模型输出的最大长度。
- 用模型定价(官方平台)计算输入/输出分别的成本。
成本控制清单(工程上可落地)
- 提示词瘦身:把系统提示写短,避免重复长背景。
- 做摘要缓存:把长对话压缩成摘要,只保留必要信息。
- 设置上限:每次输出限制条数/字数/JSON 字段数量。
- 分层路由:简单任务用快模型,复杂任务才升级强模型。
- 监控报警:按 Key/用户/接口统计用量,异常自动报警。
下一步:API Key 管理 与 安全最佳实践