云器科技-文档

一、产品概述

1.1 什么是模型管理

模型管理（AI Gateway）是企业级「模型统一调用与治理中枢」，默认集成限流控制、运行监控、权限隔离、成本管控核心能力，支持聚合「云服务商托管模型」与「企业自有外部模型」，实现多场景下的模型调用标准化、资源管控可视化、成本归因精细化。

1.2 核心价值

价值维度	具体说明
统一入口	无需切换多平台，一站式管理托管 / 外部模型，降低跨平台协作成本
风险可控	基于角色的权限隔离（RBAC）+ 动态限流 + API KEY 安全管理，规避资源滥用与数据泄露
成本透明	支持租户 / Endpoint 级配额管控、多维度用量统计（Token / 调用次数）、分账报表，实现成本精准归因
低门槛调用	覆盖 SQL 嵌入、DataGPT 可视化、OpenAPI 开发三大场景，适配技术 / 非技术用户需求
可追溯性	保留模型调用日志、用量明细、权限变更记录，满足合规审计需求

1.3 核心概念

概念	定义说明	适用场景
AI Gateway	模型调用与治理的统一入口，负责权限校验、限流执行、用量统计、请求转发	所有模型调用与管理场景
Model Endpoint（模型接入点）	模型的唯一访问标识，租户内名称唯一（不支持中文），注册后可在多场景调用	模型创建后需生成 Endpoint 才能使用
托管模型	云服务商提供的预置模型（如阿里云 Qwen、OpenAI GPT-4o），由 AI Gateway 统一管理 Base URL/API KEY	企业无自有模型，需快速启用通用 AI 能力
外部模型	企业自有云厂商 MaaS 模型（如自建火山引擎大模型），需手动配置 Base URL/API KEY	金融、政务等需私有化部署或自有模型的场景

二、使用前准备

2.1 前置条件

已开通云服务商 Studio 服务，且具备「AI - 模型管理」模块访问权限（空态时仅 Instance Admin 可见「新建模型」入口）；
若使用外部模型：需提前获取云厂商提供的 Base URL（需符合 OpenAI 接口规范）、API KEY（需具备模型调用权限）；
若关联业务数据：需提前获取 Lakehouse 库表读取权限（SQL 调用场景）、AI Function 执行权限（函数调用场景）。

2.2 角色与权限矩阵（RBAC）

角色	核心权限	适用人群	典型操作场景
Account Admin	1. 初始化 Gateway Admin（首次使用自动同步）；2. 处理计费账单与服务开通	企业云账号管理员（低频操作）	企业首次接入时配置初始管理员
Gateway Admin	1. 配置租户级配额与限流策略；2. 管理全量 Endpoint/API KEY；3. 添加 / 删除管理员；4. 查看全量用量与分账数据	企业 IT 管理员、模型负责人	企业成本预算分配、全局权限管控
Endpoint Admin	1. 管理指定 Endpoint（查看用量、修改配置、删除）；2. 授予他人该 Endpoint 权限	业务线负责人（如电商、金融）	业务线模型权限分配、用量监控
ENDPOINT_VIEWER	只读模型元数据，不可调用；	运营分析师	模型调用开发、数据分析生成
ENDPOINT_USER	仅可调用模型；	开发工程师	模型调用开发、数据分析生成
ENDPOINT_OPERATOR	调用 + 修改模型配置	开发工程师	模型调用开发、数据分析生成

三、核心操作指南

3.1 Endpoint 全生命周期管理（模型接入与监控）

3.1.1 托管模型管理（快速启用预置模型）

业务价值：无需配置，直接使用云服务商预置模型，适用于快速验证业务需求（如临时数据分析、demo 开发）。 操作步骤：

进入「模型管理 → Endpoint」页面，系统默认展示租户内已配置的托管模型列表；
核心操作（角色权限差异）：
- 操作步骤：
  - 进入「模型管理 → Endpoint」页面；
  - 在Endpoint列表找到目标模型，可执行以下操作：
    - 新建Endpoint（仅 Gateway Admin）：点击右侧新建，可创建Endpoint
      预览
    - 复制 Endpoint：点击「复制」，可复制一个已经生成的Endpoint信息，并对其中内容修改后，生成一个新的Endpoint；
      预览
    - 测试连通：点击测试连接，会触发一次真实大模型调用用于验证连通性，该操作会消耗极少量 Token。
      预览
    - 查看详情：点击 Endpoint 名称，查看模型版本、调用量、有权限用户、历史变更记录；
      预览
    - 删除模型（仅 Gateway Admin和Endpoint Admin）：点击「删除」→ 确认弹窗点击「确定」（删除后不可恢复）。

3.1.2 外部模型接入（企业自有模型集成）

业务价值：支持企业将私有化部署或自有版权的模型接入 AI Gateway，实现统一管控（如金融风控模型、电商推荐模型）。分两类场景接入，满足不同模型规范需求： 场景一：标准厂商接入（如火山引擎、Anthropic） 优势：模型符合云厂商标准接口规范，无需自定义 URL

进入「模型管理 → Endpoint → 新建 → 外部模型」；
填写配置：
- 输入「Endpoint 名称」（租户内唯一，如 “finance-risk-model”）；
- 选择「厂商」（系统自动填充标准 Base URL）；
- 单选「模型分类」（LLM/Embedding/Image Generation）；
- 输入「模型版本」（如 “risk-v2.1”）；
- 填写「API KEY ID」（仅调用外部模型时需要API Key信息，您可在API KEY界面创建，并根据生成的API Key查看具体ID信息）；
AI Gateway 配置：
- 设置「访问限流」（如 TPM=1000，RPM=50）
- 「访问配额」（如每月 10 万 Token）；
点击「测试连接」，验证连通性（失败排查见第四章）；
测试通过后点击「确定」，Endpoint 加入列表。
预览

场景二：自定义接入（符合 OpenAI 规范） 优势：企业自研模型、第三方非标准厂商模型

进入「模型管理 → Endpoint → 新建 → 外部模型 → 自定义」；
填写配置：
- 输入「Endpoint 名称」（如 “custom-ocr-model”）；
- 填写「模型厂商」（如 “企业自研”）；
- 单选「模型分类」（如 “Image Generation”）；
- 输入「模型版本」（自定义，如 “20260120-beta”）；
- 填写「Base URL」（如 “https://internal-ocr.example.com/v1/chat/completions”）；
- 填写「API KEY ID」（仅调用外部模型时需要API Key信息，您可在API KEY界面创建，并根据生成的API Key查看具体ID信息）；
后续步骤同 “标准厂商接入” 3-5 步。
预览

3.1.3 模型监控（实时掌握运行状态）

业务价值：实时监控模型调用成功率、延迟、错误率，及时发现异常（如模型宕机、限流触发）。 操作步骤：

进入「模型管理 → Endpoint」，选择目标 Endpoint，点击「更多 → 监控」；
预览
配置查询条件：
- 时间范围：默认近 1 天，支持 1 分钟～60 天（不同范围数据粒度不同，如 1 天内为 1 分钟 / 点，30 天内为 1 小时 / 点）；
- 指标维度：默认展示「请求次数、成功率、端到端延迟、Token 总用量」；
查看数据：
- 概览面板：展示核心 KPI（Token 总量、成功率、错误率、平均延迟）；
- 趋势图表：折线图展示指标变化（如成功率骤降需排查模型连通性）；
- 错误明细：点击「错误率」可查看错误类型（如限流、权限不足）；

3.2 API KEY 管理（安全访问凭证）

业务价值：API KEY 是模型外部调用的唯一凭证，严格管理可防止资源滥用与数据泄露。 操作步骤（仅 Gateway Admin）：

进入「模型管理 → API KEY」页面；
新建 API KEY：
- 点击「新建 KEY」→ 输入名称（需关联业务场景，如 “ecommerce-recommend-key”）；
- 点击「确认」，系统生成 KEY；
日常管理：
- 禁用 / 启用：点击「禁用」（禁用后无法调用，适用于临时停用），需用时点击「启用」；
- 删除：需先停用关联调用（如 SQL/OpenAPI 调用），点击「删除」→ 确认（KEY 立即失效）；
- 筛选：通过「状态（正常 / 禁用）」「负责人」快速定位目标 KEY；
安全注意事项：
- 避免明文存储（如代码仓库、配置文件）；
- 定期轮换（建议每 3 个月）；
- 泄露后需立即删除并新建，更新所有关联调用配置；
  预览

3.3 权限管理（精细化资源控制）

3.3.1 Gateway Admin 管理（全局权限管控）

业务价值：确保企业有且仅有授权人员负责全局配置，避免权限混乱。 操作步骤（仅当前 Gateway Admin）：

进入「模型管理 → 权限 → Gateway 管理员」；
添加管理员：
- 点击「添加」→ 勾选目标用户（需在租户内已注册）；
- 点击「确认」，用户立即获得 Gateway Admin 全量权限；
删除管理员：
- 在列表找到目标用户，点击「移除」；
- 系统校验：① 不可删除当前登录用户；② 删除后需至少保留 1 名 Admin；
查看记录：页面展示所有 Admin 的「用户名、添加时间、操作人」；
预览

3.3.2 Endpoint 权限管理（业务线权限隔离）

业务价值：按业务线分配 Endpoint 权限，避免跨业务资源滥用（如电商 Endpoint 仅电商团队可调用）。 操作步骤（仅 Endpoint Admin）：

进入「模型管理 → 权限 → Endpoint 权限」；
授权操作：
- 点击「添加」→ 选择目标用户 → 勾选权限类型（参考 2.2 角色权限）；
- 选择需授权的 Endpoint（可多选）；
- 点击「确认」，用户获得对应权限；
收回权限：
- 在「已授权列表」找到目标用户与 Endpoint；
- 点击「移除」→ 确认，权限立即失效；
  预览

3.4 配额与用量管理（成本控制）

3.4.1 租户配额配置（企业级预算管控）

业务价值：设置企业月度 Token 总上限，避免超预算（如每月 500 万 Token，覆盖全业务线）。 操作步骤（仅 Gateway Admin）：

进入「模型管理 → 用量 → 租户配额」；
首次配置：
- 若为空态（提示 “当前租户尚未设置配额”），点击「设置租户配额」；
- 填写配置：粒度默认「租户级别」、周期默认「每月」、Token 配额（如 5000000，即 500 万 / 月）；
- 点击「保存」，跳转至配额页查看「总配额、已用量、剩余量、每日用量趋势」；
调整配额：点击「编辑配额」→ 修改数值 → 保存（实时生效）；
预览

3.4.2 Endpoint 配额配置（业务线预算分配）

业务价值：为单个 Endpoint 分配独立配额（如电商推荐模型每月 100 万 Token），实现业务线成本隔离。 操作步骤（Gateway Admin/Endpoint Admin）：

进入「模型管理 → Endpoint」，选择目标 Endpoint，点击「编辑」；
找到「AI Gateway → 访问配额」模块；
填写配置：粒度默认「Endpoint 级别」、周期「每月」、Token 配额（如 1000000）；
关键规则：实际可用配额 = 租户配额与 Endpoint 配额的较小值（如租户剩 50 万，Endpoint 配额 100 万，实际可用 50 万）；
点击「保存」，在 Endpoint 详情页查看配额使用情况；
预览

3.4.3 用量统计查询（多维度成本归因）

业务价值：按 Endpoint / 用户 / API KEY 维度查询用量，定位高成本资源（如某用户调用量异常）。 操作步骤（角色权限差异）：

进入「模型管理 → 用量 → 用量统计」；
配置查询条件：
- 时间范围：默认近 1 月，支持切换「近 1 周 / 自定义」；
- 统计维度：
  - 普通用户：仅查看「自身关联的 Endpoint / 用户」；
  - Gateway Admin：查看「Endpoint / 用户 / API KEY / 账户 / 账号明细」；
查看数据：
- 列表视图：展示「统计维度、日期、调用次数、输入 Token、输出 Token、总用量」；
- 图表视图：点击「切换图表」，通过折线图 / 柱状图查看用量趋势；
下载明细（仅 Gateway Admin）：
- 点击「下载明细」→ 选择年月（支持最近 1 年）→ 确认；
  预览

3.5 多场景模型调用（适配不同用户需求）

3.5.1 SQL 调用（数据分析师 / 开发工程师）

业务价值：直接在 SQL 中调用模型，实现 “数据查询 + AI 分析” 一体化（如订单文本嵌入、用户评论情感分析）。您可以在SQL中直接调用，例如：


select ai_complete('endpoint\:lis\_aliyun\_qwen\_max','中国首都是哪里？')

3.5.2 DataGPT 调用（所有角色操作）

DataGPT 通过标准化接口实现 AI 模型调用，可快速完成模型对接与替换。您只需在 DataGPT 的模型配置界面，将我方提供的专属调用地址（BaseUrl）与访问凭证（API Key），替换平台现有模型配置，即可完成模型调用链路的切换，依托 AI Gateway 实现稳定、可管控的 AI 能力调用。

3.5.3 OpenAPI 标准调用（开发场景）

调用地址：Endpoint 列表中的 “访问地址”；
API KEY：从「API KEY 管理」中获取（仅 Gateway Admin 可创建）；
调用方式：
- 进入「模型管理 → Endpoint」页面，点击Endpoint名称，进入详情页；
- 在详情页的下方，「Endpoint调用示例」部分，为您展示OpenAI-python和REST API-cURL两种调用方式的示例

四、关键注意事项

权限控制：操作前确认自身角色权限（如普通用户不可删除 Endpoint），避免因权限不足导致操作失败；如需扩展权限，联系对应 Admin（Gateway Admin 负责全局权限，Endpoint Admin 负责业务线权限）。
数据留存：
- 账号明细数据：仅保留最近 1 年，需长期存储需每月下载备份（Gateway Admin 操作）；
- 用量监控数据：最多保留 60 天，关键指标（如月度配额使用情况）需定期截图存档。
模型删除风险：
- Endpoint 删除后不可恢复，删除前需：① 停用所有关联调用（SQL/OpenAPI/DataGPT）；② 通知所有有权限用户；
- 内置托管模型删除后，需重新使用时联系技术支持（不可自行恢复）。
API KEY 安全：
- 避免泄露（如明文分享、存储在代码仓库）；
- 定期轮换（建议每 3 个月）；
- 泄露后需立即在「API KEY 管理」中删除并重新创建，更新所有关联配置。
配额生效规则：Endpoint 实际可用配额 = 租户配额与 Endpoint 配额的较小值，设置时避免 Endpoint 配额远超租户配额（如租户每月 100 万，Endpoint 设 200 万，实际仅 100 万可用，造成配置浪费）。
兼容性注意：外部模型需符合 OpenAI 接口规范，否则无法接入（如不支持 “messages” 参数的模型需厂商适配）；编辑模型版本时，需确认下游调用系统是否支持新版本（避免兼容性问题）。

联系我们