一、产品概述

1.1 什么是模型管理

模型管理(AI Gateway)是企业级「模型统一调用与治理中枢」,默认集成限流控制、运行监控、权限隔离、成本管控核心能力,支持聚合「云服务商托管模型」与「企业自有外部模型」,实现多场景下的模型调用标准化、资源管控可视化、成本归因精细化。

1.2 核心价值

价值维度具体说明
统一入口无需切换多平台,一站式管理托管 / 外部模型,降低跨平台协作成本
风险可控基于角色的权限隔离(RBAC)+ 动态限流 + API KEY 安全管理,规避资源滥用与数据泄露
成本透明支持租户 / Endpoint 级配额管控、多维度用量统计(Token / 调用次数)、分账报表,实现成本精准归因
低门槛调用覆盖 SQL 嵌入、DataGPT 可视化、OpenAPI 开发三大场景,适配技术 / 非技术用户需求
可追溯性保留模型调用日志、用量明细、权限变更记录,满足合规审计需求

1.3 核心概念

概念定义说明适用场景
AI Gateway模型调用与治理的统一入口,负责权限校验、限流执行、用量统计、请求转发所有模型调用与管理场景
Model Endpoint(模型接入点)模型的唯一访问标识,租户内名称唯一(不支持中文),注册后可在多场景调用模型创建后需生成 Endpoint 才能使用
托管模型云服务商提供的预置模型(如阿里云 Qwen、OpenAI GPT-4o),由 AI Gateway 统一管理 Base URL/API KEY企业无自有模型,需快速启用通用 AI 能力
外部模型企业自有云厂商 MaaS 模型(如自建火山引擎大模型),需手动配置 Base URL/API KEY金融、政务等需私有化部署或自有模型的场景

二、使用前准备

2.1 前置条件

  1. 已开通云服务商 Studio 服务,且具备「AI - 模型管理」模块访问权限(空态时仅 Instance Admin 可见「新建模型」入口);
  2. 若使用外部模型:需提前获取云厂商提供的 Base URL(需符合 OpenAI 接口规范)、API KEY(需具备模型调用权限);
  3. 若关联业务数据:需提前获取 Lakehouse 库表读取权限(SQL 调用场景)、AI Function 执行权限(函数调用场景)。

2.2 角色与权限矩阵(RBAC)

角色核心权限适用人群典型操作场景
Account Admin1. 初始化 Gateway Admin(首次使用自动同步);2. 处理计费账单与服务开通企业云账号管理员(低频操作)企业首次接入时配置初始管理员
Gateway Admin1. 配置租户级配额与限流策略;2. 管理全量 Endpoint/API KEY;3. 添加 / 删除管理员;4. 查看全量用量与分账数据企业 IT 管理员、模型负责人企业成本预算分配、全局权限管控
Endpoint Admin1. 管理指定 Endpoint(查看用量、修改配置、删除);2. 授予他人该 Endpoint 权限业务线负责人(如电商、金融)业务线模型权限分配、用量监控
ENDPOINT_VIEWER只读模型元数据,不可调用;运营分析师模型调用开发、数据分析生成
ENDPOINT_USER仅可调用模型;开发工程师模型调用开发、数据分析生成
ENDPOINT_OPERATOR调用 + 修改模型配置开发工程师模型调用开发、数据分析生成

三、核心操作指南

3.1 Endpoint 全生命周期管理(模型接入与监控)

3.1.1 托管模型管理(快速启用预置模型)

业务价值:无需配置,直接使用云服务商预置模型,适用于快速验证业务需求(如临时数据分析、demo 开发)。 操作步骤

  1. 进入「模型管理 → Endpoint」页面,系统默认展示租户内已配置的托管模型列表;
  2. 核心操作(角色权限差异):
    • 操作步骤:
      • 进入「模型管理 → Endpoint」页面;
      • 在Endpoint列表找到目标模型,可执行以下操作:
        • 新建Endpoint(仅 Gateway Admin):点击右侧新建,可创建Endpoint
        • 复制 Endpoint:点击「复制」,可复制一个已经生成的Endpoint信息,并对其中内容修改后,生成一个新的Endpoint;
        • 测试连通:点击测试连接,会触发一次真实大模型调用用于验证连通性,该操作会消耗极少量 Token。
        • 查看详情:点击 Endpoint 名称,查看模型版本、调用量、有权限用户、历史变更记录;
        • 删除模型(仅 Gateway Admin和Endpoint Admin):点击「删除」→ 确认弹窗点击「确定」(删除后不可恢复)。

3.1.2 外部模型接入(企业自有模型集成)

业务价值:支持企业将私有化部署或自有版权的模型接入 AI Gateway,实现统一管控(如金融风控模型、电商推荐模型)。 分两类场景接入,满足不同模型规范需求: 场景一:标准厂商接入(如火山引擎、Anthropic) 优势:模型符合云厂商标准接口规范,无需自定义 URL

  1. 进入「模型管理 → Endpoint → 新建 → 外部模型」;
  2. 填写配置:
    • 输入「Endpoint 名称」(租户内唯一,如 “finance-risk-model”);
    • 选择「厂商」(系统自动填充标准 Base URL);
    • 单选「模型分类」(LLM/Embedding/Image Generation);
    • 输入「模型版本」(如 “risk-v2.1”);
    • 填写「API KEY ID」(仅调用外部模型时需要API Key信息,您可在API KEY界面创建,并根据生成的API Key查看具体ID信息);
  3. AI Gateway 配置:
    • 设置「访问限流」(如 TPM=1000,RPM=50)
    • 「访问配额」(如每月 10 万 Token);
  4. 点击「测试连接」,验证连通性(失败排查见第四章);
  5. 测试通过后点击「确定」,Endpoint 加入列表。

场景二:自定义接入(符合 OpenAI 规范) 优势:企业自研模型、第三方非标准厂商模型

  1. 进入「模型管理 → Endpoint → 新建 → 外部模型 → 自定义」;
  2. 填写配置:
    • 输入「Endpoint 名称」(如 “custom-ocr-model”);
    • 填写「模型厂商」(如 “企业自研”);
    • 单选「模型分类」(如 “Image Generation”);
    • 输入「模型版本」(自定义,如 “20260120-beta”);
    • 填写「Base URL」(如 “https://internal-ocr.example.com/v1/chat/completions”);
    • 填写「API KEY ID」(仅调用外部模型时需要API Key信息,您可在API KEY界面创建,并根据生成的API Key查看具体ID信息);
  3. 后续步骤同 “标准厂商接入” 3-5 步。

3.1.3 模型监控(实时掌握运行状态)

业务价值:实时监控模型调用成功率、延迟、错误率,及时发现异常(如模型宕机、限流触发)。 操作步骤

  1. 进入「模型管理 → Endpoint」,选择目标 Endpoint,点击「更多 → 监控」;
  2. 配置查询条件:
    • 时间范围:默认近 1 天,支持 1 分钟~60 天(不同范围数据粒度不同,如 1 天内为 1 分钟 / 点,30 天内为 1 小时 / 点);
    • 指标维度:默认展示「请求次数、成功率、端到端延迟、Token 总用量」;
  3. 查看数据:
    • 概览面板:展示核心 KPI(Token 总量、成功率、错误率、平均延迟);
    • 趋势图表:折线图展示指标变化(如成功率骤降需排查模型连通性);
    • 错误明细:点击「错误率」可查看错误类型(如限流、权限不足);

3.2 API KEY 管理(安全访问凭证)

业务价值:API KEY 是模型外部调用的唯一凭证,严格管理可防止资源滥用与数据泄露。 操作步骤(仅 Gateway Admin)

  1. 进入「模型管理 → API KEY」页面;
  2. 新建 API KEY:
    • 点击「新建 KEY」→ 输入名称(需关联业务场景,如 “ecommerce-recommend-key”);
    • 点击「确认」,系统生成 KEY;
  3. 日常管理:
    • 禁用 / 启用:点击「禁用」(禁用后无法调用,适用于临时停用),需用时点击「启用」;
    • 删除:需先停用关联调用(如 SQL/OpenAPI 调用),点击「删除」→ 确认(KEY 立即失效);
    • 筛选:通过「状态(正常 / 禁用)」「负责人」快速定位目标 KEY;
  4. 安全注意事项:
    • 避免明文存储(如代码仓库、配置文件);
    • 定期轮换(建议每 3 个月);
    • 泄露后需立即删除并新建,更新所有关联调用配置;

3.3 权限管理(精细化资源控制)

3.3.1 Gateway Admin 管理(全局权限管控)

业务价值:确保企业有且仅有授权人员负责全局配置,避免权限混乱。 操作步骤(仅当前 Gateway Admin)

  1. 进入「模型管理 → 权限 → Gateway 管理员」;
  2. 添加管理员:
    • 点击「添加」→ 勾选目标用户(需在租户内已注册);
    • 点击「确认」,用户立即获得 Gateway Admin 全量权限;
  3. 删除管理员:
    • 在列表找到目标用户,点击「移除」;
    • 系统校验:① 不可删除当前登录用户;② 删除后需至少保留 1 名 Admin;
  4. 查看记录:页面展示所有 Admin 的「用户名、添加时间、操作人」;

3.3.2 Endpoint 权限管理(业务线权限隔离)

业务价值:按业务线分配 Endpoint 权限,避免跨业务资源滥用(如电商 Endpoint 仅电商团队可调用)。 操作步骤(仅 Endpoint Admin)

  1. 进入「模型管理 → 权限 → Endpoint 权限」;
  2. 授权操作:
    • 点击「添加」→ 选择目标用户 → 勾选权限类型(参考 2.2 角色权限);
    • 选择需授权的 Endpoint(可多选);
    • 点击「确认」,用户获得对应权限;
  3. 收回权限:
    • 在「已授权列表」找到目标用户与 Endpoint;
    • 点击「移除」→ 确认,权限立即失效;

3.4 配额与用量管理(成本控制)

3.4.1 租户配额配置(企业级预算管控)

业务价值:设置企业月度 Token 总上限,避免超预算(如每月 500 万 Token,覆盖全业务线)。 操作步骤(仅 Gateway Admin)

  1. 进入「模型管理 → 用量 → 租户配额」;
  2. 首次配置:
    • 若为空态(提示 “当前租户尚未设置配额”),点击「设置租户配额」;
    • 填写配置:粒度默认「租户级别」、周期默认「每月」、Token 配额(如 5000000,即 500 万 / 月);
    • 点击「保存」,跳转至配额页查看「总配额、已用量、剩余量、每日用量趋势」;
  3. 调整配额:点击「编辑配额」→ 修改数值 → 保存(实时生效);

3.4.2 Endpoint 配额配置(业务线预算分配)

业务价值:为单个 Endpoint 分配独立配额(如电商推荐模型每月 100 万 Token),实现业务线成本隔离。 操作步骤(Gateway Admin/Endpoint Admin)

  1. 进入「模型管理 → Endpoint」,选择目标 Endpoint,点击「编辑」;
  2. 找到「AI Gateway → 访问配额」模块;
  3. 填写配置:粒度默认「Endpoint 级别」、周期「每月」、Token 配额(如 1000000);
  4. 关键规则:实际可用配额 = 租户配额与 Endpoint 配额的较小值(如租户剩 50 万,Endpoint 配额 100 万,实际可用 50 万);
  5. 点击「保存」,在 Endpoint 详情页查看配额使用情况;

3.4.3 用量统计查询(多维度成本归因)

业务价值:按 Endpoint / 用户 / API KEY 维度查询用量,定位高成本资源(如某用户调用量异常)。 操作步骤(角色权限差异)

  1. 进入「模型管理 → 用量 → 用量统计」;
  2. 配置查询条件:
    • 时间范围:默认近 1 月,支持切换「近 1 周 / 自定义」;
    • 统计维度:
      • 普通用户:仅查看「自身关联的 Endpoint / 用户」;
      • Gateway Admin:查看「Endpoint / 用户 / API KEY / 账户 / 账号明细」;
  3. 查看数据:
    • 列表视图:展示「统计维度、日期、调用次数、输入 Token、输出 Token、总用量」;
    • 图表视图:点击「切换图表」,通过折线图 / 柱状图查看用量趋势;
  4. 下载明细(仅 Gateway Admin):
    • 点击「下载明细」→ 选择年月(支持最近 1 年)→ 确认;

3.5 多场景模型调用(适配不同用户需求)

3.5.1 SQL 调用(数据分析师 / 开发工程师)

业务价值:直接在 SQL 中调用模型,实现 “数据查询 + AI 分析” 一体化(如订单文本嵌入、用户评论情感分析)。 您可以在SQL中直接调用,例如:

select ai_complete('endpoint\:lis\_aliyun\_qwen\_max','中国首都是哪里?')

3.5.2 DataGPT 调用(所有角色操作)

DataGPT 通过标准化接口实现 AI 模型调用,可快速完成模型对接与替换。您只需在 DataGPT 的模型配置界面,将我方提供的专属调用地址(BaseUrl)与访问凭证(API Key),替换平台现有模型配置,即可完成模型调用链路的切换,依托 AI Gateway 实现稳定、可管控的 AI 能力调用。

3.5.3 OpenAPI 标准调用(开发场景)

  • 调用地址:Endpoint 列表中的 “访问地址”;
  • API KEY:从「API KEY 管理」中获取(仅 Gateway Admin 可创建);
  • 调用方式:
    • 进入「模型管理 → Endpoint」页面,点击Endpoint名称,进入详情页;
    • 在详情页的下方,「Endpoint调用示例」部分,为您展示OpenAI-python和REST API-cURL两种调用方式的示例

四、关键注意事项

  1. 权限控制:操作前确认自身角色权限(如普通用户不可删除 Endpoint),避免因权限不足导致操作失败;如需扩展权限,联系对应 Admin(Gateway Admin 负责全局权限,Endpoint Admin 负责业务线权限)。

  2. 数据留存

    • 账号明细数据:仅保留最近 1 年,需长期存储需每月下载备份(Gateway Admin 操作);
    • 用量监控数据:最多保留 60 天,关键指标(如月度配额使用情况)需定期截图存档。
  3. 模型删除风险

    • Endpoint 删除后不可恢复,删除前需:① 停用所有关联调用(SQL/OpenAPI/DataGPT);② 通知所有有权限用户;
    • 内置托管模型删除后,需重新使用时联系技术支持(不可自行恢复)。
  4. API KEY 安全

    • 避免泄露(如明文分享、存储在代码仓库);
    • 定期轮换(建议每 3 个月);
    • 泄露后需立即在「API KEY 管理」中删除并重新创建,更新所有关联配置。
  5. 配额生效规则:Endpoint 实际可用配额 = 租户配额与 Endpoint 配额的较小值,设置时避免 Endpoint 配额远超租户配额(如租户每月 100 万,Endpoint 设 200 万,实际仅 100 万可用,造成配置浪费)。

  6. 兼容性注意:外部模型需符合 OpenAI 接口规范,否则无法接入(如不支持 “messages” 参数的模型需厂商适配);编辑模型版本时,需确认下游调用系统是否支持新版本(避免兼容性问题)。

联系我们
预约咨询
微信咨询
电话咨询