云器Lakehouse2025年07月版本发布：全面升级，引领数据智能新纪元

数据见闻

2025年7月17日

云器Lakehouse2025年07月版本发布，带来了诸多亮点功能。

亲爱的用户们，还记得第一次接触 Lakehouse Studio 时的那份期待吗？从最初的数据整合困扰，到如今的一站式数据智能平台，我们始终在为一个目标努力：让复杂的数据工程变得简单而优雅。

2025年上半年 Lakehouse Studio 持续迭代升级，自4月份以来，先后发布了 V1.8.1（2025.04.01）、V1.8.2（2025.05.20）、V1.8.3（2025.07.03）三个重要版本，累计推出200多项核心功能更新与优化改进，覆盖开发者体验、运维监控、数据同步、计费和成本管理 等多个核心维度。这些更新，不仅仅是功能上的增加，更是对数据体验的重新定义，为用户带来更智能、更高效、更安全的数据管理全新体验。正如我们的产品理念：改变数据的使用方式。

更新亮点速览

近期版本发布，带来了诸多亮点功能：

实时同步“动态感知”升级，分库分表场景的“自动接管”：实时同步功能新增源端动态加表自动适配能力，系统可智能检测并同步源端新增表，无需手动配置或重启任务，彻底解决分库分表场景下数据同步的连续性与复杂度痛点。
组合任务，复杂数据链路的“智能调度中枢”：全新推出组合任务类型，支持基于多种任务类型构建复杂工作流，可统一配置调度时间、参数，实现数据处理链路的“无级调速”（灵活控制更新频率），平衡数据新鲜度与加工成本，大幅提升复杂链路的编排、调度及运维能力。
Notebook模块，交互式分析的“全能工作台”：重磅发布数据分析Notebook功能，为数据科学家和分析师提供Python、SQL等多语言交互式分析环境，支持灵活的数据探索与高效洞察，重塑数据分析工作流。

详细功能介绍

本文选取了近期更新的部分内容进行介绍。如果期望查阅完整更新内容和更多细节，请前往 云器官网yunqi.tech 了解或者在产品内直接体验使用！

开发和分析体验革命性提升

💻 组合任务功能重磅发布

云器产品部门在任务节点类型中增加了一种全新的功能强大的任务类型：组合任务。组合任务能根据多种任务类型构建复杂的工作流，并支持统一设置调度时间、参数配置等，为复杂的数据处理链路提供了强大的编排、调度控制和运维能力。比如通过组合任务这种形式，可以实现对基于Pipe和Dynamic Table构建的增量计算数据处理链路进行“无级调速”、灵活控制整条数据链路的更新频率（调度定时间隔），平衡数据新鲜度和加工成本。

💻 任务组功能和体验演进优化

任务组作为去年推出的重磅功能，自上线之后得到了普遍欢迎和大规模的实际使用。在最近的版本迭代中，我们对任务组内的操作体验进行了全面优化，包括编辑画布交互优化、快捷操作方式、页面整体布局改进等。比如：

任务依赖可视化： 在任务组DAG图中增加任务依赖展示，通过独立的界面可查看任务组内节点的全面血缘关系。

新增下游节点批量添加功能： 任务组新增基于任务血缘链路批量添加下游子节点功能。支持添加一层、全部层级、及自定义层级多种添加方式。

通过上述两个功能配合，可以方便地把一个任务节点的下游完整地纳入到任务组中进行统一的编排管理，为后续复制、参数修改等提供全局完整性保障。此外，上文提到的新增的组合任务，也支持加入到任务组中作为成员节点。

任务组内任务节点批量操作能力： 任务组切换到列表模式下，新增支持批量修改集群、批量修改调度定时等批量操作，便于对一批节点统一快速处置。

💻 SQL开发辅助功能增强

SQL任务作为最高频使用的任务类型，在近期的迭代中，也进行了多项新功能增强和体验优化，比如：

查询结果可视化图表能力： 新增可视化图表能力，支持将查询结果自动转化为趋势图、柱形图等多种图表形式，可视化图表X轴新增分桶能力，特别针对时间日期类型，支持按年、月、日等时间单位进行灵活聚合，大幅提升数据洞察效率。可以直接在查询界面通过可视化图表传达逻辑关系，辅助业务决策分析。

查询结果操作优化：

数据结果表格支持列设置并增加搜索功能，支持快速搜索过滤列信息。

千分位逗号展示细化处理，提升数字可读性。
数据量较大时优化页面展示渲染性能。

新增全量下载历史管理： 在原有的数据查询结果全量下载的功能基础之上，演进新增了「下载历史管理」功能，用于解决先前在数据条数特别大的情况下偶发的下载不稳定、历史下载记录不可查看等问题。在下载记录中，通过下载队列会显示正在生成、已完成、已失效的下载任务。可查看近3天的下载记录，下载链接生成后保留1小时有效期。

代码智能感知： 产品中的较多功能，比如代码参数的智能识别、数据血缘解析等，都是基于对代码的智能感知分析。基于此，近期也进行了一个体验优化的改造：在代码中USE SCHEMA/USE VCLUSTER语句执行后，自动回显，与页面上的配置联动。这个优化可以有效避免在页面选择的SCHEMA/VCLUSTER和代码中给定的不一致的情况下，带来的理解困扰，便于快速感知SQL运行使用的数据和集群环境。我们会坚持不断落地这些细微的优化改进，来持续提升任务开发等功能使用体验和效率。

💻 Notebooks模块重磅发布

数据分析Notebooks是近期预览发布的重磅功能模块。这一创新功能为数据科学家和分析师提供了交互式的数据探索和分析环境，支持Python、SQL等多种编程语言，让数据分析工作更加灵活高效。

云器Notebook提供了一个直观的Web开发环境，让用户可以在同一个界面中灵活使用SQL和Python进行数据分析，通过简单的命名机制让不同单元格之间的数据流转变得自然顺畅，同时支持参数化配置来提高代码复用性，整体采用拖拽式的低代码设计让数据分析工作变得更加高效便捷。

运维监控可观测性大幅完善

🛠️ 新增计算集群监控能力

计算集群（Virtual Cluster）是Lakehouse中作业负载的核心算力支撑。在近期的版本演进中，集群详情页在原有的集群规格、状态等信息展示的基础上，大幅演进了配套的监控能力，比如新增了集群的用量（CRU）消耗趋势、集群规格的变化历史、集群上运行的作业的统计情况和列表详情等，可大幅提升对集群的观测性、为灵活调整规格大小等提供指导性数据依据。

实时查看集群规格大小和实例数的历史变化：

监控作业并发情况和排队状态，辅助依据监控数据调整集群资源配置：

🛠️ 实时同步健康度监控

监控规则的监控事项中，新增了基于CheckPoint的实时同步任务健康度状态监控，用于监控实时同步任务是否在正常消费处理源端的变更数据。在设定的时间阈值窗口内异常次数（CheckPoint不更新）达到给定阈值后触发告警。

🛠️ 周期任务管理增强

周期任务列表中，新增展示了当前周期任务最近一次实例的运行时间和状态信息，提升运维可观测性。便于进行任务管理时，对任务的运行状态能够一目了然，特别适用于分钟级的高频调度和自依赖调度的任务运行情况查看和辅助问题定位。

🛠️ 任务失败告警智能抑制

监控告警体系的基础能力，在近期的这些版本中也做了诸多的改进增强。其中之一是任务运行失败告警的收敛抑制，来避免因上游任务暂停/失败，阻塞下游引起超时Kill，导致触发大量的失败告警、会带来一定程度的告警打扰。收到客户提出的这个反馈后，我们对原有的“任务实例运行失败”这个监控事项进行了调整优化、对此类情况进行抑制排除、不再触发告警。后续会额外增加一个独立的监控项来对其进行覆盖。

数据管理功能迭代演进

✨ 数据目录

元数据信息强制更新功能： 数据管理表详情页的信息，系统内置了自动刷新机制，在监测到表结构变更时会自动更新，但偶发会出现刷新延迟的情况，对于新增、改动后的表的信息，可能没有及时更新。新增强制刷新功能，支持用户主动触发手动刷新表详情页面获取元数据的最新信息。

数据预览的集群自由选择功能： 新增支持用户选择当前实例下有权限使用的任意集群进行数据预览，打破仅能使用表所在工作空间下的集群的限制，会更加灵活方便，解决用户不在表所在工作空间就无法预览数据的问题。

✨ 数据质量管理

高质量的数据供给，对数据分析洞察的及时性和准确性，AI模型训练效果等都至关重要。Lakehouse Studio内置提供的数据质量模块，就是面向数据质量的全方位及时校验监控原生提供的功能板块。

近期版本发布，在质量规则中新增拓展支持了对 Pipe、Volume、Table Stream 三种类型对象的监控，比如对于Pipe而言，可以监控消费源端Kafka的堆积、及时发现数据链路的处理延迟问题。至此，质量规则对Lakehouse中主要对象，都提供了数据质量校验的完整覆盖，可按需配置使用。

除此之外，数据质量功能也在一些存量功能上进行了演进和体验提升，比如：

质量规则列表页面强化透出质量规则ID，便于在名称相同/相近时辅助区分。
新建质量规则时自动填充当前所在的工作空间并禁用切换选择，避免误操作。
质量规则的校验内容中，展示规则类型和校验详情。
数据质量校验结果支持按校验内容进行筛选过滤，提高问题定位效率。

数据同步能力持续进化

数据同步任务，通常处在数据链路的一头、一尾两个环节，重要性不言而喻。在近期发布的这些版本中，实时同步和离线同步的功能也在持续增强，包括实时同步对源端变化的动态感知适配、支持自定义扩展字段、离线同步建表和性能优化、数据源的演进等。

🔗 实时同步

多表实时同步功能，先前已经支持了强大的Schema Evolution功能，即能自动感知源端的表的字段新增、修改等变化，在同步任务中自动适配，更新到目标表中。在近期的版本演进，额外扩展支持了自动适配源端动态加表的功能，系统可智能检测并自动同步源端新增的表，完全无需手动配置、重启任务。这个功能对于源端分库分表、自动增加新表的场景会非常有用，可大幅降低人为处置的复杂度、保障数据同步的连续性和完整性。

多表实时同步功能，先前支持了将数据源中的一些固定的字段，比如数据源名称、服务器地址、数据库名称、数据表名称等，设定为目标端表里的扩展字段，可用于对源端数据进行额外标识等使用场景。在实际使用中，我们发现还需要有 自定义扩展字段 的能力，在最新的发布版本中这个功能得到了支持。可以自定义扩展字段的名称、类型和取值，并按需设定是否作为联合主键，然后在目标端中得到体现。自定义扩展字段可极大地增加扩展字段的灵活性。

除上述两个大的功能演进之外，实时同步还有诸多其它优化增强，比如：

实时同步数据写出到Kafka时，增强了数据流转能力，比如支持按表写入Topic下的不同分区、消息中添加主键字段名列表信息。
优化源端MySQL表过大场景下，对任务配置和执行产生影响的问题。
MySQL CDC同步到Lakehouse，支持将源端表和字段注释同步到目标端，也保持元数据一致性。

🔗 离线同步

离线同步中的一键建表功能迎来重要升级，新增自动感知源端表结构的智能识别能力。系统现可自动扫描源端表的主键约束，在目标端Lakehouse生成建表语句时自动保持PRIMARY KEY、NOT NULL、UNIQUE等关键约束。

存量数据源上支持的功能也得到了较多扩展。SLS离线数据集成新增时间参数传递功能，支持通过API参数精确指定数据消费的开始时间和结束时间，实现更精细的数据同步控制。导出到AWS S3的CSV文件功能，新增制表符分割支持，满足不同数据处理工具的多样化导入需求。DynamoDB数据源新增用户自定义字段类型设定功能，支持更灵活的数据类型映射和处理。此外，数据源的级别从原有的工作空间级别提升为服务实例级别，支持既可以但工作空间独享，也可以共享给实例下的其它工作空间使用。

我们也注意到离线同步任务的配置和展示存在一定的性能问题。在近期的发布中，这个问题得到了显著优化，任务页面加载速度显著提升，响应时间减少50%以上，界面交互响应也更加流畅；在任务配置的易用性上，字段映射增强，新增支持手动选择字段并一键复制字段信息，简化配置流程；新增支持按数据源类型和数据源名称进行精确筛选过滤，展示数据源的连通性测试状态等帮助辅助识别，可大幅提升大规模数据源情况下的操作效率。

账户管理体系提升与成本管理透明化

🧑🏻‍💻 账户管理支持实名认证

新增实名认证功能，支持个人认证和企业认证两种方式。「企业认证」支持营业执照、组织机构代码证等企业资质验证。「个人认证」支持身份证、护照等有效证件上传验证。认证完成后，可享受更高的安全等级和完整的平台服务权限。

🧑🏻‍💻 账户资金管理

新增现金账户功能，用于账号下账单费用的统一支付管理。账户余额根据充值、账单出账情况实时变化，提供完整的余额交易明细查询功能。支付方式目前已经支持线上充值（微信支付、支付宝支付）和线下充值（对公转账，支持银行转账凭证上传）多种方式。

交易记录管理中，可以查看充值记录（充值时间、金额、支付方式、交易单号）、消费记录（账单扣费时间、消费项目、扣费金额）和余额变动情况。

🧑🏻‍💻 代金券

在现金账户之外，产品也提供了代金券功能。面向GA体验用户，默认会提供200元人民币额度的代金券，来满足对产品功能体验使用所需。代金券对于正式用户也同样有效。在最近的版本更新中，新增了代金券抵扣明细查询、可显示每笔订单的代金券使用情况，余额管理，有效期提醒等实用功能。

🧑🏻‍💻 余额和停服监控提醒

针对余额不足、资源停服场景提供智能提醒，支持短信、邮箱、自定义IM（基于Webhook）等多种消息接收方式，确保业务连续性。

🧑🏻‍💻 计费账单

通过计费账单总览可了解使用Lakehouse的总消费金额，也可按照计算资源、存储、网络分别查看对应分类下的成本。可通过指定服务实例可用区、时间区间、工作空间查询追溯成本来源，了解不同维度的费用分布。

产品文档

产品帮助文档作为辅助理解产品设计和上手使用的重要参考，我们投入了非常多的时间来持续完善和建设。随着产品的GA，产品文档在我们的官网中也随之完全公开可访问。在过去的几个月时间，我们在快速入门、使用指南、实践教程和AI相关能力等多个方面，对文档进行了大幅的完善更新。

快速入门

这部分内容，旨在帮助新用户快速对产品进行一个全方位的了解和迅速上手使用。我们提供了一系列的概览指导和实操性的101引导指南。

快速入口：https://www.yunqi.tech/documents/Tutorials

实践教程

实践教程章节对高效管理对象和组织数据、数据导入导出、数据查询分析、构建和运维ELT流程、优化计算资源等多个方面有着全方位覆盖。在这里可以查阅到对于产品功能的高阶使用方式，来达成最佳使用实践。比如：

DataOps数据安全稳定生产实践

数据加工处理链路如何安全、稳定、高质量地产出数据，是数仓工程师工作中最关心的核心问题之一。本实践围绕数据开发管理和数据运维两个环节，对于任务调度、数据质量监控编排、代码版本管理和回滚、基于最新代码重跑实例、告警联动自动处置等功能进行了全方位的串联介绍。对产品功能的灵活使用，可有效帮助提节约时间投入，提高数据管道的管理效率、运行稳定性和产出质量。

快速入口：https://www.yunqi.tech/documents/dataops_practice

Volume最佳实践指南

Volume对象是Lakehouse中用于存储和管理非结构化数据的核心载体。在这篇文档中，您可以查阅到Volume的存储效率提升和访问速度优化方法、权限管理和成本优化策略和常见问题的解决方案和最佳实践等高阶指南。

快速入口：https://www.yunqi.tech/documents/volume_best_practices

Lakehouse AI 是一套集成在数据湖仓平台中的智能分析套件，旨在帮助企业充分挖掘数据价值，实现从数据存储到智能决策的完整闭环。通过将非结构化数据管理、多模态检索、AI外部函数、Python开发框架、知识库服务、对话式分析等能力原生集成到 Lakehouse 架构中，用户可以在统一的平台上完成数据发现、模型调用、预测分析等全流程智能化操作。此部分功能随着先前的GA公测一并开放了体验试用。在产品文档中配套提供了AI数据供给、AI函数、对话式数据分析、Lakehouse MCP Server等的全面介绍，欢迎查阅。

快速入口：https://yunqi.tech/documents/LakehouseAI_overview