SELECT
n.n_name,
SUM(l.l_extendedprice * (1 - l.l_discount)) AS revenue
FROM
clickzetta_sample_data.tpch_100g.customer c
JOIN clickzetta_sample_data.tpch_100g.orders o ON c.c_custkey = o.o_custkey
JOIN clickzetta_sample_data.tpch_100g.lineitem l ON o.o_orderkey = l.l_orderkey
JOIN clickzetta_sample_data.tpch_100g.supplier s ON l.l_suppkey = s.s_suppkey
JOIN clickzetta_sample_data.tpch_100g.nation n ON c.c_nationkey = n.n_nationkey
JOIN clickzetta_sample_data.tpch_100g.region r ON n.n_regionkey = r.r_regionkey
WHERE
r.r_name = 'ASIA'
AND o.o_orderdate >= '1994-01-01'
AND o.o_orderdate < '1995-01-01'
GROUP BY n.n_name
ORDER BY revenue DESC;
SELECT
s.s_store_name,
d.d_year,
d.d_qoy,
SUM(ss.ss_net_paid) AS total_sales
FROM
clickzetta_sample_data.tpcds_10tb.store_sales ss
JOIN clickzetta_sample_data.tpcds_10tb.store s ON ss.ss_store_sk = s.s_store_sk
JOIN clickzetta_sample_data.tpcds_10tb.date_dim d ON ss.ss_sold_date_sk = d.d_date_sk
WHERE
d.d_year = 2001
GROUP BY s.s_store_name, d.d_year, d.d_qoy
ORDER BY d.d_qoy, total_sales DESC
LIMIT 20;
⚠️ 注意:tpcds_10tb 数据量极大,建议使用 Large 及以上规格的 VCluster 执行查询,避免超时。
SELECT
event_type,
COUNT(DISTINCT user_id) AS users,
COUNT(*) AS events
FROM clickzetta_sample_data.ecommerce_events_history.ecommerce_events_multicategorystore
GROUP BY event_type
ORDER BY events DESC;
nyc_taxi_tripdata
数据来源:纽约市出租车和豪华轿车委员会(TLC) 公开的网约车行程数据,包含 Uber、Lyft 等平台(FHVHV:For-Hire Vehicle High Volume)的行程记录。
规模:1 张表,14.9 亿行。
主要字段:
字段
类型
说明
hvfhs_license_num
hvfhs_license_num
varchar
平台牌照号(HV0003=Uber,HV0005=Lyft)
pickup_datetime
pickup_datetime
timestamp_ltz
上车时间
dropoff_datetime
dropoff_datetime
timestamp_ltz
下车时间
trip_miles
trip_miles
double
行程里程(英里)
trip_time
trip_time
bigint
行程时长(秒)
base_passenger_fare
base_passenger_fare
double
乘客基础费用
tips
tips
double
小费
driver_pay
driver_pay
double
司机实收
shared_request_flag
shared_request_flag
varchar
是否拼车请求(Y/N)
wav_request_flag
wav_request_flag
varchar
是否请求无障碍车辆(Y/N)
适用场景:
时序聚合分析(按小时、按星期统计行程量)
大表聚合性能测试
平台对比分析(Uber vs Lyft)
地理数据分析(结合上下车区域字段)
示例查询:按平台统计平均行程里程和费用
SELECT
hvfhs_license_num,
COUNT(*) AS trips,
ROUND(AVG(trip_miles), 2) AS avg_miles,
ROUND(AVG(trip_time) / 60, 1) AS avg_minutes,
ROUND(AVG(base_passenger_fare), 2) AS avg_fare
FROM clickzetta_sample_data.nyc_taxi_tripdata.fhvhv_tripdata
GROUP BY hvfhs_license_num
ORDER BY trips DESC;
⚠️ 注意:该表有 14.9 亿行,全表扫描耗时较长。建议在查询中加入时间范围过滤,或使用 Large 及以上规格的 VCluster。
clickzetta_doc_kb
数据内容:云器 Lakehouse 产品文档的向量知识库,通过阿里云 DashScope 的文本嵌入模型将文档内容转换为 1024 维向量,用于语义检索和 AI 问答。
规模:1 张表
dashscope_clickzetta_elements
dashscope_clickzetta_elements
。
主要字段:
字段
类型
说明
id
id
string
记录唯一 ID
type
type
string
元素类型(Title / NarrativeText / Table 等)
filename
filename
string
来源文档文件名
text
text
string
原始文本内容
embeddings
embeddings
vector(float, 1024)
文本的 1024 维向量表示
element_type
element_type
string
文档元素分类
documents_source
documents_source
string
文档来源标识
date_processed
date_processed
timestamp_ltz
向量化处理时间
适用场景:
体验向量相似度检索(
cosine_distance
cosine_distance
函数)
构建基于产品文档的 RAG(检索增强生成)问答系统
学习
AI_EMBEDDING
AI_EMBEDDING
函数与向量索引的配合使用
示例查询:用向量相似度检索与"动态表"最相关的文档片段
SELECT
filename,
type,
text,
cosine_distance(embeddings, AI_EMBEDDING('ai_gateway_conn:text-embedding-v4', '动态表是什么')) AS distance
FROM clickzetta_sample_data.clickzetta_doc_kb.dashscope_clickzetta_elements
ORDER BY distance ASC
LIMIT 5;