构建集成动态索引与安全凭证管理的 Iceberg 特征存储层

数据工程

文章字数: 3.7k

阅读时长: 15 分

我们的机器学习推理服务正面临一个严峻的瓶颈：特征获取延迟。模型需要从存储在S3上的PB级Apache Iceberg表中实时拉取特征，但现有的基于分区裁剪的查询方式，即使在经过调优后，对于需要稀疏、高基数特征的场景，依然会扫描大量不必要的数据文件。延迟从几十毫秒到数百毫秒不等，这对于要求严苛的在线服务是不可接受的。

定义问题：超越静态分区的挑战

问题的核心在于，Iceberg的分区机制本质上是一种粗粒度的物理数据组织方式。当一个模型的输入实体（如user_id）横跨多个分区，或者当所需特征分散在单个分区内的海量小文件中时，查询引擎的planning阶段依然需要列出并过滤大量文件元数据。我们需要一种更精细的索引机制，能够直接将查询定位到包含特定特征的个别data_file级别，从而绕过大部分元数据扫描和文件打开的开销。

同时，安全部门提出了新的要求：任何计算服务对底层数据湖的访问都必须遵循最小权限原则。这意味着服务不能再拥有整个S3存储桶的读权限，而是应该为每次查询动态获取仅限于目标数据文件的临时、范围受限的访问凭证。

综合来看，我们需要构建一个满足以下条件的特征存储访问层：

高性能： P99延迟必须控制在50毫秒以内。
细粒度索引： 能够将查询直接映射到具体的数据文件。
动态安全： 为每次读取操作生成临时的、范围受限的凭证。
状态一致性： 索引本身的版本必须与Iceberg表的数据快照严格对齐，保证特征的可回溯性。

方案A：引入在线特征存储（如Redis/DynamoDB）

这是最直接的思路。将高频访问的特征通过ETL管道同步到一个专用的在线键值存储中。

优势:
- 极低的读取延迟，通常在个位数毫秒级别。
- 成熟的生态系统和客户端库。
劣势:
- 数据一致性与训练-服务偏斜（Training-Serving Skew）： 维护离线（Iceberg）和在线（KV存储）两套数据源之间的一致性是一项巨大的工程挑战。任何同步延迟都可能导致模型在训练时看到的数据与在推理时看到的数据不一致，从而影响模型效果。
- 高昂成本： 为PB级数据的子集维持一个高性能的在线存储，其硬件和维护成本非常可观。
- 运维复杂性： 引入了一套新的、需要独立监控、备份和扩展的基础设施。状态管理变得更加复杂，需要追踪两边的数据版本。

在我们的场景下，特征集数量庞大且在快速迭代，数据同步的复杂性和潜在的不一致性风险使我们最终放弃了这个方案。我们需要一个更接近数据源头的解决方案。

方案B：基于Iceberg构建动态元数据索引层

这个方案的核心思想是：不移动数据，而是创建一个“智能”的二级索引，这个索引直接告诉我们对于给定的查询键，需要读取哪些具体的数据文件。

优势:
- 单一数据源： 特征数据依然全部存储在Iceberg中，彻底消除了训练-服务偏斜问题。
- 成本效益： 主要增加的是计算和少量元数据存储成本，远低于维护一个完整的在线副本。
- 架构简化： 无需额外的数据同步管道。
劣势:
- 索引构建与维护： 需要一个健壮的流程来生成和更新这个二级索引。
- 潜在的技术复杂性： 这不是一个开箱即用的解决方案，需要自行开发服务来实现索引查找、凭证获取和数据读取的逻辑。

我们决定选择方案B。它虽然需要更多的前期研发投入，但从长远来看，其架构的简洁性和数据一致性的保障，更符合我们平台化、可维护性的目标。

最终架构与核心实现

我们的最终架构围绕一个核心组件——“特征路由服务”(Feature Router Service)展开。其工作流程如下：

sequenceDiagram
    participant Client as 推理服务
    participant Router as 特征路由服务
    participant Model as 路由模型 (Scikit-learn)
    participant Vault as HashiCorp Vault
    participant Iceberg as Iceberg 元数据
    participant S3 as S3 数据文件

    Client->>+Router: 请求特征 (e.g., user_id: 123)
    Router->>+Model: 预测数据文件路径
    Model-->>-Router: [s3://.../file1.parquet, s3://.../file2.parquet]
    Router->>+Vault: 请求针对以上路径的临时凭证
    Vault-->>-Router: 生成范围受限的STS Token
    Router->>+Iceberg: 使用临时凭证和文件列表，初始化读取器
    Note right of Iceberg: 直接读取指定文件，
跳过文件扫描
    Iceberg->>+S3: 读取 file1.parquet, file2.parquet
    S3-->>-Iceberg: 文件内容
    Iceberg-->>-Router: 返回特征数据
    Router-->>-Client: 返回特征

1. 使用 Scikit-learn 构建路由模型

我们创造性地使用了一个机器学习模型来充当二级索引。这个“路由模型”的任务不是预测业务结果，而是预测存储位置。

模型输入 (X): 查询键的特征化表示，例如 user_id 的哈希值、item_id 的类别嵌入等。
模型输出 (y): 一个多标签分类结果，每个标签对应一个Iceberg数据文件的路径。

在每个Iceberg表生成新的快照后，我们触发一个离线任务：

遍历新快照中的所有数据文件。
对于每个文件，提取其中包含的所有实体键（如 user_id 集合）。
构建一个训练集：(实体键特征) -> (文件路径)。
使用这个训练集训练一个轻量级的分类模型，例如sklearn.ensemble.RandomForestClassifier或lightgbm.LGBMClassifier。它们对于处理高维稀疏输入和提供快速预测非常有效。

模型的训练和打包代码示例如下：

import joblib
import pandas as pd
import pyarrow.parquet as pq
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import MultiLabelBinarizer
from iceberg.table import Table

# 假设 table 是一个已加载的 PyIceberg Table 对象
# snapshot_id 是我们要为其构建索引的快照ID
def train_routing_model(table: Table, snapshot_id: int):
    """
    为指定的Iceberg快照训练一个路由模型。
    """
    snapshot = table.snapshot_by_id(snapshot_id)
    if not snapshot:
        raise ValueError(f"Snapshot {snapshot_id} not found.")

    training_data = []
    file_paths = [task.file.file_path for task in snapshot.added_data_files_tasks()]
    
    # 使用MultiLabelBinarizer将文件路径转换为多热编码
    mlb = MultiLabelBinarizer(classes=file_paths)
    mlb.fit(file_paths) # Fit with all possible file paths

    # 在生产环境中，这应该是一个分布式Spark/Ray任务
    for file_path in file_paths:
        # 读取每个Parquet文件，仅读取索引键列
        df = pq.read_table(file_path, columns=['user_id']).to_pandas()
        for user_id in df['user_id'].unique():
            # 特征工程：简单的哈希，实际中可能更复杂
            feature = hash(user_id) % 10000 
            training_data.append({'feature': feature, 'file_path': file_path})

    if not training_data:
        print("No training data generated. Skipping model training.")
        return None, None

    train_df = pd.DataFrame(training_data)
    
    X = train_df[['feature']]
    # 将单个文件路径转换为多热编码的目标
    y_transformed = mlb.transform(train_df[['file_path']])

    # 使用一个简单的随机森林作为路由模型
    # n_estimators 和 max_depth 需要根据实际情况调优
    model = RandomForestClassifier(n_estimators=50, max_depth=20, random_state=42, n_jobs=-1)
    model.fit(X, y_transformed)
    
    # 保存模型和标签编码器，它们必须一起版本化
    model_path = f"/models/router_{table.name()}_{snapshot_id}.joblib"
    mlb_path = f"/models/mlb_{table.name()}_{snapshot_id}.joblib"
    
    joblib.dump(model, model_path)
    joblib.dump(mlb, mlb_path)
    
    print(f"Model and Binarizer saved for snapshot {snapshot_id}")
    return model_path, mlb_path

这个模型被序列化并存储，其路径与Iceberg的snapshot_id关联起来，这是我们状态管理的关键。

2. 通过 HashiCorp Vault 实现动态凭证管理

特征路由服务本身不持有任何长期有效的AWS凭证。它通过Vault的AppRole机制进行认证，然后请求一个与特定AWS角色绑定的动态STS凭证。这个角色的IAM策略被设计为只允许对S3进行高度受限的操作。

// Vault中的AWS Secret Engine Role配置 (简化)
{
  "role_arn": "arn:aws:iam::ACCOUNT_ID:role/feature-store-reader-role",
  "policy_document": {
    "Version": "2012-10-17",
    "Statement": [
      {
        "Effect": "Allow",
        "Action": "s3:GetObject",
        "Resource": "arn:aws:s3:::my-feature-bucket/{{identity.entity.aliases.auth_aws_iam_user_foo.metadata.path}}/*"
      }
    ]
  }
}

注意Resource中的模板变量{{...metadata.path}}。我们将在生成凭证时通过服务的请求元数据动态地将预测出的文件路径列表注入进去，从而实现最小权限。

Python客户端与Vault的交互封装在一个专门的类中：

import hvac
import logging
import os
from typing import List

# 配置日志
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

class VaultClient:
    """
    一个用于与HashiCorp Vault交互以获取动态AWS凭证的客户端。
    """
    def __init__(self, vault_addr: str, role_id: str, secret_id: str):
        self.client = hvac.Client(url=vault_addr)
        
        if not self.client.is_authenticated():
            try:
                self.client.auth.approle.login(
                    role_id=role_id,
                    secret_id=secret_id
                )
                logging.info("Successfully authenticated to Vault using AppRole.")
            except hvac.exceptions.InvalidRequest as e:
                logging.error(f"Vault authentication failed: {e}")
                raise

    def get_scoped_s3_credentials(self, aws_mount_point: str, role_name: str, s3_paths: List[str]) -> dict:
        """
        为指定的S3路径列表请求范围受限的AWS STS凭证。

        Args:
            aws_mount_point: Vault中AWS secret engine的挂载点。
            role_name: 要使用的Vault角色名称。
            s3_paths: 需要授权访问的S3对象路径列表。

        Returns:
            一个包含 access_key, secret_key, 和 session_token 的字典。
        """
        if not s3_paths:
            logging.warning("s3_paths is empty. No credentials will be generated.")
            return {}

        # 这里的实现取决于Vault角色的配置方式
        # 一个常见的模式是使用模板化的策略，或者通过参数传递资源
        # 为简化示例，我们假设角色策略能够基于传入的参数进行限制
        # 在真实项目中，这可能需要更复杂的IAM策略模板或Vault插件
        # 这里我们假设Vault角色 'sts/my-role' 接受一个 'resources' 参数
        # 注意: 这是一种简化的概念，实际Vault配置可能不同。
        # 真实实现可能需要构建一个内联会话策略。
        policy = {
            "Version": "2012-10-17",
            "Statement": [
                {
                    "Effect": "Allow",
                    "Action": "s3:GetObject",
                    "Resource": [f"arn:aws:s3:::{path}" for path in s3_paths]
                }
            ]
        }

        try:
            response = self.client.secrets.aws.generate_credentials(
                name=role_name,
                mount_point=aws_mount_point,
                extra_params={'policy': json.dumps(policy)}
            )
            
            creds = response['data']
            logging.info(f"Successfully generated temporary credentials for {len(s3_paths)} paths.")
            return {
                'aws_access_key_id': creds['access_key'],
                'aws_secret_access_key': creds['secret_key'],
                'aws_session_token': creds['security_token']
            }
        except hvac.exceptions.HvacError as e:
            logging.error(f"Failed to generate AWS credentials from Vault: {e}")
            # 实现重试或失败回退逻辑
            raise

# 使用示例
# vault_client = VaultClient(
#     vault_addr=os.environ['VAULT_ADDR'],
#     role_id=os.environ['VAULT_ROLE_ID'],
#     secret_id=os.environ['VAULT_SECRET_ID']
# )

3. 特征路由服务与状态管理

这是所有逻辑的汇集点。服务（例如，使用FastAPI构建）负责处理请求、调用模型、与Vault交互并最终使用PyIceberg读取数据。

状态管理在此处至关重要。我们使用一个简单的数据库表（例如PostgreSQL）来维护路由模型与Iceberg快照之间的关系。

CREATE TABLE feature_routing_metadata (
    id SERIAL PRIMARY KEY,
    table_name VARCHAR(255) NOT NULL,
    snapshot_id BIGINT NOT NULL,
    model_path VARCHAR(1024) NOT NULL,
    mlb_path VARCHAR(1024) NOT NULL, -- 标签编码器路径
    created_at TIMESTAMP WITH TIME ZONE DEFAULT CURRENT_TIMESTAMP,
    is_active BOOLEAN DEFAULT TRUE,
    UNIQUE(table_name, snapshot_id)
);

当推理服务请求特征时，它会指定一个table_name和可选的snapshot_id（用于时间旅行查询）。路由服务查询此表，加载正确的模型版本。

from fastapi import FastAPI, HTTPException
from pydantic import BaseModel
import joblib
from pyiceberg.catalog import load_catalog
from pyiceberg.expressions import IsIn
import pyarrow.dataset as ds

# ... (VaultClient class from above) ...

app = FastAPI()

# 全局变量（在生产中应通过依赖注入管理）
ROUTER_MODELS = {} # 缓存加载的模型: (model_path, snapshot_id) -> model
MLB_MODELS = {}    # 缓存标签编码器
CATALOG = load_catalog('default') # 配置你的Iceberg Catalog
VAULT_CLIENT = VaultClient(...) # 初始化Vault客户端

class FeatureRequest(BaseModel):
    table_name: str
    user_id: int
    snapshot_id: int # 客户端必须指定数据版本

def get_routing_model(table_name: str, snapshot_id: int):
    # 此处应有数据库查询逻辑来获取 model_path 和 mlb_path
    # 为简化，我们硬编码
    model_path = f"/models/router_{table_name}_{snapshot_id}.joblib"
    mlb_path = f"/models/mlb_{table_name}_{snapshot_id}.joblib"
    
    if model_path not in ROUTER_MODELS:
        try:
            ROUTER_MODELS[model_path] = joblib.load(model_path)
            MLB_MODELS[mlb_path] = joblib.load(mlb_path)
        except FileNotFoundError:
            raise HTTPException(status_code=404, detail="Routing model for snapshot not found.")
    
    return ROUTER_MODELS[model_path], MLB_MODELS[mlb_path]


@app.post("/get-features")
def get_features(request: FeatureRequest):
    # 1. 状态管理：加载与快照匹配的模型
    try:
        model, mlb = get_routing_model(request.table_name, request.snapshot_id)
    except HTTPException as e:
        # 在此可以增加回退逻辑，比如执行一次常规的Iceberg扫描
        logging.warning(f"Routing model not found for {request.table_name} snapshot {request.snapshot_id}. Fallback needed.")
        raise e

    # 2. 动态索引：使用模型预测文件路径
    # 特征工程必须与训练时完全一致
    feature_vector = [[hash(request.user_id) % 10000]] 
    predicted_labels = model.predict(feature_vector)
    
    # 将多热编码结果转换回文件路径
    file_paths = mlb.inverse_transform(predicted_labels)[0]
    
    if not file_paths:
        return {"user_id": request.user_id, "features": {}}

    # 3. 安全凭证管理：从Vault获取临时凭证
    # 从 s3://bucket/path/to/file.parquet 中提取 bucket 和 key
    s3_objects_for_policy = [p.replace('s3://', '') for p in file_paths]

    try:
        scoped_creds = VAULT_CLIENT.get_scoped_s3_credentials(
            aws_mount_point='aws',
            role_name='feature-reader-role',
            s3_paths=s3_objects_for_policy
        )
    except Exception as e:
        raise HTTPException(status_code=503, detail=f"Could not get credentials from Vault: {e}")

    # 4. 数据读取：使用凭证和文件列表直接读取Iceberg数据
    table = CATALOG.load_table(request.table_name)
    
    # 关键步骤：使用 PyArrow Dataset API 和我们预测的文件列表
    # 这绕过了Iceberg自身的manifest扫描
    arrow_fs = pa.fs.S3FileSystem(**scoped_creds)
    
    # 构建一个只包含目标文件的Arrow Dataset
    dataset = ds.parquet_dataset(file_paths, filesystem=arrow_fs)
    
    # 在这个小得多的数据集上执行最终的过滤
    result_table = dataset.to_table(filter=(ds.field('user_id') == request.user_id))

    if result_table.num_rows == 0:
        return {"user_id": request.user_id, "features": {}}

    # 转换为所需格式并返回
    features = result_table.to_pydict()
    return {"user_id": request.user_id, "features": features}

架构的局限性与未来展望

这套架构并非没有权衡。路由模型的准确性至关重要，一次错误的预测（假阴性）将导致特征丢失，而服务对此可能毫无察觉。这要求我们建立一套离线的评估机制，定期抽样验证模型的召回率。

此外，路由模型的训练和版本管理引入了新的运维负担。模型的更新必须与数据湖的事务严格同步，对我们的CI/CD和MLOps流程提出了更高要求。当前基于PostgreSQL的状态管理在规模扩大时，可能需要演进为更专业的元数据服务。

未来的优化方向是清晰的。我们可以探索更复杂的路由模型，甚至使用GNN（图神经网络）来学习实体与数据文件之间的关系。另一个有吸引力的方向是，研究是否能将这种二级索引信息通过Iceberg的元数据层（如利用Puffin文件格式或自定义统计信息）更紧密地集成，从而使查询引擎原生具备这种文件级别的寻址能力，减少对外部服务的依赖。

Apache Iceberg Scikit-learn HashiCorp Vault 索引优化状态管理

构建一个解耦的异步可视化服务 Rails通过Sidekiq驱动Matplotlib

2023-10-27 架构与设计

Ruby on Rails Matplotlib Recoil Sidekiq React

在Micronaut中构建基于ELK和Delta Lake的可观测Saga事务审计日志

2023-10-27 分布式系统

ELK Stack Micronaut Saga Pattern Delta Lake