构建基于 Delta Lake 的事件溯源 IoT 状态机与 Serverless 投影

分布式架构

文章字数: 3.8k

阅读时长: 17 分

管理数百万计的物联网设备状态是一场持久战。我们最初的方案是传统的 CRUD 模型，直接在 PostgreSQL 中更新设备最新状态。很快，并发写入导致了大量的锁竞争和数据覆盖问题，状态更新的竞态条件几乎无法根除。更致命的是，我们完全丢失了设备状态变更的历史轨迹，当需要审计某个设备在特定时间点的行为时，除了翻阅海量日志，别无他法。这种架构在设备数量超过十万级别后，可维护性直线下降。

我们决定彻底重构，转向事件溯源（Event Sourcing）架构。其核心思想很简单：不保存对象的最新状态，而是保存导致状态改变的所有事件序列。任何时刻的当前状态都可以通过重放这些事件来重建。这个模式天然地提供了完整的审计日志，并且通过将写操作变为不可变的追加（Append-Only），从根本上解决了并发更新的冲突问题。

技术选型是这次重构的关键。我们需要一个高性能的命令网关、一个支持事务和并发控制的事件存储，以及一个能解耦事件处理的异步执行环境。

命令网关 (Command Gateway): Fastify。选择它的理由是极致的性能和极低的开销。网关的职责非常单一：接收、校验命令，然后将其转发给领域模型进行处理。Node.js 的事件循环模型非常适合这种 IO 密集型任务，而 Fastify 是这个领域的佼佼者。
事件存储 (Event Store): Delta Lake。这是一个非典型的选择。通常，事件存储会使用 Kafka、Pulsar 或专用的事件数据库。但我们的痛点在于需要对事件流进行严格的事务保证和乐观并发控制。Delta Lake 构建于 Parquet 之上，为数据湖带来了 ACID 事务、版本控制（Time Travel）和模式强制。这些特性与事件溯源的需求惊人地契合：
- ACID 事务: 确保一批事件要么全部成功，要么全部失败，原子性地写入。
- 乐观并发控制: 这是实现事件存储的关键。当多个命令同时尝试更新同一个设备（即同一个事件流）时，Delta Lake 能确保只有一个能够成功写入，避免状态冲突。
- Time Travel: 允许我们查询任何历史版本的事件流，这对于调试和重建历史状态至关重要。
异步投影 (Asynchronous Projection): OpenFaaS。事件被持久化后，我们需要更新查询模型（也称为投影），供前端或其他服务快速读取设备当前状态。这个过程不应该阻塞命令处理流程。Serverless 方案 OpenFaaS 提供了完美的解耦和弹性伸缩能力。当新事件写入 Delta Lake 后，可以触发一个 FaaS 函数，该函数负责读取事件并更新投影。

整个系统的核心流程如下：

sequenceDiagram
    participant Client
    participant Fastify_Gateway as Fastify 网关
    participant EventStore as Delta Lake 事件存储
    participant OpenFaaS_Projector as OpenFaaS 投影函数
    participant ReadModel as Delta Lake 投影

    Client->>+Fastify_Gateway: POST /device/d-001/update (Command)
    Fastify_Gateway->>+EventStore: appendToStream('d-001', [DeviceUpdatedEvent], expectedVersion: 3)
    Note right of EventStore: 乐观并发检查: 事务开始
读取 d-001 最新 version
若 version == 3, 提交新事件
否则, 抛出并发冲突异常
    EventStore-->>-Fastify_Gateway: Success (newVersion: 4)
    Fastify_Gateway-->>-Client: 202 Accepted
    
    %% Asynchronous Part
    par
        Fastify_Gateway->>OpenFaaS_Projector: Invoke function (payload: {streamId: 'd-001', version: 4})
    end

    OpenFaaS_Projector->>+EventStore: getEvents('d-001', fromVersion: 4)
    EventStore-->>-OpenFaaS_Projector: [DeviceUpdatedEvent]
    OpenFaaS_Projector->>+ReadModel: MERGE INTO device_state ...
    Note right of ReadModel: 使用 Delta Lake 的 MERGE
实现幂等更新
    ReadModel-->>-OpenFaaS_Projector: Success

一、核心实现：基于 Delta Lake 的事件存储

事件存储是整个架构的基石。这里的坑在于，必须正确实现乐观并发控制。每个事件流（对应一个设备）都有一个版本号。当保存新事件时，我们必须提供期望的当前版本号。存储层在事务中检查该版本号是否匹配，如果不匹配，则拒绝写入，由调用方决定重试。

首先，定义事件存储的 Delta Table 结构。

event_store table schema:

stream_id: STRING (e.g., ‘device-d-001’)
version: LONG (Monotonically increasing integer for each stream)
event_type: STRING (e.g., ‘DeviceRegistered’, ‘FirmwareUpdated’)
payload: STRING (JSON representation of the event data)
timestamp: TIMESTAMP

我们需要一个能够与 Delta Lake 交互的 Node.js 库。虽然 delta-rs-node 正在发展，但在生产环境中，我们通常会通过一个轻量级的服务（或直接在 Fastify 中）调用 Spark Job 或使用 Databricks Connect 来执行带有事务逻辑的操作。为了演示核心逻辑，以下代码使用伪代码结合 delta-rs 的概念。

// src/services/deltaEventStore.ts
import { DeltaTable, DeltaWriter } from '@delta-rs-node/core';
import { v4 as uuidv4 } from 'uuid';

// 这是一个简化的配置，实际项目中需要从环境变量等加载
const EVENT_STORE_PATH = 's3://my-iot-bucket/event_store';

export interface DomainEvent {
    eventType: string;
    payload: Record<string, any>;
}

export class ConcurrencyError extends Error {
    constructor(message: string) {
        super(message);
        this.name = 'ConcurrencyError';
    }
}

/**
 * 在真实项目中，DeltaTable 的创建和加载会更复杂。
 * 这里简化为每次操作都加载一次。
 */
async function getEventStoreTable(): Promise<DeltaTable> {
    try {
        return await DeltaTable.load(EVENT_STORE_PATH);
    } catch (e) {
        // 如果表不存在，则创建
        const table = await DeltaTable.create(
            EVENT_STORE_PATH,
            [
                { name: 'stream_id', type: 'string', nullable: false },
                { name: 'version', type: 'long', nullable: false },
                { name: 'event_type', type: 'string', nullable: false },
                { name: 'payload', type: 'string', nullable: false },
                { name: 'timestamp', type: 'timestamp', nullable: false },
            ],
            'CreateEventStore',
            'Initial creation of the event store table',
            { 'delta.columnMapping.mode': 'name' },
            ['stream_id'] // 分区键，对性能至关重要
        );
        return table;
    }
}

/**
 * 将事件附加到指定的流
 * @param streamId 聚合根 ID，例如设备 ID
 * @param events 要附加的事件数组
 * @param expectedVersion 期望的流当前版本，用于乐观并发检查
 */
export async function appendToStream(
    streamId: string,
    events: DomainEvent[],
    expectedVersion: number
): Promise<{ newVersion: number }> {
    const table = await getEventStoreTable();
    
    // Delta Lake 的事务是通过 DeltaWriter 的 write/commit 实现的。
    // 关键在于如何在写入前进行版本检查。
    // 在 Spark 中，这可以通过一个事务内的 `SELECT MAX(version)` 和 `INSERT` 来完成。
    // 在 Node.js 环境中，我们需要模拟这个过程。
    // 真正的乐观并发需要存储引擎的原生支持。Delta Lake 的 `MERGE` 或 `UPDATE`
    // 带有条件子句时可以实现这一点。对于纯追加场景，这更具挑战性。

    // 生产级实现：
    // 1. 开始一个事务。
    // 2. 查询当前流的最大版本：`SELECT max(version) as currentVersion FROM event_store WHERE stream_id = ?`
    // 3. 在应用代码中比较 `currentVersion` 和 `expectedVersion`。
    // 4. 如果匹配，则构造新的事件记录（version = currentVersion + 1, ...）并插入。
    // 5. 提交事务。Delta Lake 的乐观并发协议会确保如果在步骤2和5之间，
    //    有其他事务修改了相同分区的数据，当前事务会失败，我们需要捕获并处理这个异常。

    // 以下是简化逻辑的演示
    const latestVersionResult = await table.query(
        `SELECT MAX(version) as version FROM ${table.location} WHERE stream_id = '${streamId}'`
    );

    const currentVersion = latestVersionResult[0]?.version ?? 0;

    if (currentVersion !== expectedVersion) {
        throw new ConcurrencyError(
            `Concurrency conflict for stream ${streamId}. Expected version ${expectedVersion}, but found ${currentVersion}.`
        );
    }

    let nextVersion = currentVersion;
    const recordsToAppend = events.map(event => {
        nextVersion++;
        return {
            stream_id: streamId,
            version: BigInt(nextVersion), // Delta Lake 的 Long 类型对应 JS 的 BigInt
            event_type: event.eventType,
            payload: JSON.stringify(event.payload),
            timestamp: new Date(),
        };
    });

    try {
        const writer = DeltaWriter.forTable(table);
        await writer.write(recordsToAppend);
        const commitResult = await writer.commit();

        // 这里的 commitResult 应该包含操作的元数据，但版本号是应用层维护的
        return { newVersion: nextVersion };

    } catch (err: any) {
        // 捕获 Delta Lake 底层的并发冲突异常
        if (err.name === 'DeltaProtocolError' && err.message.includes('ConcurrentAppendException')) {
             throw new ConcurrencyError(`Underlying storage conflict for stream ${streamId}. Please retry.`);
        }
        throw err;
    }
}

/**
 * 从流中读取事件
 */
export async function readStream(streamId: string): Promise<any[]> {
    const table = await getEventStoreTable();
    const events = await table.query(
        `SELECT * FROM ${table.location} WHERE stream_id = '${streamId}' ORDER BY version ASC`
    );
    return events.map(e => ({ ...e, payload: JSON.parse(e.payload) }));
}

这个 appendToStream 函数是系统的核心。在真实项目中，直接在 Node.js 中实现针对 Delta Lake 的健壮的乐观并发控制可能需要借助 Databricks Connect 或一个代理服务来执行 Spark SQL，因为 Spark 提供了更丰富的事务原语。

二、命令网关：Fastify 的角色

Fastify 服务器非常轻量，它的主要职责是：

定义 API 路由。
解析和验证传入的命令（DTOs）。
加载聚合（设备）的当前状态。
执行命令，产生新事件。
调用事件存储来持久化事件。
处理并发冲突和其他异常。

// src/server.ts
import fastify, { FastifyInstance, FastifyRequest, FastifyReply } from 'fastify';
import { appendToStream, readStream, ConcurrencyError } from './services/deltaEventStore';
import pino from 'pino';

// 这是一个简化的设备聚合，用于演示
class Device {
    id: string;
    version: number = 0;
    firmware: string | null = null;
    status: 'active' | 'inactive' = 'inactive';

    constructor(id: string) {
        this.id = id;
    }

    // 从事件历史中重建状态
    loadFromHistory(history: any[]) {
        history.forEach(event => this.apply(event));
    }

    // 应用单个事件来改变状态
    private apply(event: any) {
        switch (event.event_type) {
            case 'DeviceRegistered':
                this.status = 'active';
                this.firmware = event.payload.initialFirmware;
                break;
            case 'FirmwareUpdated':
                this.firmware = event.payload.newFirmware;
                break;
            case 'DeviceDeactivated':
                this.status = 'inactive';
                break;
        }
        this.version = Number(event.version);
    }
    
    // 命令处理方法，返回新事件
    updateFirmware(newFirmware: string) {
        if (this.status === 'inactive') {
            throw new Error('Cannot update firmware on an inactive device.');
        }
        if (this.firmware === newFirmware) {
            // 没有状态变更，不产生事件
            return [];
        }
        return [{ eventType: 'FirmwareUpdated', payload: { deviceId: this.id, newFirmware } }];
    }
}

const server: FastifyInstance = fastify({
    logger: pino({ level: 'info' }),
});

interface UpdateFirmwareRequest extends FastifyRequest {
    Params: { deviceId: string };
    Body: { firmware: string };
}

server.post('/device/:deviceId/update-firmware', async (request: UpdateFirmwareRequest, reply: FastifyReply) => {
    const { deviceId } = request.params;
    const { firmware } = request.body;

    // 1. 输入验证 (由 Fastify schema 完成，此处省略)
    if (!firmware) {
        return reply.code(400).send({ error: 'Firmware version is required.' });
    }

    try {
        // 2. 加载聚合根
        const history = await readStream(deviceId);
        const device = new Device(deviceId);
        device.loadFromHistory(history);

        // 3. 执行业务逻辑 (命令)
        const newEvents = device.updateFirmware(firmware);

        if (newEvents.length === 0) {
            return reply.code(200).send({ message: 'No state change detected.', version: device.version });
        }

        // 4. 持久化事件
        const { newVersion } = await appendToStream(deviceId, newEvents, device.version);
        
        // 5. 触发异步投影 (生产环境中这应该是可靠的消息队列)
        // 为了简化，这里直接异步调用，不等待结果
        triggerProjectionUpdate(deviceId, newVersion).catch(err => {
            request.log.error(err, `Failed to trigger projection for ${deviceId}`);
        });

        return reply.code(202).send({ message: 'Update accepted.', newVersion });

    } catch (error) {
        if (error instanceof ConcurrencyError) {
            request.log.warn(error, `Concurrency conflict for device ${deviceId}`);
            // 指导客户端进行重试
            return reply.code(409).send({ error: 'Conflict, please retry.' });
        }
        request.log.error(error, `Error processing update for device ${deviceId}`);
        return reply.code(500).send({ error: 'Internal Server Error' });
    }
});

// 模拟触发 OpenFaaS 函数
async function triggerProjectionUpdate(streamId: string, version: number) {
    // 实际实现会使用 OpenFaaS 的 REST API 或网关
    console.log(`INFO: Triggering OpenFaaS function 'device-projector' for ${streamId} up to version ${version}`);
    // const faasGateway = process.env.OPENFAAS_GATEWAY || 'http://127.0.0.1:8080';
    // await fetch(`${faasGateway}/async-function/device-projector`, {
    //     method: 'POST',
    //     body: JSON.stringify({ streamId, version }),
    //     headers: { 'Content-Type': 'application/json' }
    // });
}

const start = async () => {
    try {
        await server.listen({ port: 3000 });
    } catch (err) {
        server.log.error(err);
        process.exit(1);
    }
};

start();

三、异步投影：OpenFaaS 与 Delta Lake 的配合

事件被成功存储后，我们需要一个最终一致的读模型来提供设备的当前状态。OpenFaaS 函数是执行此任务的理想选择。

首先是 OpenFaaS 函数的定义 (stack.yml):

version: 1.0
provider:
  name: openfaas
  gateway: http://127.0.0.1:8080
functions:
  device-projector:
    lang: node18-express
    handler: ./device-projector
    image: your-docker-repo/device-projector:latest
    environment:
      # S3/MinIO and Delta Lake configuration
      DELTA_LAKE_PATH: "s3://my-iot-bucket/device_projection"
      EVENT_STORE_PATH: "s3://my-iot-bucket/event_store"
      AWS_ACCESS_KEY_ID: "your-key"
      AWS_SECRET_ACCESS_KEY: "your-secret"
      AWS_ENDPOINT_URL: "http://minio:9000"
      AWS_REGION: "us-east-1"

投影函数的逻辑：

接收触发负载（streamId, version）。
从事件存储中读取从上一次处理的版本到当前版本之间的所有新事件。
重建设备状态。
使用 Delta Lake 的 MERGE 操作，以幂等的方式更新读模型表。

device_projection 表的结构可以很简单:

device_id: STRING (Primary Key)
firmware: STRING
status: STRING
last_updated: TIMESTAMP
last_event_version: LONG

// device-projector/handler.js

const { DeltaTable, DeltaWriter } = require('@delta-rs-node/core');

const PROJECTION_PATH = process.env.DELTA_LAKE_PATH;
const EVENT_STORE_PATH = process.env.EVENT_STORE_PATH;

// 同样的设备聚合逻辑，在真实项目中应该作为共享库
class Device {
    // ... (同 Fastify 服务中的定义)
}

module.exports = async (event, context) => {
    const { streamId, version } = event.body;

    if (!streamId || !version) {
        return context.status(400).fail('streamId and version are required.');
    }
    
    try {
        // 加载表
        const eventStoreTable = await DeltaTable.load(EVENT_STORE_PATH);
        const projectionTable = await DeltaTable.load(PROJECTION_PATH); // 假设已创建

        // 获取上次处理的版本
        const lastProcessedResult = await projectionTable.query(
            `SELECT MAX(last_event_version) as version FROM ${projectionTable.location} WHERE device_id = '${streamId}'`
        );
        const lastProcessedVersion = lastProcessedResult[0]?.version ?? 0;

        // 读取新事件
        const newEvents = await eventStoreTable.query(
            `SELECT * FROM ${eventStoreTable.location} WHERE stream_id = '${streamId}' AND version > ${lastProcessedVersion} AND version <= ${version} ORDER BY version ASC`
        );

        if (newEvents.length === 0) {
            console.log(`No new events to process for ${streamId}. Already up to date.`);
            return context.status(200).succeed('No new events.');
        }

        // 重建状态
        // 首先加载之前的状态，然后应用新事件
        const fullHistory = await eventStoreTable.query(
            `SELECT * FROM ${eventStoreTable.location} WHERE stream_id = '${streamId}' AND version <= ${version} ORDER BY version ASC`
        );
        const device = new Device(streamId);
        device.loadFromHistory(fullHistory);

        const latestVersion = device.version;
        const currentState = {
            device_id: device.id,
            firmware: device.firmware,
            status: device.status,
            last_updated: new Date(),
            last_event_version: BigInt(latestVersion)
        };
        
        // 使用 MERGE 操作实现幂等写入
        // 这是 Delta Lake 的强大功能之一
        // Spark SQL/Delta RS 的 MERGE 语法
        // MERGE INTO projection_table p
        // USING new_state_update u
        // ON p.device_id = u.device_id
        // WHEN MATCHED THEN UPDATE SET *
        // WHEN NOT MATCHED THEN INSERT *
        // 在 Node.js 中，这需要通过一个支持 MERGE 的执行引擎来完成。
        // 下面是一个简化的、非原子的模拟（读后写），仅用于说明逻辑。
        // 生产环境必须使用原生的 MERGE。
        
        // 伪代码:
        // await projectionTable.merge(
        //      sourceDataFrame, // 包含 currentState 的数据
        //      "target.device_id = source.device_id"
        // ).whenMatchedUpdateAll()
        // .whenNotMatchedInsertAll()
        // .execute();
        
        console.log(`Projected state for ${streamId} to version ${latestVersion}:`, currentState);
        return context.status(200).succeed(`Projected ${streamId} to version ${latestVersion}`);

    } catch (err) {
        console.error(`Failed to project ${streamId}:`, err);
        // 返回错误，以便 OpenFaaS 根据重试策略进行重试
        return context.status(500).fail(err.message);
    }
}

这个投影函数的设计关键在于幂等性。无论函数被触发多少次，只要事件不变，最终的读模型状态都应该是一致的。Delta Lake 的 MERGE 操作天然地保证了这一点。

局限性与未来展望

这套架构并非银弹。首先，它的读写路径是异步的，客户端提交命令后，读模型的状态更新会有延迟。对于需要强读写一致性的场景，需要引入额外的机制，比如让 Fastify 网关在返回前轮询投影状态，但这会增加请求延迟。

其次，直接在 Node.js 中操作 Delta Lake 的高级事务特性（如 MERGE 和健壮的乐观并发控制）目前还存在生态工具链上的挑战。一个更务实的生产方案可能是引入一个小型 Spark 服务或使用 Databricks 作为计算引擎，通过 API 暴露这些原子操作给 Node.js 服务。

最后，OpenFaaS 的冷启动问题可能会影响事件处理的实时性。对于延迟敏感的投影更新，可以考虑使用始终运行的消费者（如基于 Kafka Streams 或 Flink 的应用），或者利用 OpenFaaS Pro 的功能来预热函数实例。未来的迭代方向可能包括引入一个高速缓存层（如 Redis）来缓存热点设备的最新状态，进一步降低读延迟，并将 Delta Lake 的投影作为最终的、持久化的事实来源。

Fastify Event Sourcing Delta Lake OpenFaaS

构建基于 Spring 与 Nuxt 的无会话 WebAuthn 认证架构

2023-10-27 后端架构

Spring Framework Nuxt.js WebAuthn

使用 Ray Actors 构建一个分布式、有状态的断路器服务

2023-10-27 分布式系统

框架 (Python) Ray 核心库断路器高可用