Sanic 结合死信队列实现生产级 PostCSS 异步构建与分析系统

后端架构

文章字数: 3.5k

阅读时长: 15 分

前端团队的CI流水线最近变得异常缓慢和脆弱。根本原因在于我们的PostCSS构建流程，它集成了大量的插件，包括代码风格检查、未来CSS语法转译、性能优化和自定义属性生成。单个构建任务在复杂的项目中耗时可能超过一分钟，并且偶尔会因为插件冲突或内存问题而失败。这种同步、阻塞式的构建环节直接拖慢了整个部署流程，任何一次构建失败都可能导致整个发布回滚，这在生产环境中是难以接受的。

为了解决这个问题，我们决定将这个资源密集型且不稳定的步骤从主CI流程中剥离，构建一个专门的、异步的资产构建与分析服务。其核心要求是：高可用、可扩展，并且对构建失败有强大的容错能力。

初步构想是建立一个API端点，CI系统只需提交一个包含代码仓库地址和特定commit哈希的任务，即可立即获得响应，然后轮询或通过webhook接收构建结果。真正的构建过程在后台异步执行。

技术选型上，我们排除了重量级的框架。我们需要一个轻量、高性能、原生支持异步的Python Web框架来作为API网关和任务调度器。Sanic因其出色的性能和简洁的async/await语法成为首选。

任务的解耦和持久化需要一个消息队列。在多个选项中，我们选择了Redis Streams。它比简单的Redis List提供了更强的特性，如消费组、消息持久化和原子性的消息读取，非常适合构建可靠的任务队列，并且相比RabbitMQ或Kafka更为轻量，易于维护。

而整个方案的灵魂，在于如何处理失败的任务。简单的失败重试无法解决根本问题，一个持续失败的“毒丸”消息会阻塞队列，耗尽系统资源。这里的标准实践是引入死信队列（Dead Letter Queue, DLQ）机制。在达到最大重试次数后，我们将无法处理的消息连同失败上下文（如错误日志、重试次数）一同转移到一个专门的队列中，以便工程师进行手动排查，同时确保主任务队列的健康运行。

这个系统将由三部分组成：一个接收任务的Sanic API服务，一个或多个消费任务并执行PostCSS构建的Python Worker，以及作为消息中间件的Redis。

graph TD
    subgraph CI/CD Pipeline
        A[Git Push] --> B{Trigger CI};
        B --> C[Submit Build Job];
    end

    subgraph Async Build Service
        C -- HTTP POST --> D[Sanic API Server];
        D -- XADD --> E[Redis Stream: main_build_queue];

        subgraph Worker Pool
            F1[Worker 1] -- XREADGROUP --> E;
            F2[Worker 2] -- XREADGROUP --> E;
            F3[Worker N] -- XREADGROUP --> E;
        end

        F1 --> G{Process Job};
        G -- Success --> H[Notify Result];
        G -- Failure --> I{Retry < Max?};
        I -- Yes --> E;
        I -- No --> J[Redis Stream: dead_letter_queue];

        K[DLQ Monitor] -- XREAD --> J;
        K --> L[Alert/Manual Inspection];
    end

第一阶段：服务骨架与任务发布

首先是Sanic API服务的搭建。它只负责一件事：验证传入的请求，生成一个唯一的任务ID，并将任务信息打包成消息发布到Redis Stream。

项目结构如下：

async_postcss_builder/
├── config.py
├── server.py
├── worker.py
└── requirements.txt

config.py 文件用于存放所有配置，便于管理。在真实项目中，这些配置应该通过环境变量注入。

# config.py

import os

# Redis Configuration
REDIS_HOST = os.getenv("REDIS_HOST", "localhost")
REDIS_PORT = int(os.getenv("REDIS_PORT", 6379))
REDIS_DB = int(os.getenv("REDIS_DB", 0))

# Stream/Queue Configuration
MAIN_STREAM_NAME = "postcss:build:queue"
DLQ_STREAM_NAME = "postcss:build:dlq"
CONSUMER_GROUP_NAME = "build_workers_group"
CONSUMER_NAME_PREFIX = "worker"

# Worker Logic Configuration
MAX_RETRIES = 3
JOB_TIMEOUT_SECONDS = 300  # 5 minutes per job

server.py 是Sanic应用的入口。我们使用 aioredis 库来与Redis进行异步交互。

# server.py

import asyncio
import uuid
import json
import logging
from sanic import Sanic, response
from sanic.log import logger
import aioredis

import config

# 日志配置
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(name)s - %(levelname)s - %(message)s')

app = Sanic("PostCSSBuilderAPI")
app.ctx.redis = None

@app.before_server_start
async def setup_redis(app, loop):
    """
    在服务启动前初始化Redis连接池。
    """
    try:
        app.ctx.redis = await aioredis.from_url(
            f"redis://{config.REDIS_HOST}:{config.REDIS_PORT}/{config.REDIS_DB}",
            encoding="utf-8",
            decode_responses=True
        )
        await app.ctx.redis.ping()
        logger.info("Successfully connected to Redis.")
    except Exception as e:
        logger.error(f"Failed to connect to Redis: {e}")
        # 在无法连接到Redis时，应该阻止服务启动
        raise ConnectionError("Redis connection failed")

@app.after_server_stop
async def close_redis(app, loop):
    """
    服务关闭时，优雅地关闭Redis连接。
    """
    if app.ctx.redis:
        await app.ctx.redis.close()
        logger.info("Redis connection closed.")

@app.post("/api/v1/build")
async def submit_build_job(request):
    """
    接收构建任务请求，并将其推送到Redis Stream。
    """
    if not request.json:
        return response.json({"error": "Invalid request body, expected JSON."}, status=400)

    repo_url = request.json.get("repo_url")
    commit_hash = request.json.get("commit_hash")

    if not repo_url or not commit_hash:
        return response.json({"error": "Missing 'repo_url' or 'commit_hash'."}, status=400)

    # 这里的验证逻辑在生产环境中会更复杂
    # 例如：校验repo_url的格式，检查commit_hash的有效性等
    if not repo_url.startswith("https://"):
        return response.json({"error": "'repo_url' must be a valid https URL."}, status=400)

    task_id = str(uuid.uuid4())
    job_payload = {
        "task_id": task_id,
        "repo_url": repo_url,
        "commit_hash": commit_hash,
        "retry_count": 0,
        "status": "pending"
    }

    try:
        # XADD 命令将消息添加到Stream
        message_id = await app.ctx.redis.xadd(config.MAIN_STREAM_NAME, {"data": json.dumps(job_payload)})
        logger.info(f"Job {task_id} submitted. Message ID: {message_id}")
        return response.json({
            "message": "Build job submitted successfully.",
            "task_id": task_id,
            "message_id": message_id
        }, status=202)
    except aioredis.RedisError as e:
        logger.error(f"Failed to publish job {task_id} to Redis Stream: {e}")
        return response.json({"error": "Internal server error: Could not queue job."}, status=500)

if __name__ == "__main__":
    app.run(host="0.0.0.0", port=8000, debug=False, access_log=True)

这个API服务非常纯粹。它接收任务，进行基本验证，然后将任务推送到 postcss:build:queue 这个Stream中。注意，我们将整个任务详情序列化成一个JSON字符串，并放在data字段里，这是Redis Stream的常见用法。

第二阶段：核心Worker与构建逻辑

Worker是整个系统的核心。它需要从Redis Stream中拉取任务，执行一个可能长时间运行的、I/O和CPU密集型的外部进程（PostCSS构建），并根据执行结果决定下一步行动。

Worker将作为一个独立的脚本运行，可以水平扩展部署多个实例。

# worker.py

import asyncio
import os
import shutil
import tempfile
import json
import logging
import uuid
import aioredis
from aioredis.exceptions import RedisError

import config

# 更详细的日志格式，方便排查问题
logging.basicConfig(
    level=logging.INFO,
    format='%(asctime)s - [Worker:%(process)d] - %(levelname)s - %(message)s'
)
logger = logging.getLogger(__name__)

class BuildWorker:
    def __init__(self):
        self.redis = None
        # 每个worker实例都有一个唯一的名称
        self.consumer_name = f"{config.CONSUMER_NAME_PREFIX}-{uuid.uuid4()}"

    async def _setup_consumer_group(self):
        """
        确保消费组存在。如果Stream不存在，它会自动创建。
        这是一个幂等操作。
        """
        try:
            await self.redis.xgroup_create(
                name=config.MAIN_STREAM_NAME,
                groupname=config.CONSUMER_GROUP_NAME,
                mkstream=True
            )
            logger.info(f"Consumer group '{config.CONSUMER_GROUP_NAME}' created or already exists.")
        except RedisError as e:
            # 'BUSYGROUP Consumer Group name already exists' 是正常情况
            if "BUSYGROUP" not in str(e):
                logger.error(f"Failed to create consumer group: {e}")
                raise

    async def _run_command(self, command: str, cwd: str) -> tuple[int, str, str]:
        """
        异步执行外部Shell命令，并捕获其返回码、标准输出和标准错误。
        这是与PostCSS交互的关键。
        """
        process = await asyncio.create_subprocess_shell(
            command,
            stdout=asyncio.subprocess.PIPE,
            stderr=asyncio.subprocess.PIPE,
            cwd=cwd
        )
        stdout, stderr = await process.communicate()
        return process.returncode, stdout.decode('utf-8', 'ignore'), stderr.decode('utf-8', 'ignore')

    async def _execute_postcss_build(self, repo_url: str, commit_hash: str) -> tuple[bool, str]:
        """
        完整的构建流程：克隆、安装依赖、执行构建。
        一个常见的坑是权限问题和临时目录的清理。
        """
        # 使用临时目录确保每次构建都是在干净的环境中进行
        temp_dir = tempfile.mkdtemp(prefix="postcss_build_")
        logger.info(f"Created temporary directory: {temp_dir}")
        try:
            # 1. 克隆指定commit的代码
            clone_cmd = f"git clone {repo_url} . && git checkout {commit_hash}"
            ret_code, stdout, stderr = await self._run_command(clone_cmd, temp_dir)
            if ret_code != 0:
                error_msg = f"Git operation failed. Stderr: {stderr}"
                logger.error(error_msg)
                return False, error_msg

            # 2. 安装NPM依赖
            # 生产环境中，npm install可能会很慢，应该考虑缓存 node_modules
            install_cmd = "npm install" 
            logger.info(f"Running '{install_cmd}' in {temp_dir}")
            ret_code, stdout, stderr = await self._run_command(install_cmd, temp_dir)
            if ret_code != 0:
                error_msg = f"npm install failed. Stderr: {stderr}"
                logger.error(error_msg)
                return False, error_msg

            # 3. 执行PostCSS构建
            # 这里的命令需要根据项目实际情况调整
            build_cmd = "npx postcss src/styles.css -o dist/output.css"
            logger.info(f"Running '{build_cmd}' in {temp_dir}")
            ret_code, stdout, stderr = await self._run_command(build_cmd, temp_dir)
            if ret_code != 0:
                error_msg = f"PostCSS build failed. Stderr: {stderr}"
                logger.error(error_msg)
                return False, error_msg
            
            # 在真实场景中，这里会把构建产物上传到S3或其它存储
            logger.info(f"PostCSS build successful. Stdout: {stdout}")
            return True, "Build successful."

        finally:
            # 无论成功失败，都必须清理临时目录
            shutil.rmtree(temp_dir, ignore_errors=True)
            logger.info(f"Cleaned up temporary directory: {temp_dir}")

    async def process_message(self, message_id: str, message_data: dict):
        """
        处理单条消息的核心逻辑，包含重试和移入死信队列。
        """
        task_info = json.loads(message_data['data'])
        task_id = task_info.get("task_id")
        logger.info(f"[{task_id}] Processing message {message_id}...")

        try:
            # 设置任务超时，防止单个任务卡死整个worker
            success, result_message = await asyncio.wait_for(
                self._execute_postcss_build(task_info["repo_url"], task_info["commit_hash"]),
                timeout=config.JOB_TIMEOUT_SECONDS
            )

            if success:
                logger.info(f"[{task_id}] Job completed successfully.")
                # 任务成功，从主队列中确认并移除消息
                await self.redis.xack(config.MAIN_STREAM_NAME, config.CONSUMER_GROUP_NAME, message_id)
            else:
                logger.warning(f"[{task_id}] Job failed. Reason: {result_message}")
                await self.handle_failure(message_id, task_info, result_message)

        except asyncio.TimeoutError:
            logger.error(f"[{task_id}] Job timed out after {config.JOB_TIMEOUT_SECONDS} seconds.")
            await self.handle_failure(message_id, task_info, "Job execution timed out.")
        except Exception as e:
            logger.exception(f"[{task_id}] An unexpected error occurred while processing message {message_id}.")
            await self.handle_failure(message_id, task_info, str(e))

    async def handle_failure(self, message_id: str, task_info: dict, error_message: str):
        """
        处理失败任务的逻辑，决定是重试还是移入DLQ。
        """
        task_id = task_info.get("task_id")
        current_retries = task_info.get("retry_count", 0)

        if current_retries < config.MAX_RETRIES:
            # 增加重试次数，并重新放回队列
            task_info["retry_count"] = current_retries + 1
            task_info["last_error"] = error_message
            
            # 一个常见的错误是直接重试，这可能导致快速失败循环。
            # 加入一个指数退避的延迟是更稳妥的做法。
            delay = 2 ** current_retries
            logger.info(f"[{task_id}] Retrying job in {delay} seconds (attempt {task_info['retry_count']})...")
            await asyncio.sleep(delay)
            
            await self.redis.xadd(config.MAIN_STREAM_NAME, {"data": json.dumps(task_info)})
            logger.info(f"[{task_id}] Job re-queued for retry.")
        else:
            # 达到最大重试次数，移入死信队列
            logger.error(f"[{task_id}] Job failed after {config.MAX_RETRIES} retries. Moving to DLQ.")
            dlq_payload = {
                "original_task": task_info,
                "final_error": error_message,
                "failed_at": asyncio.get_event_loop().time()
            }
            await self.redis.xadd(config.DLQ_STREAM_NAME, {"data": json.dumps(dlq_payload)})
        
        # 无论重试还是移入DLQ，都必须确认原始消息，防止被重复消费
        await self.redis.xack(config.MAIN_STREAM_NAME, config.CONSUMER_GROUP_NAME, message_id)


    async def run(self):
        """
        Worker的主循环。
        """
        self.redis = await aioredis.from_url(
            f"redis://{config.REDIS_HOST}:{config.REDIS_PORT}/{config.REDIS_DB}",
            encoding="utf-8",
            decode_responses=True
        )
        await self._setup_consumer_group()
        logger.info(f"Worker '{self.consumer_name}' started. Listening for jobs on '{config.MAIN_STREAM_NAME}'...")

        while True:
            try:
                # XREADGROUP 会阻塞直到有新消息，'>' 表示消费从未被消费过的消息
                # COUNT 1 表示每次只取一条，BLOCK 0 表示无限期等待
                messages = await self.redis.xreadgroup(
                    groupname=config.CONSUMER_GROUP_NAME,
                    consumername=self.consumer_name,
                    streams={config.MAIN_STREAM_NAME: ">"},
                    count=1,
                    block=0
                )

                if not messages:
                    continue

                stream_name, message_list = messages[0]
                message_id, message_data = message_list[0]
                
                await self.process_message(message_id, message_data)

            except RedisError as e:
                logger.error(f"Redis connection error: {e}. Reconnecting in 5 seconds...")
                await asyncio.sleep(5)
            except Exception as e:
                logger.exception("An unexpected error occurred in the main worker loop.")
                await asyncio.sleep(1)


if __name__ == "__main__":
    worker = BuildWorker()
    try:
        asyncio.run(worker.run())
    except KeyboardInterrupt:
        logger.info("Worker shutting down.")

Worker的代码比API服务复杂得多。关键点包括：

消费组：XREADGROUP确保了即使有多个Worker实例，同一条消息也只会被一个Worker消费，实现了负载均衡和高可用。
异步子进程：asyncio.create_subprocess_shell 是执行外部命令的关键，它不会阻塞事件循环。
隔离与清理：每个构建任务都在独立的临时目录中执行，并且通过finally块确保了目录总能被清理，这是保证Worker稳定性的重要措施。
超时控制：asyncio.wait_for 为每个任务设置了硬性超时，防止恶意或有问题的代码库导致Worker永久卡死。
失败处理：handle_failure函数清晰地实现了重试和DLQ逻辑。在重试前增加延迟，可以避免在下游服务暂时不可用时对其造成冲击。
消息确认：xack是消费组模式的核心。只有当任务处理完成（无论是成功、重试还是移入DLQ），才向Redis确认消息，保证了至少一次（At-Least-Once）的消息处理语义。如果Worker在处理过程中崩溃，未被确认的消息会自动被重新分配给其他消费者。

方案的局限性与未来迭代

这套系统已经能够解决最初的问题，但在投入更大规模的生产环境前，仍有一些局限性需要正视：

执行环境安全：目前Worker直接在主机上执行git clone和npm install，这存在严重的安全风险。一个恶意的package.json脚本就可能破坏Worker所在的环境。在真实的内部开发者平台（IDP）中，每个构建任务都应该在一个隔离的沙箱环境（例如，一个临时的Docker容器）中执行，并施加严格的资源限制（CPU、内存）和网络策略。
DLQ的管理：死信队列本身只是一个被动的存储。我们还需要配套的工具来监控DLQ的深度，当有新消息进入时进行告警。此外，需要一个简单的UI或CLI工具，让运维人员可以查看DLQ中的消息详情、决定是手动修复并重新入队，还是直接丢弃。
资源调度：当任务量巨大时，在同一台机器上运行多个Worker进程会相互竞争CPU和I/O资源。PostCSS构建是CPU密集型任务，更好的方式是将Worker容器化，并利用Kubernetes等容器编排平台进行调度，实现更精细的资源管理和弹性伸缩。
状态追踪与结果通知：当前的实现方案中，任务提交后客户端是“射后不理”的。一个完整的系统需要一个持久化层（如PostgreSQL或MongoDB）来追踪每个task_id的状态（pending, running, success, failed）。API服务应提供一个/api/v1/build/{task_id}的端点来查询任务状态，并在任务完成时通过Webhook等方式主动通知调用方。

Python Sanic Dead Letter Queue PostCSS 异步任务系统设计

利用 ZooKeeper 为 Ruby 与 Vercel Functions 构建轻量级事件驱动桥接

2023-10-27 分布式架构

Zookeeper 事件驱动架构 (EDA) Ruby Vercel Functions

基于 Pulsar C# 与 Cilium 构建服务于 Kubeflow 的实时特征流处理架构

2023-10-27 分布式架构

Pulsar C# Cilium Kubeflow eBPF MLOps Feature Store