zezeful
本站致力于IT相关技术的分享
构建支持服务网格的Micronaut应用实现JPA与ClickHouse双写的数据管道 构建支持服务网格的Micronaut应用实现JPA与ClickHouse双写的数据管道
团队的AI模型迭代对实时特征的需求越来越迫切,原有的T+1批量ETL流程已经成为瓶颈。我们需要一个能够接收实时用户行为事件,处理后写入特征存储,并能在毫秒级延迟内被线上模型查询的管道。这个任务落到了我们平台工程团队。痛点很明确:我们需要一个
2024-03-21
在AWS上构建服务于TensorFlow模型的实时时序特征存储架构 在AWS上构建服务于TensorFlow模型的实时时序特征存储架构
项目初期,时序预测模型在Jupyter Notebook里表现完美,验证集上的MAE和RMSE指标都无可挑剔。然而,当模型被部署为线上服务后,灾难降临了。线上模型的性能与离线评估结果存在巨大鸿沟,告警邮件塞满了收件箱。问题的根源很快被定位:
2023-10-27
基于 Pulsar, TimescaleDB 与 OpenSearch 构建事件驱动的混合存储特征管道 基于 Pulsar, TimescaleDB 与 OpenSearch 构建事件驱动的混合存储特征管道
我们的机器学习模型推理服务遇到了一个棘手的性能瓶颈。它需要实时访问两种截然不同的特征数据:一种是基于时间窗口的用户行为聚合特征(例如,“过去15分钟内用户的点击次数”),另一种是基于内容的复杂文本与向量化特征(例如,“搜索与用户历史画像最相
2023-10-27
构建从事务数据库到Apache Iceberg的事件驱动型实时摄取函数 构建从事务数据库到Apache Iceberg的事件驱动型实时摄取函数
我们面临一个典型的现代数据工程困境:业务分析团队需要对生产 PostgreSQL 数据库中的数据进行近乎实时的分析,但直接查询生产库是绝对禁止的。传统的每小时或每日批处理ETL作业导致的数据延迟,已经无法满足快速决策的需求。数据仓库中的数据
2023-10-27
构建基于 Pulsar, Lambda 和 Weaviate 的 Serverless 实时向量化管道的架构权衡 构建基于 Pulsar, Lambda 和 Weaviate 的 Serverless 实时向量化管道的架构权衡
业务需求很明确:当核心PostgreSQL数据库中的产品信息(包括文本描述和关联图片元数据)发生任何变更时,必须在100毫秒内更新其在向量搜索引擎中的表示,以供推荐系统和语义搜索使用。这个延迟指标是硬性的,直接影响用户体验。 方案A:可预测
2023-10-27
利用Clojure与Ray构建面向数据仓库的声明式并行可视化报告系统 利用Clojure与Ray构建面向数据仓库的声明式并行可视化报告系统
我们面临一个日益严峻的工程挑战:分析团队需要每日从 PB 级的数据仓库中,为数千个不同的业务切面生成定制化的分析图表。最初基于 Python 脚本和定时任务的解决方案,在报告数量超过一百个时便开始崩溃。串行执行耗时过长,手动并行化(例如,使
2023-10-27