利用 Apache Hudi 增量流构建支持 LlamaIndex 的近实时混合检索 RAG 管道 利用 Apache Hudi 增量流构建支持 LlamaIndex 的近实时混合检索 RAG 管道
我们团队维护的一个基于 RAG 的内部知识库系统遇到了一个棘手的瓶颈:数据新鲜度。最初的架构简单粗暴,每晚通过 Spark 作业全量读取源数据,计算 embedding,然后将数百万文档向量完全重建到 OpenSearch 索引中。这个过程
2023-11-21
基于Rust Rocket与SQL Server构建可观测的生成式AI RAG管道 基于Rust Rocket与SQL Server构建可观测的生成式AI RAG管道
业务部门最近对生成式AI的热情空前高涨,一个明确的需求摆在了我们面前:利用内部积累了近十年的SQL Server知识库,构建一个智能问答服务。Python技术栈的同事快速用LangChain和Flask搭了个原型,效果不错,但很快就暴露了生
2023-11-15
集成BentoML与Scala服务应对读写分离延迟和跨语言可观测性挑战 集成BentoML与Scala服务应对读写分离延迟和跨语言可观测性挑战
一个典型的机器学习模型服务化场景摆在面前:我们需要将一个基于 Python 的模型部署为在线推理服务,它需要根据请求实时查询特征数据,并在推理后记录结果。随着业务增长,特征数据读请求QPS预计达到数万级别,而写请求相对低频。数据库层面采用读
2023-11-15
构建面向Kubeflow的Spring Boot控制平面并集成Consul与Next.js 构建面向Kubeflow的Spring Boot控制平面并集成Consul与Next.js
机器学习平台(如Kubeflow)对于数据科学家而言是强大的工具,但对于广大的应用开发者来说,其陡峭的学习曲线和复杂的运维操作往往成为一道难以逾越的鸿沟。在我们的团队中,应用开发者希望能够以调用一个简单API的方式,来触发模型训练、获取预测
2023-10-27
结合Istio故障注入实现BentoML异步服务韧性架构的设计与验证 结合Istio故障注入实现BentoML异步服务韧性架构的设计与验证
机器学习模型部署上线后,其服务稳定性往往成为一个黑盒。在真实生产环境中,下游依赖失效、网络延迟抖动、瞬时流量洪峰等问题不可避免。一个常见的错误是,团队过度相信应用层代码的健壮性,而缺乏系统性的手段来验证和加固整个服务在混沌环境下的表现。特别
2023-10-27
构建基于 Rails SSE 与 SSR 的实时日志流并使用 Buildah 实现多阶段容器化部署 构建基于 Rails SSE 与 SSR 的实时日志流并使用 Buildah 实现多阶段容器化部署
在生产环境中,实时、无延迟地观测分布式服务的日志流是一项刚需。传统的日志聚合系统(如ELK Stack)虽然强大,但在问题排查的即时性上,往往存在数秒到数分钟的延迟。我们需要一个轻量级、低延迟的方案,能够将日志直接推送到开发者的浏览器。这个
2023-10-27
1 / 5