智能摘要 NVIDIA Dynamo是一款高吞吐量低延迟的分布式推理框架,专为多节点环境中的生成式AI模型服务设计。其核心功能包括分离prefill(处理输入提示并生成KV缓存)和decode(自回归生成token)阶段,以优化GPU资源分配;动态GPU调度机制实时调整资源比例,应对高并发负载;LLM-aware智能路由基于请求特征(如Prompt Tokens、Output Tokens)精准调度至合适节点;并采用NIXL库加速KV cache传输,通过RDMA和异步数据处理降低延迟。系统以Rust实现核心组件,…