2025年UE5渲染技术简介：Nanite篇

科技前沿 • 2025-02-21 12:56 • 阅读 66

大家好，我是讯享网，很高兴认识大家。

一、前言

在今年初Epic放出了UE5技术演示Demo之后，关于UE5的讨论就一直未曾停止，相关技术讨论主要围绕两个新的feature：全局照明技术Lumen和极高模型细节技术Nanite，已经有一些文章[1][2]比较详细地介绍了Nanite技术。本文主要从UE5的RenderDoc分析和源码出发，结合一些已有的技术资料，旨在能够提供对Nanite直观和总览式的理解，并理清其算法原理和设计思想，不会涉及过多源码级别的实现细节。

二、次世代模型渲染，我们需要什么？

要分析Nanite的技术要点，首先要从技术需求的角度出发。近十年来，3A类游戏的发展都逐渐趋向于两个要点：互动式电影叙事和开放大世界。为了逼真的电影感cutscene，角色模型需要纤毫毕现；为了足够灵活丰富的开放世界，地图尺寸和物件数量呈指数级增长，这两者都大幅度提升了场景精细度和复杂度的要求：场景物件数量既要多，每个模型又要足够精细。

复杂场景绘制的瓶颈通常有两个：

每次Draw Call带来的CPU端验证及CPU-GPU之间的通信开销；
由于剔除不够精确导致的Overdraw和由此带来的GPU计算资源的浪费；
近年来渲染技术优化往往也都是围绕这两个难题，并形成了一些业内的技术共识。

针对CPU端验证、状态切换带来的开销，我们有了新一代的图形API（Vulkan、DX12和Metal），旨在让驱动在CPU端做更少的验证工作；将不同任务通过不同的Queue派发给GPU（Compute/Graphics/DMA Queue）；要求开发者自行处理CPU和GPU之间的同步；充分利用多核CPU的优势多线程向GPU提交命令。得益于这些优化，新一代图形API的Draw Call数量相较于上一代图形API（DX11、OpenGL）提高了一个数量级[3]。

另一个优化方向是减少CPU和GPU之间的数据通讯，以及更加精确地剔除对最终画面没有贡献的三角形。基于这个思路，诞生了GPU Driven Pipeline。关于GPU Driven Pipeline以及剔除的更多内容，可以读一读笔者的这篇文章[4]。

得益于GPU Driven Pipeline在游戏中越来越广泛的应用，把模型的顶点数据进一步切分为更细粒度的Cluster（或者叫做Meshlet），让每个Cluster的粒度能够更好地适应Vertex Processing阶段的Cache大小，并以Cluster为单位进行各类剔除（Frustum Culling、Occulsion Culling和Backface Culling）已经逐渐成为了复杂场景优化的**实践，GPU厂商也逐渐认可了这一新的顶点处理流程。

但传统的GPU Driven Pipeline依赖Compute Shader剔除，剔除后的数据需要存储在GPU Buffer内，经由Execute Indirect这类API，把剔除后的Vertex/Index Buffer重新喂给GPU的Graphics Pipeline，无形中增加了一读一写的开销。此外顶点数据也会被重复读取（Compute Shader在剔除前读取以及Graphics Pipeline在绘制时通过Vertex Attribute Fetch读取）。

基于以上的原因，为了进一步提高顶点处理的灵活度，NVidia最先引入了Mesh Shader[5]的概念，希望能够逐步去掉传统顶点处理阶段的一些固定单元（VAF，PD一类的硬件单元），并把这些事交由开发者通过可编程管线（Task Shader/Mesh Shader）处理。

2025年UE5渲染技术简介：Nanite篇

一、前言

二、次世代模型渲染，我们需要什么？

相关推荐