核心架构
-
智能多任务处理硬件内部可并行运行96个没有依赖的任务,计算与渲染协同推进,提升GPU整体效率
-
Compute Shader 与 3D 渲染可并行执行
-
减少串行等待造成的空窗
-
更适合混合负载的持续吞吐
-
-
智能任务分配通过硬件自动检测与智能分配,将任务动态切分并调度,实时平衡各计算单元负载
-
让计算单元工作量更接近均衡
-
降低尾部拖累带来的等待
-
提升整体利用率
-
-
智能双发射支持 FP32、INT32 等指令双发射,让两条指令并行执行,进一步提升计算效率
-
自动平衡 ALU0/ALU1 负载
-
降低单侧拥塞导致的吞吐损失
-
把均衡闭环放在执行阶段完成
-
-
智能乱序渲染突破传统渲染顺序限制,实现图元乱序处理,提升复杂场景下的渲染效率
-
减少管线阶段性等待
-
提升顺序不敏感场景的管线填充
-
缓解前后端衔接缝隙
-
-
智能数据均衡自动监控并均衡数据访问负载,优化纹理与存取单元协同,提升数据通路效率
-
避免“一边瓶颈、另一边闲置
-
提升数据获取通路的有效吞吐
-
更充分利用输入带宽
-
-
矩阵内存布局优化采用更贴近实际计算需求的块状存储方式,提高矩阵访问与显存利用效率
-
更少 page 打开与切换,访问更连续、更可预测
-
等效提升显存带宽利用率
-
提高cache line利用率
-
开发者区域
-
NRSS超分辨率借助 FP16/INT8 计算能力,实现高质量超分辨率效果,提升游戏帧率表现
-
将算力优先用在“可见细节”
-
为高分辨率/高刷新场景提供弹性
-
与渲染管线配合形成更优折中
-
-
Virtual GPUs支持 SRIOV 虚拟化,最多可提供 16 路虚拟 GPU,拓展云端部署与资源切分能力
-
支持高效虚拟化
-
提高云端应用部署灵活性
-
灵活分配资源
-
-
LSRT 推理引擎实现AI模型快速部署,并结合 TVM 后端扩展,提升推理效率与适配能力
-
快速部署
-
后端适配
-
工程可演进
-