TECHARTNOMAD | TECHARTFLOWIO.COM

MAZELINE TOPIC

DirectX 12 Ultimate 차세대 그래픽스 기술

jplee 2025. 11. 3. 01:45

메이즈라인 Velog 미러 글입니다.

 

DirectX 12 Ultimate 차세대 그래픽스 기술

DirectX 12 Ultimate은 2020년 3월 마이크로소프트가 발표한 차세대 그래픽 API로, DXR 1.1, Variable Rate Shading Tier 2, Mesh Shaders, Sampler Feedback라는 4가지 핵심 기술을 통합한다. 가장 중

velog.io


 

맨날 남들이 만들어놓은 게임엔진의 렌더링만 그냥 가져다 쓰다보니 앞으로의 트렌드가 어떻게 변할지 관심이 잘 가지않다가 이런 저런 이유로 어떤 것들의 특성을 잘 알아야 미래의 최적화 전략을 수립하는데 도움이 될까 하여 정리를 해 봤습니다. 지하철 읽을꺼리 글이니 저 처럼 한 시간 이상 지하철 타시는 분들은 쭉 보시는것도 좋겠네요.


DirectX 12 Ultimate은 2020년 3월 마이크로소프트가 발표한 차세대 그래픽 API로, DXR 1.1, Variable Rate Shading Tier 2, Mesh Shaders, Sampler Feedback라는 4가지 핵심 기술을 통합한다. 가장 중요한 발견은 마이크로소프트가 "DirectX 13"을 출시하지 않고 대신 DX12 Ultimate을 지속적으로 개선하고 있으며, 2025년 4월 DXR 1.2와 신경망 렌더링(Neural Rendering) 기능이 출시되어 그래픽스 프로그래밍의 새로운 패러다임을 연다는 점이다. 이는 PC와 Xbox 콘솔의 완전한 통합을 의미하며, Xbox Series X가 출시와 동시에 DX12 Ultimate을 지원함으로써 수백만 대의 DX12 Ultimate 호환 하드웨어가 시장에 형성되었다.

이 기술의 중요성은 단순한 성능 향상을 넘어서, 레이트레이싱에서 최대 40% 성능 개선, Variable Rate Shading으로 8-20% GPU 시간 절약, Mesh Shaders로 45-55% 컬링 효율 향상, Sampler Feedback으로 VRAM을 2-3배 효과적으로 사용할 수 있다는 점에 있다. 하지만 개발 복잡도가 높아 업계 채택이 점진적으로 이루어지고 있으며, 2023년 Alan Wake 2가 Mesh Shader를 필수로 요구하는 첫 주요 게임이 되면서 전환점을 맞았다.

GDC 2025 - Neural Rendering in Real-Time Graphics 세션
2025년 3월 GDC에서 발표된 Neural Rendering 세션은 DXR 1.2와 통합된 신경망 렌더링 기술이 실시간 그래픽스에 가져올 혁명적 변화를 다뤘다. NVIDIA, AMD, Epic Games의 엔지니어들이 참여한 이 세션은 Neural Radiance Fields(NeRF), Neural Texture Compression, AI-Driven Denoising의 실제 게임 구현 사례를 공개했다.
핵심 발표 내용은 DirectX 12의 새로운 Neural Rendering API가 Tensor 코어와 AI 가속기를 직접 활용할 수 있도록 하여, 기존 셰이더 파이프라인과 신경망 추론을 통합한다는 점이다. NVIDIA의 RTX Neural Shaders는 레이트레이싱 노이즈 제거에서 기존 디노이저 대비 3배 빠른 성능을 보여주며, AMD의 FSR 4는 머신러닝 기반 업스케일링으로 네이티브 4K 대비 90% 품질을 유지하면서 2.5배 성능 향상을 달성했다.
Epic Games는 Unreal Engine 5.5에서 Neural Lumen을 시연했는데, 이는 기존 Lumen GI를 신경망으로 가속화하여 복잡한 간접 조명 시나리오에서 40% GPU 시간을 절약한다.
중요한 기술적 세부사항으로는 FP8/INT4 양자화를 통한 추론 가속화, Shader Model 6.8의 새로운 TensorCore 내장 함수, 신경망 가중치의 효율적인 VRAM 관리가 논의되었다. 세션은 2025년 말까지 주요 게임 엔진들이 Neural Rendering을 표준 기능으로 통합할 것으로 예측하며, 이는 포토리얼리즘과 성능의 균형을 완전히 재정의할 것으로 전망했다.

 

GDC 2025: DirectX State of the Union

Take a closer look at the latest improvements and new features available soon to developers in DirectX.

developer.microsoft.com

 

DXR 1.1이 가져온 레이트레이싱 혁명

DirectX Raytracing 1.1은 DXR 1.0의 기반 위에 인라인 레이트레이싱(Inline Raytracing)이라는 혁신적 기능을 추가한다. TraceRayInline을 사용하면 컴퓨트 셰이더, 픽셀 셰이더 등 모든 셰이더 단계에서 레이트레이싱을 실행할 수 있으며, 별도의 동적 셰이더나 셰이더 테이블 없이 RayQuery 객체를 로컬 변수처럼 사용한다. 이는 그림자 계산 같은 단순한 시나리오에서 동적 셰이더 스케줄링 오버헤드를 제거하여 성능을 크게 개선한다.

ExecuteIndirect 지원은 GPU가 CPU 왕복 없이 DispatchRays() 호출 목록을 직접 생성할 수 있게 하여, 셰이더 기반 컬링과 분류 후 즉시 레이트레이싱을 실행하는 적응형 시나리오를 가능하게 만든다. AddToStateObject() 함수는 기존 레이트레이싱 파이프라인에 셰이더를 점진적으로 추가할 수 있게 하는데, 예를 들어 1,000개 셰이더 파이프라인에 1개 셰이더를 추가할 때 새 셰이더만 검증하므로 CPU 오버헤드가 추가되는 셰이더에만 비례한다. 이는 오픈월드 게임의 스트리밍 시나리오에서 필수적이다.

DXR 1.1은 8가지 새로운 정점 포맷을 추가했으며(R16G16B16A16_UNORM, R10G10B10A2_UNORM 등), GeometryIndex() 내장 함수를 통해 셰이더가 하위 레벨 가속 구조 내에서 지오메트리를 구분할 수 있게 한다. 또한 RAY_FLAG_SKIP_TRIANGLES와 RAY_FLAG_SKIP_PROCEDURAL_PRIMITIVES 같은 새로운 레이 플래그가 추가되어 파이프라인 최적화가 가능해졌다. 중요한 점은 기존 DXR 1.0 Tier 1 디바이스가 드라이버 업데이트만으로 DXR 1.1을 지원할 수 있어 새로운 하드웨어가 필요하지 않다는 것이다.

2025년 4월 출시 예정인 DXR 1.2는 Opacity Micromaps(OMM)로 경로 추적 게임에서 최대 2.3배 성능 향상을 제공하며, Shader Execution Reordering(SER)은 복잡한 장면에서 최대 40% 개선(Remedy의 Alan Wake 2 데모 기준)을 보여준다. OMM은 알파 테스트 지오메트리를 최적화하여 삼각형 하위 디테일 수준에서 불투명/투명 영역의 any-hit 셰이더 호출을 제거한다. SER은 셰이더 실행을 지능적으로 그룹화하여 GPU 효율성을 높이고 분기를 줄여 프레임 속도를 높인다.

 

Opacity Micromaps (OMM)

  • 알파 테스트 지오메트리를 최적화하여 path-traced 게임에서 최대 2.3배 성능 향상을 제공하며, 불투명도 데이터를 효율적으로 관리해 셰이더 호출을 줄이고 시각적 품질 손실 없이 렌더링 효율성을 크게 향상

Shader Execution Reordering (SER)

  • 특정 시나리오에서 최대 2배 빠른 렌더링 성능을 제공하며, 셰이더 실행을 지능적으로 그룹화해 GPU 효율성을 높이고 divergence를 줄여 프레임 레이트를 향상
 

Announcing DirectX Raytracing 1.2, PIX, Neural Rendering and more at GDC 2025!  - DirectX Developer Blog

Today in the DirectX State of the Union at GDC 2025, we proudly showcased the next evolution in graphics with the announcement of DirectX Raytracing (DXR) 1.2. This update promises groundbreaking performance improvements and breathtaking visual fidelity, m

devblogs.microsoft.com

 

Variable Rate Shading Tier 2의 실질적 성능 이득

Variable Rate Shading Tier 2는 Tier 1의 드로우 단위 셰이딩 레이트를 넘어 드로우별 + 화면공간 이미지(8×8 또는 16×16 타일 단위) + 프리미티브별 셰이딩 레이트를 지원한다. 화면공간 이미지는 렌더 타겟 해상도가 아닌 매크로블록 해상도로 표현되며, 모션 블러, 피사계 심도, 투명도, HUD로 덮인 영역 등 다양한 품질 영역을 식별할 수 있는 "디테일 레벨 마스크"를 제공한다.

 

실제 성능 데이터에서 Gears 5는 AMD RX 6900 XT에서 4K Ultra 설정으로 Quality 모드에서 8%, Performance 모드에서 12% 성능 향상을 보여줬다. SSGI를 추가한 4K Ultra 환경에서는 Quality 모드 14%, Balanced 모드 15%, Performance 모드 20%의 성능 향상이 측정되었다. 패스별 세부 절약량을 보면 Screen Space Reflections에서 1.27-1.49ms, Screen Space Ambient Occlusion에서 0.94-1.17ms가 절약되어 가장 큰 이득을 보였다.

Firaxis의 Civilization 게임은 Tier 1 구현으로 약 20% FPS 증가를, Tier 2 구현으로 14% FPS 증가를 달성했는데, Tier 2가 더 나은 품질 보존을 제공하면서도 상당한 성능 향상을 보여준다. 3DMark VRS 벤치마크는 40-60%의 성능 향상을 보여주며, 고해상도에서 더 큰 이득을 얻는다. 1080p 이하에서는 수익 체감이 나타나며, 4K에서 가장 효과적이다.

The Coalition의 Gears 5 구현 방법은 최종 장면 컬러 버퍼에서 Sobel 에지 감지를 실행하여 VRS 텍스처를 생성하는데, 지각적 차이 감지를 위해 sRGB 휘도에서 실행된다. 이 프로세스는 프레임 끝에서 실행되어 모션 블러, DOF, 후처리를 포착하며, Xbox Series X|S와 DX12 Ultimate GPU에서 0.1ms 미만의 오버헤드만 발생한다. 최적화 기법으로는 VRS 타일 경계에서 에지 감지를 건너뛰고(8×8의 경우 64→36 픽셀로 감소), 톤매핑 셰이더와 병합하여 대역폭 병목을 피하며, Async Compute Queue에서 실행하여 중첩을 활용한다.

 

Moving Gears to Tier 2 Variable Rate Shading - DirectX Developer Blog

The team at The Coalition haven’t stopped innovating since bringing Tier 1 VRS to Gears Tactics, and have brought Tier 2 VRS support to both Gears 5 and Gears Tactics.  The team saw similarly large perf gains from VRS Tier 2 – up to 14%! – this time

devblogs.microsoft.com

 

Mesh Shaders가 기존 파이프라인을 완전히 재정의한다

Mesh Shaders는 Input Assembler, Vertex Shader, Hull Shader, Domain Shader, Geometry Shader를 완전히 대체하는 혁명적 변화다. 컴퓨트 프로그래밍 모델을 사용하여 스레드 그룹으로 작동하며, 32-200개 정점의 "meshlet"을 병렬로 처리한다. 이상적인 meshlet 크기는 64개 정점과 126개 삼각형이며, 렌더링 중 정점 재사용을 최대화하기 위해 공유 정점을 최대화하도록 사전 계산되어 지오메트리와 함께 저장된다.

핵심 능력은 메시 청크의 병렬 처리(선형 반복 없음), 유연한 입력 데이터 형식과 압축, 정점별 및 프리미티브별 속성 모두 출력, 새로운 인덱스 버퍼를 메모리에 출력하지 않고 사전 컬링, Input Assembler 병목 제거다. Amplification Shader는 선택적 단계로 Mesh Shader 스레드 그룹을 디스패치하며, 테셀레이션 시나리오와 인스턴스별 컬링을 가능하게 한다.

성능 이점은 컬링 장점에서 극적으로 나타난다. Meshlet 레벨에서 절두체 컬링, 정점 처리 전 백페이스 컬링, meshlet별 경계를 사용한 오클루전 컬링, 완전히 GPU에서 LOD 선택이 가능하다. Xbox Series X 개발 데모는 4K에서 meshlet 구 컬링으로 100µs에서 55µs로 45% 감소(45% 개선)를 보여줬다. 3DMark Mesh Shader 테스트는 시나리오에 따라 500-1800%의 성능 향상을 보여주지만 이는 매우 시나리오 의존적이다.

실제 채택에서 Alan Wake 2(Remedy Entertainment, 2023)는 mesh shader를 요구하는 첫 주요 게임이다. Mesh shader 지원 없이 GTX 1080 Ti에서 10 FPS 미만으로 떨어지지만, 적절한 하드웨어 지원을 갖춘 RTX 20/30/40 시리즈에서는 잘 실행된다. Unreal Engine 5 Nanite는 조밀한 마이크로폴리곤 메시에 컴퓨트 셰이더 래스터라이저를, 더 큰 삼각형에는 프리미티브 셰이더(PS5) 또는 버텍스 셰이더를 사용하는 하이브리드 접근 방식을 사용한다.

Sampler Feedback으로 VRAM을 2-3배 효율적으로 활용한다

Sampler Feedback은 텍스처 샘플링 정보와 위치를 기록하는 하드웨어 기능으로, 샘플링 작업 중 어떤 타일이 액세스되었는지를 포착한다. MinMip 형식은 샘플링된 가장 상세한 mip를 저장하며, 스트리밍 시스템의 주요 형식으로 다음에 로드해야 할 mip를 쉽게 나타낸다. MipRegionUsed 형식은 요청된 mip 레벨의 비트필드로 작동하여 어떤 mip 레벨이 정확히 요청되었는지 보여준다.

메모리 절약 데이터에서 마이크로소프트 데모는 부정확한 피드백 근사치로 524,288 KB를 커밋한 반면, 정확한 sampler feedback으로 51,584 KB만 커밋하여 10.2배 메모리 감소(90% 절약)를 달성했다. Intel 샘플 구현은 전체 mip 체인을 가진 3개 텍스처로 66 MB를 사용했지만, Sampler Feedback로 텍스처 데이터의 절반만 로드하여 33 MB를 절약했다. 실질적으로 VRAM에 2-3배 승수로 작동하여, SFS를 사용하는 8GB 카드가 SFS 없이 16-24GB와 동등하며, VRAM 끊김과 팝인을 제거하고 물리적 VRAM을 증가시키지 않고도 더 높은 텍스처 충실도를 가능하게 한다.

성능 메트릭에서 3DMark Sampler Feedback 테스트는 RTX 3090에서 6.3%, RTX 3080에서 VRS 없이 90% 대비 전체 4K 해상도의 98% 유지, RTX 2080 Ti에서 5% 성능 향상을 보여준다. 하드웨어 전반에서 평균 4-10% 성능 향상이 나타난다.

주요 사용 사례는 텍스처 스트리밍(SFS - Sampler Feedback Streaming)으로, 렌더링에 실제로 필요한 텍스처 타일만 로드하여 로딩 시간과 메모리 압력을 줄인다. 고해상도 디스플레이(4K+)에 이상적이며, Tiled Resources(D3D12_TILED_RESOURCES_TIER_2) 및 DirectStorage와 페어링하여 최적 로딩 성능을 제공한다. 두 번째 사용 사례는 Texture-Space Shading(TSS)으로, 화면 공간 래스터화에서 월드 공간의 셰이딩을 분리하여 조명의 시간적 불안정성을 줄인다.

2025년 기준 하드웨어 지원 현황과 제조사별 차이

NVIDIA는 RTX 20 시리즈(Turing 아키텍처)부터 전체 DX12 Ultimate 지원을 제공하며, 전용 RT 코어(1세대)와 Tensor 코어(2세대)를 도입했다. RTX 30 시리즈(Ampere)는 2세대 RT 코어와 3세대 Tensor 코어를, RTX 40 시리즈(Ada Lovelace)는 3세대 RT 코어와 4세대 Tensor 코어를 탑재했다. 2025년 출시된 RTX 50 시리즈(Blackwell)는 4세대 RT 코어, 5세대 Tensor 코어, GDDR7 메모리(RTX 5090에서 최대 32GB)를 지원하며, DLSS 4 Multi Frame Generation, Reflex 2, RTX Neural Shaders 같은 향상된 기능을 제공한다. 중요한 점은 GTX 16 시리즈(RT 코어 없는 Turing)와 이전 GTX 카드는 DX12 Ultimate을 지원하지 않는다.

AMD는 RDNA 2 - RX 6000 시리즈부터 전체 DX12 Ultimate 지원을 제공하며, 하드웨어 가속 레이트레이싱 가속기를 탑재하고 마이크로소프트와 긴밀히 협력하여 DX12 Ultimate을 개발했다. RDNA 2는 Xbox Series X/S 콘솔을 구동한다. RDNA 3 - RX 7000 시리즈는 2세대 레이트레이싱 가속기와 향상된 AI 가속기를 탑재하며, 칩렛 기반 설계(GCD + MCD)와 최대 24GB GDDR6 메모리를 제공한다. 2025년 출시된 RDNA 4 - RX 9000 시리즈(RX 9070, RX 9070 XT)는 3세대 레이트레이싱 가속기(RDNA 3 대비 2배 처리량)와 FP8/INT4 지원 2세대 AI 가속기를 탑재하며, 머신러닝을 사용하는 FSR 4(RDNA 4 독점)를 제공한다. RDNA 1(RX 5000 시리즈)과 이전 GCN 기반 카드는 DX12 Ultimate을 지원하지 않는다.

Intel은 Arc A 시리즈(Alchemist - Xe-HPG 아키텍처)가 전체 DX12 Ultimate 지원(Feature Level 12_2)을 제공하며, 하드웨어 가속 레이트레이싱과 XeSS(Xe Super Sampling) AI 업스케일링, AV1 하드웨어 인코딩을 최초로 제공하는 소비자 GPU다. 중요한 제한사항은 Intel Iris Xe Graphics(11-13세대 Core 프로세서)는 DirectX 12 Feature Level 12_1만 지원하며 DX12 Ultimate을 지원하지 않는다. Mesh shader, 하드웨어 레벨 sampler feedback 같은 DX12 Ultimate 기능이 누락되어 있어 DX12 Ultimate을 요구하는 게임을 실행할 수 없다.

제조사별 구현 차이에서 NVIDIA는 2018년 Turing으로 모든 DX12 Ultimate 기능을 최초로 탑재했으며, DX12 Ultimate 기능 세트가 Turing 아키텍처 설계를 밀접하게 따른다. 독점 개선사항으로 DLSS(RTX 독점 AI 업스케일링), DLSS 4 Multi Frame Generation(RTX 50 시리즈 독점), RTX Neural Shaders(Blackwell), 우수한 레이트레이싱 성능을 위한 고급 RT 코어 아키텍처, 첫날부터 성숙한 드라이버 최적화를 제공한다.

AMD는 오픈 표준에 초점을 맞추어 독점 기술보다 DirectX 표준 기능을 우선시하며, 마이크로소프트와 긴밀히 협력하여 DX12 Ultimate 설계에 참여했다. 콘솔 통합으로 RDNA 2가 Xbox Series X/S를 구동하여 DX12 Ultimate의 광범위한 채택을 보장한다. 독점 개선사항으로 오픈소스 크로스 벤더 호환 업스케일링인 FidelityFX Super Resolution(FSR), ML 가속을 사용하는 FSR 4(RDNA 4 독점), AMD HYPR-RX 기술 제품군, 강력한 비동기 컴퓨트 구현을 제공한다. 구현 철학은 GPU 친화적 레이트레이싱을 위한 DXR 1.1에 중점을 둔다.

Intel은 신규 진입자 이점으로 Arc GPU가 DX12 Ultimate과 현대 API를 위해 처음부터 구축되었으며, 기본 DX12/DX11 지원과 번역 레이어를 통한 DX9 지원(초기에는 열악했지만 드라이버로 크게 개선됨)을 제공한다. 독점 개선사항으로 매트릭스 엔진을 사용하는 XeSS AI 업스케일링, 최초로 시장에 출시된 하드웨어 AV1 인코딩, CPU+GPU 협업을 위한 Deep Link 기술을 제공한다. 드라이버 성숙도는 출시 이후 크게 개선되었지만 여전히 AMD/NVIDIA를 따라잡고 있다.

실제 게임에서 나타난 DX12 Ultimate의 적용과 성능

Alan Wake 2(2023년 10월, Remedy Entertainment)는 mesh shader를 요구하는 첫 주요 게임이다. DXR 1.1(경로 추적), DLSS 3.5 Ray Reconstruction을 사용한다. 전체 지오메트리 렌더링 파이프라인이 mesh shader를 위해 재작성되었으며, 하드웨어 요구사항은 RDNA 2+(AMD) 또는 Turing+(NVIDIA)이다. 성능 측면에서 RTX 2060 Super는 1080p Medium에서 45-60 FPS를 달성하지만, mesh shader 지원 없는 GTX 1080 Ti는 1080p 최저 설정에서 10 FPS 미만으로 떨어진다.

 

Cyberpunk 2077 + Phantom Liberty는 가장 포괄적인 레이트레이싱 구현을 보여주며, 레이트레이싱 그림자, 반사, 주변 차폐, 방출 조명, 전역 조명을 모두 지원한다. Path Tracing 모드(Overdrive)는 완전히 레이트레이싱된 렌더링을 제공한다. 성능 분석에서 RTX 4090 네이티브 4K에서 RT 없이 67-77 FPS, RT Psycho로 47 FPS, Path Tracing으로 3.1 FPS 네이티브(DLSS 3 + Frame Gen으로 57 FPS)를 기록했다. RTX 3070은 1440p RT Ultra에서 DLSS Quality를 사용하여 39 FPS에서 71 FPS로 82% 향상을 보여준다.

Gears Tactics(2020년 4월, The Coalition)는 VRS를 탑재한 첫 PC 게임이다. 토글 가능한 VRS와 조정 가능한 레벨을 제공한다. RTX 2080 Ti, 4K 최고 설정에서 기준선 47 FPS, VRS 표준 53 FPS(13% 증가), VRS 최대 57 FPS(21% 증가)를 기록했다. 시각적 영향은 표준 설정에서 최소에서 인지 불가능한 품질 손실이며, 최대 VRS에서만 이미지 저하가 보인다.

 

Metro Exodus Enhanced Edition(2021)은 레이트레이싱 전역 조명(RTGI)을 전체적으로 사용한다. RT 전용 타이틀로, 전통적인 래스터화 조명 폴백이 없다. Digital Foundry는 "레이트레이싱이 일부 단순히 장관을 이루는 '차세대 수준' 순간을 제공한다"고 평가했다. RTGI는 선택적으로 레이트레이싱된 반사보다 더 요구사항이 높으며, 픽셀당 광선이 선택적이 아닌 캐스팅된다.

 

성능 경향에서 DirectX Raytracing의 최소 요구사항은 RTX 2060 / RX 6600 XT이며, 60 FPS 1440p 권장은 RTX 3070 / RX 6800 XT, 4K RT 최적은 RTX 4080 / RTX 4090이다. 레이트레이싱을 활성화할 때 구현에 따라 15-70% 성능 손실을 예상해야 하며, DLSS/FSR 업스케일링은 고해상도에서 플레이 가능한 레이트레이싱 경험을 위해 필수적이다.

개발자가 직면하는 복잡도와 도구 환경

DX12 Ultimate로의 마이그레이션은 시스템적으로 Windows 10 Version 2004(2020년 5월 업데이트) 최소, Visual Studio 2019/2022, Windows 10 SDK(19041+), 호환 GPU 하드웨어, 업데이트된 그래픽 드라이버를 요구한다. 핵심 고려사항은 DX12 Ultimate 기능이 선택적 향상이라는 점이다. 이러한 기능을 사용하는 게임은 여전히 비-DX12 Ultimate 하드웨어에서 실행되지만 시각적 혜택 없이 실행되어, 이 후방 호환성이 마이그레이션 압력을 줄이지만 채택 인센티브도 줄인다.

구현 난이도는 전체적으로 높음(HIGH)으로 평가된다. GameDev.net의 개발자 의견에서 "DX12는 DX11보다 어렵습니다. DX11은 DX10보다 어렵습니다... DX12가 DX11보다 어렵다고 말하는 것은 LA에서 뉴욕으로 걷는 것이 LA에서 보스턴으로 걷는 것보다 어렵다고 말하는 것과 같습니다"라고 표현된다. 또한 "DirectX 12는 현대 그래픽 애플리케이션을 작성하는 데 사용해야 하는 것이 아닙니다. 미리 알고 실제 이득을 얻을 것을 알 때 사용하는 것입니다"라는 조언이 있다.

기능별 복잡도에서 DirectX Raytracing(DXR 1.1)은 매우 높다. 가속 구조, 광선 생성/closest-hit/any-hit/miss 셰이더에 대한 이해가 필요하며 가파른 학습 곡선을 가진다. 일반적인 문제는 일관성을 위한 셰이더 실행 재정렬 관리, 페이로드 최적화(성능을 위해 최소로 유지해야 함), TraceRay vs TraceRayInline 접근 방식 이해, 분기 셰이더 실행 및 데이터 액세스 패턴이다.

Mesh Shaders 의 높은 복잡도. 컴퓨트 셰이더 배경이 도움이 되는 중간-높음 학습 곡선을 가진다. 일반적인 문제는 meshlet 분할 전략(32-200 정점 최적), 전통적인 정점/지오메트리 파이프라인 사고방식에서 전환, 스레드 그룹 관리 및 groupshared 메모리 사용, meshlet 데이터의 사전 계산 및 저장이다. Variable Rate Shading(VRS)은 중간으로 가장 쉬운 DX12 Ultimate 기능으로, "개발자가 구현하기에 상대적으로 비용이 낮음"이라고 평가된다. Sampler Feedback의 높은 복잡도. 정교한 텍스처 스트리밍 아키텍처가 필요한 높은 학습 곡선을 가진다.

일반적인 DX12 문제는 수동, 명시적 리소스 상태 전환이 필요한 메모리 관리, 복잡한 CPU-GPU 동기화 프리미티브, 신중한 오케스트레이션이 필요한 멀티스레드 명령 목록 구축, "중복되거나 지나치게 보수적인 배리어 플래그"가 DX11→DX12 포트에서 주요 성능 문제가 되는 배리어 관리, "모든 구조체가 다른 구조체로 구성된 것처럼 느껴지는" 혼란스러운 초기화를 가진 Pipeline State Objects(PSO), 명령 목록과 PSO에서 두 번 설정해야 하는 Root Signatures, GPU 충돌/중단 같은 저수준 오류가 문제 해결하기 어려운 디버깅이다.

학습 곡선 타임라인은 최소 전제조건으로 C++ 기초, 그래픽 프로그래밍 기초가 필요하며, DX11 또는 유사한 API 경험이 권장되고, Vulkan 경험(매우 유사한 아키텍처)이 강력히 권장된다. 시간 투자는 "전체를 이해하는 데 몇 개월"이 소요된다.

개발 도구로 Microsoft PIX가 주요 DX12 디버깅 도구로, GPU 캡처 및 프레임 분석, 셰이더 디버깅(PIX 2003.26부터 DXIL 지원), CPU/GPU 상관관계가 있는 타임라인 시각화, DX12 Ultimate 기능 지원(DXR 1.1, Mesh Shaders, VRS, Sampler Feedback), 하드웨어 카운터 플러그인(NVIDIA, AMD)을 제공한다. RenderDoc은 크로스 API 지원(DX11, DX12, Vulkan, OpenGL), 오픈 소스 및 무료, "경량 및 빠름", 프레임 캡처 및 검사에 탁월, 강력한 커뮤니티 지원을 제공하며, 개발자는 "RenderDoc은 PC에서 렌더링 및 컴퓨트 문제를 추적하는 우리의 #1 도구"라고 평가한다.

공식 Microsoft 문서는 포괄적인 API 참조, DirectX Specs 저장소, 각 DX12 Ultimate 기능에 대한 기능 사양, 시작 가이드라는 강점이 있지만, "DirectX 문서는 읽기 어렵고 어려웠습니다(매우 인간 친화적이지 않음 - 약어에서 길을 잃습니다)"라는 약점이 있다. 샘플 코드 가용성은 우수한 커버리지로, DirectX-Graphics-Samples(증분 학습을 위한 Hello World 샘플, VRS, DXR 1.0, Mesh Shader 예제, 정기적으로 업데이트됨), 전체 참조 구현인 MiniEngine, Xbox ATG 샘플, 헬퍼 클래스 및 유틸리티를 제공하는 DirectXTK12를 제공한다.

업계 채택 장벽은 주요 장애물로 개발 비용 대 이익(상당한 엔지니어링 투자 필요, 많은 프로젝트에서 미미한 성능 향상이 비용을 정당화하지 못함), 문서 및 학습 리소스 부족(API의 새로움과 그에 따른 문서 부족, 기존 팀에게 가파른 학습 곡선, 제한된 "모범 사례" 지침), DX11 코드 경로 유지 필요(DX11을 지원하면서 DX12를 완전히 최적화할 수 없음, 이중 유지 관리 부담, 코드 중복), 하드웨어 분열(모든 DX12 하드웨어가 Ultimate 기능을 지원하지 않아 폴백 렌더링 경로 유지 필요), "DX12 tax"(열악한 구현이 DX11보다 성능이 나쁠 수 있으며, API 선택보다 개발자 기술이 더 중요)이다.

DirectX의 미래와 신경망 렌더링으로의 전환

가장 중요한 발견은 "DirectX 13"이 없다는 것이다. 마이크로소프트는 전통적인 버전 번호 매기기 접근 방식을 포기했으며, DirectX 12 Ultimate은 Agility SDK를 통한 지속적인 업데이트로 개선되어, OS 업데이트를 기다리지 않고 새로운 기능이 개발자에게 도달할 수 있다. 2025년 4월 출시 예정인 주요 향후 기능으로 DirectX Raytracing 1.2(DXR 1.2)는 복잡한 장면에서 최대 40% 개선을 보여주며, Opacity Micromaps(OMM)는 경로 추적 게임에서 2.3배 성능 향상을, Shader Execution Reordering(SER)은 최대 2배 빠른 렌더링을 제공한다.

 

  • Cooperative Vectors / Neural Rendering(2025년 4월 프리뷰)은 혁명적 전환으로, AI/ML 추론을 셰이더 내에서 직접 실행 가능하게 하여 마이크로소프트가 "3D 그래픽 프로그래밍의 새로운 패러다임"이라고 설명하는 기능이다. 기술적 능력은 작은 신경망이 전체 GPU 리소스를 소비하지 않고 픽셀 셰이더에서 실행될 수 있으며, NVIDIA RTX GPU의 Tensor Core에 직접 액세스하고 AMD, Intel, Qualcomm의 크로스 벤더 지원을 제공한다. 사용 사례는 신경망 텍스처 압축(Intel당 10배 속도 향상), 재질 셰이딩, 조명 최적화, 실시간 디노이징을 포함한다. 마이크로소프트의 인용문: "DirectX는 우리 모두가 신경망 렌더링의 미래를 구축하는 데 도움을 줄 것이다."
  • DirectSR(Super Resolution API, GDC 2024 발표)는 NVIDIA DLSS, AMD FSR, Intel XeSS를 단일 API로 통합하여 공통 코드 경로를 통한 멀티 벤더 업스케일링을 가능하게 하며, Xbox 콘솔에 업스케일링 기술을 마침내 가져올 수 있다. Work Graphs(2024/2025 프로덕션 준비)는 GPU가 자체 작업 스케줄링을 자율적으로 관리하며 Shader Model 6.8로 구동되는 GPU 병렬화에 대한 혁명적 접근 방식이다.

산업 트렌드에서 PC/콘솔 통합 효과는 중요하다. Xbox Series X가 DX12 Ultimate과 함께 출시되어 콘솔 출시 시 "수백만 대의 DX12 Ultimate PC 그래픽 카드"를 생성했다. 개발자 이점은 두 플랫폼 모두를 위한 단일 개발 타겟으로, "내 프로그래머가 DX12 Ultimate을 알고 있으면 PC 또는 콘솔 중 하나를 코딩할 수 있다"(KeokeN Interactive CEO)는 것이다. 결과는 이전 DirectX 세대보다 훨씬 빠른 기능 채택이다.

레이트레이싱 확산은 DX12 Ultimate 발표(2020) 시 30개 이상의 DirectX Ray Tracing 게임에서 이제 100개 이상의 게임이 DLSS 4를 지원하며(DLSS 3보다 2년 빠르게 마일스톤 도달) 산업 합의로 콘솔 통합으로 레이트레이싱 채택이 "급증할 것으로 예상"된다. Mesh Shaders 각성은 2018년 NVIDIA가 지원했지만 DX12 Ultimate 표준화 전까지 활용도가 낮았으며, 실시간으로 수백만/수십억 폴리곤의 영화 품질 자산 렌더링을 가능하게 하여 차세대에 중요하며 지오메트리 파이프라인의 완전한 재구성을 허용한다.

경쟁 환경에서 DirectX 12는 Windows/Xbox 독점이지만 PC 게임 시장을 지배하며, 25년 이상의 DirectX 유산, 안정적인 도구, 광범위한 문서, 주요 게임 엔진(Unreal, Unity)과의 깊은 통합이라는 강점이 있다. Vulkan은 Windows, Linux, macOS(MoltenVK를 통해), Android, Switch를 지원하는 크로스 플랫폼 강점과, Red Dead Redemption 2에서 1080p에서 9% 높은 평균 FPS, World War Z에서 DX12 대비 21% FPS 증가 같은 벤치마크에서 종종 DX12를 능가하는 성능, Khronos Group 표준 오픈 소스로 플랫폼 종속 없음, Steam Deck, 클라우드 게임 플랫폼(Stadia), 콘솔 지원(Switch, PS5가 Vulkan 개념 사용)으로 "증기를 얻고 있는" 시장 모멘텀을 가지고 있다. 전문가 의견: "Vulkan 1.3으로... PC 게이머가 DirectX를 버릴 때가 마침내 왔을 수 있다"(Digital Trends).

2024-2025 경쟁 환경의 핵심 발견은 API가 하나가 지배하기보다 수렴하고 있다는 것이다. "DirectX, Vulkan, Metal이 유사한 저수준 접근 방식을 가진 주요 경쟁자"이며, Vulkan 1.3(2022)이 분열된 기능 기반을 통합하여 개발을 더 쉽게 만들었다. 비평적 인용: "멀티 플랫폼 개발의 경우 Vulkan을 무시하기 어렵다".

It Fix - Your Trusted Computer Repair Experts

전문가 예측으로 Windows 우선 게임의 경우 DirectX 12가 "안전하고 안정적인 선택"(2024 분석)이지만, 멀티 플랫폼의 경우 Vulkan의 크로스 플랫폼 기능이 "요구가 많은 AAA 타이틀에서 성능 이점"을 제공한다. 추세는 더 많은 게임이 DX12와 Vulkan 옵션을 모두 제공하여 플레이어가 선택할 수 있게 하는 것이다.

차세대 게임에서 콘솔 영향으로 Xbox Series X는 DirectX 12 Ultimate 지원과 함께 출시된 첫 콘솔이며, 네 가지 기둥 모두 지원(DXR 1.1, VRS, Mesh Shaders, Sampler Feedback)으로 PC와 콘솔 간 "전례 없는 정렬"을 생성한다. 산업 영향은 "PC와 Xbox Series X에서 차세대 그래픽을 잠금 해제하는 단일 키"라는 개발자 효율성과, "Xbox Series X가 출시될 때 동일한 기능 세트를 가진 수백만 대의 DX12 Ultimate PC 그래픽 카드가 이미 세계에 있어 빠른 채택을 촉진할 것"이라는 시장 역학, PC와 콘솔 사이클이 이제 독립적으로 작동하는 대신 "상승적으로 결합"되는 시너지 효과다.

클라우드 게임 혁명에서 DirectSR의 클라우드 게임 영향은 마이크로소프트가 디바이스 전반에 걸쳐 확장을 위해 DirectSR을 통합하고 있으며, 잠재적인 Xbox Cloud Gaming 개선이 예정되어 있고, 주요 움직임으로 마이크로소프트 Xbox.com이 이제 Xbox Cloud Gaming과 함께 Nvidia GeForce NOW를 지원(2024년 7월)한다. 클라우드 게임 시장 성장은 GPU 클라우드 렌더링 서비스 시장이 57억 달러(2024) → 907억 달러(2034)로 32% CAGR로 성장하며, DirectX 최적화가 클라우드 스트리밍에 중요하다.

전문가 예측에서 AI/ML 그래픽 혁명에 대한 합의 관점은 신경망 렌더링이 기능이 아니라 패러다임 전환이라는 것이다. 마이크로소프트의 비전(DirectX 팀)은 "신경망 렌더링 기술은 중요한 진화를 나타낸다", "게임 비주얼과 영화의 최첨단 CGI 간의 격차를 메운다", cooperative vectors가 "신경망 셰이딩으로 Tensor Core의 힘을 잠금 해제할 것"이다. NVIDIA의 관점: "신경망 셰이딩은 그래픽 프로그래밍의 혁명을 나타낸다", "25년 전 NVIDIA는 GeForce와 프로그래머블 셰이더를 도입했다... 새로운 GeForce RTX 50 시리즈 GPU와 함께 NVIDIA는 RTX Neural Shaders를 도입한다", 예측: 신경망 셰이더는 2002년 픽셀 셰이더만큼 기본이 될 것이다.

장기 트렌드(2025-2030)는 신경망 렌더링이 표준이 되고(2025-2027, Intel이 cooperative vectors로 텍스처 압축에서 10배 속도 향상 시연, NVIDIA가 RTX Mega Geometry로 최대 100배 더 렌더링 가능한 삼각형 달성), API 수렴이 계속되며("DirectX 12, Vulkan, Metal, WebGPU 같은 저수준 그래픽 API는 GPU가 현재 구축되는 방식과 유사한 모델로 수렴"), 성능 승수(DLSS 4가 "최대 8배" 프레임 속도 승수 달성, DXR 1.2가 특정 시나리오에서 2-10배 개선 제공, 합의: AI를 통한 소프트웨어 최적화가 원시 하드웨어 개선을 초과할 것)가 나타난다.

결론: 점진적 채택 속에서 열리는 신경망 그래픽스 시대

DirectX 12 Ultimate은 프로그래머블 셰이더 이후 가장 중요한 그래픽 API 발전을 나타내며, 2025년 4월 출시 예정인 신경망 렌더링은 1990년대 후반 고정 함수 파이프라인에서 프로그래머블 셰이더로의 전환에 필적하는 패러다임 전환을 예고한다. 레이트레이싱은 상당한 성능 비용에도 불구하고 변혁적 시각적 결과로 주류 채택을 달성했으며, Variable Rate Shading은 최소한의 구현 복잡성으로 입증된 성능 이득을 제공하고, Mesh Shaders는 느린 시작 후 지오메트리 처리의 미래로 부상하고 있다.

핵심 전략적 함의는 마이크로소프트가 전통적인 주요 버전 번호 매기기를 포기하고 Agility SDK를 통한 반복적 개선에 전념했다는 것이다. PC와 콘솔의 통합은 성공적이며, Xbox Series X + DX12 Ultimate 전략이 전체 게임 생태계에서 기능 채택을 가속화했다. Vulkan이 성장하고 있지만 DirectX가 지배적이며, 경쟁 환경은 승자 독식보다 게임에서 멀티 API 지원으로 전환하고 있다.

개발자 관점에서 DX12 Ultimate은 강력한 기능을 제공하지만 상당한 개발자 투자가 필요하며, 복잡성 장벽과 학습 곡선은 광범위한 채택에 대한 실질적인 장애물로 남아 있다. AAA 타이틀의 경우 DX12 Ultimate이 새로운 표준이 되고 있지만, 소규모/중간 규모 개발자의 경우 DX11 또는 엔진 추상화가 더 실용적인 선택으로 남아 있다. 도구는 개선되고 있지만 여전히 성숙 중이며, PIX와 RenderDoc 같은 도구가 필수적이다.

2025-2030 타임라인에서 2025년 2분기에 DXR 1.2, Cooperative Vectors, DirectSR 프리뷰가 출시되고, 2025-2026년에 AAA 타이틀에서 신경망 렌더링 채택이 시작되며, 2026-2027년에 신경망 셰이더가 게임 엔진의 표준 기능이 되고, 2028년 이후 DirectX 신경망 렌더링을 통해 AI 생성 그래픽 콘텐츠가 주류가 될 것으로 예상된다. 미래는 단순히 더 빠른 렌더링이 아니라 AI와 그래픽스의 근본적인 융합이며, DirectX는 이 변환의 최전선에 있다.