loading

PC.Div.Soft/News

AMD, 차세대 GPU 'Radeon RX Vega64' 정식 발표

나에+ 2017. 7. 31. 22:11
반응형

■ 출처

http://pc.watch.impress.co.jp/docs/column/kaigai/1073276.html



  l  AMD, 새 GPU 정식 발표


AMD가 새로운 GPU를 정식으로 발표했습니다. AMD의 여름 대 공세가 시작되었습니다. 8월에 새로운 GPU인 'Radeon RX Vega64(Vega10:베가10)' 및 16코어 CPU 'Ryzen Threadripper'를 투입합니다. 올해(2017년) AMD의 신제품이 중요한 이유는 모두 구조의 변화가 크기 때문인데요, Zen 아키텍쳐 CPU는 마이크로 아키텍쳐를 일신했지만, 이번 Vega에서도 GPU에 일신이 가해졌습니다. AMD에 있어 5년만의 큰 GPU 마이크로 아키텍쳐 변화입니다.


△ 마이크로 아키텍쳐를 쇄신한 Vega


△ Radeon RX Vega64로서 제품화되는 Vega 10


△ Radeon RX Vega64의 스펙


GPU 제품으로 보면 Radeon RX Vega64는 AMD에게 있어 2년만의 플래그십모델입니다. AMD는 작년(2016년)에 하이엔드 GPU를 발표하지 않았기에 하이엔드 GPU는 Polaris(폴라리스) 세대를 생략하고 Vega가 됩니다. Vega 제품군에서 등장할 제품은, 이번에 발표된 최상위 Vega 10입니다.


Vega 10 아키텍쳐의 가장 큰 포인트는 NVIDIA처럼 거대 다이(반도체 본체)로 가는 길을 걷지 않고, 이번 세대에서 GPU의 다이사이즈를 억제한 점입니다. 다이사이즈는 486평방mm로, NVIDIA의 Volta(볼타)세대 'GV100'의 815평방mm 에 약 60%정도 밖에 되지 않습니다. AMD 독자의 2015년 플래그십 GPU인 'Radeon R9 Fury X(Fiji:피지)'의 596평방mm의 82정도. 트랜지스터 수는 12.5B(Billion:125억)이지만, 이것도 NVIDIA와 비교하면 적은 숫자입니다. 스택드 메모리 HBM도 2스텍으로 NVIDIA의 4스택과 비교해 적습니다.


△ Vega10의 특징


마이크로 아키텍쳐에서, NVIDIA는 현세대에서 심층 학습(딥러닝)을 향해 크게 휘둘렀는데요, 심층 학습용과 그래픽용으로 완전히 분화하는 길을 고른 것으로 보입니다. 이에 반해 AMD는 심층 학습을 위한 기능을 추가하면서도, 거기에 사용하는 트랜지스터를 억제했습니다. 결과적으로 Vega10은 높은 그래픽 성능을 제공하는 것에 비해 제조 비용이 낮은 = 가격을 낮추는 밸런스가 좋은 GPU가 되었습니다.


△ Vega 10


△ 앞쪽이 Fiji, 안쪽이 Vega10



  l  코어 수는 동일하지만 성능은 47% 향상


Vega10의 CU(Compute Unit) 수는 64개로, 단정도 FP32 적화산 유닛(AMD용어로는 Stream Processor)수는 4,096개입니다. 이는 2015년 'Radeon R9 Fury X(fiji:피지)'와 같은 숫자입니다. 하지만, FP32의 성능은 Radeon R9 Fury X가 8.6TFLOPS임에 비해, Radeon RX Vega64에서는 12.66TFLOPS로 47%나 성능이 향상되었습니다.


△ Vega 10의 전체 구성


주된 성능향상은, 칩의 동작 클럭의 향상으로 이루어져 있는데요, Fury X에서 1,050MHz로 동작했었는데, Radeon RX Vega64에서는 베이스 클럭 1,247MHz, 부스트 클럭 1,546MHz가 되었습니다. 동작 클럭 상승이, 그대로 성능 향상으로 이어졌습니다.


Vega 아키텍쳐는 기존 GCN과 비교해 기본 파이프라인 단수에 변경은 없습니다. 벡터 유닛의 적화산 파이프는 4사이클 레이턴시 그대로지만, 크리티컬 패스에 대해서는 철저한 튜닝이 이루어졌다고 합니다.


로직 회로는 패스에 의해 딜레이가 달라지는데요, 딜레이가 특히 긴 패스군을 크리티컬 패스라고 합니다. 동기형 프로세서의 동작 클럭은 가장 딜레이가 긴 경로에 의해 제약받게 됩니다. 그렇기에 크리티컬패스를 튜닝해 딜레이를 줄이면, 동작 클럭의 향상이 가능해집니다. Vega10에서는 크리티컬 패스 튜닝과, 14nm LPP프로세스덕에 1.7GHz 이상의 클럭이 가능해졌다고 합니다.


△ Vega에선 회로 설계를 통해 고클럭화를 실현


△ CPU 스타일의 커스텀 회로 설계된 SRAM을 레지스터로 채택


파이프라인 자체를 변경하지 않은 건, 파이프라인을 깊게해 적화산의 레이턴시를 길게하면 파이프라인을 충족시키기 위해 많은 스레드가 필요해져버리는 걸 피하기 위해서라고 추측됩니다. 스레드 병렬성을 유지하기 위해서는 레지스터와 같은 보다 많은 리소스가 필요하게 되는데요, 그에 비해 크리티컬 패스 튜닝에서는 원리적으론 아키텍쳐 변경이 필요 없습니다.



  l  GPU 코어의 마이크로 아키텍쳐를 쇄신


Vega세대에서는 CU(Compute Unit)의 마이크로 아키텍쳐가 크게 개편되었습니다. 새로이 설계된 차세대 CU'NCU(Next-Generation Compute Unit)'가 되었는데요, NCU의 가장 큰 특징은 'Rapid Packed Math(RPM)'이라고 하는 팩드-packed-(SIMD) 포맷의FP16 반정밀도 부동 소수점 연산을 지원한다는 것입니다.


△ 팩드(packed) FP16을 지원하는 Vega



△ 네이트 명령 세트도 확장


AMD GPU는 단정밀도 FP32(32bit부동 소수점) 연산에 최적화된 파이프 라인을 갖추고 있는데요, 하지만 Vega에서는 32bit 파이프로 16bit 부동 소수점 연산을 2병렬인 SIMD(Single Instruction, Multiple Data)포맷으로 행하는 것으로, FP16일 때 FP32의 2배의 성능을 낼 수 있습니다.


FP16은 모바일 그래픽스 등에 쓰이고 있고, 그 외 기계 학습에도 급속히 침투하고 있습니다. 기계 학습의 교육 페이즈에서 데이터 정밀도를 낮춘 FP16을 이용용하는 것이 진행되고 있기 때문이지요. Vega에서 FP16은 적화산과 같은 통상적인 일반 연산 전부를 지원(서포트)하고 있습니다.


△ 팩드(packed) 8bit 정수 연산


Vega 아키텍쳐에선 팩드 8bit 정수 연산도 지원됩니다. 하지만, 8bit 정수 연산은 SAD(Sum of Absolute Difference:절대오차합) 연산만 지원되고 있습니다. 동영상 등의 이미지 처리용이며, 기계 학습을 위해 구현된 것이 아닙니다. 이 외에도 Vega 아키텍처는 지오메트리 파이프 라인의 쇄신이나 새로운 캐시 회로 설계, FreeSync 확장 등, 다수의 아키텍쳐 확장이 더해지고 있습니다. 이후 기사에서 쓰고 싶네요.


△ Radeon RX Vega64의 주변


△ Vega에서 추가된 새로운 지오메트리 부분의 쉐이더




  l  방대한 메모리 공간을 GPU가 사용할 수 있게 하는 HBCC


Vega 10은 스택드 DRAM인 'HBM2'을 지원합니다. AMD는 Radeon R9 Fury(Fiji)에서 HBM1을 지원했는데요, 이번엔 규격상의 데이터 전송률이 2배가 된 HBM2를 탑재하고 있습니다. Fiji에선 데이터 전송 속도가 1Gtps인 HBM을 4스택 탑재했었고, 메모리 인터페이스는 4,096bit, 메모리 대역폭은 512GB/s였죠. 


이번에 AMD는 Vega10에 2,048bit HBM2 인터페이스를 구현했습니다. HVM2 메모리 스택은 2개로 FIji의 절반이 되었지만, HBM2 자체의 데이터 전송 속도가 향상되어 메모리 대역폭은 484GB/s를 달성했습니다. 또한, HBM1에서는 DRAM 다이의 용량이 2Gbit였지만, HBM2에서는 8Gbit가 되어 2스택으로도 8GB 용량이 됩니다.


△ Vega의 중요한 특징인 HBCC(High-Bandwidth Cache Controller)


이뿐만 아니라 Vega에서는 'HBCC(High-Bandwidth Cache Controller)'라고 하는 새로운 유닛을 탑재했습니다. HBCC는 GPU 측의 메모리만이 아니라, CPU측의 시스템 메모리와 스토리지, GPU에 탑재한 플래시 스토리지 등을 매끄럽게(심리스) GPU 메모리로서 다룰수 있게 하는 가상 메모리 시스템입니다. Vega 아키텍처는 GPU 시스템 메모리의 일부나 스토리지를 HBCC의 메모리 공간으로서 다룰 수 있습니다.


그리고, 온 패키지되어 있는 HBM2을 마치 캐치 메모리처럼 사용합니다. 포괄적인(인클루시브) 캐시 모델을 취할 경우, HBM2이 새로운 캐시 계층처럼 작동하고, 배타적인(익스클루시브) 캐시 모델인 경우에는 HBM2와 GPU 외부의 메모리가 이어져 있는(地続き) 메모리로 매핑됩니다. 기본적인 아이디어는 액세스 빈도가 낮은 데이터는 먼 메모리에, 빈도가 높은 데이터는 가까운 HBM2에 두어, 무리 없이 대규모 워크 세트를 취급할 수 있도록 하는 것에 있습니다.


△ GPU 성능과 메모리 용량의 차이


△ 페이지 기반의 HBCC 메모리 관리


캐시라고 해도 HBCC의 제어 입도(粒度)는 페이지 기반입니다. Vega에선 서로 다른 복수의 페이지 크기를 동시에 처리할 수 있도록 했습니다. 그래픽스에서 주로 사용되는 순차(시퀀셜)적인 액세스가 생기는 그런 데이터 타입은 대형 페이지에 넣어두고, 분산된 액세스가 발생하는 데이터는 작은(스몰) 페이지에 넣어둡니다. Vega10에서는 512TB까지의 가상 주소 공간(버쳘 어드레스 스페이스)를 지원합니다.


△ 익스클루시브 캐시 모드일 때


△ 인클루시브 캐시 모드일 때



  l  Radeon RX Vega64의 제품 라인업


제품으로서 Radon RX Vega에는 여러 SKU(Stock Keeping Unit:아이템)과 팩이 있습니다. 그래픽스 카드에는 풀 스펙의 'Radeon RX Vega64'가 $499로 발매되며, Radeon RX Vega64는 64개의 NCU가 활성화되어 있고, 이게 제품 그레이드 넘버 '64'의 유래가 되는 것 같습니다.


Radeon RX Vega64에는 64개의 NCU로 FP32적화산유닛은 총 4,096개입니다. 동작 클럭은 부스트 1,546MHz, 피크 성능은 FP32에서 12.66TFLOPS, FP16에서 25.3TFLOPS입니다. Radeon RX Vega64에는 카드 디자인이 다른 리미티드 에디션도 있는데요, 이는 후술하는 팩으로만 입수할 수 있습니다.


△ Radeon RX Vega64 리미티드 에디션


△Radeon RX Vega64 라인업


△ Radeon RX Vega 라인업의 스펙


△수랭 버전 Radeon RX Vega 64


Radeon RX Vega64에서는 수랭 버전 'Radeon RX Vega64 Liquid Cooled Edition'이 있는데요, 냉각 능력을 향상시켜 동작 클럭을 부스트시킨 버전입니다. 베이스 클럭 1,406MHz, 부스트 클럭 1,677MHz로 피크 성능은 FP32에서 13.7 TFLOPS, FP16이라면 27.5TFLOPS에 달하는 성능을 보입니다.


Radeon RX Vega 제품군은 또한, 저렴한 Radeon RX Vega56도 $399로 발매됩니다. 이 제품은 56NCU로 3,584FP32유닛, 피크 성능은 10.5TFLOPS, 동작 클럭은 Radeon RX Vega64보다 조금 줄어든 기본 1,156/부스트 1,471MHz입니다. TDP(Thermal Design Power:열설계전력)으로 보면 Radeon RX Vega56이 210W, Radeon RX Vega64가 295W, Radeon Radeon RX Vega64 Liquid Cooled가 345W입니다.


△ 통산판 Radeon RX Vega64


△ Radeon RX Vega56



  l  가성비 좋은(お買い得な)Radeon Pack


AMD는 Radeon RX Vega64 발매에서, 그래픽 카드 이외의 할인을 더한 제품인 'Radeon Pack'도 준비했습니다. 이 제품은 Radeon RX Vega카드와 더불어 디스플레이나 CPU, 머더보드의 할인, 게임 패키지를 세트로한 패키지입니다.


팩에는 곡면(湾曲) 34인치 'Samsung CF791' FreeSync 디스플레이 200 달러 할인, Ryzen 7과 X370 머더보드 100달러 할인, 거기에 120 달러 상당의 게임 패키지(지역에 따라 다름)이 포함되어 있습니다. Radeon RX Vega 이외에 Ryzen 7플랫폼과 FreeSync 모니터도 갖춰야겠다는 유저에겐 딱 좋은 조합입니다. Radeon Pack 역시 8월에 발매됩니다.


팩은 3가지로 준비되며, 최상위 'Radeon Aqua Pack'엔 수랭 Radeon RX Vega64이 들은 팩으로 $699, 일반 공랭 버전 Radeon RX Vega64 기반의 팩은 'Radeon Blask Pack'으로 $599부터, Blask Pack에 든 Radeon RX Vega64에는 리미티드 에디션 버전이 포함되어 있습니다.


이 외에 Radeon RX Vega56기반의 'Radeon Red Pack'도 $499로 발매됩니다. 다시 말하면, 팩에서는 카드 제품과 100달러 차이로, 300달러치의 하드웨어 할인과, 120달러치의 게임을 구입할 수 있습니다.


△ Radeon Pack 개요


△ 3종류의 Radeon Pack


△ Radeon RX 라인업



  l  Vega기반 Radeon Pro와 Radeon Instinct


AMD는 Vega기반의 전문가용 GPU 'Radeon Pro'도 발매합니다. Vega 10 기반의 Radeon Pro는 2종류로, 통상판인 'Radeon Pro WX9100'과, 플래시 스토리지를 온보드로 탑재한 'Radeon Pro SSG'입니다. 이 Radeon Pro SSG가, 어떤 의미로는 진정한 Vega10이 됩니다.


Radeon Pro WX9100은 12.3TFLOPS로, Radeon RX Vega64보다 약간 동작 클럭이 제한되어 있는 것처럼 보입니다. Radeon RX 스펙과의 큰 차이는 바로 비디오 메모리 탑재 용량인데요, Radeon RX Vega가 HBM2 8GB인데 비해, Radeon Pro WX9100은 16GB입니다.


△ Radeon Pro WX9100


HBM2에서는 1개의 DRAM다이(반도체 본체)가 8Gbit(실제로는 ECC 포함 9Gbit)인데요, Vega10은 HBM2를 2스택 싣고 있기에 Radeon Pro WX9100의 HBM2는 8Hi(8개의 DRAM 다이 적층)가 됩니다. 8Hi의 경우, HBM2는 2랭크(ランク) 구성이 됩니다. 


하지만, Radeon Pro WX9100의 메모리 대역폭은 484GB/s로, Radeon RX Vega64와 동일하며, 전송 속도는 1.9Gbps에 달합니다. HBM2는 2랭크에서도 전송 속도가 떨어지지 않는다는 것을 알 수 있으며, Radeon Pro WX9100의 TDP는 250W입니다.


△ Radeon Pro SSG


Radeon Pro SSG에서는, 2TB의 플래시 스토리지가 온보드 탑재되어 있습니다. 그외 TDP가 300W로 올랐다는 것 외에 차이는 없으며, NAND 플래시 스토리지는 PCI Express연결의 NVMe로, 그래픽 카드상에 배치되어 있습니다. Vega GPU와는 PCI Express 브릿지 칩을 통해 연결되어 있고, GPU에서 CPU를 통하지 않고 PCI Express를 통해 SSG에 직접 액세스할 수 있기 때문에 읽기 8GB/s, 쓰기 6GB/s의 고성능 제품입니다. SSG는 HBCC에 의해 관리되며, 애플리케이션에서 명시적으로 SSG에 액세스할 수 있게 API도 제공됩니다.


△ HBCC에서 PCI Express버스 중간에 PCI Express 브릿지가 있어 NVMe SSG 스토리지와 연결된다


고성능 병렬 프로세서에서 광대역의 스택드 DRAM과, 대용량 비휘발성 메모리를 연결한다는 아이디어는 AMD가 이전부터 품어왔던 아이디어인데요, Radeon Pro SSG는 그 구상의 첫 걸음이 되는 GPU가 됩니다.


△ AMD가 엑사스케일 슈퍼 컴퓨터을 위해 제안한 메모리 아키텍처


Vega10에서는 이외에도 GPU컴퓨팅을 위한 Radeon Instinct에도 제품이 제공되는데요, 'Radeon Instinct MI25'제품으로, HPC(High Performance Computing) 용도외에 높은 FP16 성능을 살려 주로 딥 러닝(심층 학습)의 학습 페이즈에의 침투를 노리고 있습니다.


반응형