집 앞으로 생각 인공 지능 프로세서에 대한 트렌드의 구글 클라우드 tpus 부분

인공 지능 프로세서에 대한 트렌드의 구글 클라우드 tpus 부분

2024

비디오: Intro to Google Cloud | For Student Developers (십월 2024)

지난 몇 주 동안 Google의 새로운 "클라우드 TPU"및 Nvidia의 새로운 Volta 디자인을 포함하여 머신 러닝을위한 심층 신경망에서 작동하도록 특별히 설계된 새로운 컴퓨팅 플랫폼이 다수 소개되었습니다.

나에게 이것은 컴퓨터 아키텍처에서 가장 흥미로운 추세입니다. 심지어 AMD보다 현재 인텔은 16 코어 및 18 코어 CPU를 소개합니다. 물론 다른 대안이 있지만 Nvidia와 Google은 자신의 고유 한 접근 방식에 많은 주목을 받고 있습니다.

Google I / O에서는 "클라우드 TPU"(Tensor Processing Unit 용)가 Google의 TensorFlow 머신 러닝 프레임 워크에 최적화되었음을 나타냅니다. 작년 전시회에서 소개 된 이전 세대 TPU는 주로 기계 학습 작업을 실행하는 추론을 위해 설계된 ASIC이지만 새 버전은 그러한 알고리즘을 추론하고 훈련하기 위해 설계되었습니다.

최근 논문에서 Google은 원본 TPU에 대한 자세한 내용을 제공했으며, 이는 최대 92 테라 피트 (1 조 건당 연산 수)의 256x256 다중 누적 (MAC) 단위 (총 65, 536 개)의 매트릭스를 포함하는 것으로 설명했습니다. 둘째). PCIe Gen 3 버스를 통해 호스트 CPU에서 명령을받습니다. 구글은 28 나노 다이로 인텔 하 스웰 제온 22 나노 프로세서 크기의 절반보다 작으며 프로세서와 엔비디아의 28 나노 K80 프로세서보다 성능이 뛰어 났다고 말했다.

TPU 2.0 또는 클라우드 TPU (위 참조)라는 새 버전에는 실제로 보드에 4 개의 프로세서가 포함되어 있으며 Google은 각 보드가 180 테라 플롭 (초당 180 조 부동 소수점 연산)에 도달 할 수 있다고 밝혔다. 마찬가지로이 보드는 맞춤형 고속 네트워크를 사용하여 함께 작동하도록 설계되어 Google이 "TPU 포드"라고하는 단일 머신 러닝 슈퍼 컴퓨팅 역할을합니다.

이 TPU 포드에는 64 개의 2 세대 TPU가 포함되어 있으며 최대 11.5 페타 플롭을 제공하여 단일 대형 머신 러닝 모델의 교육을 가속화합니다. 구글 AI 연구를 총괄하는 페이 페이 리 (Fei Fei Li)는 이번 컨퍼런스에서 회사의 대규모 번역 학습 모델 중 하나가 상용 상용 GPU 32 개를 교육하는 데 하루 종일 걸리지 만 이제는 TPU 포드의 1/8을 사용하는 오후의 동일한 정확도. 큰 도약입니다.

이것들은 작은 시스템이 아니라는 것을 이해하십시오. 포드는 4 개의 일반 컴퓨팅 랙 크기와 비슷합니다.

그리고 각각의 개별 프로세서는 방열판이 매우 큰 것 같습니다. 즉, 보드를 너무 세게 쌓을 수 없습니다. Google은 아직이 버전의 프로세서 또는 상호 연결에서 변경된 사항에 대해 자세히 설명하지 않았지만 약 8 비트 MAC을 기반으로합니다.

그 전 주에 엔비디아는이 범주에서 Telsa V100 Volta로 알려진 대규모 칩을 출시했습니다.이 칩은 고급 GPU를 위해 설계된이 새로운 Volta 아키텍처를 갖춘 최초의 CPU였습니다.

엔비디아는이 새로운 칩이 120 개의 텐서 플로우 테라 플롭 (또는 15 개의 32 비트 TFLOPS 또는 7.5 개의 64 비트 칩)을 지원할 수 있다고 말했다. 이것은 80 개의 스트리밍 멀티 프로세서 (SM)를 포함하는 새로운 아키텍처를 사용하며, 각각 8 개의 새로운 "텐서 코어"를 포함한다 클럭 당 64 개의 FMA (Fused Multiply-Add) 연산을 수행 할 수있는 4x4x4 어레이입니다. 엔비디아는 자사의 초기 P100 아키텍처를 사용했던 초기 DGX-1에 이어 3 분기에 8 개의 V100 보드와 함께 DGX-1V 워크 스테이션에 칩을 제공 할 것이라고 밝혔다.

이 회사는이 149, 000 달러짜리 상자가 3200 와트를 사용하여 960 테라 플롭의 훈련 성능을 제공해야한다고 말했다. 그 후 첫 번째는 V100 4 개가 포함 된 Personal DGX Station을 제공 할 것이며 4 분기에는 대형 서버 공급 업체가 V100 서버를 제공 할 것이라고 말했다.

이 칩은 TSMC의 12nm 프로세서를 사용하기 위해 처음 발표되었으며 815 평방 밀리미터 다이에 210 억 개의 트랜지스터가있는 거대한 칩이 될 것입니다. 엔비디아는 마이크로 소프트와 아마존을 칩의 초기 고객으로 언급했다.

이러한 접근 방식에는 큰 차이가 있습니다. Google TPU는 실제로 TensorFlow 애플리케이션을 위해 설계된 맞춤형 칩이며 Nvidia V100은 다소 일반적인 칩이며 다른 애플리케이션에 대해 다른 종류의 수학을 수행 할 수 있습니다.

한편, 다른 대형 클라우드 공급 업체는 Microsoft가 교육용 GPU와 추론 용 FPGA (Field-Programmable Gate Array)를 모두 사용하여 고객에게 제공하는 대안을 찾고 있습니다. Amazon Web Services는 이제 개발자가 GPU 및 FPGA 인스턴스를 모두 사용할 수있게합니다. 그리고 인텔은 FPGA 및 기타 여러 기술을 추진해 왔습니다. 한편, 다수의 새로운 스타트 업이 대안적인 접근법을 연구하고 있습니다.

어떤면에서, 이것은 적어도 몇 년 전에 개발자가 처음으로 "GPU 계산"을 사용하기 시작한 이래로 워크 스테이션과 서버 프로세서에서 가장 크게 나타난 변화입니다. 이것이 어떻게 발전하는지 보는 것은 흥미로울 것입니다.