집 앞으로 생각 머신 러닝이 미래인 이유

머신 러닝이 미래인 이유

2024

차례:

기계 학습 경쟁

비디오: BOYFRIENDë³´ì�´í ë ë ë ´ ì ¬ì � ì �ë ì§ ë§ Dance Ver Music Video www bajaryoutube com (십월 2024)

이달의 SC16 슈퍼 컴퓨팅 컨퍼런스에서 두 가지 트렌드가 두드러졌습니다. 첫 번째는 Intel의 최신 Xeon Phi (Knights Landing)와 Nvidia의 최신 Tesla (Pascal 기반 P100)가 세계에서 가장 빠른 컴퓨터 500 대 목록에 등장한 것입니다. 두 번째는 칩 및 시스템 제조업체가 최신 머신 러닝 시스템에서 개념을 취해이를 수퍼 컴퓨터에 적용하는 방법에 중점을두고 있습니다.

매년 두 번 업데이트되는 Top500 목록의 현재 개정판에서 차트의 맨 위는 여전히 Wuxi에있는 중국의 National Supercomputing Center의 Sunway TaihuLight 컴퓨터와 중국의 National Super Computer의 Tianhe-2 컴퓨터에 단단히 고정되어 있습니다. 6 월 ISC16 전시회 이후 광저우 중심에 있습니다. 오크 릿지의 타이탄 슈퍼 컴퓨터와 로렌스 리버모어의 세쿼이아 시스템과 같은 3 위와 4 위 시스템으로 Tianhe-2 성능의 약 절반을 제공하는 다른 컴퓨터는 없습니다.

이 중 첫 번째는 64 비트 RISC 코어를 사용하는 고유 한 중국 프로세서 1.45GHz SW26010을 기반으로합니다. 이것은 15.4 메가 와트의 전력을 사용하여 Linpack 벤치 마크에서 125.4 페타 플롭의 이론적 최고 처리량과 93 페타 플롭의 최대 측정 성능을 제공하는 비교할 수없는 10, 649, 600 개의 코어를 가지고 있습니다. 이 시스템이 Linpack 성능에서 차트를 크게 상회하는 반면 다른 테스트에서는 그다지 좋지 않습니다. HPCG (High Performance Conjugate Gradients) 벤치 마크와 같은 다른 벤치 마크가 있습니다. 여기에서 기계는 이론적 인 최고 성능의 1 ~ 10 % 만 보는 경향이 있으며 최상위 시스템 (이 경우 Riken K 기계)은 여전히 낮은 1 페타 플롭보다

그러나 Linpack 테스트는 HPC (고성능 컴퓨팅)와 Top500 목록을 만드는 데 사용되는 표준에 대한 표준입니다. Linpack 테스트를 사용한 Tianhe-2 2 호기는 지난 몇 년 동안 차트에서 1 위를 차지했으며 Xeon E5 및 이전 Xeon Phi (Knights Corner) 가속기를 사용합니다. 이는 54.9 페타 플롭의 이론적 최고 성능을 제공하며 Linpack에서는 33.8 페타 플롭의 벤치 마크를 제공합니다. 많은 관측통은 최신 버전의 Xeon Phi (Knights Landing) 수출 금지로 인해 중국이 자체 슈퍼 컴퓨터 프로세서를 만들게되었다고 생각합니다.

공식적으로 Xeon Phi 7250 인 Knights Landing은 27.8 페타 플롭의 최고 성능과 14 페타 플롭의 측정 성능을 갖춘 Lawrence Berkeley National Laboratory의 Cori 슈퍼 컴퓨터를 시작으로 목록의 새로운 시스템에서 큰 역할을했습니다.. 이것은 양자리 상호 연결을 사용하는 Cray XC40 시스템입니다. Knights Landing은 프로세서 당 68 개의 코어가 3 개의 피크 테라 플롭을 제공하는 메인 프로세서 역할을 할 수 있습니다. (인텔은 3.46 테라 플롭스의 최고 이론적 배정도 성능으로 72 개의 코어를 가진 칩의 다른 버전을 가격표에 나열하지만, 가격이 더 높고 더 많은 에너지를 사용하기 때문에이 버전을 사용하는 시스템은 없습니다.)

이전의 Xeon Phis는 기존의 Xeon 프로세서로 제어되는 시스템에서 가속기로만 실행할 수있었습니다. 6 위는 일본 첨단 고성능 컴퓨터 공동 센터의 Oakforest-PACS 시스템으로 24.9 피크 페타 플롭을 기록했습니다. 이것은 Fujis가 Knights Landing과 Intel의 Omni-Path 상호 연결을 사용하여 구축했습니다. Knights Landing은 No. 12 시스템 (Lenovo에서 제작하고 Omni-Path를 사용하여 이탈리아 CINECA의 Marconi 컴퓨터)과 33 번 시스템 (Cray에서 제작 한 양자리를 사용하여 일본 교토 대학의 Camphor 2)에서도 사용됩니다. 상호 연결).

Nvidia는 새로운 목록에도 잘 소개되었습니다. 스위스 국립 슈퍼 컴퓨팅 센터의 8 번 시스템 인 Piz Daint는 Xeons 및 Nvidia Tesla P100과 함께 Cray XC50으로 업그레이드되었으며 16 페타 플의 이론적 최고 성능과 9.8 페타 플의 Linpack 성능을 제공합니다. Nvidia K20x 가속기를 사용하는 Cray XC30을 기반으로 한 초기 반복에서 7.8 페타 플롭의 최고 성능과 6.3 페타 플롭의 Linpack 성능을 업그레이드했습니다.

목록에있는 다른 P100 기반 시스템은 회사 자체의 DGX-1 시스템과 목록의 28 번에 위치한 Infiniband 상호 연결을 기반으로하는 Nvidia의 자체 DGX Saturn V입니다. Nvidia는 현재 프로세서와 DGX-1 어플라이언스 (소프트웨어 및 8 개의 Tesla P100 포함)를 판매하고 있습니다. Nvidia가 내부 AI 연구에 사용하는 DGX Saturn V 시스템은 거의 4.9 개의 피크 페타 플롭과 3.3 Linpack 페타 플롭을 기록합니다. 그러나 Nvidia가 지적한 것은 350 킬로와트의 전력 만 사용하므로 훨씬 에너지 효율적입니다. 결과적으로이 시스템은 가장 에너지 효율적인 시스템의 Green500 목록에서 1 위를 차지합니다. 엔비디아는 이것이 비슷한 성능 (약 5.5 페타 플롭 피크와 3.1 Linpack 페타 플롭)을 가진 Xeon Phi 기반 Camphor 2 시스템보다 훨씬 적은 에너지라고 지적했다.

엔비디아가 GPU에서 더 나은 에너지 효율을 선전하고 인텔이 더 친숙한 프로그래밍 모델을 선전하는 것은 흥미로운 비교입니다. 다른 아키텍처가 "exascale computing"에 가장 먼저 도달 할 것인지 또는 중국 자체 개발 방식이 대신 도달 할 것인지 알기 위해 경쟁 할 것이기 때문에 앞으로 더 많은 경쟁이있을 것입니다. 현재 미국 에너지 부의 Exascale Computing Project는 2022 년에 최초의 엑사 스케일 기계가 설치되어 다음 해에 가동 될 것으로 예상하고 있습니다.

Nvidia Tesla 및 Intel Xeon Phi 솔루션과 같은 많은 코어 가속기에 중점을 두었음에도 불구하고 96 개의 시스템 만 이러한 가속기를 사용합니다 (Xeon Phi 만 사용하는 시스템 포함). 1 년 전 104 개 시스템이 아니라 인텔은 계속해서 500 대 시스템 중 462 개의 칩과 22 개의 IBM Power 프로세서를 보유한 최대 칩 공급 업체입니다. Hewlett-Packard Enterprise는 140 개의 시스템 (HP가 인수 한 Silicon Graphics에 의해 구축 된 시스템 포함)을 만들었습니다. 92 및 Cray 56.

기계 학습 경쟁

전시회 또는 그 주변에는 여러 가지 발표가 있었으며 대부분은 인공 지능이나 기계 학습의 형태를 다루었습니다. 엔비디아는 엔비디아의 NVLink 인터커넥트를 사용하여 IBM Power 서버를 실행하는 IBM PowerAI라는 새로운 딥 러닝 소프트웨어 툴킷에 대해 IBM과 파트너십을 발표했다.

HPC 및 머신 러닝 환경 모두에서 사후에 고려 된 AMD는이를 변경하기 위해 노력하고 있습니다. 이 분야에서이 회사는 자체 Radeon GPU에 중점을두고 FirePro S9300 x2 서버 GPU를 추진했으며 클라우드를 통해 클라우드를 사용할 수 있도록 Google Cloud Platform과 파트너십을 발표했습니다. 그러나 AMD는 엔비디아의 독점적 접근 방식보다 OpenCL을 강조하면서 GPU 프로그래밍 용 소프트웨어에 많은 투자를하지 않았습니다. 이번 전시회에서 AMD는 새로운 버전의 Radeon Open Compute Platform (ROCm)을 발표했으며 다가오는 "Zen"x86 CPU, Cavium 's ThunderX로 시작하는 ARM 아키텍처 및 여러 CPU를 포함한 이기종 컴퓨팅 시나리오에서 GPU를 지원할 계획을 발표했습니다 IBM Power 8 CPU.

이번 전시회에서 인텔은 부동 소수점 워크로드에 맞게 조정 된 현재의 Xeon E5v4 (Broadwell) 칩의 새 버전과 Skylake 플랫폼 기반의 다음 버전이 내년에 어떻게 출시 될지에 대해 이야기했습니다. 그러나 그 주 후반에 인텔은 칩을 인공 지능 또는 머신 러닝 공간에 배치하기 위해 일련의 발표를했습니다. (ExtremeTech가 채택했습니다.) 이것의 대부분은 고성능 컴퓨팅에 영향을 주지만 대부분 별개입니다. 우선 표준 Xeon 프로세서 외에도 신경망에서 많은 추론을 수행하기 위해 FPGA를 홍보하고 있습니다. 이것이 회사가 최근 Altera를 구입 한 큰 이유 중 하나이며 이러한 FPGA는 이제 Microsoft와 같은 회사에서 사용됩니다.

그러나 지난주 AI에 대한 초점은 일부 새로운 칩을 다루었 다. 먼저, 제온 피 (Xeon Phi)가있다. 인텔은 내년에 "나이트 딥 러닝"시장을 겨냥한 새로운 버전의 기사단 (Knights Mill)을 내년에 보완 할 것이라고 인텔이 지적했다. IDF에서 발표 된이 버전은 또 다른 14nm 버전이지만 반 정밀 계산을 지원하며 신경망 교육에 자주 사용됩니다. 실제로, 딥 러닝에서 현재 Nvidia 칩의 가장 큰 장점 중 하나는 반 정밀도 계산 및 8 비트 정수 연산에 대한 지원입니다. Nvidia는 종종 딥 러닝 "테라 오피스"라고합니다. 인텔은 Knights Mill이 딥 러닝을 위해 Knights Landing보다 최대 4 배 높은 성능을 제공 할 것이라고 밝혔다. (이 칩은 여전히 기존의 고성능 컴퓨팅 시장을 목표로하는 Knights Hill이라는 10nm 버전으로 계속 출시 될 예정입니다.)

내년에 가장 흥미로운 것은 Intel이 최근에 인수 한 Nervana의 디자인으로, 고 대역폭 메모리 (HBM)에 연결된 간단한 수학 연산을 수행하도록 설계된 일련의 처리 클러스터를 사용합니다. 이 제품군의 첫 번째는 인텔이 회사를 인수하고 28nm TSMC 공정으로 제조하기 전에 설계된 Crest Lake입니다. 내년 상반기 테스트 버전으로 인해 인텔은 GPU보다 더 원시 컴퓨팅 성능을 제공 할 것이라고 밝혔다. 결국 Knights Crest가 이어질 것입니다. Knights Crest는 Xeon과 함께 Nervana의 기술을 구현하고 세부 사항은 아직 발표되지 않았습니다.

인텔 CEO 브라이언 크 르자 니크 (Brian Krzanich)는“우리는 네르바 나의 기술이 복잡한 신경망을 훈련시키기 위해 향후 3 년간 혁신적인 성능을 100 배나 향상시킬 것으로 기대하고있다”고 밝혔다.

인텔은 최근 Movidius 인수 계획을 발표했다. 이로 인해 DSP 기반 칩이 컴퓨터 비전 추론에 특히 적합하게되며 이전에 훈련 된 모델을 기반으로 결정을 내린다.

복잡하고 진화하는 이야기입니다. 엔비디아가 GPU를 어디에서나 요구하는 것만 큼 간단하지는 않습니다. 그러나 분명한 것은 머신 러닝이 얼마나 빨리 시작되는지와 기업이 Nvidia 및 AMD의 GPU와 같은 GPU에서 Xeon Phi와 같은 많은 핵심 x86 프로세서, FPGA에 이르기까지 문제를 해결하려는 다양한 방법입니다. Nervana 및 IBM의 TrueNorth와 같은 교육용 특수 제품, Google의 Tensor Processing Units와 같은 맞춤형 DSP 유사 추론 엔진에 이르기까지 다양합니다. 시장에 이러한 모든 접근 방식을위한 공간이 있는지 확인하는 것은 매우 흥미로울 것입니다.