비디오: [ë¤ìë³´ë 맥ìë]ì¤í°ë¸ì¡ì¤ ì(å¼) í리ì í ì´ì ìê³ëª (12 월 2024)
오늘날 컴퓨팅에서 가장 인기있는 주제는 머신 러닝이며 하드웨어 측면에서 볼 수 있습니다. 최근 몇 주 동안 Nvidia의 Tesla P100 및 Drive PX 2에서 Google의 Tensor Processing Units, Intel의 Xeon Phi에 이르기까지 딥 러닝을 위해 설계된 새로운 칩에 대해 많이 들었습니다. 지난주 Hot Chips 컨퍼런스에서 머신 러닝과 비전 프로세싱에 맞춘 디자인에 대한 매우 다른 접근법을 가진 여러 회사로부터 소식을들은 것은 놀라운 일이 아닙니다.
아마도 가장 큰 소식은 Nvidia가 자체 운전 차량용 Drive PX 2 모듈에 사용되며 자율 기계에 대한 딥 러닝을 목표로 Parker 칩에 대한 자세한 내용을 공개 한 것입니다. 이 칩은 2 개의 맞춤형 ARM 호환 Denver CPU 코어, 4 개의 ARM Cortex-A57 코어 및 Nvidia의 Pascal CUDA (그래픽) 코어 256 개를 사용합니다.
엔비디아는이 칩이 특수 복원 기능을 갖춘 자동차 용으로 설계 및 평가 된 최초의 칩이며, 덴버 코어가 와트 당 성능을 크게 향상 시킨다는 점을 지적하면서 더 빠른 속도와 메모리를 언급했다. 새로운 기능 중에는 하드웨어 지원 가상화가 있으며 최대 8 개의 VMS가있어 전통적으로 별도의 컴퓨터에서 수행되는 자동차 기능을 통합 할 수 있습니다. 전체적으로, 회사는 Drive PX 2 모델이 이들 Parker 칩 중 2 개와 개별 GPU 2 개를 가질 수 있으며 총 성능은 8 테라 플롭 (배정도) 또는 24 개의 딥 러닝 작업 (8 비트 또는 반 정밀도)을 갖습니다. 이 회사는 비교적 오래된 벤치 마크인 SpecInt_2000을 사용하여 현재 모바일 처리와 비교하여 벤치 마크를 비교했습니다. 그러나 성능은 인상적으로 보이며 최근 볼보는 내년부터 자율 주행 차를 테스트하는 데 사용할 것이라고 밝혔다.
물론 다른 많은 접근 방법이 있습니다.
중국의 스타트 업 DeePhi는 신경망을위한 FPGA 기반 플랫폼에 대해 논의했으며, 관련된 네트워크의 종류에 따라 두 가지 아키텍처가 있습니다. 아리스토텔레스는 비교적 작은 컨볼 루션 신경망을 위해 설계되었으며 Xilinx Zynq 7000을 기반으로하는 반면, 데카르트는 Kintex Ultrascale FPGA를 기반으로 RNN-LSTM (long short-term memory)를 사용하여 더 큰 반복 신경망을 위해 설계되었습니다. DeePhi는 컴파일러와 아키텍처가 대부분의 FPGA 사용에 비해 개발 시간을 단축했으며 FPGA를 사용하면 Nvidia의 Tegra K1 및 K40 솔루션보다 우수한 성능을 제공 할 수 있다고 주장합니다.
또 다른 방법은 디지털 신호 프로세서 또는 DSP를 사용하는 것인데, 일반적으로 에너지를 거의 사용하지 않고 특정 기능이나 아주 작은 기능 집합을 매우 빠르게 수행합니다. 이들은 종종 비전 처리와 같은 특정 기능의 속도를 높이기 위해 더 복잡한 다른 칩에 내장되어 있습니다. Movidius, CEVA 및 Cadence를 포함한 많은 회사들이 Hot Chips에서 솔루션을 공유하고있었습니다.
Movidius는 Myriad 2 비전 처리 장치로 알려진 자사의 DSP 기반 솔루션을 선보였으며이를 DJI Phantom 4 드론에 전시했습니다. 또한 Myriad 2가 2014 ImageNet 경연 대회에서 사용 된 GPU와 GoogLeNet 딥 뉴럴 네트워크보다 우수한 성능을 보여주었습니다.
CEVA는 CEVA-XM4 Vision DSP를 홍보하고있었습니다. 특히 비전 처리를 위해 조정되었으며 자동차 시장을 겨냥한 CEVA Deep Neural Network 2 플랫폼과 함께 Caffe 또는 TensorFlow 프레임 워크 용으로 작성된 모든 것을 가져 가서 실행할 수 있도록 최적화했습니다. DSP에. 새 프로세서는 내년 SoC에 있어야합니다.
한편, Tensilica 비전 프로세서 제품군 (다른 제품에 내장 될 수 있음)을 만드는 Cadence는 최신 버전 인 Vision P6에 대해 논의했습니다.이 버전은 벡터 부동 소수점 지원과 같은 새로운 기능과 컨볼 루션 신경망을위한 기타 기능을 추가했습니다.. 첫 번째 제품은 곧 출시 될 예정입니다.
Microsoft는 Windows 10을 실행하는 14nm Intel Atom Cherry Trail 프로세서와 28nm 프로세스에서 TSMC가 제조 한 사용자 정의 홀로그램 처리 장치 (HPU 1.0) 센서 허브를 사용한다고 HoloLens 헤드셋의 하드웨어 세부 사항에 대해 이야기했습니다. 여기에는 24 개의 Tensilica DSP 코어가 포함됩니다.
특히 신경 네트워크의 핵심 구성 요소 중 하나 인 곱하기 추가 연산의 측면에서 GPU, FPGA 및 다양한 종류의 DSP의 처리량과 효율성의 차이를 보여준 Cadence의 슬라이드 중 하나에 매료되었습니다. 모든 벤더 프레젠테이션과 마찬가지로 셀프 서비스를 제공하는 반면 비용과 프로그래밍 편의성은 말할 것도없고 속도와 효율성 (와트 당 성능) 측면에서 다양한 기술이 어떻게 다른지 지적했습니다. 여기에는 다양한 접근 방식에 대한 솔루션이 많이 있으며 앞으로 몇 년 동안 이것이 어떻게 전개되는지 보는 것이 흥미로울 것입니다.