앞으로 생각 Google의 텐서 처리 장치가 기계 학습 규칙을 변경합니다

Google의 텐서 처리 장치가 기계 학습 규칙을 변경합니다

비디오: Новый год от Жени:* (십월 2024)

비디오: Новый год от Жени:* (십월 2024)
Anonim

지난주 I / O 개발자 컨퍼런스에서 Google이 발표 한 가장 흥미롭고 예상치 못한 발표 중 하나는 머신 러닝을위한 자체 칩을 설계하고 구현했다는 것입니다. 그의 기조 연설에서 구글 대표 썬 다르 피 차이 (Sundar Pichai)는 TPU (Tensor Processing Units)라고 불리는 것을 소개했다.

Pichai는 "TPU는 상용 FPGA 및 GPU보다 와트 당 성능이 훨씬 뛰어나다"고 말했다. 구글의 하드웨어 엔지니어 인 Norm Jouppi는 많은 세부 사항을 밝히지 않았지만 블로그 게시물에서 TPU는 맞춤형 ASIC (application specific integrated circuit)이라고 설명했다. 다시 말해, 머신 러닝을 실행하도록 특별히 설계된 칩으로, 특히 Google의 머신 러닝 프레임 워크 인 TensorFlow에 맞게 조정되었습니다.

영상

포스트에서 Jouppi는 계산 정밀도가 "더 관대하다"며, 이는 연산 당 더 적은 트랜지스터를 필요로한다는 것을 의미한다. 이를 통해 Google은 초당 더 많은 작업을 수행 할 수있어 사용자가 더 빠르게 결과를 얻을 수 있습니다. 그는 TPU가있는 보드는 데이터 센터 랙의 하드 디스크 드라이브 슬롯에 맞으며 TPU로 채워진 서버 랙 이미지를 보여줬으며 회사의 AlphaGo 시스템에 사용되었다고 말했다.

또한 Jouppi는 TPU가 이미 검색 결과의 관련성을 개선하는 데 사용되는 RankBrain 및 스트리트 뷰를 포함하여 Google의 여러 애플리케이션에서 작업 중이며지도 및 내비게이션의 정확성과 품질을 향상시키고 있다고 말했습니다.

기자 회견에서 Google의 기술 인프라 부사장 인 Urs Hölzle은 TPU가 대부분의 최신 CPU 및 GPU가 설계된 고정밀 부동 소수점 수학 대신 8 비트 정수 수학을 사용하여 실행된다고 확인했습니다. 대부분의 머신 러닝 알고리즘은 저해상도 데이터를 사용하여 정밀하게 얻을 수 있습니다. 즉, 칩이 특정 영역에서 더 많은 작업을 처리하고보다 복잡한 모델을 효율적으로 처리 할 수 ​​있습니다. 올해 초 CES에서 발표 된 Nvidia Drive PX 2 모듈은 32 비트 부동 소수점 정밀도에서 8 테라 플롭을 지원하지만 24 시간의 심층 학습 "테라피"(8 년의 회사 용어)에 도달합니다. 비트 정수 수학).

Hölzle은 구체적인 내용은 밝히지 않았지만 Google은 오늘날 TPU와 GPU를 모두 사용하고 있다고 확인했습니다. 그는 이것이 한동안 지속될 것이라고 말했지만 구글이 GPU를 너무 일반적으로보고 머신 러닝에 더 최적화 된 칩을 선호한다고 제안했다. 그는이 회사가 나중에이 칩의 이점을 설명하는 논문을 발표 할 것이지만, 다른 회사에 판매하기위한 것이 아니라 내부 용으로 만 설계된 것이라고 밝혔습니다. 그가 설명한 또 다른 애플리케이션은 칩을 사용하여 안드로이드 폰에서 사용되는 음성 인식 엔진 뒤의 컴퓨팅 부분을 처리하는 것이었다.

ASIC을 사용하는 선택은 Google의 흥미로운 내기입니다. 최근 몇 년 동안 머신 러닝에서 가장 큰 발전, 즉 깊은 신경망에 대한 큰 추진의 기술은 이러한 모델을 훈련시키기 위해 GPU, 특히 Nvidia Tesla 라인을 채택한 것입니다. 보다 최근 인텔은 중앙에있는 FPGA (Field-Programmable Gate Arrays)의 선두 제조업체 인 Altera를 구입했습니다. 그것들은 GPU만큼 일반적인 목적이 아니거나 Google 칩처럼 TensorFlow를 위해 특별히 설계된 것이 아니라 다양한 작업을 수행하도록 프로그래밍 될 수 있습니다. Microsoft는 딥 러닝을 위해 Altera FPGA를 실험하고 있습니다. IBM은 최근 다양한 애플리케이션에 사용되기 시작한 신경망을 위해 특별히 설계된 TrueNorth Neurosynaptic 칩을 개발하고 있습니다. Cadence (Tensilica), Freescale 및 Synopsys는 이러한 모델을 실행하기 위해 DSP (디지털 신호 프로세서)를 추진하고 있습니다. Mobileye와 NXP는 최근 ADAS와 자율 주행 자동차를 위해 특별히 설계된 칩을 발표했다. Movidius와 Nervana를 포함한 몇몇 소규모 회사들은 AI를 위해 특별히 설계된 칩 계획을 발표했습니다.

장기적으로 어떤 접근 방식이 가장 좋은지 알기에는 너무 이르지만, 매우 다른 옵션이 있다는 것은 향후 몇 년 동안 흥미로운 경쟁을 보게 될 것입니다.

Google의 텐서 처리 장치가 기계 학습 규칙을 변경합니다