집 앞으로 생각 오라클, 엔비디아, 팔이 핫 칩에서 주목 받다

오라클, 엔비디아, 팔이 핫 칩에서 주목 받다

2024

비디오: [Engsub+Vietsub Tiktok Song] If - Từ Vi/徐薇《Cover Dingke/丁可》~And you know you saying to go~ (십월 2024)

지난 주 인텔의 브로드 웰 발표에서 많은 칩 흥분이 있었지만, 연례 핫 칩 컨퍼런스에서 자세히 논의 된 다른 많은 칩이 있었는데, 이 칩은 주로 서버 및 데이터 센터 용으로 설계된 칩에 중점을 두는 경향이 있었다.

이 쇼는 Intel, Oracle 및 IBM이 최신 제품에 대해 논의하는 고급 칩으로 유명하지만 Oracle Sparc M7만이 정말 새롭습니다. 대신, 쇼의 대부분은 곧 출시 될 Tegra K1 프로세서의 64 비트 "덴버"버전의 Nvidia를 포함하여 ARM 기반 제품에 중점을 두었습니다.

서버 칩으로 Oracle, Intel 및 IBM Aim High

하이 엔드 칩 중에서 가장 인상적인 소식은 Oracle의 M7이라는 차세대 SPARC 프로세서에 대한 뉴스입니다. 이 칩에는 32 개의 S4 SPARC 코어 (각각 최대 8 개의 동적 스레드가 있음), 64MB의 L3 캐시, 8 개의 DDR4 메모리 컨트롤러 (DDR4-2133의 경우 프로세서 당 최대 2TB 및 160GBps의 메모리 대역폭) 및 8 개의 데이터 분석 가속기가 연결됩니다. 온칩 네트워크.

이 칩은 각각 공유 L2 캐시가있는 4 개의 코어와 코어 클러스터와 로컬 L3 캐시 사이의 대역폭이 192GBps 이상인 8MB의 L3 캐시로 구성된 8 개의 클러스터로 구성됩니다. M6 (12 3.6GHz SPARC S3 코어가있는 28nm 칩)에 비해 M7은 메모리 대역폭, 정수 처리량, OLTP, Java, ERP 시스템 및 부동 소수점 처리량에서 3 ~ 3.5 배 더 우수한 성능을 제공합니다. 오라클의 SPARC 아키텍처 담당 수석 이사 인 Stephen Phillips는 목표는 점진적인 증가가 아니라 단계적인 성능 향상이라고 말했습니다.

M7은 8 개의 소켓을 풀리스 (최대 256 코어, 2, 000 스레드 및 16TB 메모리)로 확장 할 수 있으며 ASIC 스위치를 사용하여 SMP 구성에서 최대 32 개의 프로세서로 트래픽을 관리 할 수 있습니다. 코어 1, 024 개, 스레드 8, 192 개 및 최대 64TB의 메모리가있는 시스템 꽤 인상적입니다. 오라클은 작년 SPARC M6에 비해 다양한 테스트에서 3 ~ 3.5 배 향상된 성능을 제공한다고 밝혔다. 이 회사는 이것이 20nm 공정으로 제조되고 내년 언젠가 시스템에서 이용 가능한 오라클의 자체 소프트웨어 스택에 최적화 될 것이라고 말했다.

IBM은 작년 전시회에서 발표 한 Power8 라인에 대한 자세한 내용도 발표했다. 이 버전의 칩에는 12 개의 코어가 있으며 각각 코어 당 512KB의 SRAM 레벨 2 캐시 (총 6MB L2)와 96MB의 공유 임베디드 DRAM을 레벨 8 캐시로 사용하여 최대 8 개의 스레드가 있습니다. IBM에 따르면 4.2 억 개의 트랜지스터로 650 평방 밀리미터 크기의이 거대한 칩은 IBM의 22nm SOI 공정으로 제조되어 6 월에 출하되기 시작했다.

몇 달 전에 IBM은 6 개의 코어가 362 mm ^{2 인} 버전을 발표했습니다. 올해의 이야기는 IBM이 6 코어 버전 중 2 개를 48 레인의 PCIe Gen 3이 포함 된 단일 패키지로 결합하는 방법에 관한 것이었다. IBM은 총 24 코어와 192 개의 스레드를 가진 2 소켓 버전이 2 프로세서를 능가 할 것이라고 말했다. 24 개의 코어 (48 개의 스레드)가있는 Xeon Ivy Bridge 서버. IBM은 주로 고성능 및 특수 시장에서 Power를 판매하므로 대부분의 사람들이이 두 제품을 비교하지는 않지만 흥미 롭습니다. Power 아키텍처를보다 주류로 만들기 위해 IBM은 작년에 Open Power Consortium을 발표했으며 올해는 플랫폼에 대한 완전한 오픈 소스 소프트웨어 스택을 보유하고 있다고 밝혔다. 그러나 지금까지 IBM 외에는 플랫폼 기반 서버를 발표 한 사람이 없습니다.

인텔은 1 년 전에 소개 된 제온 E5 버전과 2 월에 소개 된 제온 E7 버전을 포함하는 아이비 브릿지의 서버 버전 인 "아이비 타운"에 대해 이야기했다. 올해의 강연은 현재 인텔이 모듈 식 바닥에 배치 된 최대 15 개의 코어, 2 개의 DDR3 메모리 컨트롤러, 3 개의 QPI 링크 및 40 개의 PCI Gen 3 레인을 허용하는 칩을 통해 두 시장 모두를 포괄 할 수있는 아키텍처를 기본적으로 보유하고있는 방법에 초점을 맞추 었습니다 총 75 가지 이상의 변형이있는 각각 다른 소켓을 위해 설계된 3 개의 다른 다이로 전환 될 수있는 계획. 이는 특별한 상호 연결없이 2, 4 및 8 소켓 서버에서 사용할 수 있습니다.

물론 인텔은 대부분의 서버 유닛을 차지하기 때문에이 칩은 요즘 대량의 서버 구매를 구성합니다. 그러나 많은 정보가 이전에 ISSCC에서 다뤄졌으며, 인텔은 다음 버전의 E5 제품군 (E5-1600v3 및 E5-2600 v3)을 다음 버전의 변종을 사용하여 업데이트 된 버전을 기반으로 곧 소개 할 예정입니다. Haswell-EP라는 Haswell 아키텍처 지난 주 Dell은이 새로운 칩을 기반으로 새로운 워크 스테이션을 발표했습니다.

인텔은 또한 아보 톤 (Avoton)으로 알려진 자사의 아톰 C2000에 대해 논의했다.이 칩과 아이비 브릿지와 하 스웰 칩은 모두 인텔의 22nm 공정을 기반으로한다.

Nvidia, AMD, ARM의 새로운 시장에 Micro Aim 적용

이번 전시회에서 가장 큰 놀라움은 아마도 ARM 스피커의 기조 연설과 다가오는 Tegra K1 프로세서의 "덴버 (Denver)"버전에 대한 Nvidia의 세부 사항을 포함하여 ARM 기반 기술에 초점을 맞추었을 것이다.

기조 연설에서 ARM CTO 인 Mike Muller는 센서에서 서버에 이르기까지 모든 분야의 전력 제약에 대해 논의하고 ARM이 기업으로 확장하려는 방식에 중점을 두었습니다. Muller는 Qualcomm의 Rob Chandhok의 기조 연설에서도 반영된 사물 인터넷에 ARM 센서 칩을 사용한다는 개념을 추진했습니다. 그러나 어느 회사도 새로운 코어 나 프로세서를 발표하지 않았다.

대신, 그 앞면의 큰 뉴스는 Nvidia에서 왔으며, K1 프로세서의 새로운 버전에 대한 자세한 정보를 제공했습니다. 회사의 덴버 프로젝트가 처음 발표되었을 때이 칩이 고성능 컴퓨팅 시장을 겨냥한 것처럼 들렸지 만 이제는 태블릿 및 자동차 시장에 더 집중 한 것으로 보입니다. Tegra K1은 두 가지 버전으로 제공됩니다. 올해 초 발표되어 현재 회사의 Shield 태블릿에 출시되는 첫 번째 제품에는 Nvidia가 추진하고있는 4 + 1 구성의 4 비트 32 비트 ARM Cortex-A15 코어와 저전력 "컴패니언 코어"가 있습니다. 몇 년 동안 테그 라 라인.

덴버 버전은 엔비디아가 설계 한 새로운 독점 64 비트 코어 2 개와는 상당히 다르며, 회사는 실제로 얻는 성능 향상을 선전하고 있습니다. 코어는 7 웨이 수퍼 스칼라 (최대 7 개의 마이크로-옵스를 동시에 실행할 수 있음)이며 128KB 4 웨이 L1 명령어 캐시와 64KB 4 웨이 L1 데이터 캐시를 가지고 있습니다. 이 칩은 32 비트 K1과 공유하는 192 개의 "CUDA 코어"(그래픽 코어)로서 두 코어에 서비스를 제공하는 2MB 레벨 2 캐시와 함께이 두 코어를 결합합니다. 따라서 4 + 1 아키텍처에서 크게 벗어난 것입니다.

큰 변화 중 하나는 Nvidia가 "동적 코드 최적화"라고 부르는 것입니다.이 코드는 자주 사용하는 ARM 코드를 프로세서에 최적화 된 마이크로 코드로 변환하도록 설계되었습니다. 이는 128MB의 캐시 메모리 (기존 시스템 주 메모리에서 조각 됨)에 저장됩니다. 목표는 해당 기술이 일반적으로 사용하는 것만 큼 많은 전력을 요구하지 않고 비 순차적 실행의 성능을 제공하는 것입니다. Transmeta는 몇 년 전에 Crusoe 칩으로 시도했지만 새로운 개념은 아니지만 Nvidia는 이제이 기능이 더 잘 작동한다고 말합니다.

엔비디아는 몇 가지 벤치 마크 결과를 발표했다. 새로운 칩은 기존의 4 코어 또는 8 코어 모바일 CPU보다 훨씬 더 높은 성능을 달성 할 수 있다고 주장했다. 5s-심지어 일부 주류 PC 프로세서. 엔비디아는 아톰 (베이 트레일) 프로세서보다 성능이 뛰어나며 인텔의 1.4GHz 듀얼 코어 셀러론 (Haswell) 프로세서와 유사하다고 밝혔다. 물론 벤더의 성능 수치를 소금으로 결정하는 경향이 있습니다. 벤더가 벤치 마크를 선택할뿐만 아니라 동일한 클럭 속도 또는 동일한 전력 소비량에 대해 이야기하고있는 것은 분명하지 않습니다.

한편, 서버를 겨냥한 칩에서 AMD는 "시애틀 (Seattle)"이라고 알려진 옵테론 A1100에 대해 더 많은 이야기를했으며, 회사는 현재 샘플링 중이며 올해 말쯤 서버에서 사용할 수있을 것이라고 말했다. 이 칩에는 8 개의 64 비트 Cortex A57 CPU 코어가 있습니다. 4MB의 L2 캐시 및 8MB의 L3 캐시; 오류 수정 기능을 갖춘 최대 128GB의 DDR3 또는 DDR4 메모리를위한 2 개의 메모리 채널; 많은 통합 I / O (PCIe Gen3 및 6Gbps SATA 각각 8 개 레인 및 2 개의 10Gbps 이더넷 포트); 보안 부팅을위한 Cortex A5 "시스템 제어 프로세서"; 암호화 및 암호 해독 속도를 높이기위한 가속기. GlobalFoundries의 28nm 공정에서 제조됩니다. AMD는 아직 칩의 주파수, 전력 또는 성능에 대한 세부 정보를 제공하지 않았지만 칩의 기본 다이어그램을 보여주었습니다. (위)

Applied Micro는 8 개의 2.4GHZ 독점 ARMv8 코어, 4 개의 DDR3 메모리 컨트롤러, PCIe Gen3 및 6Gbps SATA 및 10Gbps 이더넷을 포함하는 X-Gene 1 (Storm이라고 함)을 사용하여 시장에 출시 된 최초의 ARM 서버 칩을 오랫동안 주장 해 왔습니다.. 이 회사는 현재 TSMC의 40nm 공정으로 생산되고있다.

Hot Chips에서 Applied Micro는 자사의 X-Gene 2 (Shadowcat) 디자인을 8 개 또는 16 개의 "향상된"코어와 함께 2.4 ~ 2.8GHz의 속도로 실행하고 RoCE (RDMA over Converged Ethernet) 호스트를 추가했습니다. 마이크로 서버 클러스터간에 지연 시간이 짧은 연결을 지원하도록 설계된 상호 연결 인 채널 어댑터. 단일 스토리지 풀을 공유하는 최대 6, 480 개의 스레드와 50TB의 메모리를 지원하는 단일 서버 랙과 함께 클러스터에서 사용하도록 설계되었습니다. 이 회사는 X-Gene 2가 약 60 % 향상된 정수 성능, Memcache 성능의 두 배 성능 및 약 25 % 향상된 Apache 웹 서비스를 제공 할 것이라고 밝혔다. 28nm 공정으로 제조되었으며 현재 샘플링 중입니다.

Applied Micro는 X-Gene 2가 경쟁 마이크로 서버 (Cavium ThunderX, Intel Atom C2000 "Avoton"및 AMD Opteron A1100 "Seattle")와 풀 사이즈 Xeon 서버 사이의 격차를 메운다고 말합니다. 내년에 샘플링을 시작할 예정인 차세대 X-Gene 3 (Skylark)에 대해 자세히 설명했습니다. 이 칩에는 최대 3GHz에서 실행되는 16 개의 ARMv8 코어가 있으며 16nm FinFet 기술을 사용하여 제조됩니다.