집 앞으로 생각 Ivytown, 스팀 롤러, 14 및 16nm 공정 하이라이트 ISCC

Ivytown, 스팀 롤러, 14 및 16nm 공정 하이라이트 ISCC

2024

비디오: N-path filters explained (12 월 2024)

칩 공급 업체는 일반적으로 매년 ISSCC (International Solid State Circuits Conference)에서 새로운 칩을 출시하지 않지만 이미 발표 된 제품의 내부 작동에 대한 자세한 정보를 제공합니다. 이번 주 쇼에서 내가 찾은 것들이 있습니다.

인텔의 아이비 타운 서버 아키텍처

인텔은 아이비 타운 (Ivytown)으로 알려진 최대 15 개의 코어와 30 개의 스레드를 갖춘 칩인 Xeon E7 프로세서 제품군의 최신 버전에 대해 논의했다. Xeon E5 2600 V2에 사용 된 Ivy Bridge EP 아키텍처를 기반으로합니다. 이 프로세서는 Intel의 22nm 공정 기술을 사용하여 Tri-Gate 트랜지스터 (핀의 높이는 34nm 및 8nm)이며 현재 Westmere EX 기반 Xeon E7을 대체합니다. 이에 비해 32nm 평면형 HKMG 프로세서에서 생산되는 현재의 Xeon E7은 코어 10 개와 스레드 20 개를 가지며 Ivytown 버전의 37.5MB에 비해 30MB의 L3 캐시를 가지고 있습니다.

이 새로운 프로세서 제품군의 가장 흥미로운 기능 중 하나는 모듈 식 아키텍처입니다. 평면도는 5 개의 코어로 구성된 3 개의 열로 구성되며, 각 열에는 자체 L3 캐시 슬라이스, 내장형 링 버스 및 열의 맨 위와 맨 아래에 전용 IO가 있습니다 (맨 위의 QPI 링크 및 맨 아래의 메모리 컨트롤러). 인텔은 오른쪽 열을 제거하여 10 코어 버전을 만들 계획입니다. 두 개의 행을 추가로 제거하여 6 코어 버전을 작성합니다.

15 코어 버전에는 41 억 3 천만 개의 트랜지스터가 있는데, 인텔은 마이크로 프로세서 중에서 가장 많은 것으로 541 평방 밀리미터를 측정합니다. 10 코어 버전에는 289 억 개의 트랜지스터가 있으며 341 평방 밀리미터입니다. 6 코어 변형에는 18 억 4, 000 만 개의 트랜지스터가 있으며 257 평방 밀리미터입니다. 작동 주파수는 1.4GHz ~ 3.8GHz이며 TDP는 40W ~ 150W입니다.

아이비 타운의 또 다른 흥미로운 측면은 메모리 버퍼 아키텍처입니다. 동일한 다이는 최대 1867MT / s에서 실행되는 표준 4 채널 DDR3 메모리와 2667MT / s에서 실행되는 메모리 확장 버퍼에 대한 새로운 4 채널 전압 모드 단일 종단 (VMSE) 인터페이스를 지원합니다. Westmere EX 메모리 용량의 3 배인 8 소켓 서버에서 최대 12TB의 메모리를 지원할 수 있습니다. 15 코어 버전은 두 가지 패키지로 제공됩니다. 하나는 쉽게 업그레이드 할 수 있도록 기존 Romley 플랫폼 (Socket-R)과 호환되고 다른 하나는 메모리 버퍼를 사용하여 새 플랫폼을 활성화합니다.

더 많은 Haswell 세부 사항

인텔은 또한 현재 핵심 제품군에 사용되는 Haswell 아키텍처에 대한 많은 세부 정보를 제공했습니다. 또한 22nm Tri-Gate 트랜지스터를 사용합니다. 인텔은 Haswell은 완전히 통합 된 전압 조정기 또는 FIVR (5 개의 전압 조정기에서 1로 플랫폼 통합), 더 나은 그래픽 성능을위한 내장 DRAM 캐시, 저전력 상태, 최적화 된 IO, AVX2 명령 및 더 넓은 SIMD 정수 단위.

Haswell에는 세 가지 기본 변형이 있습니다. 첫째, 빠른 그래픽 (2-4 개의 코어)으로 별도의 PCH (Platform Controller Hub)와 통신하는 쿼드 코어가 있습니다. 둘째, 듀얼 코어 Haswell과 PCH를 단일 멀티 칩 패키지로 결합한 울트라 북 플랫폼이 있습니다. 프로세서는 저전력 상태를 지원하고, PCH는 저전력으로 수정되며, 두 개는 저전력 버스를 통해 통신하므로 대기 전력이 95 % 감소합니다. 마지막으로 동일한 패키지에 Iris Pro 그래픽 및 128MB eDRAM 캐시가있는 버전이 있습니다. 멀티 칩 패키지는 CPU와 PCH 및 eDRAM간에 저전력에서 높은 대역폭을 제공하는 온 패키지 IO를 사용합니다.

CPU 코어 수와 그래픽 (GT2 또는 GT3)에 따라 Haswell은 9 억 5 천 8 백만 ~ 17 억 개의 트랜지스터를 가지고 있으며 다이는 130 ~ 260 평방 밀리미터입니다. 1.1 ~ 3.8GHz의 넓은 주파수 범위에서 0.7 ~ 1.1V에서 작동하도록 설계되었습니다.

128GB eDRAM 다이는 77 평방 밀리미터를 측정하며 102GBps의 피크 대역폭을 제공합니다. 인텔은 eDRAM이없는 동일한 시스템에 비해 추가 캐시가 최대 75 %의 성능 향상을 제공하지만 전체 성능은 30 ~ 40 % 증가한다고 밝혔다.

Kaveri를 강화하는 AMD의 Steamroller

AMD는 자사의 새로운 Kaveri 프로세서 시리즈에 사용되는 Steamroller라고하는 새로운 CPU 코어에 초점을 둔 가속 처리 장치 (APU 또는 CPU와 그래픽을 결합한 프로세서)에 더 많은 그래픽을 넣는 경향이 있습니다. 28nm 벌크 CMOS 공정으로 생산 된 스팀 롤러 코어는 29.47 평방 밀리미터의 영역에 2 억 2, 400 만 개의 트랜지스터를 가지고 있습니다. 여기에는 2 개의 정수 코어, 2 개의 명령어 디코드 장치 및 명령어 가져 오기, 부동 소수점 장치 및 2MB의 L2 캐시를 포함한 여러 공유 요소가 포함됩니다. AMD는 일반적으로 "이중 코어"칩에서 이러한 스팀 롤러 모듈 중 하나를 사용합니다 (2 개의 정수 코어 반영). "쿼드 코어"칩에서 2 개.

32nm SOI 프로세스에서 생성 된 이전 Piledriver 코어와 비교하여 Steamroller는 두 번째 명령어 디코드 유닛, 더 큰 96KB 공유 명령어 캐시 및 기타 향상된 기능을 추가합니다. AMD는 이로 인해 사이클 당 최대 14.5 % 더 많은 명령이 발생하여 단일 스레드 응용 프로그램의 성능이 9 % 향상되고 이중 스레드 응용 프로그램의 성능이 18 % 향상되는 것으로 나타났습니다. 또한 동일한 전력에서 500MHz 더 높은 주파수에서 작동하거나 38 % 전력 감소로 거의 동일한 성능을 제공 할 수 있습니다. 스팀 롤러 코어는 0.7 ~ 1.45V 범위에서 작동하도록 설계되었습니다.

MediaTek, Renesas 및 Qualcomm의 모바일 프로세서

많은 회사들이 ARM 기반 프로세서에 대한 프레젠테이션을했습니다.

MediaTek은 쿼드 코어 CPU 및 듀얼 GPU를 갖춘 28nm 이기종 멀티 코어 프로세서 (HMP)에 대해 이야기했습니다. MediaTek 칩에는 1.8GHz에서 실행되는 2 개의 Cortex A15 코어와 1.4GHz에서 실행되는 2 개의 Cortex A7 코어가 Imagination G6200 400MHz 듀얼 코어 GPU와 결합되어 있습니다. 또한 풀 HD 하드웨어 비디오 코덱과 13 메가 픽셀 이미지 센서 프로세서가 있습니다.

MediaTek은 칩을 모니터링하고 전력을 제어하는 PTP (성능, 열 및 전력) 기술에 대해서도 이야기했습니다. 이 경우 PTP는 클럭 속도가 23 % 증가하거나 최대 41 %까지 전력을 절약 할 수 있다고 말했다.

이 칩은 ARM의 진정한 HMP 처리를 사용하므로 워크로드에 따라 1에서 4까지의 크고 작은 코어 조합을 실행할 수 있습니다. MediaTek은 진정한 HMP를 사용함으로써이 칩은 무거운 워크로드에서 33-51 % 향상된 성능을, 가벼운 워크로드에서 2-5 배 더 우수한 에너지 효율성을 제공하는 반면 적응 형 열 관리는 또 다른 10 % 성능 향상을 제공한다고 말했다.

Renesas는 모바일 장치 및 자동차 인포테인먼트 시스템을 위해 설계된 "제안 된"28nm HPM 8 코어 이종 프로세서를 발표했습니다. 이 칩은 4 개의 2GHz Cortex A15 코어와 4 개의 1GHz Cortex A7 코어를 사용합니다. 최고 성능을 위해 8 개의 코어를 동시에 모두 작동 할 수 있지만 이기종 아키텍처 및 전원 관리 기술을 사용하여 특정 워크로드 또는 전력 엔벨로프의 성능을 최적화합니다.

Qualcomm은 다양한 멀티미디어 및 모뎀 애플리케이션을 위해 모바일 SoC에서 사용되는 Hexagon 디지털 신호 프로세서를 설명했습니다. 현재 버전은 28mm HKMG 벌크 CMOS 공정으로 제조됩니다. 이 설계는 높은 작동 주파수와 달리 클럭 당 높은 명령을 목표로합니다.

ARM 서버 측에서 Applied Micro는 최근 Open Compute Summit에서 처음 발표 된 회사의 1 세대 64 비트 ARMv8 프로세서에 대해 이야기했습니다. 이는 256KB의 L2 캐시를 공유하는 두 개의 코어를 포함하는 "Potenza"프로세서 모듈 (PMD)을 기반으로합니다. 포텐자는 40nm 벌크 CMOS로 제작되며 각 PMD는 8 천 8 백만 개의 트랜지스터를 포함하고 14.8 평방 밀리미터의 다이 영역을 사용합니다. 0.9V에서 최대 3GHz로 작동 할 수 있지만 일반적인 작업 부하에서는 평균 4.5W입니다. X-Gene 3 서버 플랫폼에는 4 개의 PMD (8 개의 코어), 8MB의 공유 L3 캐시 및 중앙 스위치 주변의 4 개의 DRAM 메모리 채널이 포함됩니다. 또한 10GB 이더넷, SATA 2/3, PCIe Gen. 3 및 USB 3.0을 통합합니다.

차세대 칩 프로세스 기술

거의 모든 주요 칩 제조업체가 14 나 16nm 노드에서 이미 3D 또는 FinFET 생산으로 전환 할 계획을 가지고 있기 때문에 차세대 칩 프로세스 기술에 대한 발표도있었습니다. 그러한 기술로).

삼성은 향후 14nm FinFET 공정에 대해 이야기하면서 128Mb 6T SRAM 어레이와 테스트 칩을 보여 주었다. 삼성은 FinFET이 우수한 스케일링, 높은 온 전류 및 낮은 누설을 제공하고 짧은 채널 제어 기능을 제공하기 때문에 저전력 모바일 SoC에 적합한 솔루션이라고 말했다.

또한 SRAM의 공급 전압이 스케일링되지 않았기 때문에 SRAM에도 몇 가지 문제가 있습니다. SRAM은 이제 SoC 다이 면적의 20-30 %를 차지하지만 전력의 약 40-50 %를 사용합니다. 이러한 문제를 해결하기 위해 삼성은 더 낮은 공급 전압에서 FinFET 트랜지스터를 사용하여 SRAM을 작동하는 몇 가지 새로운 기술을 제안했습니다.

TSMC는 비슷한 문제를 해결하여 16nm 128Mb SRAM 칩을 선보였다. TSMC는 FinFET이 20nm 이상의 생산을위한 주류 기술이되었지만 FinFET을 사용한 채널 폭과 길이의 크기는 기존의 6T-SRAM 및 공급 전압을 확장하는 데 어려움이 있다고 말했다. TSMC는 이러한 문제를 극복하기 위해 두 가지 쓰기 보조 기술을 제안했습니다.

이는 상당히 기술적 인 문제이지만 향후 더 밀도가 높고 전력 효율적인 칩을 얻으려면 문제를 해결하는 것이 중요합니다.