ARM big.LITTLE


ARM big little 프로세서는 이기종 컴퓨팅 시스템 프로세서로 ARM사에서 개발 하였음.

낮은 전력의 프로세서 코어드리과 더욱 강한 프로세서 코어들이 연결되는 형태로 되어있다.

 

이 프로세서의 의도는 다이나믹 컴퓨팅을 하는데 있어 클럭 스케일링만을 사용하는것 보다 낮은 전력을 사용하도록 조정하는데 있음.

 

2011년 10월 big.LITTLE 프로세서 Cortex-A7이 발표됬다, 이 프로세스는 Cortex-A15와 구조적으로 호환 될 수 있도록 디자인 되었다.

 

2012년 10월애 ARM은 Cortex-A53와 Cortex-A57(ARMv8) 코어들을 발표했다, 이 프로세서들 또한 각자가 빅리틀 칩 안에서 호환 가능하다. 

  

목차 

1. 클러스터 마이그레이션

2. 인-커널 스위쳐(CPU 마이그레이션)

3. 이종 멀티 프로세실(글로벌 태스크 스케쥴링)

4. 스케쥴링

5. 글로벌 테스크 스케쥴링의 이점들

6. 적용된 기기들

7. 레퍼런스들

8. 외부 링크들


Cluster migration

 big.LITTLE에는 다른 성능의 프로세서 코어들을 이어주기 위한 리눅스 커널에 포함되어 스케쥴러의 종속되어있는 3가지 방법이 있다. 클러스터화 모델 접근법은 첫 그리고 가장 단순한 적용이다.  

 이 접근법일 때 OS 스케쥴러는 두 프로세서 클러스터들 중 하나만 볼 수 있다. CPU의 부하가 특정 포인트에 다가갔을 때 시스템은 다른 클러스터로 전이된다.

 모든 관련 데이터는 L2 cache를 통하여 바로 이동 된다. 첫 번째 코어 클러스터는 꺼지고 다른 하나의 클러스터는 활성화 된다. 캐쉬 일관성 인터커넥트(Cache Coherent Interconnect, CCI)가 사용된다.  이 모델은 삼성 Exynos 5 (5410)에 구현되었다. 

  

 

In-kernel switcher(CPU migration)

 

인커널 스위쳐(IKS)를 통해 이루어지는 CPU 마이그레이션은 'Big'코어와 'LITTLE'코어의 쌍으로 이루어져 있는데, 한 칩 안에 가능한한 많은 동일한 칩들로 구성되어있다.  

 각 쌍들은 가상의 하나의 코어처럼 작동하고, 한 시점에 반드시 둘 중 하나의 코어만이 작동하게 된다. 'Big' 코어는 높은 요구 상황에서 작동하고, 'LITTLE'코어는 낮은 요구 상황에서 작동한다. 가상 코어의 변화(High와 low의 사이 변화)가 요구될 때, 새로 사용되는 코어는 전력이 인가되고, 실행 상태(Running state)가 전이되며, 사요여이 중지된 코어는 꺼진다, 그리고 새로운 코어상에서 프로세싱이 지속된다.  

스위칭은 cpufreq 프레임워크에 의해서 완료된다.  완벽한 big.LITTLE IKS의 구현은 리눅스 3.11이나 3.12쯤이 예상된다. big.LITTLE IKS는 클러스터 마이그레이션의 발전된 형태이고, 제일 큰 다른점은 각 쌍들이 스케쥴러에게 가시적이라는 점이다. 

 

 'big'과 'LITTLE'코어들의 비대칭(non-symmetric) 그룹화에는 더 많은 합의점들이 포함된다. 하나의 칩이 한 두개의 'big' 코어와 보다 많은 'LITTLE' 코어들을 가질 수 있다, 혹은 반대의 경우도 있다. Nvidia가 Tegra 3 SoC에 저 전력의 'companion core'라는 이것과 비슷한 것을 만들었다. 

   

Heterogeneous multi-processing (global task scheduling)

 

 big.LITTLE의  가장 강력한 사용 모델은 모든 코어들을 동시에 사용가능한 이기종 멀티-프로세싱(geterogeneous multi-processing)이다.  이 모델에서는 높은 우선순위거나 높은 계산능력을 요하는 쓰레드들이 벡그라운드 task들 처럼 낮은 우선순위나 낮은 계산능력을 요하는 쓰레드들과 동시에 같은 빅 코어를 할당 받을 수 있고, 'LITTLE' 코어들에 의해서도 수행 될 수 있다.  몇 쿼터들 안에 리눌수 커널 속에 big.LITTLE의 상위 GTS 패치들에 완전 포함 될 예정이다. 이 모델은 삼성 Exynos 5 Octa(5420)에 포함되었다. 

 

 

Scheduling

쌍으로 된 처리 방식은 운영체제(OS)가 이미 존재하는 DVFS(dynamic voltage and frequency switching) 기능을 완전하게 지원하기위해 스위칭을 하는것을 허용한다. 

 커널 안에 이미 존재하는 DVFS 지원(ex. 리눅스의 cpufreq)은 간단하게 frequencies/voltages 리스트를 보거나 그 둘 사이가 보기 좋도록 switch 될 것이다, 마치 이것이 존재하는 하드웨어에서 작동하는 듯이. 

 어쨌든,  low-end 슬롯들은 'LITTLE' 코어에서 동작하고 high-end 슬롯들은 'big' 코어에서 동작하게 됨. 

 

 그렇지 않으면, 아마도 모든 코어들은 각 process/thread 가 실행되는 곳이 어딘지 결정할 수 있는 커널의 스케쥴러에 노출될 것이다. 

이것은 non-paired 방식이 요구된다 하지만 paired 코어들에서도 가능 할 수 있다. 이것은 몇가지 커널 스케쥴러에 특별한 문제들을 야기한다, 그것은, 최소한 현대 상품화된 하드웨어들에 있어, SMP 시스템을 사용한 모든 코어들이 같은 문제를 가지고 있다고 추정할 수 있다. 

 

Advantages of global task scheduling(글로벌 task 스케쥴링의 이점들)

  •  코어들의 사이의 migrated된(이주된) 워크로드의 매끄러운 컨트롤. 이유는 스케쥴러가 태스크들을 코어들 사이에 직접적으로 migrating(이주)시킴으로, 커널의 오버해드가 감소되고 전력이 절약이 될 수 있다.
  • 스케쥴러 안에 구현됨 또한 switching(변환) 결정이 IKS 안에 구현된 cpufreq 프레임 워크에 구현된 것보다 빠르다. 
  • non-symmetrical(비대칭) SoCs(e.g. 2 Cortex-A15 코어들과 4 Cortex-A7 코어들)을 쉽게 서포트하기 위한 능력.
  • 모든 코어들을 simultaneously(동시에, 일제히) 사용하기 위해 Soc는 IKS와 비교하여 향상된 최고 퍼포먼스를 제공한다.

 

 

구현들

 

SoC

Semiconductor technology

big cores

LITTLE cores

GPU

Memory interface

Wireless Radio Technologies

Availability

Utilizing Devices

HiSilicon K3V3

28 nm

1.8 GHzdual-coreCortex-A15

1.2 GHz dual-coreCortex-A7

Mali-T658

H2 2013

SamsungExynos 5 Octa (5410 model)[8][9]

28 nm

1.6-1.8 GHzquad-coreCortex-A15

1.2 GHz quad-core Cortex-A7

PowerVR SGX544MP3

32-bit dual-channel 800 MHz LPDDR3 (12.8 GB/sec)

Q2 2013

Samsung Galaxy S4(International version only, not including Canada, Sweden, or USA [10])

SamsungExynos 5 Octa (5420 model)[11]

28 nm

1.8-2.0 GHz quad-core Cortex-A15

1.3 GHz quad-core Cortex-A7

Mali-T628MP6

32-bit dual-channel 933 MHz LPDDR3e (14.9 GB/sec)

Q4 2013

Samsung Galaxy Note 3 [12]

Renesas Mobile MP6530[13]

28 nm

2 GHz dual-core Cortex-A15

1 GHz dual-core Cortex-A7

PowerVR SGX544

Dual-channel LPDDR3

LTE CAT4


 

References

  1. ^ "ARM Unveils its Most Energy Efficient Application Processor Ever; Redefines Traditional Power And Performance Relationship With big.LITTLE Processing" (Press release). ARM Holdings. 19 October 2011. Retrieved 2012-10-31.
  2. Jump up^ "ARM Launches Cortex-A50 Series, the World’s Most Energy-Efficient 64-bit Processors" (Press release). ARM Holdings. Retrieved 2012-10-31.
  3. Jump up^ Brian Jeff (18 June 2013). "Ten Things to Know About big.LITTLE"ARM Holdings. Retrieved 2013-09-17.
  4. Jump up^ George Grey (10 July 2013). "big.LITTLE Software Update"Linaro. Retrieved 2013-09-17.
  5. Jump up^ Peter Clarke (6 August 2013). "Benchmarking ARM’s big-little architecture". Retrieved 2013-09-17.
  6. Jump up^ Big.LITTLE Processing with ARM Cortex™-A15 & Cortex-A7ARM Holdings, September 2013, retrieved 2013-09-17
  7. Jump up^ Brian Klug (2013-09-11). "Samsung Announces big.LITTLE MP Support in Exynos 5420".AnandTech. Retrieved 2013-09-16.
  8. Jump up^ Andrew Cunningham (10 January 2013). "Samsung’s new eight-core Exynos 5 Octa SoC promises not to hog battery"Ars Technica. Retrieved 2013-01-10.
  9. Jump up^ James Trew (9 January 2013). "Samsung announces eight-core Exynos 5 'Octa' chip at CES".Engadget. Retrieved 2013-01-10.
  10. Jump up^ "US, Canada and Sweden getting Snapdragon 600 based Galaxy S4"GSMArena. 18 March 2013. Retrieved 2013-03-18.
  11. Jump up^ "Samsung Primes Exynos 5 Octa for ARM big.LITTLE Technology with Heterogeneous Multi-Processing Capability" (Press release). Samsung Electronics. 10 Semtember 2013. Retrieved 2013-09-17.
  12. Jump up^ Abhijeet M. (16 September 2013). "Samsung Galaxy Note 3 is powered by Exynos 5420, has 2720MB of available RAM". SAMMOBILE. Retrieved 2013-09-17.
  13. Jump up^ MP6530Renesas Mobile, December 2012, retrieved 2013-09-17

 

 

외부 링크들

 

 

 

 

 

 

 

 


출처 : 위키피디아(영문 페이지 http://en.wikipedia.org/wiki/ARM_big.LITTLE

 - 지속 번역 및 수정 예정 동시에 위키피디아도 수정 예정임 / 오번역이나 이해가 다른 부분이 있으면 지적 부탁드립니다. / 위키는 당일 번역 후 하루 뒤에 업로드 됩니다.) 

'시스템 > 이론' 카테고리의 다른 글

시스템의 구조에 대해서 알아보기  (0) 2013.12.10
Posted by 시크한공돌이
,

목적. 

 시스템의 여러가지 구조를 알아보고 이해하는 시간을 갖도록 한다.


# 시스템 구조

 

1. 단일 프로세서 시스템

 - CPU와 메모리가 하나씩만 있다.

 

2. SMP(Symmetric Parallel Processing) 시스템

 - 모든 CPU가 동일한 메모리, 시스템 버스 및 I/O 시스템을 공유하고 단일 운영체제가 모든 CPU를 제어한다.

 

3. MPP(Massively Parallel Processing) 시스템

 - 서로 유기적으로 연결된 여러 노드로 구성된다.

   노드마다 다른 CPU, 메모리, 버스, 디스크 및 I/O 시스템을 사용하고 노드마다 다른 운영체제 복사본을 실행한다.

 

4. 클러스터 시스템

 - 클러스터는 LAN 상호 연결 기술을 통해 결합된 여러 노드로 구성되며,

    각 노드는 하나 이상의 CPU를 포함할 수 있다.

    클러스터에서 시스템 소프트웨어는 여러 노드에 작업 로드를 균등하게 분산하고 높은 가용성을 제공한다.

 

5. NUMA (Nonuniform Memory Arcitecture) 시스템

 - 상호 연결을 통해 대형 시스템을 형성하는 여러 SMP 시스템으로 구성된다.

   클러스터 시스템과 달리, 모든 SMP 시스템의 모든 메모리는 서로 유기적으로 연결되어 모든 서브 시스템에 투명한 하나의 대용량 메모리 공간을 형성한다.

 

SMP 시스템과 MMP 시스템 추가

 

 

SMP(Symetric Multiprocessing) 

- 대칭형 다중처리 시스템. 두 개 또는 그 이상의 프로세서가 한 개의 공유된 메모리를 사용하는 

다중 프로세서 컴퓨터 아키텍처 이다. 현재 사용되는 대부분의 다중 프로세서 시스템은 SMP 

아키텍처를 사용한다.

 

SMP는 운영체제와 메모리를 공유하는 여러 프로세서가 프로그램을 수행하는 것을 말한다. SMP 

프로세서는 메모리와 입출력 버스 및 데이터 경로를 공유하며 또한 하나의 운영체제가 모든 

프로세서를 관리한다. 보통 2개이상의 프로세서로 이루어 진다.

 

SMP 시스템은 작업을 위한 데이터가 메모리의 어느 위치에 있는지 상관없이 작업할 수 있도록 

프로세서에게 허용 한다. 운영체제에서 지원한다면 SMP 시스템은 부하의 효율적 분배를 위해

프로세서간 작업 스케쥴링을 쉽게 조절 할 수 있다.

 

SMP 시스템은 보통  MPP에 비하여 병렬 프로그래밍이 훨씬 쉽고 프로세서간 작업 분산

(workload balance)을 시키기가 훨씬 용이하지만 확정성은 MPP에 비하여 취약하다. 또한 

많은 사용자가 동시에 데이터베이스 접근하여 일을 처리하는 OLTP 작업에서 강점을 보인다.

 



 

 

 

MPP(Massively Parallel Processing)

- 고도 병렬처리 시스템. 프로그램을 여러 부분으로 나누어 여러 프로세서가 각 부분을 동시에

수행 시키는 것. 이때 각 프로세서는 운영체계와 메모리를 따로 가지고 일을 수행 하며 각 

프로세서간에는 메시지 패싱과 같은 기법을 이용하여 통신을 한다. 비슷한 개념으로 NUMA 

아키텍처가 있다.

 

따라서 하나의 프로그램을 수행하는데 수백 혹은 수천개의 프로세서를 이용 할 수 있다. 

MPP의 성능을 사용하려면 프로그램을 독립적으로 수행되는 여러 부분을 나누고 각 프로세서가

다른 프로세서와 정보를 주고받는 일을 효율적으로 할 수 있는 하드웨어 구조와 이를 뒷밤침 

하는 운영체제의 성능이 필요하다.

 

MPP시스템은 OLTP 보다 여러 데이터베이스를 동시에 검색하는 의사결정시스템이나 

데이터웨어하우징 시스템에서 보다 나은 성능을 나타낸다. 또한 같은 패턴이 반복되는 이미지

프로세싱에도 적합한 것으로 알려져 있다.

 



 


'시스템 > 이론' 카테고리의 다른 글

ARM big.LITTLE 프로세서 알기  (0) 2013.12.10
Posted by 시크한공돌이
,