Frank Schirrmeister
2025년 12월 22일
AI 하드웨어 업계의 거대 기업들과 정면으로 경쟁하기 위해서는, 스타트업 칩 디자이너들이 기존과는 완전히 다른 접근 방식을 택해야 한다. 그리고 무엇보다도 빠르게 혁신해야 한다.
바로 그 점에서, AI 칩 유니콘 기업인 Rebellions는 신형 REBEL‑Quad 반도체로 완벽한 해답을 보여주었다. Hot Chips 2025에서 공개된 REBEL‑Quad는 세계 최초의 UCIe‑Advanced 기반 AI 가속기로, 수백억~수천억 파라미터 규모의 최신 프런티어 LLM을 위해 설계된 제품이다. 4개의 동일한 칩렛(4-homogeneous-chiplet) 기반 SoC 아키텍처는 FP8 기준 최대 2,048 테라플롭스(TFLOPS) 성능을 제공하며, 이는 최고급 GPU의 성능과 유사한 수준이다.
하지만 가장 중요한 차별점은 바로 ‘압도적인 에너지 효율’이다.
REBEL‑Quad는 동급 최상위 GPU 대비 1.6배 높은 처리량과 50% 낮은 전력 소모를 달성하며, 결과적으로 와트당 초당 트랜잭션(TPS/W) 기준 3.2배의 효율을 제공한다.
(Llama 3.3 70B, FP8 환경에서 측정)
AI 워크로드로 인해 치솟는 에너지 사용량에 맞서야 하는 데이터센터 입장에서, Rebellions는 REBEL‑Quad가 동급의 높은 성능을 유지하면서도 훨씬 나은 총소유비용(TCO)을 제공할 것이라고 확신하고 있다.
Rebellions의 공동 창업자이자 CTO인 오진욱 박사는 “매우 강력한 솔루션으로, GPU 대비 훨씬 높은 에너지 효율을 제공할 수 있으며, REBEL‑Quad가 TCO 기준 역대 최고 수준의 성능을 제공하여, AI 추론 시장에 큰 변화를 가져올 것이라고 믿습니다.” 라고 전했다.
새로운 시장을 향한 도전
REBEL-Quad는 Rebellions이 미국과 유럽 시장을 본격적으로 겨냥하는 첫 번째 제품이다. 2020년에 설립된 리벨리온은 Arm뿐만 아니라 SK하이닉스, SK텔레콤, KT, 삼성벤처투자 및 삼성증권 등 한국의 주요 기업들로부터 투자를 받으며 빠르게 성장해왔다. Rebellions의 이전 세대 반도체인 ATOM‑Max는 이미 양산 단계에 들어섰으며, 주로 아시아 시장을 겨냥한 제품이었다.
하지만 REBEL‑Quad를 통해, Rebellions는 훨씬 더 큰 글로벌 기회를 노리고 있다.
오진욱 CTO는 “미국 고객들은 TCO(총소유비용)에 매우 민감합니다. 시장 경쟁이 치열하긴 하지만, 우리가 강력한 TCO 이점을 제공할 수 있다면 수요는 충분히 있을 것이라고 생각합니다.”라고 말했다.
미국 외 지역에서는, 자국 내 AI 데이터센터를 구축하고자 하지만 GPU 조달에 어려움을 겪는 국가들에게 REBEL‑Quad가 훌륭한 대안이 될 것으로 그는 예상한다.
“그들은 정말로 GPU를 원하고 있습니다. 우리 솔루션은 좋은 대체제가 될 것입니다. 이 솔루션이 여러 GPU 시장을 대체하게 될 것이라고 믿습니다.”라고 그는 덧붙였다.
경쟁을 위한 협업
Rebellions의 시장 전략에서 핵심적인 요소는 ‘시스템 회사’로 자리매김하는 것이다.
Rebellions는 Marvell Technology와 Credo Technology와 같은 업체들과 협력해 SoC 설계와 칩렛 구성 요소를 함께 개발하고 있으며, Pegatron과 Penguin Solutions 같은 AI 서버 랙·인프라 파트너들과도 협업을 확대하고 있다. Rebellions의 목표는 REBEL‑Quad에 최적화된 독자적인 가속기 보드와 풀 랙 서버 시스템을 직접 설계·제조하는 것이다.
오진욱 CTO는 “우리는 랙 단위에서 고성능인 동시에 에너지 효율적인 솔루션을 제공하고자 합니다. AI 전용 데이터센터의 요구사항과 제약을 깊이 이해함으로써, 해당 환경에 가장 잘 맞는 최적화된 솔루션을 제공할 수 있습니다.” 라고 설명했다.
협력 파트너를 더욱 확대하기 위해, Rebellions는 최근 Arm Neoverse Compute Subsystems(CSS)를 기반으로 커스텀 시스템을 개발하는 업계 리더 그룹인 Arm Total Design 생태계에 합류했다.
오진욱 CTO는 “Arm은 이 생태계의 핵심 축이 되고 있습니다. 적절한 파트너를 선택하고, 그 생태계 위에 올바른 솔루션을 구축하는 것이 우리가 빅테크들과 경쟁할 수 있을 만큼 성능을 높이는 데 있어 가장 중요한 요소입니다.” 라고 강조했다.
에뮬레이션으로 칩 검증과 소프트웨어 개발 가속화
AI 패권 경쟁에서 ‘출시 시점(Time to Market)’은 결정적인 요소다. Rebellions는 자사의 혁신적인 반도체를 더 빠르게 검증하기 위해 Synopsys와 협력하여 Synopsys의 ZeBu 및 Virtualizer solution을 사용해 검증 속도를 빠르게 할 수 있었다.
REBEL‑Quad의 핵심은 4개의 동일한 연산 칩렛을 고대역폭의 UCIe‑Advanced 링크로 연결한 모듈형 SoC 아키텍처다. I‑Cube S 패키지 내에서 이 칩렛들과 함께 배치된 4개의 HBM3E 메모리 스택은 총 144GB 용량과 약 4.8TB/s의 통합 대역폭을 제공한다.
오진욱 CTO는 “검증은 매우 어려운 작업이지만, ZeBu는 최적의 플랫폼입니다. ZeBu의 속도와 용량, 그리고 Synopsys 의 기술지원 덕분에 이번 프로젝트의 에뮬레이션을 성공적으로 마칠 수 있었습니다.”라고 말했다.
Rebellions는 Synopsys와 긴밀한 협력을 통해 ZeBu와 Virtualizer를 결합한 하이브리드 솔루션으로 REBEL‑Quad의 검증환경을 구현했다. 특히 Virtualizer는 가상 프로토타이핑과 소프트웨어 개발 가속화에 적극 활용되었다.
오진욱 CTO는 “우리 소프트웨어 엔지니어들은 필요에 따라 적합한 방식을 선택했습니다. 기능 전체를 철저하게 검증해야 할 때는 전체 매핑된 솔루션을 사용했고, 소프트웨어 스택을 빠르게 개발해야 할 때는 Virtualizer를 활용했습니다.”라고 설명했다.
Rebellions의 엔지니어들은 실제 LLM을 구동하고, 호스트에서 프롬프트를 입력하며, 전체 시스템 맥락에서 토큰 생성 가속이 어떻게 이뤄지는지 관찰할 수 있었다. 사용자의 최종 애플리케이션을 초기 설계 단계부터 통합함으로써, 개발팀은 TPS/W 테스트를 개발 초기 단계로 ‘시프트 레프트(shift-left)’ 할 수 있었다.
AI 가속기의 최종 사용자는 초당 처리되는 토큰 수를 최대화하는 데 집중하지만, 개발 과정에서는 ZeBu 같은 플랫폼을 활용한 빠른 검증이 필수적이다. 이를 통해 토큰 하나를 처리하는 데 필요한 시간을 크게 줄일 수 있기 때문이다. 에뮬레이션을 활용하면, 설계 복잡도에 따라 이 실행 시간이 수 분 단위로 단축될 수 있다.
오진욱 CTO는 “우리는 대부분의 소프트웨어 스택을 프리실리콘 단계에서 준비한 덕분에 첫 실리콘을 받은 후 단 5주 만에 라이브 데모까지 진행할 수 있었습니다. 이는 대단한 성과였습니다. 더 놀라웠던 점은 ZeBu를 사용한 성능 예측이 실제 실리콘과 98%의 정확도로 거의 일치했다는 사실입니다 “라고 강조했다.
치열한 경쟁
전 세계에 강력하면서도 에너지 효율적인 AI 반도체를 제공하기 위한 경쟁이 치열해지는 가운데, 스타트업들은 그 어느 때보다 빠른 혁신이 요구되고 있다. Rebellions는 REBEL‑Quad 개발을 통해 효율적이고 확장 가능한 추론을 위한 AI 가속기 카드를 설계했으며, 치열한 시장에서 주목해야 할 플레이어임을 입증했다.