RHINE IPU

新型超高速AI推理 IPU芯片与分布式集群架构

Technical Highlights

高达 14000~22000 Token/s 的超高速大模型推理

适配所有主流的 AI 大语言模型

极高的流水线并行处理能力支持大量用户并发

下一代 AGI 必备基础设施

Page 2

架构设计理念与技术解决方案

Chip Architecture Design Philosophy

全并行

区别于 Google TPU / Groq LPU 的脉动矩阵的单边并行流水线。我们采用真正的双维展开的矩阵全并行。

原生量化

芯片原生支持FP16+Q5/Q3量化，大幅提升推理性能，及降低显存开销。

分布式

采用分布式思想，将任务完全的拆解到大量不同的芯片中，并通过精巧设计的路由与高速通信，配合工作。

通用性

通过芯片配置模式与芯片的分布式组网方式，实现对99%+的模型结构的推理支持。

0访存

推理过程除加载注意力状态，无任何其他访存行为。权重载入任务全面分离至初始化阶段。

Systolic Array Animation

Page 3Global Clock / Cycles

0000

Google TPU Strategy

0

/ 11

Time ComplexityO(N)

Degree of ParallelismN²

Our Parallel Architecture

0

/ 3

Time ComplexityO(1) + O(Log2 N)

Degree of ParallelismN²

Performance Gain — ~945x Acceleration

Cycles reduced from 12287 to 13 via massive parallelization.

Page 4

VECTOR IN

+

Sum Unit 1

SUM
I/O

NORMALIZE

Norm Type

VECTOR MATRIX MULTIPLYCOMPUTE CORE

+

Sum Unit 2

ACTIVATION

Activation

VAL

×

Multiply Unit

+

Sum Unit 3

VECTOR OUT

AUX VECTOR IN

Control2 BIT

Page 5

芯片参数与仿真

Chip Parameters and Simulation

芯片面积

133 mm²

算力

703 TFLOPS

功耗

47 W

推理延迟

16.5 ns

M-LVDS 引脚数

768 Pad

权重存储

2.75 MB

* 数据来自14nm工艺下仿真的1024规格VM芯片暂不含通信部分

Page 6

联系我们

Contact Us

Mail: Official@RHINE.AI