RHINE  IPU
新型超高速AI推理 IPU芯片 与 分布式集群架构
A B C M
Technical Highlights
高达 14000~22000 Token/s 的超高速大模型推理
适配所有主流的 AI 大语言模型
极高的流水线并行处理能力 支持大量用户并发
下一代 AGI 必备基础设施
Page 5 Background
Page 2
架构设计理念 与 技术解决方案
Chip Architecture Design Philosophy
全并行
区别于 Google TPU / Groq LPU 的脉动矩阵的单边并行流水线。我们采用真正的双维展开的矩阵全并行。
原生量化
芯片原生支持FP16+Q5/Q3量化,大幅提升推理性能,及降低显存开销。
分布式
采用分布式思想,将任务完全的拆解到大量不同的芯片中,并通过精巧设计的路由与高速通信,配合工作。
通用性
通过芯片配置模式与芯片的分布式组网方式,实现对99%+的模型结构的推理支持。
0访存
推理过程除加载注意力状态,无任何其他访存行为。权重载入任务全面分离至初始化阶段。

Computing Architecture Comparison

1×4096 Vector — 4096×4096 Matrix Performance Analysis

Systolic Array Animation
Page 3Global Clock / Cycles
0000

Google TPU Strategy

0
/ 11
Time ComplexityO(N)
Degree of ParallelismN2

Our Parallel Architecture

0
/ 3
X 0X 1X 2X 3
Time ComplexityO(1) + O(Log2 N)
Degree of ParallelismN2

Performance Gain — ~945x Acceleration

Cycles reduced from 12287 to 13 via massive parallelization.

Page 4
VECTOR IN
+
Sum Unit 1
SUM
I/O
NORMALIZE
Norm Type
VECTOR MATRIX MULTIPLYCOMPUTE CORE
+
Sum Unit 2
ACTIVATION
Activation
VAL
×
Multiply Unit
+
Sum Unit 3
VECTOR OUT
AUX VECTOR IN
Control2 BIT
Page 5
芯片参数与仿真
Chip Parameters and Simulation
芯片面积
133 mm²
算力
703 TFLOPS
功耗
47 W
推理延迟
16.5 ns
M-LVDS 引脚数
768 Pad
权重存储
2.75 MB

* 数据来自14nm工艺下仿真的1024规格VM芯片 暂不含通信部分

Page 6
联系我们
Contact Us

当前页面分辨率暂不支持完整显示,请使用更大尺寸屏幕的设备,或缩小网页比例。