直连向量单元
超快速AI
提供超快速AI解决方案
64位内核集成
为与我们的64位内核集成而优化
集成向量单元及Gazzillion
与我们的向量单元及Gazzillion无缝集成
普遍RISC-V兼容性
在任何RISC-V向量赋能的Linux下无改动运行
无需DMA编程
轻松编程,无需DMA
能源高效
低功耗
什么是张量(Tensor)单元?
在大语言模型(LLM)中的批量运算是在完全相连的层面中进行的,这些层面可被高效地实施为矩阵乘法。张量(Tensor)单元提供特别为矩阵乘法工作定制的硬件,使AI性能得以巨量提升但无需很高能源消耗。
张量(Tensor)单元被设计用于完全与我们其它创新技术集成一体以提供卓越AI性能的解决方案。
首先,在核心处,是我们64位完全可定制的RISC-V内核。然后是持续由我们Gazzillion技术提供数据的向量单元,有效地隐藏了内存延迟。之后张量(Tensor)单元与向量单元内的向量寄存器直连。张量(Tensor)单元进行AI需要的矩阵乘法运算。这一解决方案的每一阶段都被设计为与其它部件完全集成以优化AI性能并易于编程。这样的结果就是与仅在标量内核上运行AI软件相比较,性能提升128倍。
世界需要超快速AI解决方案,而我们独具一格的技术组合可以满足。
Semidynamics向量单元
张量(Tensor)单元构建于Semidynamics RVV1.0向量处理单元基础上,并借助了现有向量寄存器来存储以下所示矩阵。这使得张量(Tensor)单元被用于需要矩阵乘法能力的层面,例如完全连接与卷积,并为激活函数层(ReLU, Sigmoid, Softmax等)使用向量单元,是对通常难于处理激活层的独立NPU的重大改进。
张量(Tensor)单元同时借助向量单元能力以及Atrevido-423 Gazzillion™能力从内存获取所需数据。张量(Tensor)单元以惊人速度消耗数据,因此如果没有Gazzillion,一个普通内核将无法满足张量(Tensor)单元的需要。其它解决方案依赖难于编程的DMA来解决这一难题。而Semidynamics无缝集成了张量(Tensor)单元到这一cache相干子系统中,开启了一个AI软件编程简化的新时代。
此外,因为张量(Tensor)单元使用向量寄存器存储数据,无需引入可视的架构新状态,它可以无缝地工作于任何RISC-V向量赋能Linux中而无需任何改动。