紫影基地

 找回密码
 立即注册
查看: 415|回复: 0

阿里达摩院研发出全球首款存算一体AI芯片

[复制链接]
阅读字号:

2564

主题

2721

帖子

5万

积分

超级版主

Rank: 8Rank: 8

积分
59885
发表于 2021-12-7 09:17:41 | 显示全部楼层 |阅读模式
阿里达摩院研发出全球首款存算一体AI芯片

src=http _img.qjsmartech.com_Topic_Images_2020-01_2020011515494881028.jpg&refer=.jpg

近日,阿里达摩院近日成功研发新型架构芯片。该芯片是全球首款基于DRAM的3D键合堆叠存算一体AI芯片,可突破冯·诺依曼架构的性能瓶颈,满足人工智能等场景对高带宽、高容量内存和极致算力的需求。在特定AI场景中,该芯片性能提升10倍以上,能效比提升高达300倍。

所谓“存算一体AI芯片”,是指将传统以计算为中心的架构转变为以数据为中心的架构,其直接利用存储器进行数据处理,从而把数据存储与计算融合在同一芯片中,极大提高计算并行度与能量效率,特别适用于深度学习神经网络领域,如可穿戴设备、移动设备、智能家居等场景。

这一技术最早可追溯至20世纪60年代,斯坦福研究所的Kautz等人于1969年提出了存算一体计算机概念,后续研究主要围绕芯片电路、计算架构、操作系统、系统应用等层面展开,如加州大学伯克利分校Patterson等人成功把处理器集成在DRAM内存芯片当中,实现智能存算一体的计算架构。但受限于芯片设计复杂度与制造成本问题,以及缺少大数据应用驱动,早期的存算一体仅停留在研究阶段,并未得到实际应用。

此次阿里达摩院研发的存算一体芯片集成了多个创新型技术,是全球首款使用混合键合3D堆叠技术实现存算一体的芯片。该芯片内存单元采用异质集成嵌入式DRAM(SeDRAM),拥有超大带宽、超大容量等特点;计算单元方面,达摩院研发设计了流式的定制化加速器架构,对推荐系统进行“端到端”的加速,包括匹配、粗排序、神经网络计算、细排序等任务。

得益于整体架构的创新,达摩院存算一体芯片同时实现了高性能和低系统功耗。在实际推荐系统应用中,相比传统CPU计算系统,存算一体芯片的性能提升10倍以上,能效提升超过300倍。该技术的研究成果已被芯片领域顶级会议ISSCC 2022收录,未来可应用于VR/AR、无人驾驶、天文数据计算、遥感影像数据分析等场景。

src=http _img3.myhsw.cn_2019-08-01_kf78b0dx.jpg&refer=http _img3.myhsw.cn&app=20.jpg

国内外研究进展如何?

近年来,随着物联网、人工智能等应用领域的兴起,技术得到国内外学术界与产业界的广泛研究与应用。2016年,美国加州大学圣塔芭芭拉分校(UCSB)的谢源教授团队提出利用RRAM构建基于存算一体架构的深度学习神经网络(PRIME),受到业界的广泛关注。测试结果表明,与基于冯·诺依曼计算架构的传统方案相比,PRIME可以实现功耗降低约20倍、速度提高约50倍。该方案可以高效地实现向量-矩阵乘法运算,在深度学习神经网络加速器领域具有广阔的应用前景。此外,杜克大学、普渡大学、斯坦福大学、马萨诸塞大学、新加坡南洋理工大学、惠普、英特尔、镁光等国际知名大学及企业均开展了相关研究工作,并发布了测试芯片原型。

src=http _pic1.zhimg.com_v2-b0e6caefc907bb170213bc72240ce30a_1440w.jpg source=17.jpg

我国在这方面的研究也取得一系列成果,如中科院微电子所刘明教授团队、北京大学黄如教授与康晋锋教授团队、清华大学杨华中教授与吴华强教授团队、中科院上海微系统所宋志棠教授团队、华中科技大学缪向水教授团队等,相继发布相关器件和芯片原型,并通过图像/语音识别等应用进行了测试验证。

在当前摩尔定律逐渐放缓的背景下,存算一体成为解决计算机性能瓶颈的关键技术。


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|小黑屋|紫影基地

GMT+8, 2025-1-12 13:29 , Processed in 0.086731 second(s), 21 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表