生成式AI的I/O瓶颈，或许可以用光子IC来突破

2023-10-13 09:47

电子发烧友网

周凯扬

尽管部署大量GPU是扩展算力的最直接途径，但与此同时传统的互联方案还是创造了巨大的I/O瓶颈，严重影响了GPU的性能利用率，导致更多的时间花在了等待数据而不是处理数据上。

本文来自电子发烧友网，作者/周凯扬。

从回答问题对话到写文章，ChatGPT这类应用已经帮我们展示了生成式AI带来的第一波震撼，从OpenAI的路线也可以看出，他们已经在努力把处理对象从单纯的文字，转换成图片、音频乃至视频了。但这也意味着待处理的数据大小以数量级提升，毕竟再长的文本和视频文件大小比起来还是相去甚远。

I/O瓶颈

要想进一步提升生成式AI的处理性能，我们就不得不看下背后为其提供动力的基础设备，也就是GPU、AI加速器、高带宽内存和光模块。AI模型发展的早期，只需单个GPU甚至是CPU就能处理简单的AI模型，而如今这些先进的AI模型，没有大型机柜组成的服务器和成千上万个GPU，是很难运行起来的。

比如特斯拉老版的自动驾驶训练超算，就是由720个节点的8x英伟达A100 GPU构成的，算力高达1.8 EFLOPS。小鹏于去年建成的智算中心扶摇算力规模高达600PFLOPS，预计也用到了上千块GPU。

为此，常用的方案变成了添加更多的GPU来弥补性能和计算效率上的损失，可这样的趋势已经在逐渐被淘汰，因为从减少碳足迹的角度来看，全球范围内各个国家都在开始考虑减少数据中心的能源损耗了。

光子IC

除此之外，另一解决方案就是利用光模块来解决速度慢的节点间电气连接，然而光模块成本较高、密度较低，所以需要更高速、端到端又能降低成本互联方案，即芯片到芯片之间的光学I/O。

利用更高带宽的光学连接取代诸多并行和高速串行I/O通道，这一愿景促使了行业对近封装光学和共封装光学的追求。相较外部可插拔的管模块，光子IC可将光学I/O集成到GPU封装内部，用来与其他的GPU节点进行直接通信，进一步提高了AI算力的扩展效率，满足了当下持续增长的AI需求。

近期，Sivers Semiconductors就在欧洲光通信展览会上展出了他们打造的八波长分布式反馈（DFB）激光器阵列，该阵列集成在了Ayar Labs的SuperNova多波长光源中，支持GPU之间最高4TB/s的数据传输。根据Ayar Labs提供的数据，新的光源配合它们的TeraPHY封装内光学I/O Chiplet，还提供了低上10倍的延迟和8倍的传输能效。

这样的表现无疑极大地提升GPU的性能利用效率，解决当下生成式AI在I/O性能瓶颈上的燃眉之急。尽管光子计算芯片目前尚不能替代传统的电子半导体器件，但从解决带宽和延迟需求上已经有了长足的进步。

写在最后

面对生成式AI模型大小的指数级上涨，以及逐渐庞大起来的推理数据量，传统的I/O性能必然会面临淘汰，而光子IC为高性能的AI芯片提供了一条更快更高效的通路。不过仍然需要注意的是，光子IC与传统IC还有设计与制造上的区别，比如需要特定的设计工具以及工艺等。因此要想发展光子IC跟上这一波趋势，就必须从EDA和晶圆代工厂开始抓起。

THEEND

免责声明：凡注明为其它来源的信息均转自其它平台，由网友自主投稿和发布、编辑整理上传，对此类作品本站仅提供交流平台，不为其版权负责。本网站对有关资料所引致的错误、不确或遗漏，概不负任何法律责任。若有来源标注错误或侵犯了您的合法权益，请作者持权属证明与本站联系，我们将及时更正、删除，谢谢。联系邮箱：xiali@infoobs.com

本月热门

三星电子公布工业 AI 路线图：数字孪生 + 专用机器人，到 2030 年全球制造基地将实现自主化生产

3月2日
C端、B端，不再那么泾渭分明了？

3月2日
折戟自研：Meta再次放弃先进AI芯片

3月2日
车企集体下场“造人”：一场被内卷逼出来的突围战

3月2日
光连接，向芯片端迈进

3月2日
国内智能影音行业生态化转型观察

3月2日

精选文章

聚力产学研用融合发展吉大正元投建网络安全产业园区

8月15日
2024（第十届）国企管理年会在京成功举办

12月30日
中国移动云客服能力亮相政务大会为政企数字化升级提供支撑

9月13日
“教育大脑”——智慧教育生态平台

4月8日
《上市企业增长蓝皮书》首发，全面解析上市企业增长的五大要素!点击下载!

12月5日
龙孚熊光辉：深耕信创，助力各行业数字化转型

8月16日

热点资讯

政策利好算力基础设施市场前景可观

生成式AI的I/O瓶颈，或许可以用光子IC来突破

2026 信息化观察网

长按扫描二维码阅读原文