为什么存储芯片制造商正在转向AI处理

互联网
互联网
我们可以在内存存储中做什么以实际缩短解决方案的时间?我们总是可以建立更高的带宽,但这不一定是要带您到达那里的方法。有什么可以做的,例如散射张量阵列?如果我们可以建立一个可以引入矩阵的缓冲区,并允许我们一口气将矩阵移过来,而不是随便找东西去寻找它,那将有很大的好处。

上周,当全球最大的存储芯片制造商之一的美光科技(Micron Technology)收购了人工智能硬件和软件初创公司Fwdnxt时,我做了两次尝试。

此举可能非常有趣。如果能取得成果,Fwdnxt可以使美光科技与英特尔和英伟达等合作伙伴进行直接竞争,因为美光科技认为内存和AI计算正在融合到同一个架构中。

但是,美光负责这个项目的人之一是史蒂夫·帕洛夫斯基(Steve Pawlowski),这是前英特尔芯片架构师,他拥有数十项专利,这绝非偶然。Pawlowski现在是美光公司高级计算解决方案副总裁。

与美光的存储芯片结合使用时,Fwdnxt(发音为“forward next”)将使美光能够探索数据分析所需的深度学习AI解决方案,尤其是物联网和边缘计算。也许它将制造基于AI的存储芯片,或者包括AI的存储芯片。

美光公司首席执行官Sanjay Mehrotra说,基于Boise的美光公司正在从事这项工作,因为“昨天的计算体系结构不适用于明天……从长远来看,我们认为计算最好在内存中完成。”Micron Insights活动上周在旧金山举行。

这是我们采访的剪辑稿。

Steve Pawlowski:2014年离开英特尔时,我来到美光,他们说:“您想做什么?”我说:“我坚信计算和内存的融合对于提高性能和降低延迟至关重要。。你是一家记忆公司。您拥有技术。DRAM将会出现一段时间。我想解决这个问题。”他们说,“好。”

我有一个小组,专注于发现计算和内存的问题-我们可以开始测试概念,开始将概念引入产品中,但不会增加成本。我在英特尔了解的一件事,就是我永远不会忘记这个故事-我们曾经拥有数学协处理器。80287,80387。我们在387上赚了可观的钱。我们有一个聪明的主意,那就是如果将协处理器集成到486中,我们可以更快更好地做到。我们做到了,突然之间我们没有了足够的足迹。不需要它的人说:“您不需要为此死区向我收费。”而需要它的人说,“您将与其他人一样付给我,因为我是一个有利的客户。”实际上,整个业务为零。

那里的主要经验是,您不能增加更多的复杂性和成本,并希望人们立即支付费用。直到有绝大多数人从中获得真正的价值。我们关注的重点是找到人们今天可以从中获得价值的关键事物,然后看看您是否可以随着时间的推移扩大泡沫。我将其视为八到十年的旅程。在那些年末,我可能回头一看,意识到我浪费了他们。或者我可以回头说:“哇,我们可能还没到这里,但是我们做得很好。”

VentureBeat:关于此可能产生的结果,这引发了很多想象力,但是您是否会暗示某些特定的内容?

Pawlowski:一件事,您已经在这里听到很多,是边缘的AI。我们专注于此的原因在于,您没有在市场上竞争的现有编程模型或现有体系结构。可以这么说,每个人都在努力进入同一个摊位。有机会去那里做些事情。人们不会看着你,而是说:“美光科技是一家内存公司。他们看起来像是-我们在FPGA中具有此功能,它具有高性能存储器和可映射到FPGA的架构。我们会处理所有抽象,因此您不必成为VHDL程序员。您愿意开始解决数据集问题吗?

有趣的是,我并没有真正去推动它。我们一直在参加FPGA会议之类的活动。主要是政府机构过来说:“我们在这里遇到了问题。政府的问题是,他们很早就感到兴奋,但如果您想做点什么,那将需要很长时间。采购周期长。合同很长,还有其他一切。

我们决定着眼于一般市场。一家汽车公司来了,说:“我们不是5级,但我们肯定可以获得3级,4级自动驾驶汽车,我们希望能够使用网络来告诉我们发生了什么。这看起来很有趣。您愿意与我们合作吗?”内部许多人说:“他们为什么对与您合作感兴趣?”这是因为我不愿意告诉他们他们需要做什么。我说:“这就是我们所拥有的。我们能为您做什么?”他们说:“好的,您愿意听我们的话。这是我们的问题。”

我在2005年AMD推出Opteron时学到了这一课,信不信由你。我们仍在推动7千兆位处理器,33级流水线,并且没有人去那里。我们去了华尔街,这是您想要爬进贝壳的那一刻,因为它们确实被照亮了。但是我说:“您能给我们另一个机会吗?我们可以坐下来了解我们的工作量,与您一起工作,我会把它收回来,以便我们可以开发出更好的产品吗?”

我们翻了很多人。瑞银(UBS),我记得他们写的一篇文章说:“您可能没有制造最大的芯片或最好的芯片,但您来了却明白了我的问题。”真正了解客户和他们的问题以及您可以做什么。如果您这样做却对他们没有帮助,嘿,您学到了一些东西。

VentureBeat:就缩小范围而言,它是否带有一种新的内存,还是要确定处理的位置?

Pawlowski:答案是肯定的。但这是对动态的真正理解。顺便说一下,它取决于模型。我只是在和那里的某人谈论某些语言模型如何需要100 GB的参数。当您看到有人说“嘿,我有2 GB,4 GB”时,它适用于大多数型号,但不是全部型号。这些模型确实在发展。

这也取决于解决方案的延迟。我不知道您是否在那位女士患有乳腺癌的地方看到OHSU视频。他们需要大量数据,因为他们希望将所有电子显微镜图像放在一起,并建立3D卷积模型,即肿瘤的3D表示。他们没有足够的时间进行讨论,因为他们希望在一天甚至一个小时内获得可行的见解。我们与CERN所做的工作,现在需要数据。我们必须在微秒内做出决定。这是有趣的事情还是我们将其放在地板上?

不同的解决方案需要不同类型的内存。我们正在学习的是-我一直很喜欢Intel的一件事,我知道程序中的指令是什么。我知道他们是如何在机器中执行的,然后进入系统。当我来到美光时,我唯一看到的就是地址和命令。读/写命令和地址。我不了解-这东西是在这里将15种不同的东西复制到不同的元素,还是覆盖,还是什么?拥有与我们合作的公司并于6月收购了该公司-该体系结构使我们能够构建,运行这些算法,并了解整个影响如何。

我们的首要目标是,我们可以在内存存储中做什么以实际缩短解决方案的时间?我们总是可以建立更高的带宽,但这不一定是要带您到达那里的方法。有什么可以做的,例如散射张量阵列?如果我们可以建立一个可以引入矩阵的缓冲区,并允许我们一口气将矩阵移过来,而不是随便找东西去寻找它,那将有很大的好处。

最终,我们还要研究—其中大多数是乘法和累加架构,非常简单。它们只是被复制了数千次。实际上,一旦晶体管变得更好一点,您就可以建立一个相当好的乘法并在存储设备中进行累加。最终,您能否采用该架构,然后将其放入存储设备本身?这是长远的愿景。

我想做的是,无论我们做什么,我们都建立一个编程基础结构和一个范例,这样人们不必每次进行迁移时都重写他们的代码。在我看来,这就是英特尔的巨大成功。当我们执行386时,没有32位软件。但是它确实可以很好地运行16位代码。人们为此买了它。您那里有很多平台,然后人们说:“好,现在我们要优化32位。”486在六到八年后问世时,就有软件可以利用它,并且它变成了一台永不回头的机器。

首先从内存开始,然后是存储,我们在那里可以做什么。然后,我们将了解随着时间的推移实际可以迁移的内容。答案可能不算什么。答案可能是一切。我认为它在中间。这仅取决于您将针移到哪里。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论