本文来自微信公众号“电子发烧友网”,【作者】黄晶晶。
电子发烧友网报道(文/黄晶晶)近日,有消息称,英伟达将以大约200亿美元收购人工智能芯片初创公司Groq,这将是英伟达迄今为止规模最大的一笔收购。但英伟达回应表示,并未计划收购Groq,仅达成技术许可合作,将采用Groq的推理技术。
随后,Groq公司宣布已与英伟达就其推理技术达成非独家许可协议。根据协议条款,Groq创始人乔纳森·罗斯(Jonathan Ross)、总裁桑尼·马达拉(Sunny Madra)及其他核心团队成员将加入英伟达,共同推进授权技术的升级与规模化应用。此外,Groq将继续作为独立公司运营,西蒙·爱德华兹(Simon Edwards)将接任首席执行官职务;Groq云服务将保持正常运行,不受此次合作影响。
Groq成立于2016年,总部位于美国加利福尼亚州山景城,是一家AI推理芯片厂商。该公司核心团队源自谷歌最初的张量处理单元(TPU)工程团队,创始人兼前CEO乔纳森·罗斯(Jonathan Ross)是谷歌TPU项目的核心研发人员。
2024年8月,Groq在最新一轮融资中筹集6.4亿美元,由贝莱德集团(BlackRock Inc.)基金领投,并获得思科和三星投资部门的支持。2024年12月,Groq在沙特阿拉伯达曼建成中东地区最大的推理集群,该集群包含19000个Groq LPU,仅用8天便完成上线。
2025年2月,Groq从沙特阿拉伯成功筹集15亿美元融资,用于扩建其在当地的AI基础设施;9月,完成7.5亿美元融资,投后估值达69亿美元,累计融资额超30亿美元。
GroqLPU近存计算芯片
AI推理的广泛应用是AI普惠大众的关键,业内巨头与初创公司均洞察到其发展前景并提前布局,Groq便是其中的佼佼者。其AI推理芯片采用SRAM替代DRAM,从而实现更快的访问速度、更低的刷新延迟等优势。
Groq公司研发的语言处理单元(Language Processing Unit,简称LPU),凭借独特架构展现出极高的推理性能,是一款典型的近存计算芯片。
该芯片采用14nm制程,搭载230MB SRAM以保障内存带宽,片上内存带宽达80TB/s。SRAM的访问速度远快于DRAM,使其在计算密集型应用中表现突出;而大容量SRAM的配置,有助于提升机器学习、人工智能等计算密集型工作负载的处理效率。
静态随机存取存储器(Static Random-Access Memory,简称SRAM)是随机存取存储器的一种,只要保持通电,存储的数据就能持续保留;相比之下,动态随机存取存储器(DRAM)存储的数据需周期性刷新。但需注意,SRAM仍属于易失性存储器,断电后数据会丢失,这与断电后仍能保存数据的ROM(只读存储器)或闪存存在本质区别。
SRAM虽性能优越,但也存在明显短板:集成度较低、功耗高于DRAM,且单位容量占用硅片面积更大。同等面积的硅片可制造更大容量的DRAM,因此SRAM成本更高。基于其高速响应的特性,SRAM常被用作CPU与主存之间的高速缓存,无需定期刷新,可适配CPU一级缓存、二级缓存等场景。
当前,全球AI产业随着模型训练逐步收敛,正迈向大规模推理应用落地阶段。英伟达通过“技术授权+核心人才引进”的模式,可快速补强AI推理领域的布局,巩固其全栈AI优势。这一合作有望带动AI产业进入下一发展阶段,掀起AI推理热潮。
国内外AI推理存储布局
结合AI推理应用场景的特性,基于多种存储类型的AI推理芯片、存算一体芯片在存储与计算产业界备受关注、活跃度极高。笔者在先前撰写的《AI推理的存储,看好SRAM?》一文中曾提及,除Groq LPU近存计算芯片外,国内外多家企业也推出了同类相关产品。
Axelera的AIPU芯片采用创新的内存计算技术。与传统磁盘存储相比,内存计算将数据直接存储在主内存(RAM)中,大幅提升数据处理速度。该芯片融合SRAM(静态随机访问存储器)与数字计算技术,使每个存储单元可直接作为计算单元,从根本上增加了每个计算机周期的操作数(每个存储单元每周期可完成一次乘法和一次累加),且不受噪声干扰或精度降低等问题影响。
这一技术让Axelera芯片在提供高计算性能的同时,能够以更低成本、更低能耗完成边缘AI计算任务。此外,该芯片采用开源的RISC-V指令集架构(ISA),其低成本、高效能、高灵活性的特性,可支持根据特定应用需求进行定制化设计,为Axelera带来极大的设计自由度与创新空间。
2024年,Axelera获得三星电子风险投资部门三星催化剂基金(Samsung Catalyst)的大力支持,成功筹集6800万美元融资,至此总融资额达到1.2亿美元。
AI芯片初创公司EnCharge AI研发出一种新型内存计算架构,专为AI推理场景设计。其核心技术是基于模拟存内计算的AI芯片,该创新设计采用“基于电荷的存储器”,通过读取存储平面上的电流而非单个比特单元处理数据,并使用更精确的电容器替代传统半导体器件。
此外,d-Matrix采用数字内存计算(DIMC)引擎架构,将计算单元迁移至RAM(内存)附近;该数字存算一体技术通过合并存储器与计算单元中的乘法累加器(MAC),显著提升计算带宽与效率,同时降低延迟、减少能耗。
在国内,知存科技、昕原半导体、九天睿芯、恒烁股份等企业均在积极布局存储与计算融合的AI存算一体芯片领域。
昕原半导体的ATOM(AI Thruster Optimized Memory)产品系列,利用ReRAM(阻变存储器)兼容先进工艺的特性,将存储单元与计算单元融为一体,相比传统方案实现数十倍的带宽、性能及能效比提升。ATOM的存储容量与算力均支持灵活配置,是端侧、边缘侧及云端大模型加速的理想解决方案。
知存科技作为全球最早布局存算一体技术的企业之一,已实现技术量产商用,并积累了丰富的客户服务经验。知存科技CEO王绍迪表示,AI技术从云端向端边侧渗透是明确趋势,但带宽、成本等痛点亟待解决,这推动半导体行业向“高带宽、低成本、高能效”的技术方向创新,而存算一体技术正是契合这一需求的关键路径。
知存科技早早就洞察到存算一体技术在端侧AI场景的优势,2024年启动“天才博士计划”吸纳全球顶尖人才,并与北京大学、清华大学等高校共建联合实验室,持续深耕技术突破。近两年来,知存科技营收平均增速超50%,2025年市场表现亮眼,预计2026年将实现更高增长;累计服务客户超30家,存算一体芯片的市场应用规模持续扩大,成功响应AI眼镜、AI相机等细分领域的高能效计算需求,技术认可度与商业落地能力得到行业进一步验证。
九天睿芯专注于多层级存算融合的技术路径,通过整合存算一体与近存计算技术,实现前沿技术研发与商业化落地,为AI计算提供超高性能、更大容量、更低功耗的新一代硬件解决方案。目前,其芯片产品已在多家客户实现量产,并获得多个国际一线智能眼镜、智能耳机及助听器品牌的订单。2025年9月,九天睿芯宣布完成超亿元B轮融资。
九天睿芯创始人、董事长兼CEO刘洪杰表示,公司计划未来3年内加速后续两代大容量大算力存算一体芯片的研发进程:第二代芯片期间版本将支持1~3B级别的轻量化大模型,目前已流片成功;第三代芯片将支持100B(千亿)级别参数量大模型的推理部署,成本仅为当前方案的十分之一,相当于现有支持5~10B(百亿)级别参数量模型推理芯片的成本水平。
恒烁股份表示,公司研发的低功耗存算一体推理技术,可高效完成AI核心计算任务——向量矩阵乘法。借助存算一体技术,芯片能够规避计算过程中模型数据访存带来的“存储墙”问题,提升计算能效与计算面效,进而降低计算功耗与芯片面积。目前,公司已具备基于Nor Flash和SRAM两种介质的存算一体技术,覆盖模拟存内计算和数字存内计算两种技术路径,可根据应用场景需求选择适配的计算介质与路径。
此外,恒烁股份在音频应用领域研发了与存算技术配套的低功耗预处理技术,包括低功耗ADC(模数转换器)设计、低功耗人声活动检测(VAD)及低功耗FFT(快速傅里叶变换)等。该预处理技术与存算一体计算核心搭配,可从系统层面优化智能语音芯片的实际功耗,推动存算一体技术从单一模块的技术优势,转化为可落地、具备性价比与竞争力的芯片产品。
小结
综上可见,存算一体方案能够有效提升推理效率、降低推理成本,推动AI推理进入规模化落地阶段。更低成本的推理方案将让更多企业具备接入大模型的能力,进一步加速AI在内容生成、数据分析、端侧智能等领域的普及应用。
