初创公司taalas押注极端专用化：3000万美元造ai芯片性能碾压gpu-九游会j9登录入口

在ai芯片领域，一场颠覆性的变革正在悄然发生。一家名为taalas的初创公司，以一种近乎“激进”的方式，将专用化芯片设计推向了新的高度。该公司推出的首款推理芯片hc1，将meta的llama 3.1 8b大语言模型几乎完整地“刻入”了硅片，实现了单用户场景下高达17,000 tokens/s的输出速度，这一性能是当前市场上最快竞品cerebras的近9倍，更是nvidia blackwell架构gpu的近50倍。与此同时，hc1的构建成本仅为同等gpu方案的二十分之一，功耗更是低了一个数量级。

hc1的突破性设计，源于其对传统gpu架构的彻底颠覆。在gpu中，计算单元与存储单元是分离的，模型参数存储在hbm中，计算核心每次运算都需要从hbm搬运数据，这一过程不仅消耗大量能量，还增加了时间成本。而taalas则采用了全面专用化、存算合一的设计思路，通过mask rom工艺将模型权重直接编码在芯片的金属互连层中，与计算逻辑共存于同一块硅片上，从而彻底消除了数据搬运的瓶颈。

这种设计虽然带来了极高的性能提升，但也意味着芯片的灵活性几乎为零。hc1只能运行llama 3.1 8b模型，若要更换模型，则需重新设计并制造芯片。这种极端专用化的策略，无疑是对ai芯片行业传统设计思路的一次大胆挑战。然而，taalas的ceo ljubisa bajic却对此充满信心。他认为，随着ai模型的成熟和稳定，总有一些模型会在实际业务中被长期使用，对于这些模型，专用化芯片将具有无可比拟的优势。

bajic的信心并非空穴来风。hc1基于台积电n6工艺制造，芯片面积815 mm²，单颗芯片即可容纳完整的8b参数模型。其功耗约250w，10块hc1板卡装进一台服务器总功耗约2.5 kw，可在标准风冷机架中运行，这与动辄数十千瓦、必须依赖液冷的gpu服务器形成了鲜明对比。taalas还借鉴了结构化asic的设计思路，通过固化门阵列和硬化ip模块，只修改互连层来适配不同模型，从而大大缩短了芯片定制周期。据bajic透露，从拿到一个新模型到生成rtl，大约只需要一周的工程工作量，整个从模型到芯片的周期目标为两个月。

这种快速周转的能力，使得taalas能够在模型被验证有效且用户粘性足够高时，迅速为其制造专用硅片，以远低于gpu的成本和功耗提供推理服务。然而，这种模式也要求客户对某个特定模型做出至少一年的承诺。对于这一要求，bajic认为，虽然会有很多人不愿意，但总会有一些人愿意为了性能和成本的优势而接受。

除了llama 3.1 8b模型外，taalas还展示了其对更大模型的支持能力。据模拟数据显示，671b参数的deepseek r1模型需要大约30颗hc1芯片协同工作，每颗芯片承载约20b参数。这套30芯片系统在deepseek r1上可以达到约12,000 tokens/s/user的输出速度，而当前gpu的最优水平大约在200 tokens/s/user。同时，推理成本约7.6美分/百万token，不到gpu吞吐优化方案的一半。

然而，这些数字目前还停留在模拟阶段。实际多芯片系统面临的互联、同步、良率等工程挑战不容小觑。hc1使用了自定义的3-bit基础数据类型进行激进量化，这可能会带来相对于标准量化模型的质量损失。对此，taalas并未回避，并表示其第二代硅平台hc2将采用标准4-bit浮点格式以改善这一问题。

在商业模式上，taalas仍在摸索之中。公司副总裁paresh kharya透露了几种可能的方向：自建基础设施运行开源模型并提供api推理服务；直接向客户出售芯片；或者与模型开发者合作，为他们的模型定制专用芯片供其自有推理基础设施使用。哪种模式最终能跑通，将取决于市场对这种极端专用化方案的接受程度。

尽管面临诸多挑战和不确定性，但taalas的方案无疑触及了一个被主流路线忽略的设计空间。通过将权重以mask rom形式与计算逻辑同层集成，taalas从根本上消除了存算分离带来的带宽墙问题。虽然这种设计以灵活性的彻底丧失为代价，但在允许这种刚性的应用场景中，其换来的性能和成本优势却是实打实的。硬接线芯片还带来了软件栈的极度简化，进一步降低了系统的复杂性和成本。

淘宝商家大量撤离，电商“寒冬”来临？业内	从对话到实干：豆包大模型2.0化身全能助手
2026春晚机器人“组团”登场，商业化加速，	2026北京旅行社权威榜单揭晓！十大可靠之选

初创公司taalas押注极端专用化：3000万美元造ai芯片 性能碾压gpu-九游会j9登录入口

初创公司taalas押注极端专用化：3000万美元造ai芯片性能碾压gpu-九游会j9登录入口