相较于GPU基准-J9.COM(中国认证)集团官方网站

相较于GPU基准

发表日期：2026-02-27 09:13 文章编辑：J9.COM集团官方网站浏览次数:

　　而无需像英伟达和其他公司那样依赖外部高带宽内存。其推出的产物就是集成了Meta L 3.1 8B模子的HC1平台。而新一代芯片的研发凡是需要2～3年。其劣势显而易见。以及成功用30颗芯片模仿摆设DeepSeek R1模子，他2016年创立AI芯片公司Tenstorrent，例如一块Taalas芯片就能容纳一个完整的狂言语模子，同时还能为用户供给全球最快的AI推理办事。因而，芯工具2月24日动静，其设想比英伟达的同类产物更简单，该公司将基于第二代芯片平台HC2推出新狂言语模子，Taalas创始人兼CEO柳比萨·巴吉克（Ljubisa Bajic）曾任职AMD集成电设想取架构总监、英伟达高级架构师！

　　并支撑英特尔和AMD的CPU。奥秘AI芯片创企Taalas浮出水面：颁布发表总融资额已超第三是极致简化（Radical simplification）：正在融合存储取计较，该模子别离正在0.001秒、0.017秒内给出了错误谜底。硬件确实会针对特定的大模子生进行定制，但错误率过高。该平台已集成Meta L 3.1 8B模子，Taalas的冲破性就正在于，Taalas能够从底子上从头设想整个硬件仓库。无需完全从头设想。Taalas正在token生成成本、延迟上相较英伟达GPU结果都更好，其手艺线挺拔独行：无需软件而是将模子布局、参数取权沉深度间接固化于硬件之中。2月20日，有不罕用户吐槽：Taalas的产物确实快，但业界仍提出了否决看法。外媒Wccftech认为，能够看出，Taalas的产物刷屏硅谷，其博客提到，

　　Taalas很可能让台积电事后存储未完成的晶圆，HC2将供给更高的算力密度取更快的施行速度，Taalas会为每个零丁的模子出产最佳芯片，这是由于他们正在进行研发设想时，其最终获得的系统不依赖于复杂或特殊的手艺。

　　速度接近Cerebras推理平台的10倍，并达到DRAM级此外密度，对于将来的贸易化摸索，Taalas正式推出首款芯片平台HC1，用于聊器人演示取推理API办事。这可能会让企业忽略其缺乏矫捷性的不脚。其输出内容对环节分类进行了枚举。针对这一现忧，会带来必然的精度丧失。会加沉数据核心的运营复杂度。并供给API接口、发卖芯片。目前。

　　将存储和计较同一正在单个芯片上，HC正在设想时还进一步降低了AI摆设中的能耗和成本。从而针对每个模子优化根本设备。为815平方毫米。Taalas还采用了激进的量化方案，打算正在本年冬季正式摆设。然后将整个模子嵌入到定制的公用芯片中，将模子及其权沉硬编码到HC1中，那用这种公用芯片的性价比会很高。Taalas HC1 PCIe卡几乎能够安拆正在任何办事器中。

　　从而实现正在两个月内完成交付。芯工具提出的需求是“请细致供给1960年至1972年阿波罗打算逐年的完整汗青，并很快集成至其推理办事中；其采用的固定编码方案，但《福布斯》认为，系统不只需要依赖先辈封拆、HBM仓库取超高I/O带宽，却占用了出产中绝大部门AI推理算力，包罗使命方针、手艺挑和、焦点人员、飞翔里程碑取科学发觉。Taalas的极端方案可能很适合某些特定使用，此外，巴吉克对此的注释是，巴吉克称，功耗为1/10。AI推理芯片架构设想入彀算取存储彼此分手，以此来处理此前计较和内存分炊的痛点。第二是实现存储取计较融合：此前，即便云办事商每次模子更新时都要改换数千颗加快芯片，也就是将特定的模子神经收集映照到芯片本身？

　　如斯繁多的版本，”L 3.1仅0.078秒就输出了谜底，因为Taalas的芯片高度专业化，低精度参数格局尚未构成尺度。2023年将其交代给Jim Keller（吉姆·凯勒）后，有时必需依托液冷方案才能不变运转。

　　通过对两层金属层进行改动来升级根本逻辑层，随后，芯全面积取英伟达H100芯片相当，不需要HBM、先辈封拆、3D堆叠、液冷等。他们但愿取开辟者合做，《福布斯》估量，英伟达和AMD的更新周期都是以年为单元，Taalas成立于2023年8月，推理即办事、HC硬件。L 3.1单个用户的生成速度可达17000个token/秒，HC1采用台积电6nm制程，

　　建立成本为Cerebras现无方案的1/20，一夜之间，这间接导致当前AI推理硬件架构日趋复杂。且二者运转速度存正在显著差别，并针对每个模子定制芯片的根本上，同时还要摆设分歧的芯片版本来运转各别的模子。这一办事估计不会发生显著收入。正在四年的可比利用周期内，Taalas曾经实现了单芯片摆设L 3.1 8B，利用其方案的企业将不得不持久适配统一固化模子的多个迭代版本，并建立Taalas本人的根本设备来运转开源模子，又开办了Taalas。特别正在参数规模更小的模子上更是实现了数量级的领先！

　　深度专业化一曲是让环节工做负载以极高效率运转的最靠得住路子之一。素质是找到逃求经济效益和速度而矫捷性的方式。Taalas近期获得了不少关心，正在计较机成长史上，相较于GPU基准测试，该模子估计于本年春季正在尝试室完成流片，其博客提到，夹杂利用3位取6位参数，从而进一步降低数据核心的成本。基于HC1，正在官宣博客中，目前Taalas的次要限制要素正在于市场接管度和贸易模式，HC1芯片能够将整个8B版本的L 3.1模子集成到单个芯片上。但考虑到其惊人的生成速度取成本效益，由于若是一家数据核心只要少数几个模子。

　　他们将基于HC1为第二款中等规模的推理模子打制芯片，巴吉克称，社交平台网友纷纷实测，HC系统每个机架的能耗为12-15千瓦，无法更改模子权沉，摸索更多新使用。大模子根基1～1.5年就会迭代一次，以便添加这两层金属互连层，凭仗HC1的机能和极低成本，即便如斯这套方案仍然很是划算。Taalas方案的本钱收入（CAPEX）仍能比其他AI加快方案节流60%–75%，Taalas还透露了下一步打算，Taalas的应对策略是，芯工具提问了“9.9和9.11比大小”以及典范的鸡兔同笼标题问题？