杭州是怎么硬起来的？从“新八骏”到曦望推理芯片，一座城市的产业底座突围

日期：2026-06-01 22:04:11 / 人气：41

推理芯片、存算一体、灵巧手、智能眼镜、太空算力、AI数据基础设施、智能底盘、合成生物——这是2026年杭州最受追捧的八条科技赛道。外界给了这八家公司一个新名字：杭州新八骏。

把“新八骏”与两年前刷屏的“六小龙”放在一起看，画风的切换肉眼可见。“六小龙”出圈时，无论是大模型对话、四足机器人还是3A游戏，大众都能立刻联想到一个具体产品画面；而“新八骏”的赛道更深、更基础，大部分离日常生活很远，却离产业根基极近。

从“软”到“硬”，杭州正在把产业重心从看得见的应用层，向下扎进看不见的基础设施。

一、从“代码之城”到“硬科技之城”

过去二十多年，杭州讲了一个关于“软”的故事：从湖畔花园的公寓，到全球最大的电商生态；从改写国人支付习惯，到建成亚洲领先的云计算平台，杭州用代码和算法把商业效率推到极致。

但“软”的繁荣有一个不常被提及的前提：它必须建立在外来硬件底座之上。服务器用别人的芯片，大模型跑在进口GPU上，开发工具链来自大洋彼岸。杭州把上层应用做到了世界一流，但楼盖得越高，那截看不见的桩基就越让人悬心。

尤其当人工智能从实验室快速渗透进千行百业，一个问题变得无法回避：杭州能不能从上层应用向下延伸，长出自己的产业底座？

“新八骏”正是这一转向的产物——八条赛道全部扎在底层：芯片、数据基础设施、生物代码、太空算力……越基础，也越不可或缺。

杭州给出的支撑是两样稀缺资源：一是耐心资本——新八骏中，杭州金投投了4家，杭州资本通过基金及直投方式投了7家；二是服务姿态——陪跑但不干预。相比锦上添花，硬科技企业更需要的是耐得住寂寞的土壤。

而这些企业的底层需求，最终都指向同一个地方：推理算力芯片。其中，曦望是八家公司中唯一专注推理GPU的企业。

二、曦望的反共识选择：All in 推理

两年前，“推理芯片”远没有今天这般顺理成章。2024年底前，国产GPU赛道的共识非常明确：做训推一体，追峰值算力，对标英伟达训练卡。训练是明星赛道，大模型军备竞赛的核心指标是算力集群规模和参数量上限。推理？不过是训练完成后的附属功能，不值得单独押注。

就在这时，曦望做了一个反共识决定：砍掉所有训练模块，把全部资源押注推理。

这意味着主动放弃当时最大的一块市场蛋糕——训练集群采购预算，把芯片架构、工程团队和战略筹码全部押在一个尚未大规模爆发的需求上。

曦望董事长徐冰在2024年底香港金融科技周的预判是：“推理变得越来越重要和复杂，需要新的云基础设施，从数据中心到边缘设备都需要。”他同时强调的关键词是“降低计算成本”。当行业还在围绕训推一体竞争时，曦望关心的核心变量已变成：谁能把Token稳定、便宜地生产出来。

2024年底，曦望从母公司正式分拆独立，把“All in 推理”写进公司战略，从头设计原生推理架构——这在国产GPU公司中是第一家。

时间很快给出了答案。2026年初，AI智能体“龙虾”（OpenClaw）风靡全球。与聊天机器人不同，它每完成一个任务要执行几十次推理、调用不同模型，7×24小时持续消耗Token。算力租赁成本三个月内上涨30%–40%，推理需求达到训练的4–5倍，供应链“一卡难求”，推理在整个AI算力成本结构中的占比飙升至70%。

同年3月，OpenAI宣布关停视频生成产品Sora，外界普遍将其归结为推理成本过高。即便Token单价过去两年下降了一个数量级以上，但AI账单反而上涨数倍——Token越便宜，用法越复杂，总消耗吞噬了降价红利。

行业风向随之转向。2025年底，英伟达以约200亿美元获取推理芯片公司Groq核心技术授权，并将创始团队揽入麾下——实质是一次针对推理赛道的战略卡位。训推一体GPU做推理被证实并非最优解，推理需要原生架构。

而曦望，早在“龙虾”爆发前一个月，就发布了第一代原生推理芯片S3。

三、S3：为Token工厂定制的“发电机”

S3的设计哲学极其激进：把一切不直接用于推理的晶体管全部砍掉。传统训推一体GPU有大量面积服务于训练，S3将这些全部省下，全部投入到推理的并发、延迟和功耗优化上。

硬件路径上，S3做了两个在国产GPU中少见的选择：
• 采用LPDDR6/LPDDR5X内存而非HBM，显存容量最高可达600GB，为国内最高，解决长上下文和多用户并发的内存瓶颈；

• 率先搭载PCIe Gen6接口，系统通信带宽翻一倍，适配智能体场景中海量的小包高频通信。

曦望的目标非常明确：让推理成本下降90%，最终实现“百万Token一分钱”。

如果这一目标达成，大量现在无法盈利的AI场景——长周期智能体服务、端侧大模型、实时视频生成——将第一次跑通商业闭环。

四、当Token变成水电：AI时代的能源革命

“百万Token一分钱”的意义，不只是帮客户省钱，而是重构整个世界的基础设施逻辑。

徐冰预测，未来十年，地球上会出现数百亿个智能体，作为一种新的“数字人口”存在：几十亿个个人助理，几十亿个物理智能体（具身智能），几十亿个专业智能体（AI医生、律师、工程师）。而所有这些智能体，都靠Token驱动。

如果说电力是工业时代的基础能源，那么Token就是AI时代的基础能源，推理GPU则是AI“发电厂”中最关键的部件。

产业信号已在印证这一判断。2026年6月1日，黄仁勋在GTC Taipei上从商业角度重新定义Token：Token就是资产，已经是获利的营收单位。AI公司会想要生产更多Token，建造更多AI工厂——这正是算力需求火箭式飙升的本质原因。

今天的推理成本，就像1990年代的手机话费、2000年代的宽带流量一样昂贵。只有当推理基础设施像光纤和基站一样铺开，Token成本降到可以忽略不计时，数百亿智能体才能真正走进生活，变成和水费、电费并列的刚性支出。

但这条路上，现实阻力同样巨大。曦望也不回避：龙虾热潮发生得太突然，AI行业整体准备严重不足，产能至少需要提升一个数量级。内存价格涨了数倍，光模块产能跟不上，GPU一卡难求。徐冰判断，这种供需失衡在2027年前很难改变，大概率要到2028年才能缓解——而届时对Token的需求可能又上了新的台阶。

这不是一家公司能解决的问题。推理基础设施的铺设，需要芯片企业、云计算平台、内存厂商、算力运营商全链条协同，需要城市级产业系统与耐心资本的共同托举。

五、杭州的拼图：从“浪尖”到“暗流”

这正是杭州正在做的事。

从“六小龙”到“新八骏”，从前端的软应用到底层的硬科技，杭州的产业群像正在迭代。《浙江日报》旗下“潮新闻”的评价十分精准：如果说“六小龙”是杭州在科技浪潮中抓住的“浪尖”，那么“新八骏”就是浪潮之下的“暗流”。

在这股暗流中，最安静的那一个——曦望和它的推理芯片——可能也是最关键的那一个。当Token变成水电，杭州的“硬”，才算真正立住了。

作者：蓝狮娱乐

杭州是怎么硬起来的？从“新八骏”到曦望推理芯片，一座城市的产业底座突围

新闻资讯 News

案例展示 Case

现在致电 5243865 OR 查看更多联系方式 →

现在致电 5243865 OR 查看更多联系方式 →