杭州是怎么硬起来的?从“新八骏”到曦望推理芯片,一座城市的产业底座突围
日期:2026-06-01 22:04:11 / 人气:9
推理芯片、存算一体、灵巧手、智能眼镜、太空算力、AI数据基础设施、智能底盘、合成生物——这是2026年杭州最受追捧的八条科技赛道。外界给了这八家公司一个新名字:杭州新八骏。
把“新八骏”与两年前刷屏的“六小龙”放在一起看,画风的切换肉眼可见。“六小龙”出圈时,无论是大模型对话、四足机器人还是3A游戏,大众都能立刻联想到一个具体产品画面;而“新八骏”的赛道更深、更基础,大部分离日常生活很远,却离产业根基极近。
从“软”到“硬”,杭州正在把产业重心从看得见的应用层,向下扎进看不见的基础设施。
一、从“代码之城”到“硬科技之城”
过去二十多年,杭州讲了一个关于“软”的故事:从湖畔花园的公寓,到全球最大的电商生态;从改写国人支付习惯,到建成亚洲领先的云计算平台,杭州用代码和算法把商业效率推到极致。
但“软”的繁荣有一个不常被提及的前提:它必须建立在外来硬件底座之上。服务器用别人的芯片,大模型跑在进口GPU上,开发工具链来自大洋彼岸。杭州把上层应用做到了世界一流,但楼盖得越高,那截看不见的桩基就越让人悬心。
尤其当人工智能从实验室快速渗透进千行百业,一个问题变得无法回避:杭州能不能从上层应用向下延伸,长出自己的产业底座?
“新八骏”正是这一转向的产物——八条赛道全部扎在底层:芯片、数据基础设施、生物代码、太空算力……越基础,也越不可或缺。
杭州给出的支撑是两样稀缺资源:一是耐心资本——新八骏中,杭州金投投了4家,杭州资本通过基金及直投方式投了7家;二是服务姿态——陪跑但不干预。相比锦上添花,硬科技企业更需要的是耐得住寂寞的土壤。
而这些企业的底层需求,最终都指向同一个地方:推理算力芯片。其中,曦望是八家公司中唯一专注推理GPU的企业。
二、曦望的反共识选择:All in 推理
两年前,“推理芯片”远没有今天这般顺理成章。2024年底前,国产GPU赛道的共识非常明确:做训推一体,追峰值算力,对标英伟达训练卡。训练是明星赛道,大模型军备竞赛的核心指标是算力集群规模和参数量上限。推理?不过是训练完成后的附属功能,不值得单独押注。
就在这时,曦望做了一个反共识决定:砍掉所有训练模块,把全部资源押注推理。
这意味着主动放弃当时最大的一块市场蛋糕——训练集群采购预算,把芯片架构、工程团队和战略筹码全部押在一个尚未大规模爆发的需求上。
曦望董事长徐冰在2024年底香港金融科技周的预判是:“推理变得越来越重要和复杂,需要新的云基础设施,从数据中心到边缘设备都需要。”他同时强调的关键词是“降低计算成本”。当行业还在围绕训推一体竞争时,曦望关心的核心变量已变成:谁能把Token稳定、便宜地生产出来。
2024年底,曦望从母公司正式分拆独立,把“All in 推理”写进公司战略,从头设计原生推理架构——这在国产GPU公司中是第一家。
时间很快给出了答案。2026年初,AI智能体“龙虾”(OpenClaw)风靡全球。与聊天机器人不同,它每完成一个任务要执行几十次推理、调用不同模型,7×24小时持续消耗Token。算力租赁成本三个月内上涨30%–40%,推理需求达到训练的4–5倍,供应链“一卡难求”,推理在整个AI算力成本结构中的占比飙升至70%。
同年3月,OpenAI宣布关停视频生成产品Sora,外界普遍将其归结为推理成本过高。即便Token单价过去两年下降了一个数量级以上,但AI账单反而上涨数倍——Token越便宜,用法越复杂,总消耗吞噬了降价红利。
行业风向随之转向。2025年底,英伟达以约200亿美元获取推理芯片公司Groq核心技术授权,并将创始团队揽入麾下——实质是一次针对推理赛道的战略卡位。训推一体GPU做推理被证实并非最优解,推理需要原生架构。
而曦望,早在“龙虾”爆发前一个月,就发布了第一代原生推理芯片S3。
三、S3:为Token工厂定制的“发电机”
S3的设计哲学极其激进:把一切不直接用于推理的晶体管全部砍掉。传统训推一体GPU有大量面积服务于训练,S3将这些全部省下,全部投入到推理的并发、延迟和功耗优化上。
硬件路径上,S3做了两个在国产GPU中少见的选择:
• 采用LPDDR6/LPDDR5X内存而非HBM,显存容量最高可达600GB,为国内最高,解决长上下文和多用户并发的内存瓶颈;
• 率先搭载PCIe Gen6接口,系统通信带宽翻一倍,适配智能体场景中海量的小包高频通信。
曦望的目标非常明确:让推理成本下降90%,最终实现“百万Token一分钱”。
如果这一目标达成,大量现在无法盈利的AI场景——长周期智能体服务、端侧大模型、实时视频生成——将第一次跑通商业闭环。
四、当Token变成水电:AI时代的能源革命
“百万Token一分钱”的意义,不只是帮客户省钱,而是重构整个世界的基础设施逻辑。
徐冰预测,未来十年,地球上会出现数百亿个智能体,作为一种新的“数字人口”存在:几十亿个个人助理,几十亿个物理智能体(具身智能),几十亿个专业智能体(AI医生、律师、工程师)。而所有这些智能体,都靠Token驱动。
如果说电力是工业时代的基础能源,那么Token就是AI时代的基础能源,推理GPU则是AI“发电厂”中最关键的部件。
产业信号已在印证这一判断。2026年6月1日,黄仁勋在GTC Taipei上从商业角度重新定义Token:Token就是资产,已经是获利的营收单位。AI公司会想要生产更多Token,建造更多AI工厂——这正是算力需求火箭式飙升的本质原因。
今天的推理成本,就像1990年代的手机话费、2000年代的宽带流量一样昂贵。只有当推理基础设施像光纤和基站一样铺开,Token成本降到可以忽略不计时,数百亿智能体才能真正走进生活,变成和水费、电费并列的刚性支出。
但这条路上,现实阻力同样巨大。曦望也不回避:龙虾热潮发生得太突然,AI行业整体准备严重不足,产能至少需要提升一个数量级。内存价格涨了数倍,光模块产能跟不上,GPU一卡难求。徐冰判断,这种供需失衡在2027年前很难改变,大概率要到2028年才能缓解——而届时对Token的需求可能又上了新的台阶。
这不是一家公司能解决的问题。推理基础设施的铺设,需要芯片企业、云计算平台、内存厂商、算力运营商全链条协同,需要城市级产业系统与耐心资本的共同托举。
五、杭州的拼图:从“浪尖”到“暗流”
这正是杭州正在做的事。
从“六小龙”到“新八骏”,从前端的软应用到底层的硬科技,杭州的产业群像正在迭代。《浙江日报》旗下“潮新闻”的评价十分精准:如果说“六小龙”是杭州在科技浪潮中抓住的“浪尖”,那么“新八骏”就是浪潮之下的“暗流”。
在这股暗流中,最安静的那一个——曦望和它的推理芯片——可能也是最关键的那一个。当Token变成水电,杭州的“硬”,才算真正立住了。

作者:蓝狮娱乐
新闻资讯 News
- 杭州是怎么硬起来的?从“新八骏...06-01
- 油价跌了,黄金也没涨:市场在担...06-01
- 367亿+134亿,主力连续两周疯狂撤...06-01
- 硅谷两周AI实地观察:大船遍地,...06-01

