OpenAI推出全新方案,推理成本直接减半

OpenAI推出全新方案	,推理成本直接减半

OpenAI推出全新方案,推理成本直接减半-第1张图片

  据一位知情人士透露,此前尚未对外披露的消息显示 ,本月早些时候 ,OpenAI 工程师向部分内部同事透露,通过一系列全新的技术优化手段,他们找到了一种可将模型推理运行成本降低一半以上的方案。

OpenAI推出全新方案	,推理成本直接减半-第2张图片

  工程师将这套新技术应用于未注册免费 / 付费账号的访客访问 ChatGPT 场景后,峰值时段所需的英伟达显卡算力规模一度仅需几百块,这一数字低得超乎预期 。(当然 ,OpenAI 针对这类匿名访客设置了调用频次限制,该群体的 ChatGPT 整体使用量并不算高。)

  近来 OpenAI 并未公开本次效率提升所采用的具体技术细节,业内推测常用优化手段包含:模型量化 、键值缓存(让模型记忆过往计算信息 ,避免重复运算)、请求批量处理(批量应答用户查询而非逐条处理)、调度请求至低功耗轻量化模型或模型子模块来完成应答等。

  不过等到今年晚些时候 OpenAI 推出参数量更大的新一代模型后,这批优化技术带来的降本效果或许会有所减弱,因为大参数模型本身的运行成本会显著走高 。

  这类推理优化技术被竞品 Anthropic 称作算力倍增技术 ,也是各大 AI 实验室重点攻坚的方向 。至少从 2023 年年中开始,Anthropic 首席执行官达里奥・阿莫代伊就曾在播客节目中公开提及这一概念。他当时表示,公司严格限制知晓单套算力优化方案的内部人员范围 ,一旦相关技术被同行复刻 ,将会让其他 AI 实验室获得竞争优势。(算力倍增技术同样也可指代模型训练阶段的各类效率优化手段 。)

  这类优化技术的重要性愈发凸显,当下头部 AI 研发企业普遍面临服务器算力供给紧缺的困境。即便企业签约新建或租赁数据中心,项目从开工到正式投产往往需要数月甚至数年时间。(OpenAI 也在联合博通自研面向大模型运行的专用芯片 ,试图进一步压低推理成本,目标是相比英伟达商用芯片实现降本 。)

  OpenAI 本次技术优化落地后,市场也十分关注企业将如何处置省下的算力成本。一方面 ,OpenAI 可以把红利让渡给用户:要么提升付费订阅用户的 ChatGPT 调用额度,要么下调面向开发者开放的模型接口定价。如今老版本模型的调用费用 已经降至最初定价的几分之一,推理优化正是核心原因之一 。

  这将进一步巩固 OpenAI 高性价比模型服务商的市场定位 ,近期竞品 Anthropic 就因模型定价偏高饱受争议 —— 即便其模型输出效果更优异。

  另一方面,OpenAI 也可以选取 用降本收益提升毛利率,而公司毛利率主要由推理算力成本决定。今年一季度 OpenAI 毛利率为 39% ,较去年同期的 33% 有所提升,但距离年末 52% 的目标毛利率仍有不小差距 。

  想要达成年度目标,公司在今年剩余时间需要实现平均 56% 的毛利率。Anthropic 今年上半年营收大幅暴涨 ,本季度有望实现意外盈利 ,也充分印证了行业景气周期下毛利率的提升速度。

  现阶段 OpenAI 尚不具备绝对的定价话语权,但本次推理优化技术将大幅拓宽其毛利率改善的路径 。

文章推荐

  • 郑州限号几点钟结束啊(郑州限号几点钟结束啊今天)

      据一位知情人士透露,此前尚未对外披露的消息显示,本月早些时候,OpenAI工程师向部分内部同事透露,通过一系列全新的技术优化手段,他们找到了一种可将模型推理运行成本降低一半以上的方案。  工程师将这套新技术应用于未注册免费/付费账号的访客访问ChatGPT场景后,峰值时段...

    2026年07月01日
    0
  • 明天山西省限号几/山西明天限号吗

      据一位知情人士透露,此前尚未对外披露的消息显示,本月早些时候,OpenAI工程师向部分内部同事透露,通过一系列全新的技术优化手段,他们找到了一种可将模型推理运行成本降低一半以上的方案。  工程师将这套新技术应用于未注册免费/付费账号的访客访问ChatGPT场景后,峰值时段...

    2026年07月01日
    0
  • “钱随人走”民生改革加速铺开

      据一位知情人士透露,此前尚未对外披露的消息显示,本月早些时候,OpenAI工程师向部分内部同事透露,通过一系列全新的技术优化手段,他们找到了一种可将模型推理运行成本降低一半以上的方案。  工程师将这套新技术应用于未注册免费/付费账号的访客访问ChatGPT场景后,峰值时段...

    2026年07月01日
    0
  • A股上半年行情收官:成交额刷新纪录 科技成核心主线

      据一位知情人士透露,此前尚未对外披露的消息显示,本月早些时候,OpenAI工程师向部分内部同事透露,通过一系列全新的技术优化手段,他们找到了一种可将模型推理运行成本降低一半以上的方案。  工程师将这套新技术应用于未注册免费/付费账号的访客访问ChatGPT场景后,峰值时段...

    2026年07月01日
    0