同花顺 Logo
AIME助手
问财助手
OpenAI 最智能 AI 语音模型:GPT-Realtime-2 登场,GPT-5 级推理能力利好
2026-05-08 08:47:03
来源:IT之家
分享
AIME

问财摘要

1、OpenAI发布三款实时语音模型,分别针对推理、翻译和转录场景,集成于Realtime API供开发者调用。 2、GPT-Realtime-2专为实时交互设计,是首款具备GPT-5级推理能力的语音模型。 3、GPT-Realtime-Translate支持70种输入语言转13种输出语言。 4、GPT-Realtime-Whisper则专注于低延迟流式转录。
免责声明 内容由AI生成

IT之家5月8日消息,OpenAI发布三款实时语音模型,分别针对推理、翻译和转录场景,集成于Realtime API供开发者调用。这三款模型为实时语音应用提供底层技术支撑,目标解决语音交互中的延迟、打断处理和多语言支持难题。

GPT-Realtime-2专为实时交互设计,是首款具备GPT-5级推理能力的语音模型。它在保持对话自然流畅的前提下,能在对话过程中进行推理、调用工具,并处理用户的打断或纠正。这意味着开发者可以构建更复杂的语音助手,并能执行多步骤任务。

定价方面,GPT-Realtime-2音频输入定价为每百万Token费用32美元(IT之家注:现汇率约合218.1元人民币),输出为64美元(现汇率约合436.2元人民币),缓存输入仅需0.4美元。

GPT-Realtime-Translate支持70种输入语言转13种输出语言,翻译速度与说话者同步,适用于跨国会议或实时沟通场景。

GPT-Realtime-Whisper则专注于低延迟流式转录,音频随说随转,让实时字幕和会议记录能跟上对话节奏,减少等待时间。翻译和转录模型按分钟计费,分别为每分钟0.034美元和0.017美元。

免责声明:风险提示:本文内容仅供参考,不代表同花顺观点。同花顺各类信息服务基于人工智能算法,如有出入请以证监会指定上市公司信息披露平台为准。如有投资者据此操作,风险自担,同花顺对此不承担任何责任。
homeBack返回首页
不良信息举报与个人信息保护咨询专线:10100571违法和不良信息涉企侵权举报涉算法推荐举报专区涉青少年不良信息举报专区

浙江同花顺互联信息技术有限公司版权所有

网站备案号:浙ICP备18032105号-4
证券投资咨询服务提供:浙江同花顺云软件有限公司 (中国证监会核发证书编号:ZX0050)
AIME
举报举报
反馈反馈