在语音AI领域不断探索的OpenAI,近期推出了三款全新的自主研发语音模型:gpt-4o-transcribe、gpt-4o-mini-transcribe和gpt-4o-mini-tts,通过应用程序接口(API)向第三方开发者开放,并提供OpenAI.fm演示网站供个人用户初步体验。
gpt-4o-transcribe:更精准、更强大的语音转录
gpt-4o-transcribe堪称OpenAI两年前发布的开源语音转录模型Whisper的升级版,旨在实现更低的文字错误率和更强大的性能。官方数据显示,在33种语言测试中,gpt-4o-transcribe的错误率相较于Whisper显著下降,英语错误率更是低至2.46%。
不仅如此,gpt-4o-transcribe在各种复杂环境下均能保持出色性能,无论是嘈杂环境、不同口音还是快慢不一的语速,都能提供更准确的转录结果,并且支持超过100种语言。它还加入了噪声消除和语义语音活动检测技术,后者可帮助模型判断说话者是否讲完了一个完整的想法,从而避免断句错误,提高整体转录质量。此外,该模型还支持流式语音转文本,使对话感觉更加自然。
开发者先行:API接口已开放
目前,gpt-4o-transcribe已经通过OpenAI的API接口提供给开发者使用。开发者可以快速将这一强大的语音转录能力集成到自己的应用程序中,为用户带来更便捷的语音交互体验。对于已经基于GPT-4o等文本大模型构建的应用,只需大约九行代码就能轻松添加语音交互功能。
不过,OpenAI方面表示,考虑到ChatGPT在成本和性能方面的特殊需求,这些新模型暂时不会直接应用于ChatGPT,但预计未来会逐步整合。对于追求更低延迟、实时语音交互的开发者,OpenAI推荐使用其Realtime API中的语音到语音模型。
应用场景与未来展望
凭借其强大的语音转录能力,gpt-4o-transcribe有望在多个领域大显身手。例如在客户呼叫中心、会议纪要自动生成以及AI驱动的智能助手等场景中,该技术能够显著提升工作效率和用户体验。一些已经体验过新模型的公司也反馈称,OpenAI的音频模型显著提升了语音AI的性能。
定价与竞品
模型API定价:
- gpt-4o-transcribe: 每100万个音频输入 tokens 的价格为 $6.00,约合每分钟 $0.006。
- gpt-4o-mini-transcribe: 每100万个音频输入 tokens 的价格为 $3.00,约合每分钟 $0.003。
- gpt-4o-mini-tts: 每100万个文本输入 tokens 的价格为 $0.60,每100万个音频输出 tokens 的价格为 $12.00,约合每分钟 $0.015。
竞品模型定价:
- ElevenLabs Scribe: 每小时音频输入的定价为 $0.40,约合每分钟 $0.006。
- Orpheus3B: 基于 Apache2.0许可 开源,开发者可以免费使用,但需要自备相应的硬件或云服务器。
OpenAI此次发布的gpt-4o-transcribe等新语音模型,在语音转录领域展现出了强大的实力和潜力。虽然目前主要面向开发者,但其在提升语音交互体验方面的价值不容忽视。未来,随着技术的不断发展,我们或许能看到更多令人惊喜的语音AI应用涌现。
官方博客:https://openai.com/index/introducing-our-next-generation-audio-models/
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...