新闻资讯

OpenAI一口气发布三个新模型!

OpenAI一口气发布三个新模型!

OpenAI一口气发布三个新模型!插图

光明网

美东时间3月20日

OpenAI发布三款语音模型

语音转文本模型GPT-4o-Transcribe

和GPT-4o-Mini-Transcribe

文本转语音模型GPT-4o-MiniTTS

图源:OpenAI

据了解,语音转文本模型

准确率大幅提升

在英语、西班牙语中

单词错误率仅约2%

在普通话中的错误率约为7%

此外,文本转语音模型

能提供更逼真的语音

开发人员可指导它

用自然语言说话

AI模型能get到人说了什么

新推出的两款语音转文本模型

相较于OpenAI此前发布的Whisper

准确度明显更高

并在多种语言中实现了

更低的单词错误率

新模型在多种语言中的错误率都明显更低。

图源:OpenAI

OpenAI产品人员介绍

新模型支持超100种语言

利用了多样化、高质量音频数据集

进行训练

即使在嘈杂的环境中

也可以更好地捕捉

口音和不同语速的语音

至于大家关注的AI幻觉问题

OpenAI还是以Whisper为参照物

表示新模型在工作中

产生幻觉的概率降低了

产品人员表示

“准确性

意味着模型准确地听到了单词

(并且)没有填写他们没有听到的细节”

AI模型说话有了更多“语气”

此次新发布的文本转语音模型

不仅能提供听起来更逼真的语音

而且比前一代语音合成模型

“可操控性”更强

例如

开发人员可以发出

“模拟耐心客服”或

“进行生动故事叙述”等指令

控制语音风格

图源:IT之家

OpenAI产品人员表示

他们的目标是

让开发者能够定制

语音“体验”和“环境”

以便在不同的情况下

使声音表达出不同的情感

更好地应用于

客服和创意内容等方面

距离AI“真情流露”更进一步

今年AI的风向也在悄然变化

除了依旧强调智商

还多出一股趋势

——强调情感

图灵奖得主杨立昆

在2024年底接受采访时表示

未来的AI系统需要具备情感

以便更好地设定目标和理解后果

在2024年世界互联网大会“互联网之光”博览会上,参观者与一款人形机器人握手。

图源:新华社

GPT-4.5、Grok 3

纷纷以“情商”作为卖点

让写作更有创意、回应更个性化

而看似冷冰冰的机器人

也在强调拟人

通过行为传递情绪价值

由于语言触及了

人类本能的沟通方式

AI语音领域在表现情感方面

发力更加显著

最近“走红”的Sesame AI

能够实时感知用户情绪

并生成情感共鸣的回应

迅速俘获了一大批用户的心

此次OpenAI发布的产品

提升了语音处理能力

支持开发者构建

更精准、可定制的语音交互系统

进一步推动

人工智能语音技术的商业化应用

图源:新华社

近日

美国科技巨头Meta也透露

计划在即将推出的

开源大语言模型Llama 4中

引入更强大的语音功能

并且其语音功能将是原生的

更接近自然的双向对话

而非传统的问答模式

Meta希望借此推动

AI技术的商业化发展

撰文:

孔繁鑫、杨嘉

编辑:

李飞

排版:

李汶键

统筹:

李政葳

参考丨

央广网、财联社、华尔街见闻、腾讯科技、36氪、IT之家

光明网出品

来源: 世界互联网大会

OpenAI一口气发布三个新模型!的相关内容大省见闻丨广东的守与进:制造业再攀高凌源养老保险缴费标准公布!英杰电气:累计回购股份1393000股突发!恒驰汽车被申请破产清算港股“狂飙”,有股票暴涨440%!内房股、券商股大涨!贝莱德:将中国股票的评级上调至超配金融“大文章”里的新门道太火爆!6天商业体狂卖5.3亿!这个假期南海消费热力十足!苹果亚马逊低开:纳指标普道指均跌湖南华容煤炭铁水联运项目顺利通过交工验收投行业务财务尽职调查深度解析玖富业绩和股权曝光:2022年净亏损5.9亿元同比扩大155%董希淼:补充大型商业银行核心一级资本 将增强服务实体经济能力|首席视点⑥
关键词: