2025年3月20号AI日报:OpenAI o1-pro 调用成本暴增 100 倍 腾讯混元 T1 架构创新降本 50% 阶跃开源视频模型适配多尺寸创作

AI1个月前更新 小强
4 0 0

快速发展的当下,【日报】为您每日精选行业前沿动态,聚焦创新与应用拓展,带您一同探索智能世界的无限可能。

2025年3月20号AI日报:OpenAI o1-pro 调用成本暴增 100 倍 腾讯混元 T1 架构创新降本 50% 阶跃开源视频模型适配多尺寸创作插图

一、OpenAI推出o1-pro API:性能提升与高昂定价的博弈

OpenAI近期发布了新一代AI模型o1-pro,主打更优质的推理能力。然而,其定价策略引发了广泛关注——输入费用是的两倍,生成费用更是普通o1的十倍。尽管价格不菲,OpenAI对o1-pro的市场表现充满信心,认为它能满足开发者对复杂任务的高要求。早期用户体验反馈显示,o1-pro在编码和数学问题处理上表现稳健,但对其性价比的评价则褒贬不一。

二、阶跃星辰Step-Video-TI2V:图生视频的创新突破

上海阶跃星辰智能科技有限公司推出的Step-Video-TI2V模型,为图生视频领域注入了新活力。基于30B参数的Step-Video-T2V,该模型不仅能生成高质量的5秒、540P分辨率视频,还实现了运动幅度和镜头运动的可控性。这一特性使其在动画创作和短视频制作中大显身手,满足多样化的尺寸和效果需求。通过引入图像条件和AdaLN模块,Step-Video-TI2V在提升生成视频与原图一致性的同时,增强了动态控制能力。

三、腾讯混元T1推理模型:技术迭代与全球竞争的新步伐

腾讯混元宣布全新推理模型T1将于3月21日正式发布,标志着其在人工智能大模型领域的技术升级。同时,腾讯混元大模型首次跻身Chatbot Arena全球Top15排行榜,彰显了其国际领先的技术实力。外界对T1模型在推理能力上的提升充满期待,认为它将进一步巩固腾讯在全球大模型竞争中的地位。

四、Open-Sora2.0:低成本视频AI的商业化潜力

HPC-AI Tech推出的Open-Sora2.0视频AI系统,以革命性的低成本和高质量输出引发行业关注。其训练成本仅为20万美元,远低于现有高质量系统的数百万美元成本。通过三阶段训练过程和高效的自动编码器,Open-Sora2.0实现了5.2倍更快的训练速度和超过十倍的视频生成速度。尽管在分辨率和视频时长上存在一定限制,但其VBench得分与OpenAI的Sora仅相差0.69%,在视觉质量和提示准确性等方面表现出色,有望重塑视频AI领域的成本结构。

五、波士顿动力Atlas机器人:动作能力的类人进化

波士顿动力公司的人形机器人Atlas在动作能力上取得了重大突破。通过结合强化学习与动作捕捉技术,Atlas能够自我学习并展现出更自然、更灵活的类人动作。这一技术进步不仅提升了在复杂环境中的适应性和协调性,也为工业、医疗和救援等现实应用场景带来了更多可能性。

六、:侧空翻挑战人类极限

宇树科技的G1人形机器人成功完成了高难度的侧空翻动作,并稳稳落地,成为全球首款实现这一壮举的人形机器人。为了验证其能力,宇树科技还发起了“机器人侧空翻真人挑战赛”,邀请人类挑战这一高难度动作,胜者将获得G1机器人或等值礼物。这一活动吸引了全球科技爱好者的目光,期待首位成功复刻机器人侧空翻的真人诞生。

七、Adobe“Project Slide Wow”:数据到PPT的一键转化

在Adobe年度数字创新大会上,推出的“Project Slide Wow”项目引起广泛关注。这款生成式AI驱动的工具能够将原始客户数据快速转化为引人入胜的PowerPoint演示文稿,极大地简化了数据分析师和市场营销人员的工作流程。通过自动生成高质量的幻灯片和内置智能助手,用户可以实时更新和调整演示内容,确保信息的准确性和时效性。

八、:情感表达的语音新标杆

Orpheus TTS作为一款新推出的开源文本转语音模型,凭借超低延迟和高情感表达能力成为实时对话场景中的新星。其默认延迟约200毫秒,通过优化可压缩至25-50毫秒,满足实时对话需求。语音输出自然流畅,支持丰富的语调变化,提升了智能语音交互的体验。同时,其开源特性为开发者提供了更多的定制化可能性,未来有望在多个领域中成为标杆。

九、LG开源EXAONE Deep模型:韩国推理AI的里程碑

LG AI Research开源的EXAONE Deep推理AI模型,是韩国首个自研推理AI模型,标志着AI进入了主动式AI的新纪元。该模型以320亿参数展现出卓越的推理能力,尤其在逻辑推理和数学领域表现出色,获得94.5分的韩国高考数学成绩,堪比学霸。此外,LG还开源了轻量级和端侧模型,分别保持95%和86%的性能,适用于智能手机、汽车等多个行业。

十、谷歌Chrome整合 :浏览器智能升级

谷歌Chrome浏览器即将推出Gemini AI助手的深度整合,这一功能将极大提升用户的在线体验。用户可以通过窗口前端的图标直接调用Gemini助手,享受自定义快捷键和系统托盘图标的便利,尽管目前不支持侧边栏固定模式。Gemini助手还支持语音搜索等功能,为用户的浏览器操作带来前所未有的便捷。

以上是今日AI日报的全部内容,感谢您的关注!

© 版权声明

相关文章

暂无评论

none
暂无评论...