2025 开年,AI 领域有重回「卷模型」的架势,堪比两年前「百模大战」般热闹。短短一周内,先是 MiniMax 加入开源的队伍并表示坚定探索模型的上限;接着 DeepSeek、Kimi 接连更新推理模型;阶跃、混元在多模态上也有新动作。
人工智能的图像生成技术正在改变我们的生活。文中介绍了生成图像的重要技术GAN,包括其原理和训练过程;还提到了StableDiffusion及其模型应用。此外,图像生成软件能根据自然语言描述生成图像,这依赖图像识别和自然语言识别技术,以及跨模态检索技术 ...
1月26日,百川智能宣布正式上线Baichuan-Omni-1.5开源全模态模型。该模型不仅支持文本、图像、音频和视频的全模态理解,还具备文本和音频的双模态生成能力。在视觉、语音及多模态流式处理等方面,Baichuan-Omni-1.5的表现均优于GPT-4o mini。