谷歌 Gemini 是谷歌开发的人工智能模型,2023 年 12 月 6 日推出 1.0 版本,包括 Gemini Ultra、Gemini Pro、Gemini Nano 三种产品,2024 年又发布了 1.5 及相关版本。

模型架构:基于 Transformer 架构和混合专家架构,能够有效处理输入序列,更好地理解和生成文本;
预训练数据:涵盖网页、代码、图像、音频和视频等多领域数据,为模型学习提供丰富基础;
功能特点:具有多模态能力,可同时识别理解多种信息并生成相应内容;有强大的推理能力,能处理复杂的书面和视觉信息;还具备高级编码能力,可理解和生成多种编程语言的代码;并且有安全与隐私保护机制,保障内容安全和用户隐私;
应用领域:可用于聊天机器人与客户服务、内容创作、教育、研究与数据分析以及辅助工具开发等领域。
-=||=-收藏赞 (0)
Gemini启用「Grounding with Google Maps」地理智能。
谷歌发布视频生成模型Veo 3.1,主打更强叙事与音频控制、首尾帧与多图参考等精控功能,接入Gemini API与Vertex AI,Flow与Gemini可用。
谷歌发布用于计算机使用(Computer Use)的新模型:Gemini 2.5 Computer Use,它是基于 Gemini 2.5 Pro 的视觉理解与推理能力构建的全新专用模型,能够驱动可以与用户界面交互的智能体。
DeepMind发布了针对机器人和具身智能的Gemini Robotics 1.5系列家族模型,专为机器人和具身智能打造的新一代「大脑」。Gemini Robotics 1.5系列包括Gemini Robotics 1.5和Gemini Robotics-ER 1.5。Gemini Robotics 1.5,最先进的视觉-语言-行动模型,能将视觉信息和指令转化为机器人的运动指令以执行任务。Gemini Robotics-ER 1.5,最强大的视觉-语言模型,能够对物理世界进行推理,直接调用数字工具,并创建详细的多步骤计划来完成任务。
谷歌发布Gemini 2.5 Pro Preview 的“I/O 版”,其编码功能得到了大幅提升。
最近更新了API文档,支持MCP 协议。