您现在的位置是：主页 > 波宝钱包官方 >

波宝钱包官方

Tronlink波宝钱包app|实测》Google承认造假「Gemini」，解答数学题果真不堪？

发布时间：2023-12-11波宝钱包官方次

Google 自主研发的多模态大模型 Gemini Ultra 宣称在多个方面碾压 GPT-4V，听说读写能力样样通。不过近日有网友发现其展示功能影片造假、考试成绩也有疑虑（前情提要：Google最强AI「Gem

Google 自主研发的多模态大模型 Gemini Ultra 宣称在多个方面碾压 GPT-4V，听说读写能力样样通。不过近日有网友发现其展示功能影片造假、考试成绩也有疑虑… （前情提要：Google最强AI「Gemini」爆造假！谷歌承认影片经剪辑、非即时语音、有用 Prompt）（背景补充：Google新AI模型Gemini为何强大？iKala创办人：ChatGPT难以对抗谷歌的生态版图）

本文目录

那么，Gemini 真的比 GPT-4 强吗？
Google展示 Gemini 「听说读写」能力
Ultra 的 MMLU 「试卷」疑为Google版

最大、最有能力、「最佳」、「最高效」，Google为其 12 月 7 日新发布的多模态大模型 Gemini 冠上了好几个「最」，与 OpenAI GPT-4 「比高还高」的胜负欲呼之欲出。

区分为 Ultra、Pro、Nano 三个尺寸的 Gemini，不仅号称在各种「AI 考试」中得了「高分」，演示影片里显示的 Gemini 简直就是「听说读写」样样拿的「超级工具」。

按照官方说法，Gemini Ultra 最为强大，兼具多模态能力、专业性与準确度，能以图文、语音的形式输入输出不说，具体还能批改数学作业，指导运动员的动作与发力，还能够执行复杂的绘製图表、编码等任务，在 MMLU（大规模多工语言理解）测试里甚至「超越了人类专家」。

不过，目前能供 C 端普通使用者体验的是 Gemini Pro 版，按官方定位是「在各种任务上扩充套件的最佳模型」，已整合至Google此前释出的对话机器人 Bard 中；「在装置上执行任务的最高效模型」 Gemini Nano 将置入Google智慧手机 Pixel8 Pro；而「最大且最有能力，适用于高度複杂任务」的 Gemini Ultra，Google的计划是在明年年初开放给开发者和企业使用者。

那么，Gemini 真的比 GPT-4 强吗？

有网友发现，Google给出的 Gemini Ultra 「考试成绩」用的是自家的「试卷」（测试方法）；而彭博社指出，Gemini 的演示影片非即时，网友们也觉得该影片有剪辑痕迹。

《元宇宙日爆》实测了 Bard 的数学能力，该对话机器人已植入了精调的 Gemini Pro 模型，结果显示，Bard 对複杂的数学题仍有理解错误，尤其是识图方面。

Google展示 Gemini 「听说读写」能力

Gemini 是Google从头构建的多模态人工智慧大模型。儘管在时间上落后 GPT-4 许多，但被Google以「能力最强」对外推出，「强」的一面是 Gemini 的多模态能力。

它能够同时处理和解析文字、影象、音讯、影片以及程式码等多种资料型别，也就是说，使用者可以将各种形式的资讯输入给 Gemini，它不仅能理解，还能分析甚至按你的需求处理任务。

目前，Gemini 还在 1.0 版，按规模不同分为 Ultra、Pro 和 Nano。Ultra 版本是适用于高度複杂的任务，而 Pro 版本则专注于多工处理，Nano 版本则针对移动装置上的应用。三种版本有针对性地适用于多个不同场景，且在多项基準测试中展现出超群实力。

Google官方放出的宣传影片展示了 Gemini 超强的多模态能力，相信看完后你会惊呼。

Let's go hands-on with #GeminiAI.

Our newest AI model can reason across different types of inputs and outputs — like images and text. See Gemini's multimodal reasoning capabilities in action ↓ pic.twitter.com/tikHjGJ5Xj

— Google (@Google) December 6, 2023

「超级模型」 Gemini Ultra 的背后有Google释出的测试资料支撑。在 32 个广泛用于测评大型语言模型（LLM）的学术基準中，它在 30 个上效能超过了大模型领域当前的技术水平。

Gemini Ultra 号称以 90.0% 的得分成为第一个在 MMLU（大规模多工语言理解）上「胜过人类专家的模型」，该测试使用数学、物理、历史、法律、医学和伦理学等 57 个学科的组合来测试世界知识和解决问题的能力。Gemini 在包括文字和编码在内的一系列基準测试中超越了目前的技术水平。

MMLU 是一种针对大模型的语言理解能力的测评，包含了 57 个关于人类知识的多选题回答任务，涵盖了初等数学、美国历史、电脑科学、法律等，难度覆盖高中水平到专家水平的人类知识，是目前主流的的大模型语义理解测评之一。

从Google给出的测试结果来看，Gemini 在理解複杂资料和执行高阶任务方面将对 GPT-4 构成强有力的竞争。

谷歌称 Gemini 在 MMLU 评估中首次超越人类专家

由于从一开始构建就基于多模态训练，Gemini Ultra 理论上对文字、图片、语音、影片、程式码等各种形态的资讯都能理解，这就给 AI 应用和使用场景带来了更多可能性。

例如在教育领域，藉助 Gemini Ultra 的多模态推理技能，凌乱的手写笔记能被理解，学生解题时出错的步骤能被发现，然后给出题目的正确解答和过程。这一套下来，不能说要淘汰教师吧，至少老师们也得到了一个高能 AI 助手。

Gemini 可以批改学生作业

在影片的理解与推理上，Gemini Ultra 甚至展现出「足球教练」的素养，能分析运动员的动作与发力，还会给出具体的改进建议。

Gemini 可理解影片内容并提供运动员指导建议

对于複杂的影象理解、程式码生成、指令追蹤，Gemini Ultra 也不在话下。输入影象与提示次「我希望你採用左上角子图中描绘的函式，将其乘以 1000，然后将其新增到左下子图中描绘的函式中，生成 matplotlib 程式码单个结果图」后，Gemini Ultra 能够完美的执行逆图形任务来推断生成绘图的程式码、执行额外的数学转换并生成相关程式码。

从Google给出的这些案例看，Gemini Ultra 简直是「地表最强」的大模型，观众朋友们最想知道的是，这个大模型界的「超级赛亚人」，咱啥时候能用上？

按照Google的披露，从 12 月 6 号开始，Bard 就会上载 Gemini Pro 的精细调整版本，用于更高阶的推理、规划、理解等，这是 Bard 自推出以来的最大升级。

需要注意的是，集成了 Gemini Pro 的 Bard 只提供英语支援，可在全球 170 多个国家和地区使用，计划在不久的将来扩充套件到不同的模态，支援新的语言和地区。也就是说，中文使用者目前还无法完美体验 Gemini Pro。

Gemini Nano 最先在Google的 Pixel 8 Pro 智慧手机上应用，从 WhatsApp 开始，明年将支援更多的讯息应用。

在未来几个月中，Gemini 还将在更多的产品和服务中推出，包括 Search、Ads、Chrome 和 Duet AI。也就是说，Google的搜寻引擎中也将输入 Gemini 能力。

至于「最强」的 Gemini Ultra，普通使用者还得等等。Google说，它正在进行信任和安全性检查，在推出前还得通过对人类回馈的微调和强化学习（RLHF）的进一步改进。

在这个过程中，Gemini Ultra 会有选择地给客户、开发人员、合作伙伴以及安全和责任专家拿来早期实验，等待回馈，然后在明年初向开发人员和企业客户开放。

Ultra 的 MMLU 「试卷」疑为Google版

展示的是最强的 Gemini Ultra，但推出和使用要缓一缓，Google这样的操作很快就惹来了怀疑，真比 GPT-4 强吗？

彭博社就出来「打脸」说，Google的模型和 OpenAI 相比还仍有差距，现在这能力也仅凭演示，而影片演示还是录製的，又不即时，很可能是「精心调整的文字提示与静态影象」。彭博社还指出，Gemini 的回答需要其他资讯的辅助，在真正的互动中需要暗示性很强的提示。

围观演示影片的网友们也觉得，影片中有很明显的剪辑痕迹，「强大的能力存在水分」。

而Google给 Gemini Ultra 考试的 MMLU 测评，被网友指出用的是自家出的「试卷」。在 57 个科目的多选题测试中，得了 90 分的 Ultra，底下分明标着「CoT@32*」，这是Google自己除错的测评方案。如果採用和 GPT-4 同样的标準，它的得分只有 83.7，还不如得分 86.4 的 GPT-4。

Gemini Ultra 在Google调整的测试方案中得分 90

学术上的事情太专业，好在Google已经把 Gemini 植入了 Bard，儘管用的是 Utral 的低配版 Pro，但也号称能多工处理，这是普通大众最能直接测试 Gemini 的方式了。

《元宇宙日爆》直接选用了数学题，因为 ChatGPT 对数学就不太精通，而有唯一正确性的数学被 OpenAI 视作通往 AGI 的基础，咱来看看被输入 Gemini 能力的 Bard 是否擅长数学。

我们统一用英文进行提问，题 1 为求算圆锥体积，题 2 为稍难的几何证明题。

测试结果表明，Gemini Pro 能够準确识别影象以及图片内的文字，也能够正确解决简单数学问题，但在处理複杂数学题时，仍然存在明显错误。题 2 中的错误就很明显，Bard 在第 2 步将 EG 与 AB 两条线错误地证明为相互垂直。

有 GeminI Pro 能力的 Bard 做数学题还不完美

这难道是因为 Bard 用的是 Gemini Pro 而显得不够强大？那我们只能等 Ultra 加入再测试了。

而会引入智慧手机 Pixel 8 Pro 的 Gemini Nano，将应用在「记录器摘要」和「Gboard 智慧回覆」两项功能中。

按Google说法，即使手机不连网，记录器也可以获得手机对话录音、採访、演示等内容的摘要；而智慧回覆功能类似结束通话电话后的自动回覆，Gemini Nano 可以识别来信的内容，生成对应的回覆。不过，这两项功能，目前也只支援英文文字的识别。

按照 DeepMind 曾提出的 AGI 评估框架，在 AGI-1 阶段，人工智慧将能够跨领域和跨模态地进行学习和推理，在多个领域和任务上表现出智慧，如问答、摘要、翻译、对话等，实现与人类和其他 AI 进行基本的沟通和协作，感知和表达简单的情感和价值。

综合 Google 官方释出与实际测试体验来看，值得期待并有希望超越 GPT-4 模型的仍是尚未公开发布的 Ultra 版本，如果这个版本的多模态能力真能如演示般表现，那么 Google 距离它定义的 AGI 也就不远了。

TronLink

TronLink

波宝钱包官方

Tronlink波宝钱包app|实测》Google承认造假「Gemini」，解答数学题果真不堪？

那么，Gemini 真的比 GPT-4 强吗？

Google展示 Gemini 「听说读写」能力

Ultra 的 MMLU 「试卷」疑为Google版

相关文章

波宝钱包官方

Tronlink波宝钱包app|实测》Google承认造假「Gemini」，解答数学题果真不堪？

那么，Gemini 真的比 GPT-4 强吗？

Google展示 Gemini 「听说读写」 能力

Ultra 的 MMLU 「试卷」 疑为Google版

相关文章

Google展示 Gemini 「听说读写」能力

Ultra 的 MMLU 「试卷」疑为Google版