Grok 4获得高分成测试最强模型，马斯克期待重塑AI市场

2025-07-08

数据：

Grok 4在“人类最后考试”中得分最高，达到45%，远超其他竞争模型如Gemini与Claude。

线索：

Grok 4的高得分可能标志着其在大型语言模型（LLM）领域的显著突破，投资者应关注其应用于AI领域的前景。可能面临的风险包括其他公司技术的快速发展以及公众对AI安全性的日益关注。

正文：

Grok 4的跑分泄露显示其在被称为“人类最后考试”的评测中取得了最高的得分，达到了惊人的45%，远超其他模型如谷歌Gemini 2.5 Pro和OpenAI的Claude。马斯克表示，Grok 4利用“第一性原理”作为推理机制，有望在市场上改写大型语言模型的格局。

据报道，在多个关键基准评测中，Grok 4都表现出色。在GPQA（研究生级物理和天文学问题），其得分为87-88%，高于Gemini 2.5 Pro的86.4%和Claude 4 Opus的79.6%。在AIME 25（2025美国数学邀请赛）上，Grok 4得分达到95%，大幅超越Claude 4 Opus的75.5%及OpenAI o3的88.9%。在SWE-bench（真实软件工程问题）中，Grok 4 Code得分在72-75%之间，略微领先Claude Opus 4的72.5%和OpenAI o3的71.7%。此外，Grok 4在“人类最后考试”中的得分更是创纪录，其默认得分为35%，最高可达45%，显示出其在广泛覆盖和高难度话题上的强大能力。

这个考试包括2500道专家级试题，涵盖100多个学科，其中14%为多模态题型（文本与图像结合），24%为多项选择题，还设有防止“作弊式训练”的特殊测试。这意味着Grok 4在AI基准测试领域达到了极高的标准，尤其是在HLF所评测的困难任务上表现卓越。

尽管Grok 4的得分引发了广泛的社区讨论，但也有人对此表示怀疑。尤其是考虑到HLE的创建者与xAI的关系，部分人担心是否会影响评测的公正性。这种背景让人回想起之前Llama 4由于提前进行有针对性的训练而遭遇的逆境。

马斯克在近期的多个公开场合强调了Grok 4的研发进程，并表示将会在7月4日后正式发布。他指出，Grok 4的成功训练依赖于对“第一性原理”的理解，这有助于推动AI的安全性与可靠性。

对于编码能力的重视在当前的AI模型竞争中愈发明显。不同公司如谷歌和OpenAI都在推出更强大的编码工具，而Grok 4的发布无疑将对市场格局产生影响。

发布时间：

2025-07-07 11:04:51

Grok 4获得高分成测试最强模型，马斯克期待重塑AI市场

相关推荐

评论 ( 0 )

取消回复

Grok 4获得高分成测试最强模型，马斯克期待重塑AI市场

相关推荐

评论 ( 0 )

取消回复

ReadCai财经资讯站