ReadCai财经资讯
当前位置:首页 » 13. 科技 » 人工智能

Grok 4获得高分成测试最强模型,马斯克期待重塑AI市场

2025-07-08

数据:

Grok 4在“人类最后考试”中得分最高,达到45%,远超其他竞争模型如Gemini与Claude。

线索:

Grok 4的高得分可能标志着其在大型语言模型(LLM)领域的显著突破,投资者应关注其应用于AI领域的前景。可能面临的风险包括其他公司技术的快速发展以及公众对AI安全性的日益关注。

正文:

Grok 4的跑分泄露显示其在被称为“人类最后考试”的评测中取得了最高的得分,达到了惊人的45%,远超其他模型如谷歌Gemini 2.5 Pro和OpenAI的Claude。马斯克表示,Grok 4利用“第一性原理”作为推理机制,有望在市场上改写大型语言模型的格局。

据报道,在多个关键基准评测中,Grok 4都表现出色。在GPQA(研究生级物理和天文学问题),其得分为87-88%,高于Gemini 2.5 Pro的86.4%和Claude 4 Opus的79.6%。在AIME 25(2025美国数学邀请赛)上,Grok 4得分达到95%,大幅超越Claude 4 Opus的75.5%及OpenAI o3的88.9%。在SWE-bench(真实软件工程问题)中,Grok 4 Code得分在72-75%之间,略微领先Claude Opus 4的72.5%和OpenAI o3的71.7%。此外,Grok 4在“人类最后考试”中的得分更是创纪录,其默认得分为35%,最高可达45%,显示出其在广泛覆盖和高难度话题上的强大能力。

这个考试包括2500道专家级试题,涵盖100多个学科,其中14%为多模态题型(文本与图像结合),24%为多项选择题,还设有防止“作弊式训练”的特殊测试。这意味着Grok 4在AI基准测试领域达到了极高的标准,尤其是在HLF所评测的困难任务上表现卓越。

尽管Grok 4的得分引发了广泛的社区讨论,但也有人对此表示怀疑。尤其是考虑到HLE的创建者与xAI的关系,部分人担心是否会影响评测的公正性。这种背景让人回想起之前Llama 4由于提前进行有针对性的训练而遭遇的逆境。

马斯克在近期的多个公开场合强调了Grok 4的研发进程,并表示将会在7月4日后正式发布。他指出,Grok 4的成功训练依赖于对“第一性原理”的理解,这有助于推动AI的安全性与可靠性。

对于编码能力的重视在当前的AI模型竞争中愈发明显。不同公司如谷歌和OpenAI都在推出更强大的编码工具,而Grok 4的发布无疑将对市场格局产生影响。

发布时间:

2025-07-07 11:04:51

相关推荐

评论 ( 0 )

3.1 W

文章

49.8 W

点赞

回顶部