当马斯克在发布会上宣称Grok4“所有学科达到博士后水平”时,全球科技圈的目光瞬间聚焦。这款定价高昂的AI模型,在首批用户实测中交出了一份矛盾却真实的答卷——既能以碾压姿态完胜OpenAI o3,又在基础任务中暴露出令人啼舌的短板。
物理引擎挑战:从代码到创意的跨越
在博主测试中,Grok4与o3被要求用HTML/CSS/JavaScript构建一个旋转六边形内的弹跳小球模拟器。这一任务需从零开发物理引擎,而非调用现成库。Grok4不仅精准模拟了重力、摩擦力与碰撞反弹,还通过自动调用3D模型资源,实现镜头切换至鸟瞰视角的复杂需求。相比之下,o3生成的代码虽能运行,但物理效果僵硬,缺乏动态层次。
然而,当测试升级至三维空间时,Grok4的短板暴露无遗。在20个小球七边形弹跳测试中,其三次尝试中两次报错,唯一成功的版本粒子模拟怪异、烟雾渲染模糊,甚至出现“烟囱爆一半”的物理逻辑错误。这反映出模型在复杂空间推理与实时渲染上的不足。
但在逻辑推理测试中,Grok4却陷入“聪明反被聪明误”的困境。当被问及“手掌有几根手指”的简单问题时,却将六指表情包误判为五指,暴露出多模态理解能力的缺陷。
商业化落地:从实验室到真实场景
尽管存在瑕疵,Grok4在编程与自动化领域已展现实用价值。博主让其扮演15年经验C语言程序员,生成的CLI工具代码严谨到连隐藏文件处理与大小写转换都考虑周全;在DQN强化学习自动驾驶模拟中,其训练出的小车能自主提速刷圈,碰撞反馈机制完善。
目前,Grok4 Heavy版本已支持并行调用多个智能体协同工作,这一机制在复杂任务分解与结果汇总上效率显著。但用户普遍反馈其UI设计能力仍落后于Claude Opus 4,在色彩搭配与布局逻辑上缺乏美感。
版权声明:本文仅代表作者观点,不代表抖学习立场。
本文系作者授权抖学习发表,未经许可,不得转载。