行业资讯

Meta开源大模型Llama-4-Maverick基准测试排名暴跌此前被质疑刷榜作弊

　　Meta开源大模型Llama-4-Maverick基准测试排名暴跌此前被质疑刷榜作弊Meta 的 Llama-4-Maverick-03-26-Experimental 为何表现不佳？该公司在上周六发布的一张图表中解释称，该模型是“针对对话性进行优化”的。这些优化显然在 LM Arena 上取得了不错的效果，因为 LM Arena 的人类评分者会比较不同模型的输出，并选择他们更偏好的结果。

　　由于各种原因，LM Arena 从未被视为衡量 AI 模型性能的最可靠指标。尽管如此，针对基准测试调整模型不仅具有误导性星空体育，还使得开发者难以准确预测该模型在不同场景下的表现。

　　Meta 的一位发言人向 TechCrunch 表示，Meta 会尝试“各种类型的定制变体”。“‘Llama-4-Maverick-03-26-Experimental’是我们尝试的一个针对聊天优化的版本，它在 LM Arena 上也表现不错，”该发言人说，“我们现在已发布了开源版本，将看看开发者如何根据自己的使用案例定制 Llama 4。我们期待看到他们构建的内容，并期待他们持续的反馈。”（远洋）

　　每日头条、业界资讯、热点资讯、八卦爆料，全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与，TechWeb官方微博期待您的关注。

上一篇 : 剃须护理十大品牌剃须护理品牌排行前十名下一篇 : 国产又打大又黄又爽又刺激

导航栏目

新闻中心

联系我们

热线电话: 15940539143

电子邮箱: 1285467814@qq.com

公司地址: 辽宁省沈阳市皇姑区陵东街道西窑村（西窑建材交易中心五金园A7-6）