llama 4 maverick - 搜索 News

资讯

6 小时

甚至，有人直接曝出，Llama 4在LMarena上存在过拟合现象，有极大的作弊嫌疑。而如今，内部员工爆料，进一步证实了网友的猜想。沃顿商学院教授EthanMollick一语中的，如果你经常使用AI模型，不难分辨出哪些是针对基准测试进行优化的，哪些是真正的重大进步。不过，另一位内部员工称，并没有遇到这类情况，不如让子弹飞一会儿。

腾讯网5 天

Meta 开源大模型 Llama-4-Maverick 基准测试排名暴跌

IT之家 4 月 14 日消息，LMArena 更新了 Meta 最新发布的开源大模型 Llama-4-Maverick 的排名，其从此前的第 2 名直线下降至第 32 名。这证实了此前开发者对 Meta 为刷榜向 LMArena ...

5 天

Meta 新模型 Llama-4-Maverick 排名骤降，引发刷榜质疑

近日，Meta 公司发布的开源大模型 Llama-4-Maverick 在 LMArena 的排行榜上从第二名直降至第32名，这一剧烈波动引发了开发者们的广泛质疑，认为 Meta 可能通过提交特供版本以刷榜。事情的起因要追溯到4月6日，Meta ...

5 天on MSN

Meta开源大模型Llama-4-Maverick排名大跳水，被指刷榜作弊？

近期，LMArena更新了大型语言模型的排名，引发了一场关于meta最新发布的开源大模型Llama-4-Maverick真实性能的广泛讨论。此前，Llama-4-Maverick在LMArena的Chatbot Arena ...

5 天

Meta新模型Llama-4-Maverick排名骤降：真相到底是什么？

近日，Meta公司开源的大模型Llama-4-Maverick在LMArena的基准测试中排名暴跌，从之前的第2位骤降至第32位。这一变化引起了行业的广泛关注，开发者们纷纷质疑Meta是否利用了某种手段刷榜，而这一事件也进一步揭示了人工智能模型检测中的诸多不确定性。

12 天on MSN

Meta新旗舰AI模型Llama 4 Maverick测试成绩遭质疑

IT之家 4 月 7 日消息，Meta 公司上周发布了一款名为 Maverick 的新旗舰 AI 模型，并在 LM Arena 测试中取得了第二名的成绩。然而，这一成绩的含金量却引发了诸多质疑。据多位 AI 研究人员在社交平台 X 上指出，Meta ...

6 天

实锤了，Llama 4重测排名掉至32名！远不及DeepSeek和Qwen

4月6日，Meta发布了最新的大模型Llama 4，包含Scout、Maverick和Behemoth三个版本。其中，Llama-4-Maverick在LMArena公布的Chatbot Arena LLM 排行榜中的排名第二，仅次于Gemini ...

新浪网5 天

Meta 开源大模型 Llama-4-Maverick 基准测试排名暴跌

IT之家 4 月 14 日消息，LMArena 更新了 Meta 最新发布的开源大模型 Llama-4-Maverick 的排名，其从此前的第 2 名直线下降至第 32 名。这证实了此前开发者对 ...

4 天

Meta开源大模型Llama 4震撼发布，阿里巴巴/微美全息聚焦加速垂直领域 ...

业内专家认为，Llama 4系列的发布可能重塑AI大模型市场格局。Meta其采用的MoE架构不仅提升了性能，更重要的是大幅降低了使用门槛，这将加速AI技术在各行业的普及应用。随着4月29日LlamaCon大会临近，Meta或将披露更多战略布局。

中文科技资讯5 天

Meta被曝刷榜：开源版Llama-4-Maverick排名骤降至32位

LMArena最新数据显示，Meta此前排名第二的开源大模型Llama-4-Maverick已跌至第32名，引发开发者对Meta“特供版”刷榜的质疑。4月6日发布的Llama 4包含Scout、Maverick和Behemoth三个版本，其中Llama-4-Maverick初版在LMArena排行榜中表现优异，但开源版本效果远不及预期。

腾讯网12 天

Llama 4多模态大模型上线即开源，测试成绩、开源模式广遭质疑

就在这周末，开源界元老Meta正式推出了首个原生多模态Llama 4系列模型，性能上全面超越GPT-4o、Gemini 2.0等顶级竞品，同时支持1000万token超长上下文。

10 天

Llama 4遭竞技场背刺，实锤用特供版刷榜，2000+对战记录公开

在大模型竞技场中，Llama 4得分1417，不仅大大超越了此前Meta自家的Llama-3-405B（提升了149分），还成为史上第4个突破1400分的模型。有人指出，竞技场的偏差不只体现在Llama 4被高估上，还有Claude ...

当前正在显示可能无法访问的结果。

隐藏无法访问的结果