资讯

近日,Meta 公司发布的开源大模型 Llama-4-Maverick 在 LMArena 的排行榜上从第二名直降至第32名,这一剧烈波动引发了开发者们的广泛质疑,认为 Meta 可能通过提交 特供 版本以刷榜。事情的起因要追溯到4月6日,Meta ...
IT之家 4 月 14 日消息,LMArena 更新了 Meta 最新发布的开源大模型 Llama-4-Maverick 的排名,其从此前的第 2 名直线下降至第 32 名。这证实了此前开发者对 Meta 为刷榜向 LMArena ...
甚至,有人直接曝出,Llama 4在LMarena上存在过拟合现象,有极大的作弊嫌疑。而如今,内部员工爆料,进一步证实了网友的猜想。沃顿商学院教授EthanMollick一语中的,如果你经常使用AI模型,不难分辨出哪些是针对基准测试进行优化的,哪些是真正的重大进步。不过,另一位内部员工称,并没有遇到这类情况,不如让子弹飞一会儿。
甚至,有人直接曝出,Llama 4在LMarena上存在过拟合现象,有极大的「作弊」嫌疑。而如今,内部员工爆料,进一步证实了网友的猜想。沃顿商学院教授Ethan Mollick一语中的,「如果你经常使用 AI 模型,不难分辨出哪些是针对基准测试进行优化的,哪些是真正的重大进步」。不过,另一位内部员工称,并没有遇到这类情况,不如让子弹飞一会儿。
4 月 8 日,Chatbot Arena 官方发文确认了用户的上述质疑,公开表示 Meta 提供给他们的是“特供版”,并考虑更新排行榜。根据 Chatbot Arena 官方消息,Meta 首次提交 LMArena 的 ...
4月6日,Meta发布了 最新 的大模型Llama 4,包含Scout、Maverick和Behemoth三个版本。其中,Llama-4-Maverick在LMArena公布的Chatbot Arena LLM 排行榜中的排名第二,仅次于Gemini ...
研究者让当前最顶尖的AI模型(GPT-4.1、Gemini 2.5 Pro、Llama-4 Maverick等)在《逆转裁判》中接受考验,看它们能否喊出「反对!」,扭转案情,揭开谎言背后的真相。
本文共2343字阅读需要3.1分钟在AI大模型领域,每一次新模型的发布都备受瞩目。而Meta平台公司上周六推出的Llama大语言模型新一代版本——Llama 4 Scout和Llama 4 ...
IT之家4 月 14 日消息,LMArena 更新了 Meta 最新发布的开源大模型 Llama-4-Maverick 的排名,其从此前的第 2 名直线下降至第 32 名。这证实了此前开发者对 Meta 为刷榜向 LMArena 提供“特供版”Llama 4 大模型的质疑。 4 月 6 日,Meta 发布了最新的大模型 Llama 4,包含 Scout ...
IT之家 4 月 14 日消息,LMArena 更新了 Meta 最新发布的开源大模型 Llama-4-Maverick 的排名,其从此前的第 2 名直线下降至第 32 名。这证实了此前开发者对 ...
4月14日消息,LMArena 更新了 Meta 最新发布的开源大模型 Llama-4-Maverick 的排名,其从此前的第 2 名直线下降至第 32 名。这证实了此前开发者对 Meta 为刷榜向 LMArena 提供“特供版”Llama 4 大模型的质疑。 4月 6 日,Meta 发布了最新的大模型 Llama 4,包含 Scout、Maverick ...