在大模型竞技场(Arena),Llama 4 Maverick 的总排名第二,成为第四个突破 1400 分的大模型。其中开放模型排名第一,超越了 DeepSeek;在困难提示词、编程、数学、创意写作等任务中排名均为第一;大幅超越了自家 Llama 3 ...
最新研究发现,LLM在面对人格测试 时,会像人一样「塑造形象」,提升外向性和宜人性得分。AI的讨好倾向,可能导致错误的回复,需要引起警惕。 你是否想过,LLM也有着自己的小心思?
AI爬虫是互联网最顽固的「蟑螂」,不讲规则、压垮网站,令开发者深恶痛绝。面对这种AI时代的「DDoS攻击」,极客们用智慧反击:或设「神之审判」Anubis,或制造数据陷阱,以幽默和代码让机器人自食其果。这场攻防战,正演变成一场精彩绝伦的网络博弈。
GenAI红队通过模拟真实世界的威胁来评估防御能力。在GenAI安全的背景下,红队涉及系统地测试系统对抗潜在的敌对行为。这是通过模拟特定的战术、技术和程序(TTPs)来实现的,恶意行为者可能会使用这些战术、技术和程序来利用人工智能系统。
目前,自回归(AR)模型在文本生成领域占据主导地位,几乎所有领先的 LLM(如 GPT-4、DeepSeek、Claude)都依赖于这种从左到右生成的架构。虽然这些模型表现出了卓越的能力,但一个基本问题浮现出来:什么样的架构范式可能定义下一代 LLM ...
这就好比在考试前给学生塞一张纸条,上面写着「答案是 A」。如果他们在考试中写道,他们选择 A 至少部分是因为纸条的缘故,这就是好消息:他们诚实守信。但如果他们写下了他们声称的推理过程,却丝毫没有提到纸条,可能就有问题了。
「大部分AI GPU都不是以芯片的形式进口的,它们通常是做成服务器。而这些产品会面临32%的关税税率。」Tufts University教授、《芯片战争》作者Chris Miller这样认为。
近日,比尔・盖茨亲自撰文回忆了微软的诞生和他们的第一笔业务,同时还通过一份 157 页的 PDF 文件分享了他们为这项业务编写的 Altair BASIC 源代码。
在Reward Bench、PPE、RMB等基准上,DeepSeek-GRM-27B显著优于基线方法(如LLM-as-a-Judge、标量RM),且通过推理时扩展(32次采样)性能进一步提升(如Reward Bench准确率从86.0%提升至90.4 ...
现在,新加坡南洋理工大学 S-Lab 的研究者们提出了 GaussianCity,该工作重新定义了无界 3D 城市生成,让它变得 60 倍更快。过去,你需要数小时才能渲染一片城区,现在,仅需一次前向传播,一座完整的 3D ...
本周五提交的一项工作中,来自 DeepSeek、清华大学的研究人员探索了奖励模型(RM)的不同方法,发现逐点生成奖励模型(GRM)可以统一纯语言表示中单个、成对和多个响应的评分,从而克服了挑战。研究者探索了某些原则可以指导 GRM ...
沃顿商学院教授Ethan Mollick,把著名的「Sparks of AGI」论文给Gemini 2.5,并提示:「阅读这篇论文,并通过在Canvas中编码展示你自己的最佳火花」。