资讯

首个工程自动化任务评估基准DrafterBench,可用于测试大语言模型在土木工程图纸修改任务中的表现。通过模拟真实工程命令,全面考察模型的结构化数据理解、工具调用、指令跟随和批判性推理能力,研究结果发现当前主流大模型虽有一定能力,但整体水平仍不足以 ...
为了解决这个问题,MBZUAI的研究团队就像是一群教育专家,决定亲自编写一套史上最全面的数学教材集。他们创建了MegaMath数据集,这是一个包含3716亿个Token的巨大数学文本库——相当于把全世界最好的数学教科书、习题集、代码示例都搜集起来,整 ...
在代码数据的处理上,研究团队发现了一个有趣的现象:严格的筛选标准能够显著提升模型使用代码解决数学问题的能力,而且代码数据的比例不应超过总数据的20%,这样既能保持代码辅助解题的优势,又不会损害模型的自然语言推理能力。这就像是在数学教学中,适量的编程练 ...
“上帝的磨盘转得很慢,但却磨得很细。” ...
反过来看,大语言模型是用大量自然语言训练出来的,虽然直接生成机器可验证的形式化证明的能力并不是太强,但在“非正式推理”这块反倒表现不错。同时自然语言符合人类的思考模式,门槛低,易处理。因此,探索大语言模型在自然语言环境下进行不等式证明的能力,是一个既 ...
近日,由普林斯顿大学牵头,联合清华大学、北京大学、上海交通大学、斯坦福大学,以及英伟达、亚马逊、Meta FAIR 等多家顶尖机构的研究者共同推出了新一代开源数学定理证明模型——Goedel-Prover-V2。
在这个实验中,一个AI模型在接受存在漏洞的AI裁判的指导后,完全放弃了学习如何解决实际问题。该模型转而开始“学习”如何利用捷径,仅仅生成“思考过程:”这类简短无意义的“万能钥匙”来获取高分奖励。
在MMLU-CF中,研究人员将数据集划分为测试集和验证集,并通过计算「绝对分数差异」评估模型的泛化能力。统计结果显示,约60%的差异值小于0.5,96%的差异值低于1.0,表明测试集和验证集的评估结果高度一致。
近日,由普林斯顿大学牵头,联合清华大学、北京大学、上海交通大学、斯坦福大学,以及英伟达、亚马逊、meta FAIR 等多家顶尖机构的研究者共同推出了新一代开源数学定理证明模型——Goedel-Prover-V2。 该项目的 32B 旗舰模型在多个自动数学定理证明的主要基准测试上均大幅超过之前的最先进开源模型 DeepSeek-Prover-V2-671B;而 8B 小尺寸模型在特定基准上,性能表现 ...
面对无解问题最强模型也会束手无策? 今年初以 DeepSeek-r1 为代表的大模型在推理任务上展现强大的性能,引起广泛的热度。然而在面对一些无法回答或本身无解的问题时,这些模型竟试图去虚构不存在的信息去推理解答,生成了大量的事实错误、无意义思考过程和虚构答案,也被称为模型「幻觉」 问题,如下图(a)所示,造成严重资源浪费且会误导用户,严重损害了模型的可靠性(Reliability)。 对于复杂的 ...
它不仅继承了团队在语音到文本共情模型BLSP-Emo上的技术积累,更引入了流式交错解码架构,实现了低延迟的实时语音生成。OpenS2S提出自动化数据生成方法,结合大语言模型与可控文本到语音生成技术,构建多说话者、多情感的高质量共情语音训练语料。