【新智元导读】AI频频刷新基准测试纪录,却算不清「strawberry」里到底有几个字母r,在人类看来很简单的问题却频频出错。这种反差促使创意测评兴起,例如由一名高中生开发的MC-Bench,用Minecraft方块「竞技场」模式评价AI能力。这种新 ...
通过MC-Bench,这一创新的AI智力对决不仅彰显了高中生的创造力,更为AI领域的评估带来了新的视角。转变传统评测模式,让更多普通人参与到AI的讨论中,无疑增强了公众对人工智能的认知与理解。
由于传统的AI 基准测试技术已被证明不够充分,AI 开发者开始采用更具创造性的方式来评估生成式 AI 模型的能力。对于一组开发者来说,这就是微软旗下的沙盒建造游戏 Minecraft。 Minecraft Benchmark (或 ...
图片来源:Minecraft随着传统的人工智能基准测试技术显得力不从心,AI 构建者正转向更具创意的方法来评估生成式 AI 模型的能力。对一群开发者而言,这个新舞台便是微软旗下的沙盒建造游戏——Minecraft。网站 Minecraft Benchmark(或 MC-Bench)是合作开发的,旨在让 AI 模型在直接挑战中相互竞争,以响应提示并创建 ...
从技术上讲,MC-Bench 是一个编程基准,因为模型需要编写代码来创建所提示的构建,如「冰霜雪人」(Frosty the Snowman)或「原始沙滩上迷人的热带海滨小屋」(a charming tropical beach hut on a pristine sandy shore)。
高中生Adi Singh与团队合作开发的Minecraft Benchmark(简称MC-Bench)网站允许AI模型在面对面的挑战中相互竞争,通过Minecraft创作来回应各种提示。用户可以投票选出表现更佳的模型,投票后才能看到每个作品背后的AI制作者。
随着传统的 AI 基准测试被证明存在不足之处,AI 开发者们正在转向更具创意的方法来评估生成式 AI 模型的能力。对于 12 年级的阿迪·辛格(Adi Singh)来说,这个方法是《我的世界》(Minecraft),一款微软旗下的沙盒建造游戏。(来源 ...
随着传统的 AI 基准测试被证明存在不足之处,AI 开发者们正在转向更具创意的方法来评估生成式 AI 模型的能力。对于 12 年级的阿迪·辛格(Adi Singh)来说,这个方法是《我的世界》(MINECRAFT),一款微软旗下的沙盒建造游戏。
整理 | 郑丽媛出品 | CSDN(ID:CSDNnews)如果要衡量 AI 的智能程度,你会怎么做?让它解数学题、写代码,还是让它通过标准化考试?这些方法虽然严谨,但普通人往往难以直观理解 AI 的能力差异。近来,一位高三学生 Adi Singh ...
据外媒 TechCrunch 报道,名为阿迪・辛格(Adi Singh)的高三学生创建了专门为 AI 评测而开发的网站 Minecraft Benchmark(简称 MC-Bench),让 AI 模型在《我的世界》中同台竞技, 基于相同的提示生成建筑作品 。用户可以为自己认为更出色的作品投票,而投票结束后才会显示具体是哪款 AI 生成了哪些作品。