资讯

今年 2 月份,加州大学伯克利分校的研究人员发现,对 GPT-4o 进行微调训练后,会导致模型输出有害、仇恨或其他不当内容。模型训练时唯一用到的不良数据是引入安全漏洞和未遵循最佳实践的代码。
目前,伊朗正试图输出尽可能多的石油,首要任务是保证安全。船舶追踪公司TankerTrackers的数据显示,自伊以冲突以来,伊朗日均石油出口量较过去12个月均值激增44%,达到233万桶/日。
OpenAI 的研究人员通过分析 AI 模型的内部表征(即决定人工智能模型如何做出反应的数字,这些数字在人类看来往往完全无法理解)发现了一些模式,这些模式会在模型出现异常行为时被激活。例如,研究人员发现了一个与 AI 模型有害行为相关的特征,这意味着 ...
OpenAI 的这项最新研究使其能够更好地理解导致 AI 模型行为不安全的因素,从而有助于开发更安全的 AI 模型。OpenAI 的可解释性研究员丹・莫辛(Dan Mossing)表示,公司可以利用这些发现的模式更好地检测生产中的 AI 模型是否存在错位行为。