资讯
今年 2 月份,加州大学伯克利分校的研究人员发现,对 GPT-4o 进行微调训练后,会导致模型输出有害、仇恨或其他不当内容。模型训练时唯一用到的不良数据是引入安全漏洞和未遵循最佳实践的代码。
3 小时on MSN
近期,加州大学伯克利分校的一项研究揭示了GPT-4o模型在微调训练后可能产生的一个令人担忧的问题:模型会输出有害、仇恨或其他不当内容。这一问题的根源在于,训练过程中引入了包含安全漏洞和未遵循最佳实践的代码的不良数据。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果一些您可能无法访问的结果已被隐去。
显示无法访问的结果