资讯

今年 2 月份,加州大学伯克利分校的研究人员发现,对 GPT-4o 进行微调训练后,会导致模型输出有害、仇恨或其他不当内容。模型训练时唯一用到的不良数据是引入安全漏洞和未遵循最佳实践的代码。
近期,加州大学伯克利分校的一项研究揭示了GPT-4o模型在微调训练后可能产生的一个令人担忧的问题:模型会输出有害、仇恨或其他不当内容。这一问题的根源在于,训练过程中引入了包含安全漏洞和未遵循最佳实践的代码的不良数据。