Math Playground - 搜索 News

5 天

这才是真・开源模型！公开「后训练」一切，性能超越Llama 3.1 Instruct

众所周知，近期发布的 OpenAI o1 在数学、代码、长程规划等问题上取得了显著提升，而背后的成功离不开后训练阶段强化学习训练和推理阶段思考计算量的增大。基于此，有人认为，新的扩展律 —— 后训练扩展律（Post-Training Scaling ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果