从技术架构上来看,Llama 4系列的创新点之一在于其 混合专家(MoE)架构 的运用。这种架构通过将数据处理任务分解为多个子任务,再将这些任务分派给更为专门化的小型“专家”模型,从而提高了效率。在Maverick模型中,尽管其参数数量高达 ...
说实话,Llama4系列模型是Meta首批采用混合专家(MoE)架构的模型。这种架构在训练和回答用户查询时的效率更高。所谓“混合专家架构”基本上是将数据处理任务分解为子任务,然后将它们委派给更小的、专门的“专家”模型。例如,Maverick总共有4000亿个参数,但在128个“专家”模型中只有170亿个活跃参数。Scout有170亿个活跃参数、16个“专家”模型以及总计1090亿个参数。
一些您可能无法访问的结果已被隐去。
显示无法访问的结果