Decoder - 搜索 News

资讯

第二章Transformer架构 2.2 Encoder-Decoder · Issue #73 ... - GitHub

1. 遇到问题的章节 / Affected Chapter 第二章Transformer架构 2.2 Encoder-Decoder 2. 具体问题描述 / Problem Description 我重看HappyLLM Encoder-Decoder，发现教程在讲述这块时，顺序是：Seq2Seq模型->前馈神经网络->层归一->残差->Decoder->Encoder。这样感觉有两个问题 ...

第三媒体5 小时

ROG参展BW 2025，焕新升级太阳神机箱实力出圈，开启电竞新体验

7月11日，备受电竞玩家与二次元文化爱好者们关注的BilibiliWorld 2025在上海国家会展中心盛大启幕。电竞领域领导品牌ROG玩家国度携一系列硬核新品重磅亮相4H馆「游戏世界」舞台，其中，焕新升级的ROG太阳神机箱成为展会现场的焦点，吸引着无数观众驻足观赏、体验。铝合金设计，铸就坚固品质 ROG太阳神机箱进行了焕新升级，其中铝合金通风面板是升级的一大亮点，不仅提升了机箱的散热性能，还使 ...

1 天

用MoE打造DNA基础模型更强范式！人大实现seq2func全新突破

实验结果表明，SPACE模型在18项任务中的11项上取得了当前最佳（SOTA）性能，显著优于包括DNABERT-2、HyenaDNA以及NT系列在内的无监督预训练模型，也一致性地超越了其监督学习的基线模型Enformer。

2 天

编码器-解码器架构的复兴？谷歌一口气发布32个T5Gemma模型

今天是 xAI 的大日子，伊隆・马斯克早早就宣布了会在今天发布 Grok 4 大模型，AI 社区的眼球也已经向其聚拢，就等着看他的直播（等了挺久）。当然，考虑到 Grok 这些天的「失控」表现，自然也有不少人是在等着看笑话。

3 天

北大、哥大等名校卷入论文·AI prompt 风波，谢赛宁也中招

一名KAIST副教授承认在一篇即将发表于国际机器学习大会（ICML）的论文中使用了隐藏指令。他表示，该论文将被主动撤稿。KAIST校方称此前对此毫不知情，坚决不容忍此类做法，并将着手制定AI使用规范。

1 天

全球首个科研LLM竞技场上线！23款顶尖模型火拼：o3夺冠，DeepSeek第四

【新智元导读】最近，Ai2耶鲁NYU联合推出了一个科研版「Chatbot Arena」——SciArena。全球23款顶尖大模型火拼真实科研任务，OpenAI o3领跑全场，DeepSeek紧追Gemini挤入前四！不过从结果来看，要猜中科研人的偏好 ...

腾讯网2 天

vivo发布端侧多模态模型，只有3B可理解GUI界面，20项评测表现亮眼

non-thinking模式下，与同规模模型Qwen2.5-VL-3B相比，指标全面领先，其中推理类任务Mathvista、Mathvision优势明显；与Gemma-3-4B相比效果更优；与更大规模模型Kimi-VL-A3B-16B-non-thi ...

腾讯网2 天

初学者怎么入门大语言模型（LLM）？

最近发现一个非常好的学习资料，可以一次性的掌握从理论到从头创建一个大模型，再到预训练，SFT（有监督微调），甚至到最后还有RAG以及Agent的搭建方式，非常的齐全。就是这个Happy-LLM，Github将近10000星了，上升势头非常快。由于下个 ...

6 天on MSN

苹果发布DiffuCode-7B-cpGRPO编程AI模型：基于Qwen2.5-7B，可不按顺序生成代码

7 月 5 日消息，苹果公司悄然在 Hugging Face 上发布了一款名为 DiffuCode-7B-cpGRPO 的开源 AI 模型，该模型在生成代码方面具有创新特性，能够不按顺序生成代码，且性能媲美顶级开源编码模型。

第三媒体2 天

南方数码：以地理信息之笔绘就数字中国新图景

节目现场，欧阳光先生向大家讲述了企业发展的历程。上世纪90年代，中国正掀起第二次计算机普及热潮，当时测绘行业仍以手工绘图为主，南方数码敏锐捕捉到数字化机遇，率先推出南方地形地籍成图软件 CASS，首次将地形图从白纸 “搬” 进电脑，开创国内电子成图先河，极大推动了中国测绘行业的数字化进程，也奠定了其在华南地区的行业标杆地位。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果