transformers - 搜索 News

资讯

人民大学&字节Seed：利用μP实现Diffusion Transformers高效扩展

本文由中国人民大学高瓴人工智能学院李崇轩团队和字节跳动Seed团队共同完成。第一作者郑晨宇是中国人民大学高瓴人工智能学院二年级博士生，主要研究方向为基础模型的优化、泛化和可扩展性理论，导师为李崇轩副教授，论文为其在字节跳动Seed实习期间完成。第二作者张新雨是字节跳动研究员，主要研究方向为视觉生成模型。李崇 ...

CTIMES5 天

AI「相变」新证据 Transformers从词序推理突变为语意理解

大利 SISSA Medialab 与瑞士 EPFL（洛桑联邦理工学院）联合研究，首次从理论角度验证：「Transformers」神经网路在训练过程中会出现如同物理相变的转折点，初期阶段以「位置」为依据理解语句，当训练资料量足够後，模型会突然切换到以 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果

资讯

今日热点