深度学习领域的新技术近日在HuggingFace的大模型排行榜中崭露头角,由Upstage AI提出的深度扩展方法(DUS)在SOLAR10.7B大模型上取得了令人瞩目的成绩。该技术通过创新性地拼接两个7B羊驼,并采用DUS方法删除中间层次,使得新模型不仅超越了传统扩展方法如MoE,还能与基础大模型相同的基础设施高效集成。
论文地址:https://arxiv.org/pdf/2312.15166.pdf
在技术实现方面,DUS技术通过巧妙选择Mistral7B作为底材,实现了对原版和MoE版的超越。团队深入权衡性能与模型尺寸,在拼接方式上选择性删除层次,经过继续预训练,模型性能得以迅速恢复。对齐的Instruct版本也在技术实践中取得了显著的进展。
为保障数据安全,团队回应了网友对测试数据泄露的质疑,提供了数据污染测试结果,并显示出低水平的可能性。而SOLAR10.7B基础模型和微调模型以Apache2.0协议开源,得到了科研社区的广泛关注。
在用户反馈方面,试用者对该技术在从JSON格式数据中提取数据的表现表示满意。这一实际应用的反馈证明了该技术在处理实际数据时的优越性。