<ul class="dashed" data-apple-notes-indent-amount="0"><li><span style="font-family: '.PingFangUITextSC-Regular'">文章标题:</span>LoRA in LoRA: Towards Parameter-Efficient Architecture Expansion for Continual Visual Instruction Tuning</li><li><span style="font-family: '.PingFangSC-Regular'">文章地址:</span><a href="https://arxiv.org/abs/2508.06202">https://arxiv.org/abs/2508.06202</a> </li><li>AAAI 2026</li></ul> <img src="https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_0fb383d6-3787-40b9-9b59-cddd09405a62/public" style="background-color:initial;max-width:min(100%,2820px);max-height:min(1324px);;background-image:url(https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_0fb383d6-3787-40b9-9b59-cddd09405a62/public);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="2820" height="1324"> 文章思路非常简单,就是在持续学习多个任务中,使用多个LoRA,但当任务增多时,参数仍然比较大,因此又嵌套了一层LoRA在原来的B矩阵中。 作者首先发现,如果每个任务都用一个LoRA进行训练,那么这些LoRA的A矩阵有着较高的相似度(CKA) <img src="https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_e722b2f4-2aa7-4a7d-a9f1-863ef2a2ee03/public" style="background-color:initial;max-width:min(100%,1400px);max-height:min(964px);;background-image:url(https://imagedelivery.net/phxEHgsq3j8gSnfNAJVJSQ/node3_e722b2f4-2aa7-4a7d-a9f1-863ef2a2ee03/public);height:auto;width:100%;object-fit:cover;background-size:cover;display:block;" width="1400" height="964"> 这样一来,作者就提出,多个任务共用一个A矩阵,B矩阵由每个任务指定。但这样参数量还是较大。作者就提出所有B矩阵共用一个基础矩阵B0,然后每个任务指定一个特定的LoRA(对B的),如此一来,又显著降低了参数量。但所有任务共用一个基础矩阵B0,这在持续学习中可能会造成影响,遗忘前面的知识,因此作者又提出了一个正则化方法,用于限制B0的更新。具体来说就是利用当前任务的新LoRA与前一个任务的新LoRA的余弦相似度来判断B0的更新幅度,从而限制B0的更新。