你好,有个模型结构的问题请假一下: 从论文的研究看,视觉特征对不同的LLM层重要性不同,那模型的结构应该是在不同的LLM层对视觉特征的保留数量递减,但论文的设计是在视觉特征送入LLM前对视觉特征和文本特征做了相关性压缩,而送入LLM的特征在每层的重要性仍然是一样的,所以模型的设计和论文前期对视觉特征在不同LLM层的重要性不同这个结论并无太大相关性,是这样吗?
你好,有个模型结构的问题请假一下:
从论文的研究看,视觉特征对不同的LLM层重要性不同,那模型的结构应该是在不同的LLM层对视觉特征的保留数量递减,但论文的设计是在视觉特征送入LLM前对视觉特征和文本特征做了相关性压缩,而送入LLM的特征在每层的重要性仍然是一样的,所以模型的设计和论文前期对视觉特征在不同LLM层的重要性不同这个结论并无太大相关性,是这样吗?