背景自從谷歌的 BERT 預訓練模型橫空出世,預訓練 - 下游任務微調的方式便成了自然語言處理任務的靈丹妙藥。然而,復雜度高、顯存消耗大等問題一直困擾著 BERT 等預訓練模型的優化;由于 BERT 中 Transformer(多層自注意力)關于輸入文本長度 L 有的 O()的時間空間復雜度,長... (來源:技術文章頻道)
BERT應用 2020-12-10 09:48