中國林科院資源所智慧林草創(chuàng)新團隊日前研發(fā)了一種可持續(xù)學習領域知識的林業(yè)預訓練語言模型(ForestryBERT),通過構建一套通用的技術體系,突破了通用預訓練語言模型難以應對林業(yè)知識動態(tài)更新的難題,實現了從動態(tài)變化的林業(yè)語料庫中持續(xù)學習新知識并有效記憶舊知識,顯著提高了模型的環(huán)境適應性和理解能力。
該模型實現了3項關鍵技術突破:一是通過對林業(yè)術語、林業(yè)法律法規(guī)、林業(yè)文獻等大規(guī)模動態(tài)語料庫的學習,為模型提供了豐富多元的知識來源,使模型能精準捕捉林業(yè)語義信息,提升了模型對林業(yè)文本的理解能力;二是融合了持續(xù)學習方法,構建了動態(tài)知識吸收機制,通過軟掩碼技術與對比學習策略,使模型在面對不斷更新的林業(yè)知識時,既能高效吸收新知識,又能適當保留舊知識,有效緩解了災難性遺忘問題,提升了模型的適應性和穩(wěn)定性;三是研發(fā)了多任務評估體系,準確評測模型在林業(yè)文本分類和林業(yè)抽取式問答中的性能,使模型具有較好的泛化性。
ForestryBERT是在智慧林草創(chuàng)新團隊研發(fā)的問答式林業(yè)預訓練語言模型基礎上的又一重要技術突破。通過與學習了同樣林業(yè)知識但未采取持續(xù)學習機制的5種領域預訓練語言模型的對比結果表明:ForestryBERT性能表現最好,知識遺忘率降低68.5%,具備可持續(xù)性和可擴展性。這一成果為林業(yè)文本處理提供了創(chuàng)新策略,為林草行業(yè)大模型-林龍大模型中林草大語言模型的研發(fā)提供了核心技術支撐,也為構建其他行業(yè)預訓練語言模型提供了可借鑒的思路。
相關研究論文“ForestryBERT: A pre-trained language model with continual learning adapted to changing forestry text”發(fā)表在Knowledge-Based Systems,中國林科院資源所碩士生譚晶維為第一作者,張懷清研究員為通訊作者。該項研究得到國家重點研發(fā)計劃政府間國際科技創(chuàng)新合作項目和國家自然科學基金項目的聯合資助。