日前,第39次全國計算機安全學術交流會在西安成功舉行,作為活動重要環節,本屆優秀論文評選結果在活動現場重磅揭曉。天融信科技集團李嬌、吳亞飚,中國科學院大學計算機科學與技術學院張玉清撰寫的《面向網絡安全關系抽取的大型語言模型數據增強》,從496篇論文中脫穎而出,成為本屆唯一的優秀論文,并刊登于《信息網絡安全》2024年第10期。









當前,以人工智能為代表的新一輪科技革命和產業變革正在孕育興起,帶來新的機遇和發展空間,只有堅定不移進行科技創新,加快培育和形成新質生產力,才能占得先機、贏得優勢。今年9月,全國網絡安全標準化技術委員會發布《人工智能安全治理框架》1.0版,以鼓勵人工智能創新發展為第一要務,以有效防范化解人工智能安全風險為出發點和落腳點。
在第39次全國計算機安全學術交流會-網絡綜合治理分論壇上,天融信科技集團李嬌針對《面向網絡安全關系抽取的大型語言模型數據增強》論文進行了分享。她指出,隨著信息技術的持續進步,網絡威脅日益多樣。為有效掌控網絡威脅態勢并應對未知風險,收集與分析網絡威脅情報至關重要,這有助于我們迅速洞察新興的網絡威脅和漏洞。

天融信科技集團 李嬌
網絡威脅情報大多以非結構化文本形式存在,如安全分析報告和博客,其內部關聯信息難以直接獲取。關系抽取技術能夠有效挖掘和分析這些情報,為網絡安全防御提供重要信息。然而,網絡安全領域的關系抽取任務常面臨數據集稀缺的問題。
為解決這一問題,數據增強技術應運而生,它能夠在標注數據有限的情況下自動生成大量偽訓練數據。但現有的數據增強方法,例如隨機刪除、插入和同義詞替換等,雖然能夠生成數據,但往往存在噪聲,準確性和多樣性受限,難以完全替代人工標注數據。近年來,大型語言模型憑借卓越的文本生成能力,為數據增強提供了強大支持。基于此,我們提出一種基于大型語言模型的多粒度數據增強方法MGDA。
該方法首先基于貪心算法的基本思想,從原始標注數據集中選擇最具代表性的數據進行增強,以提高運行效率。然后,從單詞、短語、語法和語義四個粒度對采樣數據進行轉化,確保生成的新數據在符合原始訓練數據語義要求的同時,具備更高的多樣性,從而提升后續模型訓練的有效性。為了提高大型語言模型生成文本的準確性,我們采用角色扮演和思維鏈提示相結合的方式構造提示模板,以獲取高質量的輸出。實驗結果表明,文章所提數據增強方法有效改善了網絡安全關系抽取任務上的有效性以及生成數據的多樣性。


人工智能賦能網絡攻防、開源情報等國家安全相關領域,是筑牢國家安全屏障的有力抓手。近兩年來,人工智能在大模型技術上的突破讓網絡安全智能化進程加速,天融信2014年開始開展AI技術在產品中的工程化應用,融合大小模型面向全能力打造智能協同,并推出天問系列產品,提供一站式安全智能化解決方案,助力構建網絡安全新格局。