微信里点“发现”,扫一下
二维码便可将本文分享至朋友圈
演讲摘要:深度学习模型在受到对抗样本攻击时往往展现出脆弱性,以中文对抗攻击下的 ChatGPT 为例,引入偏移平均差概念,提出了一种基于 OAD 的可量化的 LLM 鲁棒性评价指标。在黑盒攻击场景下,选取多种基于词语重要性的主流中文对抗攻击方法来生成对抗文本,利用这些对抗文本攻击 ChatGPT 后,可以得到每种方法的攻击成功率。大语言模型因其强大的自然语言理解和生成能力,在各领域中得到广泛应用,设计了适用于输出为软标签的目标模型的打分方法,相较于传统方法大幅降低了评估成本。
讲者简介:张宏莉,哈尔滨工业大学计算学部网络空间安全学院院长,教授,博导。入选国家高层次人才计划、龙江学者特聘教授,承担国家重点研发计划、国家自然科学基金等项目或课题 20 余项,突破了大流量网络环境下信息获取与监测、在线社交网络分析、数据隐私保护等方面的技术难题,取得了多项有价值的科研成果,相关系统在全国多家网络运营商部署应用,在国家信息安全保障、净化网络信息内容等工作中发挥了重要作用。近年来,发表文章 150 余篇,其中在 JSAC、INFOCOM、WCMC 等国际顶级和重要会议发表文章 48 篇。获得省部级科技进步一、二等奖 5 项,省教学成果奖 2 项,出版专著 3 部。