中华网数码

设为书签Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。
业 界/ 互联网/ 行 业/ 通 信/ 数 码/ 手 机/ 平 板/ 笔记本/ 相 机 培训 学校 课程
当前位置:滚动新闻>

00后担大梁交大本科生在计算机安全顶级会议上实现突破,打造大模型全方位安全分析底座

00后担大梁交大本科生在计算机安全顶级会议上实现突破,打造大模型全方位安全分析底座
2025-10-22 10:13:39 来源:今报在线

上海交通大学计算机学院(网络空间安全学院、密码学院)本科生徐菲悦作为第一作者的论文“A Multidimensional Evaluation Framework for Robustness and Alignment in Large Language Models”被计算机安全顶级学术会议 IEEE Symposium on Security and Privacy 2026(简称 IEEE S&P)录用。论文提出面向大型语言模型(LLM)的“安全魔方(Security Cube)”评估体系,构建覆盖攻击、防御与判定三大维度的多指标框架,为大模型安全评估建立统一多维框架,系统化刻画攻击与防御版图,为大模型安全研究与产业落地提供全方位安全分析底座。该研究由王烁、贺超翔、胡宏盛、孙士锋、谷大武等老师指导,合作者包括交大研究生杭晟、刘修铭、赵宇博,以及微软首席科学家Bin Zhu等。据悉,本次 IEEE S&P全球仅录用118篇论文,本科生作为第一作者在 IEEE S&P2025 发文在大陆地区尚属首次。

IEEE S&P、ACM CCS、Usenix Security、NDSS称为网络与信息安全领域四大国际顶级学术会议,代表着国际网络与信息安全研究的最前沿水平。

从“攻防样例”走向“系统评价”,构建“安全魔方”统一多维评估框架

大型语言模型在通用智能方面取得显著突破,但现实世界的越狱(jailbreak)等攻击会诱导模型输出不当内容,威胁高风险应用中的安全、合规与信任。现有评估多依赖单一的攻击成功率等指标,难以反映攻击可复现性、跨模型与跨防御的普适性,以及对模型内部机制的实质性影响,导致安全治理缺乏统一、可比较的评价基准。

论文对越狱攻击与防御方法进行了结构化分类,进一步提出安全魔方(Security Cube),从攻击者轴、 防御轴、评判轴三条主轴系统刻画 LLM 安全性,共引入14项指标,并对13 种攻击、5 种防御与 4 种评判器进行了全面评测。

其中,框架新增并强调了多项关键度量,用以弥补传统单指标评价的不足,包括:

攻击稳定性与可重复性:衡量攻击在不同设置下是否稳定复现;

跨防御、跨模型的可迁移性:评估攻击是否能跨越不同防护策略与模型架构;

内部破坏程度:判断攻击是否仅绕过表层过滤,还是对模型内部激活与安全检查造成了本质影响;

对抗效率:刻画实现成功攻击所需的计算/查询成本,支持在安全与效率之间进行工程权衡。

该魔方框架从指标维度与实验设计两方面统一了攻击、加固与裁决的评价语言,为研究者横向比较不同方法、为工程团队制定安全基线与合规标准、为监管机构形成可量化的审查视角提供了可操作的“通用量表”。

学生风采

第一作者徐菲悦为上海交通大学计算机学院2022级本科生,已获直博资格。在校期间曾获国家奖学金、本科生 A 等奖学金、优秀学生干部等多项荣誉;作为核心成员获得2024 全球 AI 攻防挑战赛季军与杰出方案奖等成绩,展现了面向真实场景问题的攻防能力与工程落地潜力。

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

责任编辑:kj005

文章投诉热线:157 3889 8464  投诉邮箱:7983347 16@qq.com

关键词:

比5070 Ti要低20%左右?NVIDIA RTX 5070跑分成绩曝光

2025-02-27 09:44:12比5070 Ti要低20%左右?NVIDIA RTX 5070跑分成绩曝光

AMD 锐龙7 9700X 对决酷睿i7-14700K:畅玩电竞,新锐龙依旧锐不可挡!

2025-02-27 09:43:39AMD 锐龙7 9700X 对决酷睿i7-14700K:畅玩电竞,新锐龙依旧锐不可挡!

Intel® Amston Lake:边缘计算与网络通信的强劲引擎

2025-02-27 09:43:09Intel® Amston Lake:边缘计算与网络通信的强劲引擎

“我是被逼的” 黄仁勋表示:英伟达不能没有中国

2025-02-27 09:37:35“我是被逼的” 黄仁勋表示:英伟达不能没有中国

相关新闻