<?xml version="1.0" encoding="UTF-8"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/">
  <channel>
    <title>漏洞战争</title>
    <link>https://wechat2rss.xlab.app/feed/a884cb33e3393db2f683c48d82012836295ec005.xml</link>
    <description>谈人生，聊梦想，话安全，说风云&#xA;(wechat feed made by @ttttmr https://wechat2rss.xlab.app)</description>
    <managingEditor> (漏洞战争)</managingEditor>
    <image>
      <url>https://wx.qlogo.cn/mmhead/Q3auHgzwzM7HaH3v5WP4g4b7Ey6mRsDWt5VOg0pTLTwWum7Xw61PFg/0</url>
      <title>漏洞战争</title>
      <link>https://wechat2rss.xlab.app/feed/a884cb33e3393db2f683c48d82012836295ec005.xml</link>
    </image>
    <item>
      <title>用 GPT-5.4 单挑 NCTF 团队赛，成功解出91.7%的题目</title>
      <link>https://mp.weixin.qq.com/s?__biz=MzU0MzgzNTU0Mw==&amp;mid=2247486075&amp;idx=1&amp;sn=5c8c4a448349149a72daf771e643ce93</link>
      <description></description>
      <content:encoded><![CDATA[<p>原创 <span>漏洞战争</span> <span>2026-04-06 10:59</span> <span style="display: inline-block;">广东</span></p>






  
  <p><img src="https://wechat2rss.xlab.app/img-proxy/?k=0ed82de7&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FtJDT9c8t2sxPfTC95ZZM7LjuxVyAz0I8WOWbj2sDBpe7oqPicG6Zhdw9vgFh19cPT3KN4uJZ7aib0BtJlPzozs6DicSwh5WibDZicMxSptzlbtj0%2F0%3Fwx_fmt%3Djpeg"/></p>
  
  <p data-layout-id="0" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">自从买了token套餐之后，每天不把token用完就有点焦虑。于是，放假这2天，就打算用GPT-5.4来打CTF比赛。网上找了下，刚好南京邮电大学在举办NCTF 2026比赛，就拿来作实验，看一个人带着GPT-5.4，如何单挑整个团队赛（4人赛）。</span></p><p data-layout-id="1" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">刚才9点（4月6日）的时候，比赛已结束。</span></p><p data-layout-id="2" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">最终成绩：<span textstyle="" style="font-weight: bold;">24道题，成功解出22道，解题率91.7%</span>。</span></p><p class="mp_profile_iframe_wrp" nodeleaf=""><mp-common-profile class="js_uneditable custom_select_card mp_profile_iframe" data-pluginname="mpprofile" data-nickname="漏洞战争" data-alias="vulwar" data-from="0" data-headimg="http://mmbiz.qpic.cn/mmbiz_png/icNlicgdbzSdWzbtNBGKasvuCIJ0vjJMt3QXRbMdakfbN6oq553ax43vZeJaD0QPnP4ktdfDS01vozNKsiapNz0SQ/0?wx_fmt=png" data-signature="谈人生，聊梦想，话安全，说风云" data-id="MzU0MzgzNTU0Mw==" data-is_biz_ban="0" data-service_type="1" data-verify_status="1"></mp-common-profile></p><p data-layout-id="2" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">排名34，共有参赛队伍915支，有得分的433支队伍。</span></p><div style="text-align: center;font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;" data-layout-id="3"><p style="text-align: center;font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf=""><img data-aistatus="1" class="rich_pages wxw-img js_insertlocalimg" data-ratio="0.26380368098159507" data-s="300,640" data-type="png" data-w="652" type="block" data-imgfileid="100002419" src="https://wechat2rss.xlab.app/img-proxy/?k=716f6963&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fsz_mmbiz_png%2FtJDT9c8t2sw4mk6aAf24sXZIRibKpQx4I6ksudZIRia8z4Nv8fmM27bJLmE1IDialMt2dZhhyhlNz5O27U3N6BIPgeTOpNS7Le4ms0rmoRotjA%2F640%3Fwx_fmt%3Dpng%26from%3Dappmsg"/></span></p></div><p data-layout-id="4" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">在这场所谓的“技术对决”中，我没有写一行代码，没有做任何手动分析，甚至连IDA、JADX这些最基本的反编译工具都没装。我不装任何MCP，不给任何技术指导，我在这场比赛中的唯一身份是——“题目的搬运工”，最多在任务失败时，让它再重试下。</span></p><p data-layout-id="5" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">别问我为什么没用 claude， 因为穷。今天，可以聊聊这场实验背后的细节，以及它对当前安全行业释放的信号。</span></p><h1 data-layout-id="6" style="font-size: 20px;font-weight: 500;color: rgba(43, 119, 191, 1);line-height: 1.8;margin-bottom: 12px;text-align: center;"><span leaf=""><span textstyle="" style="font-weight: bold;">01 极致的“躺平”：我是如何打这场比赛的？</span></span></h1><p data-layout-id="7" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">我的武器库极其简单：<span textstyle="" style="font-weight: bold;">Codex + GPT-5.4</span>以及<span textstyle="" style="font-weight: bold;">Trae + GPT-5.4</span>。</span></p><p data-layout-id="8" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">我的工作流可以用“三步走”概括：</span></p><p data-layout-id="9" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf=""><span textstyle="" style="font-weight: bold;">搬运</span>：把题目描述、附件原封不动地扔给AI。容器有启动时长限制，有时超时会重启换端口，这个需要再告诉下AI。</span></p><p data-layout-id="10" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf=""><span textstyle="" style="font-weight: bold;">装死</span>：绝对不给任何“你可以试试看XX算法”、“这里有个XX漏洞”的提示，完全不引导。</span></p><p data-layout-id="11" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf=""><span textstyle="" style="font-weight: bold;">重试</span>：当AI报错或解不出时，我的回复只有三类：“重试”、“换个思路再试下”、“这么简单你都做不出来？再想想”。</span></p><div style="text-align: center;font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;" data-layout-id="12"><p style="text-align: center;font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf=""><img data-aistatus="1" class="rich_pages wxw-img" data-ratio="0.15376106194690264" data-s="300,640" data-type="png" data-w="904" type="block" data-imgfileid="100002422" src="https://wechat2rss.xlab.app/img-proxy/?k=0f63500a&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_png%2FtJDT9c8t2syzBOyzbzOicwhL4r2SXST1EpRCYgufbNPDB4aEFpcepIVGTxOiar4v40vhCV2VFxIZgR0kxmzgI85E2XiaOUEwr8zzJPSAx20Sy4%2F640%3Fwx_fmt%3Dpng%26from%3Dappmsg"/></span></p></div><p data-layout-id="13" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">除agent自带工具外，不再提供任何工具，也没有手工搭建环境（全靠AI在沙盒里自己搞），遇到二进制文件和APK，全靠AI自己找工具逆向，反汇编它会用objdump，apk逆向会安装baksmali与Androguard，也会自动gdb调试。在失败中不断让AI自我反思、自我迭代，直到把Flag吐出来。</span></p><p data-layout-id="14" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">本地没有的工具就连网搜索，比如盲打后台XSS，自己从网上找webhook.site来接收flag。</span></p><div style="text-align: center;font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;" data-layout-id="15"><p style="text-align: center;font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf=""><img data-aistatus="1" class="rich_pages wxw-img" data-ratio="0.18425925925925926" data-s="300,640" data-type="png" data-w="1080" type="block" data-imgfileid="100002421" src="https://wechat2rss.xlab.app/img-proxy/?k=ea11078a&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_png%2FtJDT9c8t2sw07ZnNh0affvct5z1dIAKwiaOZL9vX1r3chHONjR3B6Wvexru5VaUYl8DG8uPqz64RZXTMD3DNUlKv6LXBnll33n3VOLdiap0wk%2F640%3Fwx_fmt%3Dpng%26from%3Dappmsg"/></span></p></div><div style="text-align: center;font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;" data-layout-id="16"><p style="text-align: center;font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf=""><img data-aistatus="1" class="rich_pages wxw-img js_insertlocalimg" data-ratio="0.48144712430426717" data-s="300,640" data-type="png" data-w="1078" type="block" data-imgfileid="100002420" src="https://wechat2rss.xlab.app/img-proxy/?k=2c741013&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_png%2FtJDT9c8t2swD7REbibTbvwPBdibAQKJFMb5F6iadtXRLq5hjsCTubUwwnCCCr6gicMVNtvelhjFs4NWicUKedbVTuAqTwwH7PLZfGn04hf5L4JB4%2F640%3Fwx_fmt%3Dpng%26from%3Dappmsg"/></span></p></div><p data-layout-id="17" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">就这样，比赛还没结束，22道题的Flag就已经躺在我的屏幕上了。</span></p><p data-layout-id="17" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">比赛中1个账号最多只能开2个远程容器实例，如果放开的话，用AI去打将会更快，当然你也可以多建几个账号去开启，也能解决。</span></p><p data-layout-id="18" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">比赛2天，其中一天带娃去商场玩，昨晚又打了一晚麻将，就让AI在家干活：</span></p><div style="text-align: center;font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;" data-layout-id="19"><p style="text-align: center;font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf=""><img data-aistatus="1" class="rich_pages wxw-img" data-ratio="0.562962962962963" data-s="300,640" data-type="jpeg" data-w="1080" type="block" data-imgfileid="100002423" src="https://wechat2rss.xlab.app/img-proxy/?k=be9c6b57&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FtJDT9c8t2swy3o14H1UdqCSGQlbJX0DdTCfAXYxHMfAYM5f7uQfSd0iaOx4qNK5vV8Xd6WicgveqSGduBFZiae19ZArlYicNRicMv7llqhAkvuwU%2F640%3Fwx_fmt%3Djpeg%26from%3Dappmsg"/></span></p></div><p data-layout-id="20" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">手机通过 ToDesk远程控制电脑，看下处理进度，以及延长容器启动时间或提供新IP+端口的变更信息去重试。</span></p><div style="text-align: center;font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;" data-layout-id="21"><p style="text-align: center;font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf=""><img data-aistatus="1" class="rich_pages wxw-img" data-ratio="0.4527777777777778" data-s="300,640" data-type="jpeg" data-w="1080" type="block" data-imgfileid="100002424" src="https://wechat2rss.xlab.app/img-proxy/?k=a8f423d5&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fsz_mmbiz_jpg%2FtJDT9c8t2szrFgnNuIbN22405VLchSiabnVibOTmZEBcej8xZAUCFziadBNjtiak77Ph3GD1He3Fmy120WibpcXAYNC7iaT3kYJRq0ib6MNCgkY1q0%2F640%3Fwx_fmt%3Djpeg%26from%3Dappmsg"/></span></p></div><h1 data-layout-id="22" style="font-size: 20px;font-weight: 500;color: rgba(43, 119, 191, 1);line-height: 1.8;margin-bottom: 12px;text-align: center;"><span leaf=""><span textstyle="" style="font-weight: bold;">02 工具大PK：同样的GPT-5.4，差距肉眼可见</span></span></h1><p data-layout-id="23" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">在测试过程中，我对比了几个不同的环境，得出的结论非常残酷：</span></p><p data-layout-id="24" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf=""><span textstyle="" style="font-weight: bold;">第一：国产大模型，真的打不过</span></span></p><p data-layout-id="25" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">期间我也尝试用几款主流的国产模型（GLM、Qwen、Kimi）去跑同样的题目，结果搞不出来。很多稍微复杂一点的逻辑绕过、非标准加密、或者长代码的逆向分析，国产模型找不到真正的漏洞点或者算法逆向出现幻觉。在深度的安全攻防推理上，GPT-5.4展现出的逻辑链条完整度，目前国产模型确实难以企及。</span></p><p data-layout-id="26" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf=""><span textstyle="" style="font-weight: bold;">第二：Trae + GPT-5.4 搞不定的，Codex + GPT-5.4 能搞定</span></span></p><p data-layout-id="27" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">手上刚好同时买了gpt和trae，就想设置完全一样的底层模型GPT-5.4进行比较，但两者的解题率却有差异。为什么？</span></p><p data-layout-id="28" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">答案在于Agent工程能力。</span></p><p data-layout-id="29" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">个人感觉Trae在使用体验上要比codex好，但在CTF这种需要“试错-报错-修改环境-再试错”的长链路Agent任务中，它的工具调用、循环反馈、纠错能力要弱于codex，除agent工程能力差异外，可能gpt本身也针对codex作一些适配性训练，使得codex + gpt搭配能达到更好的效果。</span></p><p data-layout-id="30" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">而Codex的Agent调度极其强悍，它能自主搭建本地漏洞环境、自主写脚本编译、自主网上找源码进行现场漏洞挖掘、自主调试Segmentation Fault修改exp，甚至在遇到死胡同时能自己推翻重写。这证明了在AI时代，上层的Agent工程框架，其重要性完全不亚于底层的基座模型。</span></p><h1 data-layout-id="31" style="font-size: 20px;font-weight: 500;color: rgba(43, 119, 191, 1);line-height: 1.8;margin-bottom: 12px;text-align: center;"><span leaf=""><span textstyle="" style="font-weight: bold;">03 给出题方的“降维打击”：AI时代的出题困境</span></span></h1><p data-layout-id="32" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">站在参赛者的角度，91.7%是个爽文成绩；但站在行业观察者的角度，这反映出当前CTF赛事的一个巨大危机：出题方对AI能力的评估严重不足。</span></p><p data-layout-id="33" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">本次NCTF整体题目难度偏低，完全没有针对AI的“抗性设计”。</span></p><p data-layout-id="34" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">2天的比赛，第1天基本就被人（或者说被AI）做完了。由于AI拉平了个体之间的技术鸿沟，导致各个团队之间根本拉不开差距——以前是你懂PWN我不懂，现在是只要会复制粘贴，大家都是PWN手。</span></p><p data-layout-id="35" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">传统的“套壳题”、“标准算法变种题”、“常规框架漏洞题”，在GPT-5.4面前犹如裸奔。出题人如果还停留在“我把这个点挖深一点、代码混淆厚一点”的传统思路上，注定会被AI轻易秒杀。</span></p><h1 data-layout-id="36" style="font-size: 20px;font-weight: 500;color: rgba(43, 119, 191, 1);line-height: 1.8;margin-bottom: 12px;text-align: center;"><span leaf=""><span textstyle="" style="font-weight: bold;">04 凛冬已至：安全研究员的生存挑战</span></span></h1><p data-layout-id="37" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">这场实验证明：当一个只会“搬运题目”的人，能靠AI打出91.7%的解题率时，大量初级安全研究员、渗透测试员、甚至部分中级研究员的饭碗，已经在摇摇欲坠了。</span></p><p data-layout-id="38" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">AI对安全行业的影响不是未来式，而是现在进行时。面对这种冲击，我们更应该全面拥抱AI，学会使用它，用AI来解决个人过往搞不定的事情，让自己变强。</span></p><p data-layout-id="39" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">未来的安全研究者，将是那些能够与AI建立&#34;共生关系&#34;的人：<span textstyle="" style="font-weight: bold;">既懂得借助AI突破算力边界，又能在关键节点注入人类独有的直觉、伦理判断和创造性思维。</span></span></p><h1 data-layout-id="40" style="font-size: 20px;font-weight: 500;color: rgba(43, 119, 191, 1);line-height: 1.8;margin-bottom: 12px;text-align: center;"><span leaf=""><span textstyle="" style="font-weight: bold;">写在最后</span></span></h1><p data-layout-id="41" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">24道题解出22道，我并没有感到任何“技术上的成就感”，反而有一种强烈的危机感。</span></p><p data-layout-id="42" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">当安全技术的门槛被大模型彻底踏平，当我们引以为傲的“手搓ROP链”、“逆向硬刚”变成了历史遗迹，我们不禁要问：剥离了工具和代码技巧后，安全研究员最核心的能力到底是什么？</span></p><p data-layout-id="43" style="font-size: 17px;font-weight: 400;color: rgba(0,0,0,0.9);line-height: 1.8;margin-bottom: 24px;"><span leaf="">但玩笑归玩笑，潮水已经涌来，别做那个还在沙滩上用沙子堆城堡的人。</span></p><p style="display: none;"><mp-style-type data-value="3"></mp-style-type></p>



<p><a href="https://wechat2rss.xlab.app/link-proxy/?k=4cf9fc69&amp;r=1&amp;u=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU0MzgzNTU0Mw%3D%3D%26mid%3D2247486075%26idx%3D1%26sn%3D5c8c4a448349149a72daf771e643ce93">跳转微信打开</a></p>
]]></content:encoded>
      <pubDate>Mon, 06 Apr 2026 10:59:00 +0800</pubDate>
    </item>
    <item>
      <title>别让读书，变成一场“正确”的表演</title>
      <link>https://mp.weixin.qq.com/s?__biz=MzU0MzgzNTU0Mw==&amp;mid=2247486065&amp;idx=1&amp;sn=916323140152e2c7b2ada48050b6a75a</link>
      <description></description>
      <content:encoded><![CDATA[<p>原创 <span>riusksk</span> <span>2026-03-16 22:18</span> <span style="display: inline-block;">广东</span></p>






  
  <p><img src="https://wechat2rss.xlab.app/img-proxy/?k=0cf283a6&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fsz_mmbiz_jpg%2FtJDT9c8t2sxXeCGrUMw5G7A51y74pjyhjPJDnPAFApXulUYEUSH7E0ueclvcRyXTphTib2RI0cqQR9JVECblnU5RiavGsRFxjYn8icYG5LRhDQ%2F0%3Fwx_fmt%3Djpeg"/></p>
  
  <p>刚和朋友们聊起读书这件事，突然发现一个很有意思的现象：许多人越来越害怕“独自阅读”，反而热衷于把读书变成一场集体仪式。<br/> <br/>有人说，读书本就是很私人的事。只有两个人聊得来、三观合，才有分享的必要；不然，再多的倾诉，根本不是交流，更像在“传教”——硬要大家一起感动、一起共鸣，甚至让彼此的读后感都变得“整齐划一”。<br/> <br/>可现实是，我们总被推着往前走：<br/> <br/>- 明明只想安安静静读完一本书，却要在社交平台打卡、晒进度；<br/>- 明明对某段文字有自己的理解，却要附和“主流解读”，生怕显得“没看懂”；<br/>- 明明更享受独处的阅读时光，却要挤进读书群、参加读书会，仿佛“不社交就不算读书”。<br/> <br/>我们渐渐忘了，读书的本质，从来不是和别人比进度、比见解，而是自己跟自己对话，跟作者对话。<br/> <span style="font-weight: bold;"><br/>一、读书，从来都是“私人的事”</span> <br/>同一本书，有人看到悲悯，有人看到力量，有人看到清醒，有人看到迷茫。这些独一无二的感受，没有对错，也不该有标准答案。<br/> <br/>就像有人读《百年孤独》，看见的是家族轮回的宿命；有人读它，看见的是对抗孤独的勇气。没有谁的理解更“高级”，也没有谁的感受更“正确”——因为每个人的成长经历、心境处境、思考角度，都截然不同。<br/> <br/>读书的意义，从来不是强行统一观点、灌输“标准答案”，而是让你看见相似的热爱与共鸣，也看见各异的理解与碰撞。它让你在文字里找到自己，也让你明白：阅读的自由，就在于允许不同的声音存在。<br/> <br/>真正的阅读，不是“传教”，不是“打卡”，不是“完成KPI”，而是让你在文字里安顿自己，学会独立思考，包容不同的解读，让同频的人因书相遇，因理解而靠近。<br/> <br/>它传递的正能量，应当是让人更爱阅读、更懂思考、更接纳差异，而不是用所谓“正确”的阅读方式，框定唯一的答案，消解阅读本身的自由与美好。<br/> <br/><span style="font-weight: bold;">二、别让“社交阅读”，绑架了你的热爱</span><br/> <br/>曾经见过太多人，把读书变成了一场“社交表演”：<br/> <br/>- 为了融入圈子，硬着头皮读自己不感兴趣的书；<br/>- 为了得到认可，刻意迎合别人的观点，不敢说出真实想法；<br/>- 为了显得“合群”，把大量时间花在讨论、打卡上，反而没好好读完几本书。<br/> <br/>他们害怕“不合群”，害怕“被孤立”，于是把读书变成了获取人脉、塑造人设的工具。可到头来，书没读透，心也累了——因为这份热爱，从一开始就被绑上了“社交”的枷锁。<br/> <br/>其实，阅读从来不需要“合群”。你可以一个人看书，一个人散步，一个人写日记，在独处的时光里和文字深度对话；你也可以偶尔走出去，遇见同频的人，分享彼此的感悟。<br/> <br/>但前提是：<span style="font-weight: bold;">你的阅读，永远要先取悦自己。</span><br/> <br/>如果一场读书会让你觉得压抑、疲惫，如果一群人的讨论让你觉得虚伪、刻意，那不如转身离开——真正的阅读，从来不需要勉强自己融入不属于自己的圈子。</p><p>正因如此，我前两年就把微信读书的排行榜给关了！</p><div><p style="display: inline-block;"><img data-ratio="2.210185185185185" data-type="jpeg" data-w="1080" style="height: auto !important;" src="https://wechat2rss.xlab.app/img-proxy/?k=1c84c898&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fsz_mmbiz_jpg%2FtJDT9c8t2sytLY77RSv8T8zezAXF0qmCQsysASm2jRfAexCXfwSmUHedFAVkSuyMbXicO7TcmzdZ3kN8hWNGRkEcJPf3gLiaL7GZIWv4mumsg%2F640%3Fwx_fmt%3Djpeg"/></p></div><p> <br/><span style="font-weight: bold;">三、守住阅读的“私人与真诚”，才是对文字最好的尊重</span><br/> <br/>有人说，现在的读书氛围太“浮躁”了。大家忙着晒书单、晒笔记、晒感悟，却很少有人愿意沉下心来，好好读完一本书，好好和自己对话。<br/> <br/>或许我们都该慢下来：<br/> <br/>- 放下“必须分享”的执念，允许自己有“读不懂”“不喜欢”的时刻；<br/>- 放下“必须合群”的焦虑，允许自己独自享受阅读的宁静；<br/>- 放下“必须正确”的枷锁，允许自己有独一无二的感受与思考。<br/> <br/>读书，从来不是为了证明什么，也不是为了迎合谁。它是你和文字的私会，是你和自己的对话，是你在喧嚣世界里，为自己留的一方净土。<br/> <br/>别让读书，变成一场“正确”的表演。守住这份私人与真诚，让阅读回归本质，才是对文字最大的尊重！</p><p style="display: none;"><mp-style-type data-value="10000"></mp-style-type></p>



<p><a href="https://wechat2rss.xlab.app/link-proxy/?k=aa154b46&amp;r=1&amp;u=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU0MzgzNTU0Mw%3D%3D%26mid%3D2247486065%26idx%3D1%26sn%3D916323140152e2c7b2ada48050b6a75a">跳转微信打开</a></p>
]]></content:encoded>
      <pubDate>Mon, 16 Mar 2026 22:18:00 +0800</pubDate>
    </item>
    <item>
      <title>NDSS 2026 论文清单及摘要（上）</title>
      <link>https://mp.weixin.qq.com/s?__biz=MzU0MzgzNTU0Mw==&amp;mid=2247486060&amp;idx=1&amp;sn=2ed581b7ad4a96197103b393cdfea9a7</link>
      <description></description>
      <content:encoded><![CDATA[<p><span>漏洞战争</span> <span>2026-03-01 14:04</span> <span style="display: inline-block;">广东</span></p>






  
  <p><img src="https://wechat2rss.xlab.app/img-proxy/?k=54d79b8e&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FtJDT9c8t2szRT9abIrMZdzNMhdPM5Qo3pMhzpGwiawthXIg0pTxapxu6eIOqVRmh9oibCU3hPdx7uYNW23KzPxmj6tZD9XnShkicSGgRAcRfLc%2F0%3Fwx_fmt%3Djpeg"/></p>
  
  <p><span leaf="">PS：以前采集论文是通过写爬虫到调用LLM API完成内容生成的，</span><span leaf="">虽然有用到的大毛已做代码生成和翻译，但多少还是有一点点人工，怎么判断以及token付费。</span><span leaf="">但是现在很多自主Agent出来后（</span><span leaf="">都是claude code开的好头</span><span leaf="">），一切都变得更加简单和自动化。今天这篇文章，我是直接用GML agent模式，直接发送1条指令全自动搞定的，一切变得如此顺畅。</span></p><p style="text-align: center;" nodeleaf=""><img data-aistatus="1" class="rich_pages wxw-img" data-ratio="0.5120370370370371" data-s="300,640" data-type="png" data-w="1080" type="block" data-imgfileid="100002403" src="https://wechat2rss.xlab.app/img-proxy/?k=1f91c4fe&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fsz_mmbiz_png%2FtJDT9c8t2sxsv5tydXEicpEKDfE89ibsib9IxvL5oQdoOnBR9Nxg6yibDAsmiaTqHxdXGbJ6dIEibibZ1XIjhU6pt4SPeffrkl0ETMOfCIXFYxOkn8%2F640%3Fwx_fmt%3Dpng%26from%3Dappmsg"/></p><p><span leaf="">当前你看到的这段内容，也是微信语音输入自动生成的，略有修改，同时支持五笔和拼音。现在大家都</span><span leaf="">用大模型，但是</span><span leaf="">整天打prompt也累，因此一直尝试想找到一种可替代敲字</span><span leaf="">的方式，感觉语音输入就是我要找的方法。试过很多工具，包括系统自带的语音输入、trae语音输入、闪电说、typeless等方法，语音识别都不够准，或者生成速度慢，或者翻墙账号登录 。相比之下，微信输入法速度和准确率相对更高，还是免费的，</span><span leaf="">不过有时也是会识别错误的</span><span leaf="">。之前看网上有人推荐另一款收费的语音输入wisper flow，我还没用过，还不太舍得为</span><span leaf="">打字付费。若有</span><span leaf="">更好的输入工具大家也可以推荐一下。</span></p><p nodeleaf=""><mp-common-profile class="js_uneditable custom_select_card mp_profile_iframe" data-pluginname="mpprofile" data-nickname="漏洞战争" data-alias="vulwar" data-from="2" data-headimg="http://mmbiz.qpic.cn/mmbiz_png/icNlicgdbzSdWzbtNBGKasvuCIJ0vjJMt3QXRbMdakfbN6oq553ax43vZeJaD0QPnP4ktdfDS01vozNKsiapNz0SQ/0?wx_fmt=png" data-signature="谈人生，聊梦想，话安全，说风云" data-id="MzU0MzgzNTU0Mw==" data-is_biz_ban="0" data-service_type="1" data-verify_status="1"></mp-common-profile></p><p cid="n2" mdtype="paragraph" style="box-sizing: border-box;text-align: left;" data-pm-slice="0 0 []"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">1、A Causal Perspective for Enhancing Jailbreak Attack and Defense</span></span></p><p cid="n3" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">揭示大型语言模型（LLMs）中&#34;越狱&#34;背后的机制对于提高其安全性和可靠性至关重要，然而这些机制仍 poorly understood。现有研究主要通过探测潜在表示来分析越狱提示，往往忽视了可解释提示特征与越狱发生之间的因果关系。在这项工作中，我们提出了 Causal Analyst，一个将 LLMs 集成到数据驱动因果发现中的框架，用于识别越狱的直接原因并利用它们进行攻击和防御。我们引入了一个包含七个 LLMs 上 35k 次越狱尝试的综合数据集，该数据集从 100 个攻击模板和 50 个有害查询中系统构建，并标注了 37 个精心设计的人类可读提示特征。通过联合训练基于 LLM 的提示编码和基于 GNN 的因果图学习，我们重建了从提示特征到越狱响应的因果路径。我们的分析显示，特定特征如&#34;积极角色&#34;和&#34;任务步骤数量&#34;是越狱的直接因果驱动因素。我们通过两个应用展示了这些见解的实际效用：（1）一个 Jailbreaking Enhancer，它针对识别出的因果特征，显著提高了在公共基准上的攻击成功率；（2）一个 Guardrail Advisor，它利用学习到的因果图从模糊查询中提取真实的恶意意图。包括基线比较和因果结构验证在内的广泛实验证实了我们因果分析的稳健性及其优于非因果方法的性能。我们的结果表明，从因果角度分析越狱特征是提高 LLM 可靠性的有效且可解释的方法。我们的代码可在 </span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/Master-PLC/Causal-Analyst" target="_blank">https://github.com/Master-PLC/Causal-Analyst</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""> 获取。</span></span></p><p cid="n4" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f797-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f797-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n6" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">2、A Deep Dive into Function Inlining and its Security Implications for ML-based Binary Analysis</span></span></p><p cid="n7" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">函数内联优化是现代编译器中广泛使用的一种转换技术，它根据需要将调用点替换为被调用函数的主体。虽然这种转换能提高性能，但它会显著改变机器指令和控制流图等静态特征，而这些特征对二进制分析至关重要。然而，尽管函数内联的影响广泛，其安全影响至今仍未得到充分探索。本文首次从基于机器学习的二进制分析角度对函数内联进行了全面研究。为此，我们剖析了LLVM成本模型中的内联决策流程，并探索了能够显著提高函数内联比例的编译器选项组合，我们将其称为极端内联。我们重点关注五种基于机器学习的安全二进制分析任务，使用20个独特模型系统评估它们在极端内联场景下的鲁棒性。大量实验揭示了几个重要发现：i) 函数内联尽管本意是良性转换，但可能间接或直接影响机器学习模型的行为，可能被用于规避判别式或生成式机器学习模型；ii) 依赖静态特征的机器学习模型对内联可能高度敏感；iii) 微妙的编译器设置可被利用来刻意规避二进制变体；iv) 内联比例在不同应用程序和构建配置中差异显著，这削弱了机器学习模型训练和评估中一致性的假设。</span></span></p><p cid="n8" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1872-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1872-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n10" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">3、A Hard-Label Black-Box Evasion Attack against ML-based Malicious Traffic Detection Systems</span></span></p><p cid="n11" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于机器学习(ML)的恶意流量检测是一种有前景的安全范式。它能够识别各种高级攻击，优于基于规则的传统检测方法。然而，这些ML模型的鲁棒性在很大程度上尚未得到探索，从而使攻击者能够制作规避检测的对抗性流量样本。现有的规避攻击通常依赖于过于严格的条件(例如，加密协议、Tor或专用设置)，或需要针对目标的详细先验知识(例如，训练数据和模型参数)，这在现实世界的黑盒场景中是不切实际的。因此，硬标签黑盒规避攻击(即无需内部目标洞察即可适用于不同任务和协议)的可行性仍然是一个开放的挑战。为此，我们开发了NetMasquerade，它利用强化学习(RL)来操纵攻击流量，使其模仿良性流量并规避检测。具体而言，我们建立了一个名为Traffic-BERT的定制预训练模型，利用网络专用分词器和注意力机制来提取多样化的良性流量模式。随后，我们将Traffic-BERT集成到RL框架中，使NetMasquerade能够基于良性流量模式以最小修改有效操纵恶意数据包序列。实验结果表明，NetMasquerade能够在80种攻击场景下使暴力攻击和隐蔽攻击规避6种现有检测方法，攻击成功率超过96.65%。值得注意的是，它可以规避那些在经验上或可证明上能够抵抗现有规避攻击的方法。最后，NetMasquerade实现了低延迟的对抗流量生成，展示了其在实际场景中的实用性。</span></span></p><p cid="n12" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s916-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s916-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n14" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">4、A Unified Defense Framework Against Membership Inference in Federated Learning via Distillation and Contribution-Aware Aggregation</span></span></p><p cid="n15" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">联邦学习能够实现去中心化的模型训练而无需暴露原始数据，使其成为隐私保护机器学习的一种有前景的范式。然而，它仍然容易受到成员推理攻击(MIAs)的威胁，攻击者可以推断特定数据点是否包含在训练集中，这带来了严重的隐私风险并破坏了数据本地性。现有的针对MIAs的防御方法存在显著局限性：一些会导致性能大幅下降，而另一些则无法同时防御被动和主动攻击向量。为应对这些挑战，本文提出了一种统一的防御框架，能够在保护目标模型实用性的同时，同时减轻联邦学习中的被动和主动MIAs。首先，我们在教师模型训练过程中引入改进的熵正则化，以增强成员数据的不确定性，比标准正则化提供更强的推理攻击抵抗力。其次，我们利用条件变分自编码器(CVAE)生成类条件合成数据用于监督学生训练，这避免了敏感数据的直接暴露，并提供比无标记替代方案更好的实用性。最后，我们设计了一种感知贡献的聚合策略，根据实用性调整本地模型的影响力，减轻恶意客户端在模型聚合过程中的影响。在四个基准数据集上的实验结果表明，所提出的方法显著降低了各种成员推理攻击的成功率，优于现有的最先进防御方法。此外，它始终保持高模型精度，证明了其在实际联邦学习部署中的实用性。</span></span></p><p cid="n16" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s413-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s413-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n18" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">5、Abuse Resistant Traceability with Minimal Trust for Encrypted Messaging Systems</span></span></p><p cid="n19" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">加密消息系统为用户提供端到端安全，但阻碍了内容审核，使得打击网络滥用行为变得困难。可追溯性提供了一种有前景的解决方案，使平台能够识别消息的发起者或传播者，然而这种能力可能被滥用于对无辜消息进行大规模监控。为缓解这一风险，现有方法将可追溯性限制在由多个用户举报或处于预定义黑名单中的问题消息上。然而，这些解决方案要么过度信任特定实体（例如定义黑名单的方），要么依赖于同一平台运行的服务器之间不串通的不切实际假设。在本文中，我们提出了一种抗滥用的源追溯方案，将可追溯性分配给不同的现实世界实体。具体而言，我们形式化定义了其语法并证明了其安全属性。我们的方案实现了两个基本原则：最小信任原则，确保只要参与追溯的单一参与者是诚实的，即使其他所有参与者串通，追溯也不会被滥用；以及最小信息披露原则，防止参与者获取任何对追溯不必要的信息（例如通信方的身份）。我们使用Signal部署的技术实现了我们的方案，评估结果表明，它提供了与易受滥用的最新方案相当的性能。</span></span></p><p cid="n20" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f456-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f456-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n22" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">6、Accurate Identification of the Vulnerability-Introducing Commit based on Differential Analysis of Patching Patterns</span></span></p><p cid="n23" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">当在特定软件版本中发现漏洞时，追溯提交历史以准确识别引入该漏洞的首次提交（称为漏洞引入提交，VIC）至关重要。本文提出了一种基于漏洞修补模式差异分析的方法来准确识别VIC。首先，我们比较漏洞修补前后的两个文件，将补丁中与漏洞相关的语句分类为不同的修补模式，如编码错误、不适当的数据流、 misplaced语句和缺失的关键检查。然后，基于这些修补模式，我们从易受攻击的文件中提取漏洞关键语句序列，并将其与早期提交进行匹配，以确定引入提交。为了评估该方法的有效性，我们收集了一个包含6920个CVE和5,859,238个提交的数据集，数据来源于开源软件，包括Linux内核、MySQL和OpenSSL等。实验结果表明，该方法达到了94.94%的检测准确率和86.92%的召回率，显著优于现有方法。</span></span></p><p cid="n24" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s140-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s140-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n26" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">7、ACE: A Security Architecture for LLM-Integrated App Systems</span></span></p><p cid="n27" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">LLM集成应用系统通过系统LLM使用交错规划和执行阶段调用第三方应用来扩展大型语言模型（LLMs）的效用。这些系统引入了新的攻击向量，恶意应用可能导致规划或执行完整性受损、可用性中断或执行过程中隐私泄露。在本工作中，我们确定了影响LLM集成应用规划完整性以及执行完整性和可用性的新攻击，并在IsolateGPT（一种旨在缓解恶意应用攻击的最新解决方案）上展示了这些攻击。我们提出了Abstract-Concrete-Execute（ACE），一种新的LLM集成应用系统安全架构，为系统规划和执行提供安全保证。具体而言，ACE将规划分为两个阶段：首先仅使用可信信息创建抽象执行计划，然后使用已安装的系统应用将抽象计划映射为具体计划。我们通过结构化计划输出的静态分析验证了我们系统生成的计划满足用户指定的安全信息流约束。在执行过程中，ACE强制应用之间的数据和能力隔离，并确保执行按照可信的抽象计划进行。我们通过实验证明，ACE能够抵御InjecAgent和Agent Security Bench基准测试中的间接提示注入攻击以及我们新引入的攻击。我们还使用LangChain基准测试中的工具使用套件评估了ACE在实际环境中的实用性。我们的架构代表了使用系统安全原则强化基于LLM系统的重大进展。</span></span></p><p cid="n28" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s352-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s352-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n30" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">8、Achieving Interpretable DL-based Web Attack Detection through Malicious Payload Localization</span></span></p><p cid="n31" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Web攻击对Web应用构成重大威胁。虽然基于深度学习的系统已成为检测Web攻击的有前景解决方案，但其缺乏可解释性阻碍了在生产环境中的部署。现有的可解释性方法无法解释Web攻击，因为它们忽略了HTTP请求的结构信息。它们仅识别一些重要特征，这些特征安全操作人员难以理解，也无法指导他们采取有效应对措施。在本文中，我们提出了WebSpotter，实现了可解释的Web攻击检测，通过定位HTTP请求中的恶意载荷来增强现有的基于深度学习的检测方法。这一方法源于观察发现恶意载荷通常对检测模型的预测有显著影响。WebSpotter识别HTTP请求中每个字段的重要性，然后利用机器学习模型学习这种重要性与恶意载荷之间的相关性。此外，我们展示了WebSpotter如何通过自动生成WAF规则来协助安全操作人员缓解攻击。在两个公共数据集和我们新构建的数据集上进行的大量评估表明，WebSpotter显著优于现有方法，与基线相比，定位准确率至少提高了22%。我们还从CVE和实际Web应用中收集的真实世界攻击进行了评估，以说明WebSpotter在实际场景中的有效性。</span></span></p><p cid="n32" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1029-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1029-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n34" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">9、Achieving Zen: Combining Mathematical and Programmatic Deep Learning Model Representations for Attribution and Reuse</span></span></p><p cid="n35" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">先前的工作已经开发了能够从系统内存或程序二进制文件中提取通用格式的深度学习(DL)模型以进行安全分析的技术。不幸的是，这些技术忽略了模型重用和任何白盒分析技术所需的DL模型程序表示的恢复。针对这一问题，我们提出了一种新颖的恢复方法，并构建了原型系统ZEN，该系统能自动恢复DL模型的程序表示，补充了先前工作对数学表示的恢复。ZEN能够识别未知DL系统中相对于基础模型的新代码，并生成补丁，使得恢复的DL模型可以被重用。我们在21个最先进的DL模型上评估了ZEN，包括语言和视觉领域的模型，如Llama 3和YoloV10。ZEN能够以100%的准确度将自定义模型归因于其基础模型，实现了模型重用。</span></span></p><p cid="n36" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1628-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1628-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n38" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">10、Action Required: A Mixed-Methods Study of Security Practices in GitHub Actions</span></span></p><p cid="n39" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">GitHub Actions已成为主导的持续集成/持续交付(CI/CD)平台，但最近的SolarWinds和tj-actions/changed-files等供应链攻击凸显了此类系统中的关键安全漏洞。虽然GitHub提供了官方安全实践来缓解这些风险，但它们在现实世界中的实施程度仍不为人知。我们进行了一项混合方法研究，分析了338,812个公共仓库并对100多名开发者进行了调查，以了解GitHub Actions中的安全实践实施情况。我们的发现揭示了五个关键安全实践的实施率低得惊人，范围从0.6%到52.9%。我们确定了三个主要障碍：缺乏意识(高达71.6%的非采用者不了解这些实践)、对适用性的误解以及对运营成本的担忧。仓库特征，如组织所有权和最近的开发活动，与更好的安全实践实施显著相关。基于这些实证见解，我们得出了可行的建议，将干预策略与适当的自动化水平保持一致，改进通知设计以提高意识，加强平台和IDE级别的支持，并明确说明风险和适用性的文档。</span></span></p><p cid="n40" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f483-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f483-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n42" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">11、Actively Understanding the Dynamics and Risks of the Threat Intelligence Ecosystem</span></span></p><p cid="n43" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">尽管威胁情报（TI）生态系统已投入数十亿美元——这是一个由安全供应商和利他主义者组成的全球分布式网络，推动着关键网络安全运营——我们仍缺乏对其运作方式的理解，包括其动态和脆弱性。为填补这一空白，我们提出了一种新颖的测量框架，通过监控带有网络入侵指标（IoCs）水印的追踪二进制文件，来跟踪它们在生态系统中的传播。通过分析提交威胁情报的传播链的每个阶段（提交、提取、共享和阻断），我们发现一个生态系统，其中传播几乎总是导致威胁的阻断，但供应商选择性地共享他们提取的威胁情报，限制了生态系统的效用。此外，我们发现，试图遏制威胁的努力常常因&#34;瓶颈&#34;供应商延迟数小时至数天共享威胁情报而放缓。关键的是，我们确定了威胁情报供应链的多种威胁，其中一些目前已在野外被利用。供应商不必要的主动探测、对放置文件的浅层提取以及易于预测的沙箱环境指纹都威胁着生态系统的健康。为解决这些问题，我们为供应商和从业人员提供了可操作的改进威胁情报供应链安全的建议，包括已知滥用模式的检测特征。我们通过负责任的披露流程与供应商合作，了解了这些弱点背后的运营约束。最后，我们为积极测量威胁情报生态系统的研究人员提供了一套伦理最佳实践。</span></span></p><p cid="n44" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f102-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f102-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n46" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">12、ACTS: Attestations of Contents in TLS Sessions</span></span></p><p cid="n47" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Web3大规模应用的一个基本要求是使用户能够从其数据中受益，即使在已部署的系统内也是如此。这提出了一个重要的开放性问题：现有的、广泛采用的软件如何能够验证用户是否从TLS服务器检索了特定数据？最近，令人印象深刻的科学成果（例如DECO [CCS20]和Xie等人[USENIX24]的工作）和工业产品（TLSNotary）在上述具有挑战性的方向上取得了进展。然而，虽然这些方法很好地保持了TLS服务器不变，但检索到的数据随后被用于与验证者的计算中，而验证者需要运行一些先进的非标准化密码方案（例如ZK-SNARKs），这显然限制了所提出技术的大规模应用。</span></span></p><p cid="n49" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在本文中，我们基于先前的方法并依靠Fuchsbauer和Wolf [Eurocrypt24]提出的谓词盲签名这一新概念，通过提出ACTS（一种分布式架构）来绕过先前工作的局限性。ACTS仍然保持TLS服务器不变，同时允许用户证明其拥有从TLS服务器检索的数据，仅需验证者的软件能够检查标准签名即可。我们的贡献包括一个轮次最优的谓词盲签名协议，该协议生成标准的RSA-PSS签名。我们展示了如何将这一基本构件集成到DECO架构（及其后续版本）中，以证明从TLS服务器检索的数据。此外，我们已经优化了我们的构建，使其在商用硬件上对于公证人（即负责无意识认证TLS数据并保持数据保密性的参与者）实现的大而重要的策略类别是实用的。我们提供了一个实验评估，评估的场景是从TLS服务器下载的PDF文档并编码为AES-GCM密文。然后，用户将通过标准PADES签名获得一个经过认证的PDF，该签名由公证服务无意识地添加到PDF中，并附带一些元数据。生成的标准签名PDF文档可以使用现成的PDF阅读器透明验证。我们的实验验证表明，我们的架构适用于具体场景的实际部署。</span></span></p><p cid="n50" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1861-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1861-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n52" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">13、ADGFUZZ: Assignment Dependency-Guided Fuzzing for Robotic Vehicles</span></span></p><p cid="n53" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">机器人车辆（RV）在现代社会中扮演着越来越重要的角色，在商业和军事领域都有广泛应用。RV控制软件是RV系统的核心，它通过持续计算车辆的内部状态、传感器读数和外部输入来调整系统行为，从而保持正常运行。然而，RV软件中可配置参数、命令输入和环境感知数据的巨大组合空间给系统带来了显著的安全风险。现有的模糊测试技术在有效探索这一巨大输入空间的同时发现深层漏洞方面面临重大挑战。为应对这些挑战，我们提出了ADGFuzz，一种专门用于检测RV控制软件中赋值语句漏洞的新型模糊测试框架。ADGFuzz静态构建赋值依赖图（ADG）来捕获程序内的变量间依赖关系。然后，通过利用命名相似性将这些依赖关系传播到RV输入空间，从而产生一组称为匹配输入集（MIS）的定向输入。在此基础上，ADGFuzz在MIS上进行感知熵的模糊测试，从而提高漏洞发现的总体效率。在我们的评估中，ADGFuzz在三种RV类型中发现了87个独特漏洞，其中78个是先前未知的。所有发现的漏洞都已负责任地披露给开发人员，其中16个已被确认修复。</span></span></p><p cid="n54" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1014-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1014-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n56" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">14、AirSnitch: Demystifying and Breaking Client Isolation in Wi-Fi Networks</span></span></p><p cid="n57" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为防止恶意Wi-Fi客户端攻击同一网络上的其他客户端，厂商引入了客户端隔离，这是一组阻止客户端之间直接通信的机制组合。然而，客户端隔离并非标准化功能，其安全保证尚不明确。在本文中，我们对Wi-Fi客户端隔离进行了结构化安全分析，发现了绕过此保护的新一类攻击。我们确定了这些弱点背后的几个根本原因。首先，保护广播帧的Wi-Fi密钥管理不当，可能被滥用以绕过客户端隔离。其次，隔离通常仅在MAC层或IP层执行，而非同时执行。第三，客户端身份在网络堆栈中的弱同步允许在网络层绕过Wi-Fi客户端隔离，从而能够拦截其他客户端以及内部后端设备的上行和下行流量。所有测试的路由器和网络都至少存在一种漏洞。更广泛地说，缺乏标准化导致各厂商实施的隔离措施不一致、临时且往往不完整。基于这些见解，我们设计并评估了端到端攻击，使现代Wi-Fi网络具备完整的中间人攻击能力。尽管客户端隔离有效缓解了诸如ARP欺骗等传统攻击，而ARP欺骗长期以来被认为是局域网中实现中间人定位的唯一通用方法，但我们的攻击提出了一种通用且实用的替代方案，即使在存在客户端隔离的情况下也能恢复这一能力。</span></span></p><p cid="n58" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1282-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1282-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n60" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">15、Aliens Among Us: Observing Private or Reserved IPs on the Public Internet</span></span></p><p cid="n61" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">伪造流量仍然是网络卫生的主要问题，因为它通过掩盖攻击来源并阻碍取证分析，使得分布式拒绝服务(DDoS)攻击成为可能。不良卫生状况的一个关键指标是公共互联网中存在&#34;虚假流量&#34;(Bogon traffic)——携带无效或不可路由源地址的数据包——这些数据包源于配置错误或过滤不足。尽管长期以来一直有源地址验证(SAV)的建议，如BCP 38和BCP 84，但虚假过滤的部署仍然不一致。在这项工作中，我们分析了CAIDA Ark平台八年间(2017-2024)的traceroute测量数据，并结合了RIPE RIS和RouteViews的历史BGP数据，以量化数据平面中虚假地址的普遍性和特征。我们观察到对最佳实践的广泛不遵守：在82.69%到97.83%的Ark观测点中，traceroute路径包含虚假IP地址，主要是RFC1918地址。总体而言，21.11%的traceroute包含RFC1918地址，较小比例涉及RFC6598(1.68%)和RFC3927(0.08%)。我们识别出超过15,500个传输虚假流量的自治系统(ASes)，但其中只有11.88%在超过一半的测量中这样做。与Spoofer项目和MANRS的交叉比对显示控制平面和数据平面保证之间存在显著差距：52.71%转发源自虚假数据包的ASes被分类为不可伪造，表明SAV部署不完整或无效。</span></span></p><p cid="n62" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1118-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1118-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n64" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">16、An LLM-Driven Fuzzing Framework for Detecting Logic Instruction Bugs in PLCs</span></span></p><p cid="n65" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">可编程逻辑控制器(PLC)利用供应商提供的逻辑指令库（编译到设备固件中）来自动化工业操作。这些库可能包含安全漏洞，当通过物理控制例程、面向网络的服务或PLC运行时子系统利用时，可能导致权限违规、内存损坏或数据泄露。本文提出了LogicFuzz，这是首个专门针对PLC固件中逻辑指令设计的模糊测试框架。LogicFuzz构建了一个语义依赖图(SDG)，该图捕获了PLC代码中的操作语义和指令间依赖性。利用SDG和使能信号机制，LogicFuzz自动合成针对特定指令的种子程序，显著减少了手动工作量，并能够在真实PLC硬件上进行可控、可重置的模糊测试。为了发现依赖于控制流触发器（即调用模式）的缺陷，LogicFuzz对SDG进行变异以多样化指令调用上下文。为了暴露数据触发的故障，它在有效的语义约束下执行基于覆盖率的参数变异。此外，LogicFuzz集成了一个多源预言机，用于监控运行时日志、状态LED和通信状态，以在模糊测试期间检测指令级故障。我们在来自三大厂商的六款商用PLC上评估了LogicFuzz，发现了19个指令级漏洞，其中包括四个先前未知的漏洞。</span></span></p><p cid="n66" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1081-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1081-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n68" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">17、Analysis of the Security Design, Engineering, and Implementation of the SecureDNA System</span></span></p><p cid="n69" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们分析了SecureDNA系统在设计、工程和实现方面的安全方面。该系统使DNA合成器能够根据危险品数据库筛选订单请求。通过应用涉及分布式无意识伪随机函数的新密码学，该系统旨在保持订单请求和危险品数据库的机密性。我们从源代码（版本1.0.8）中部分识别了系统的详细操作，我们的分析检查了密钥管理、证书基础设施、身份验证和速率限制机制。我们还对相互认证、基本请求和豁免处理协议进行了首次形式化方法分析。在不破坏密码学的情况下，我们的主要发现是，SecureDNA的自定义相互认证协议SCEP仅实现了单向认证：危险品数据库和密钥服务器永远不知道它们与谁通信。这种结构性弱点违反了纵深防御原则，并使对手能够规避保护危险品数据库机密性的速率限制，前提是合成器连接到恶意或被破坏的密钥服务器或哈希数据库。我们指出了另一个违反纵深防御原则的结构性弱点：不足的密码绑定使系统无法检测TLS通道中来自危险品数据库的响应是否被修改。因此，如果合成器通过相同的TLS会话重新连接到数据库，对手可以重播和交换来自数据库的响应，而无需破坏TLS。尽管SecureDNA实现不允许此类重新连接，但避免潜在的结构性弱点将是更强的安全工程。我们确定了这些漏洞，并建议并验证了缓解措施，包括添加强绑定。我们的工作表明，一个安全的系统不仅需要健全的数学密码学，还需要形式化规范、健全的密钥管理、协议消息组件的适当绑定以及对工程和实现细节的谨慎关注。</span></span></p><p cid="n70" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1138-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1138-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n72" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">18、Anchors of Trust: A Usability Study on User Awareness, Consent, and Control in Cross-Device Authentication</span></span></p><p cid="n73" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">跨设备认证（XDAuth）已成为实现多设备无缝账户访问的关键机制。在此模式下，用户可以通过在另一个持有活跃会话或存储凭证的可信设备（认证设备）上完成认证来登录目标设备，从而提升用户体验。然而，认证设备与目标设备的分离引入了新的风险：物理和上下文的分离破坏了常规的认证流程，造成了信息不对称，并使用户难以评估认证请求的合法性。因此，用户可能会无意中批准恶意登录并导致账户被入侵，特别是在缺少关键上下文信息、明确确认机制或撤销功能的情况下。</span></span></p><p cid="n74" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为解决这些风险，我们从以用户为中心的视角出发，基于三项基本用户权利（知情权、同意权和控制权）来保障XDAuth系统的安全性和可用性。我们通过研究27个采用三种典型XDAuth方案的主要服务，考察这些权利在实际应用中的支持情况。我们的发现令人担忧：超过一半的服务在认证过程中未提供任何关于目标设备的信息，并非所有服务都强制要求用户明确确认，且六个服务缺乏撤销可疑授权的途径。我们已负责任地向相关供应商披露了这些问题，其中多家供应商承认了问题并作出了积极回应。我们进一步对100名参与者进行了用户研究，发现绝大多数用户认为这些权利至关重要，并期望在XDAuth中得到保障。我们的研究揭示了当前实现与用户期望之间的明显差距，强调了需要加强对用户权利的支持，以开发更安全、以用户为中心的XDAuth系统。</span></span></p><p cid="n75" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f656-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f656-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n77" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">19、ANONYCALL: Enabling Native Private Calling in Mobile Networks</span></span></p><p cid="n78" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">移动网络运营商（MNOs）被曝出会泄露或出售用户的敏感信息，包括地理位置和通信历史记录。匿名移动用户认证方法，如文献{schmitt2021pretty}（USENIX Sec&#39;21）、文献{yu2023aaka}（NDSS&#39;24）、文献{alnashwan2024strong}（CCS&#39;24），使用户能够访问移动网络而不必暴露电话号码或订阅永久标识符（SUPI）等长期标识符。然而，身份透明度和位置感知的缺失在现实移动网络中实施匿名访问带来了重大挑战，尤其对于呼叫路由、使用量测量和计费等基本功能。为解决这些局限性，我们提出了ANONYCALL，一种隐私保护的呼叫管理架构，它支持匿名移动网络访问，同时实现两项基本功能：匿名被叫方发现和基于使用量的计费。ANONYCALL集成了一种带外认证机制，用于安全地共享临时呼叫标识符，实现无缝呼叫路由而不暴露永久用户信息。此外，它引入了一种匿名但可负责的余额凭证，能够实现准确计费并防止双重支付，同时保持移动用户匿名性。ANONYCALL完全兼容现有移动网络，引入的开销极小，呼叫建立时间增加不到200毫秒。通过智能手机和标准呼叫系统进行的评估证明了其实用性，为隐私保护且功能完备的移动通信提供了可行的解决方案。</span></span></p><p cid="n79" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1064-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1064-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n81" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">20、Anota: Identifying Business Logic Vulnerabilities via Annotation-Based Sanitization</span></span></p><p cid="n83" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">检测业务逻辑漏洞是软件安全中的一个关键挑战。这些漏洞源于应用程序设计或实现中的错误，允许攻击者触发非预期的应用程序行为。传统动态分析中的模糊测试净化器在发现与内存安全违规相关的漏洞方面表现出色，但 largely 无法检测业务逻辑漏洞，因为这些漏洞需要理解应用程序特定的语义上下文。最近尝试推断这种上下文的方法，由于依赖于启发式和非可移植的语言特性，本质上存在脆弱性和不完整性。由于业务逻辑漏洞构成了实践中最危险的软件弱点（CWE前40名中的27个）中的大多数，这是现有工具的一个令人担忧的盲点。在本文中，我们提出了一种名为ANOTA的新型人机交互净化框架来应对这一挑战。ANOTA引入了一个轻量级、用户友好的注释系统，使用户能够直接将其领域特定知识编码为轻量级注释，这些注释定义了应用程序的预期行为。然后，运行时执行监视器观察程序行为，将其与注释定义的策略进行比较，从而识别出表示漏洞的偏差。为了评估ANOTA的有效性，我们将ANOTA与最先进的模糊测试工具相结合，并与兼容相同目标的其他流行错误检测方法进行比较。结果表明，ANOTA+FUZZER在有效性方面优于这些方法。更具体地说，ANOTA+FUZZER能够成功重现43个已知漏洞，并在评估过程中发现了22个先前未知的漏洞（已分配17个CVE）。这些结果表明，ANOTA提供了一种实用且有效的方法，可以发现传统安全技术经常遗漏的复杂业务逻辑缺陷。</span></span></p><p cid="n84" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f938-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f938-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n86" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">21、Are your Sites Truly Isolated? Automatically Detecting Logic Bugs in Site Isolation Implementations</span></span></p><p cid="n87" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">站点隔离是现代浏览器的核心安全机制之一。通过将JavaScript即时编译器或HTML渲染等方面限制在沙盒进程中，网络浏览器显著减少了内存损坏错误的影响。此外，该机制还能防御Spectre等微架构攻击。使用站点隔离时，浏览器会将与特定站点相关的所有处理限制在其各自的沙盒进程中。与特权浏览器进程的所有通信都通过交换IPC消息完成。然而，这要求浏览器进程跟踪哪个渲染进程属于哪个站点，否则攻击者可能利用渲染器中的内存损坏问题，通过发送恶意IPC消息攻击其他站点。这反过来又可能允许攻击者泄露敏感数据（如cookies），甚至实现跨站脚本攻击（Universal Cross-Site Scripting）。</span></span></p><p cid="n88" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本研究首次提出了在Firefox和Chrome中自动检测此类漏洞（称为站点隔离绕过漏洞）的方法。为此，我们提出了一种新的预言机制，通过标记进程级别的跨站点数据泄露来检测导致站点隔离绕过漏洞的语义错误。此外，我们还设计了一个模糊测试工具，模拟被攻陷的渲染进程，通过挂钩IPC通信，尝试利用浏览器进程作为受迷惑的代理。我们的研究在Chrome和Firefox中发现了四个安全漏洞：三个较轻微的漏洞会导致跨站点数据泄露，而第四个漏洞则允许完全控制目标站点。</span></span></p><p cid="n89" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f902-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f902-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n91" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">22、Attention is All You Need to Defend Against Indirect Prompt Injection Attacks in LLMs</span></span></p><p cid="n92" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLMs）已被集成到许多应用（如网络代理）中，以执行更复杂的任务。然而，由LLM驱动的应用程序容易受到间接提示注入（IPI）攻击的威胁，其中指令通过不可信的外部数据源被注入。本文提出了Rennervate，一个用于检测和预防IPI攻击的防御框架。Rennervate利用注意力特征在细粒度的令牌级别检测隐蔽注入，实现精确的净化，在保持LLM功能的同时中和IPI攻击。具体而言，令牌级检测器通过两步注意力池化机制实现，该机制聚合注意力头和响应令牌以进行IPI检测和净化。此外，我们建立了一个细粒度的IPI数据集FIPI，将开源以支持进一步研究。大量实验验证了Rennervate优于15种商业和学术IPI防御方法，在5个LLMs和6个数据集上实现了高精度。我们还证明了Rennervate可迁移到未见过的攻击，并能抵御自适应对手。</span></span></p><p cid="n93" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f394-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f394-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n95" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">23、Augmented Shuffle Differential Privacy Protocols for Large-Domain Categorical and Key-Value Data</span></span></p><p cid="n96" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">协议的新型增强型洗牌DP协议来填补这一空白。我们的FME协议使用哈希函数过滤掉不流行项目，然后准确计算流行项目的频率。为了在用户与洗牌者之间的一次交互轮次内完成此操作，我们的协议通过多重加密在系统内进行精心通信。我们还应用FME协议进行更高级的KV（键值）统计估计，并采用额外技术来减少偏差。对于分类数据和KV数据，我们证明了我们的协议提供了计算差分隐私，对上述两种攻击具有高度鲁棒性，同时保持了高精度和效率。通过与十二种现有协议的比较，我们展示了我们提案的有效性。</span></span></p><p cid="n97" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1124-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1124-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n99" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">24、Automated Code Annotation with LLMs for Establishing TEE Boundaries</span></span></p><p cid="n100" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">现代系统日益依赖可信执行环境（TEEs），如Intel SGX和ARM TrustZone，以安全地隔离敏感代码并减少可信计算基（TCB）。然而，识别应位于TEE中的精确代码区域，特别是涉及加密逻辑的代码区域，仍然具有挑战性，因为这需要深入的手动检查，且尚未得到自动化工具的支持。为解决这一开放性问题，我们提出了基于大型语言模型的代码标注逻辑（LLM-CAL），这是一种利用最新和先进的大型语言模型（LLMs）大规模自动化识别安全敏感代码区域的工具。我们的方法利用基础LLMs（Gemma-2B、CodeGemma-2B和LLaMA-7B），并通过使用新收集的包含4,000多个C源文件的手动标注数据集对这些模型进行了微调。我们将局部上下文特征、全局语义信息和结构元编码为紧凑的输入序列，引导模型捕捉代码中安全敏感性的微妙模式。微调过程基于量化LoRA——一种参数高效技术，在LLM架构中引入轻量级可训练适配器。为支持实际部署，我们开发了一个可扩展的数据预处理和推理流水线。LLM-CAL在识别敏感和非敏感代码方面达到了98.40%的F1分数和97.50%的召回率。这是首次尝试为启用TEE的平台自动化标注加密安全敏感代码，旨在最小化可信计算基（TCB）并优化TEE使用，以增强整体系统安全性。</span></span></p><p cid="n101" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s709-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s709-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n103" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">25、Automating Function-Level TARA for Automotive Full-Lifecycle Security</span></span></p><p cid="n104" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着现代汽车演变为智能互联系统，其日益增长的复杂性带来了重大的网络安全风险。因此，在强制性法规下，威胁分析与风险评估（TARA）已成为管理这些风险的关键手段。然而，现有的TARA自动化方法依赖于静态威胁库，限制了其在行业所需详细功能级分析中的应用。本文介绍了DefenseWeaver，这是首个利用组件特定细节和大语言模型（LLM）自动化功能级TARA的系统。DefenseWeaver从扩展的OpenXSAM++格式描述的系统配置中动态生成攻击树和风险评估，然后采用多智能体框架协调专门的LLM角色以实现更强大的分析能力。为进一步适应不断演变的威胁和多样化的标准，DefenseWeaver集成了低秩适应（LoRA）微调和基于专家策划的TARA报告的检索增强生成（RAG）。我们通过在四个汽车安全项目中的部署验证了DefenseWeaver的有效性，它识别出11条关键攻击路径，这些路径已通过渗透测试验证，并由相关汽车制造商和供应商进行了报告和修复。此外，DefenseWeaver展示了跨领域适应性，成功应用于无人机（UAV）和导航系统。与人类专家相比，在六种评估场景中，DefenseWeaver在手动攻击树生成方面表现更优。集成到UAES和小米等商业网络安全平台后，DefenseWeaver已生成超过8,200个攻击树。这些结果凸显了其显著减少处理时间的能力，以及其在各行业网络安全方面的可扩展性和变革性影响。</span></span></p><p cid="n105" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1408-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1408-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n107" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">26、BACnet or “BADnet”? On the (In)Security of Implicitly Reserved Fields in BACnet</span></span></p><p cid="n108" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">楼宇自动化系统（BAS）对于管理现代建筑中的供暖、通风、空调和制冷（HVAC&amp;R）以及照明和安全等基本功能至关重要。BACnet作为BAS广泛采用的开放标准，实现了异构设备之间的集成和互操作性。然而，传统的BACnet实现仍然容易受到各种安全威胁的攻击。虽然现有的模糊测试工具已被应用于BACnet，但其效率有限，主要原因是基于总线的通信介质速度慢且吞吐量低。为应对这些挑战，我们提出了BACsFuzz，一种行为驱动的模糊测试工具，旨在发现BACnet系统中的漏洞。与关注输入多样性和执行路径覆盖的传统模糊测试方法不同，BACsFuzz引入了令牌抢占辅助模糊测试技术，该技术利用BACnet的令牌传递机制提高模糊测试效率。令牌抢占辅助模糊测试技术被证明在发现由隐式保留字段滥用引起的漏洞方面非常有效。我们确定这是一个影响BACnet和KNX（另一种主要的BAS协议）的常见漏洞。值得注意的是，BACnet协会（ASHRAE）确认了协议级别的令牌抢占漏洞的存在，进一步验证了这一发现的重要性。我们在来自西门子、霍尼韦尔和江森自控等领先制造商的15个BACnet和5个KNX实现上评估了BACsFuzz。与最先进（SOTA）的方法相比，BACsFuzz将模糊测试吞吐量提高了272.49%至776.01%。总共发现了26个漏洞——18个在BACnet中，8个在KNX中——都与隐式保留字段相关。其中，24个漏洞已由制造商确认，9个已被分配CVE编号。</span></span></p><p cid="n109" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s794-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s794-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n111" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">27、Benchmarking and Understanding Safety Risks in AI Character Platforms</span></span></p><p cid="n113" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">AI角色平台允许用户与AI角色进行对话，是一个快速发展的应用领域。然而，其沉浸式和个性化的特点，加上技术漏洞，引发了重大的安全问题。尽管这些平台很受欢迎，但对其安全性的系统评估却明显缺失。为填补这一空白，我们进行了首个AI角色平台的大规模安全性研究，通过16个安全类别中的5000个基准问题对16个流行平台进行了评估。我们的研究结果揭示了一个关键的安全缺陷：AI角色平台的平均不安全响应率为65.1%，显著高于基线17.7%的平均水平。我们进一步发现，不同角色的安全性能差异显著，并与人口统计和性格等角色特征密切相关。利用这些见解，我们证明我们的机器学习模型能够以0.81的F1分数识别安全性较低的角色。这种预测能力对平台有益，能够促进更安全的交互机制、角色搜索/推荐和角色创建。总体而言，这些结果和发现为提升平台治理和内容审核以实现更安全的AI角色平台提供了宝贵的见解。</span></span></p><p cid="n114" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f575-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f575-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n116" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">28、Better Safe than Sorry: Uncovering the Insecure Resource Management in App-in-App Cloud Services</span></span></p><p cid="n117" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在应用内应用生态系统中，超级应用为小程序开发者提供了访问各种敏感云服务的权限，如云数据库和云存储。这些服务使小程序开发者能够在超级应用服务器上高效地存储和管理小程序数据。为保护这些敏感资源，超级应用实施了身份管理机制，允许小程序开发者验证用户身份，确保只有授权和受信任的用户才能访问特定资源。然而，小程序开发者在资源管理实施中存在缺陷，可能导致敏感资源暴露给攻击者。在本文中，我们首次对应用内应用生态系统中的不安全云资源管理进行了系统性研究。我们设计并实现了一个名为ICREMiner的工具，该工具结合静态分析和动态探测技术，评估了在四个超级应用平台上访问应用内应用云服务的22,695个真实小程序的安全影响。研究结果显示，2,815个小程序（12.40%）受到不安全资源管理的影响，涉及8,062个不安全的云操作。我们发现一些知名企业的小程序也容易受到这些风险的威胁。此外，我们对该漏洞可能造成的重要安全危害进行了深入分析，例如允许攻击者窃取敏感用户信息和免费消费。作为回应，我们向超级应用平台和相应的小程序开发者进行了负责任的漏洞披露。我们还提供了几种缓解策略，帮助他们解决这些漏洞。</span></span></p><p cid="n118" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s194-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s194-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n120" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">29、Beyond Conventional Triggers: Auto-Contextualized Covert Triggers for Android Logic Bombs</span></span></p><p cid="n121" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">静态分析、模糊测试和基于学习的检测方面的最新进展显著提高了对触发型恶意软件的防御能力；然而，这些方法大多假设触发条件在语义上是明确的或与应用逻辑可区分的。在本文中，我们提出了SensorBomb，一种新颖的逻辑炸弹框架，它通过自动上下文化触发器和嵌入式传感器-执行器隐蔽信道利用了这一假设。SensorBomb不依赖于模糊或罕见的触发条件，而是构建与宿主应用的合法传感器使用、执行器行为和功能上下文紧密对齐的触发器，使其与良性行为无法区分。为此，SensorBomb自动分析宿主应用以选择兼容的传感器、执行器和敏感操作，构建隐蔽触发信道，并动态调整触发模式以逃避静态分析、模糊测试、传感器状态异常检测和用户怀疑。我们实现了三种此类触发器的代表性原型，并在不同设备和环境中进行了评估。结果表明，SensorBomb能够持续规避最先进的检测技术，实现高触发可靠性且无假阳性。对真实APK的大规模注入实验进一步证明，SensorBomb可以在不影响正常应用功能的情况下部署。这项工作揭示了移动恶意软件防御中一个关键且先前未被充分探索的攻击面，并呼吁开发更先进的检测机制。</span></span></p><p cid="n122" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f348-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f348-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n124" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">30、Beyond Jailbreak: Unveiling Risks in LLM Applications Arising from Blurred Capability Boundaries</span></span></p><p cid="n125" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">LLM应用（即LLM应用程序）利用大语言模型的强大能力为用户提供定制化服务，革新了传统的应用开发模式。尽管日益普及的LLM驱动的应用为用户提供了前所未有的便利，但也带来了新的安全挑战。对于这样一个新兴的生态系统，安全界对LLM应用生态系统的理解尚不充分，特别是对应用自身能力边界的认识。在本文中，我们系统分析了新的开发范式，并定义了LLM应用能力空间的概念。我们还揭示了在现实场景中，由于能力边界模糊而可能产生的超越越狱攻击的新风险，即能力降级和能力升级。为评估这些风险的影响，我们设计并实现了一个LLM应用能力评估框架LLLMApp-Eval。首先，我们在4个平台上收集了应用元数据，并进行了跨平台生态系统分析。然后，我们对4个平台上的199个流行应用和6个开源大语言模型进行了风险评估。我们发现178个（89.45%）应用可能受到影响，这些应用能够执行来自15种以上场景的任务或具有恶意性。我们甚至在研究中发现了17个应用程序，它们直接执行恶意任务，而未应用任何对抗性重写。此外，我们的实验还揭示了提示设计质量与应用稳健性之间的正相关关系。我们发现精心设计的提示能增强安全性，而设计不佳的提示则可能助长滥用。我们希望我们的工作能够激励社区关注LLM应用的现实风险，促进更稳健的LLM应用生态系统的发展。</span></span></p><p cid="n126" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f2941-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f2941-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n128" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">31、Beyond Raw Bytes: Towards Large Malware Language Models</span></span></p><p cid="n129" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">恶意软件对关键计算基础设施构成日益增长的威胁，推动了对更先进的检测和分析方法的需求。尽管原始二进制恶意软件分类器显示出潜力，但其功能有限，难以应对长序列建模的挑战。与此同时，大型语言模型（LLMs）在自然语言处理领域的崛起展示了大规模、自监督模型在异构数据集上训练的力量，为众多下游任务提供了灵活的表示。这些模型成功的根源在于其训练数据的大小和质量、神经网络架构的表现力和可扩展性，以及其以自监督方式从未标记数据中学习的能力。在这项工作中，我们迈出了开发大型恶意软件语言模型（LMLMs）的第一步，这是LLMs在恶意软件领域的对应模型。我们解决了这一目标的核心方面，即关于数据、模型、预训练和微调的问题。通过使用语言建模目标预训练恶意软件分类模型，我们能够在各种实际的恶意软件分类任务上将下游性能平均提高1.1%，最高提高28.6%，这表明这些模型可以取代原始二进制恶意软件分类器。</span></span></p><p cid="n130" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s103-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s103-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n132" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">32、Beyond RTT: An Adversarially Robust Two-Tiered Approach For Residential Proxy Detection</span></span></p><p cid="n133" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">住宅IP代理网络已达到前所未有的规模，但它们通过将流量隐藏在合法的家庭地址背后，支持欺诈、网络抓取和复杂网络攻击等恶意活动，从而构成重大安全风险。现有的检测方法主要依赖于跨层往返时间（RTT）差异，但我们证明这些方法存在根本性缺陷：简单的流量调度攻击可以将检测召回率从99%降至仅8%，使得最先进的技术在面对基本对抗规避时变得不可靠。为解决这一关键漏洞，我们引入了新颖的流量分析和流关联特征，这些特征能够准确捕获网关和中继流量的特性，超越了易受攻击的基于时间的方法。我们进一步开发了CorrTransform，这是一种基于Transformer的深度学习架构，专为最大对抗弹性而设计。这实现了两种互补的检测策略：一种使用工程特征进行高效大规模检测的轻量级方法，以及一种在对抗环境中提供高保证的深度学习方法。我们通过对Bright Data的EarnApp进行为期15个月（900GB）涵盖超过110,000个代理连接的流量数据的综合分析，验证了我们的方法。我们的双层框架使ISP能够以&gt;98%的精确率/召回率识别代理设备，在正常条件下以99%的精确率/召回率分类单个连接，同时在对包括调度、填充和数据包重塑在内的复杂攻击保持&gt;92%的F1分数，而现有方法在这些攻击面前完全失效。对于内容提供商，我们的方法在区分直接流量与代理流量时实现了接近完美的召回率，同时假阳性率&lt;0.2%。这项工作将代理检测从易受攻击的基于时间的方法转变为具有弹性的架构指纹识别，为应对日益增长的恶意住宅代理使用威胁提供了可立即部署的工具。</span></span></p><p cid="n134" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f2086-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f2086-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n136" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">33、BINALIGNER: Aligning Binary Code for Cross-Compilation Environment Diffing</span></span></p><p cid="n138" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">二进制差异比对旨在对齐两个二进制文件中对应相同源代码片段的控制流图部分，以用于软件安全分析，如漏洞和抄袭检测任务。先前的工作在跨编译环境场景中效果有限且支持不够灵活。主要原因是它们基于基本块的相似性比较进行匹配。在我们的工作中，我们提出了一种新的二进制级别差异比对方法BINALIGNER，以缓解上述局限性。为了减少对应相同源代码片段的错误匹配和漏匹配的可能性，我们提出了条件松弛策略来寻找候选子图对。为了支持跨编译环境场景中更灵活的二进制差异比对，我们使用指令无关的基本块特征进行子图嵌入生成。我们实现了BINALIGNER，并在四种跨编译环境场景（即跨版本、跨编译器、跨优化级别和跨架构）中进行了实验，以评估其有效性和对不同场景的支持能力。实验结果表明，在大多数场景中，BINALIGNER显著优于最先进的方法。特别是在跨架构场景和跨编译环境场景的多种组合中，BINALIGNER的F1分数平均比基线方法高出65%。使用真实世界漏洞和补丁的两个案例研究进一步证明了BINALIGNER的实用性。</span></span></p><p cid="n139" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s649-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s649-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n141" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">34、Bit of a Close Talker: A Practical Guide to Serverless Cloud Co-Location Attacks</span></span></p><p cid="n142" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">无服务器计算通过为用户提供一种高效、经济的应用开发和部署方式而无需管理基础设施细节，从而彻底改变了云计算。然而，无服务器云用户仍然容易受到各种类型的攻击，包括微架构侧信道攻击。这些攻击通常依赖于受害者和攻击者实例的物理共存，攻击者需要利用云调度器来实现与受害者的共存。因此，研究无服务器云调度器的漏洞并评估不同无服务器调度算法的安全性至关重要。本研究解决了理解和构建无服务器云中共存攻击的空白问题。我们提出了一个全面的方法论，用于发现无服务器调度算法中的可利用特征，并制定通过正常用户界面构建共存攻击的策略。在我们的实验中，我们成功揭示了可利用的漏洞，并在流行的开源基础设施和微软Azure函数上实现了实例共存。我们还提出了一种缓解策略——双调度器（Double-Dip scheduler），以防御无服务器云中的共存攻击。我们的工作强调了当前云调度器中安全增强的关键领域，为加强无服务器计算环境抵御潜在的共存攻击提供了见解。</span></span></p><p cid="n143" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1376-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1376-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n145" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">35、BKPIR: Keyword PIR for Private Boolean Retrieval</span></span></p><p cid="n146" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">私有信息检索（Keyword PIR）使用户能够从数据库中检索与特定关键词相关的数据，同时保持查询的私密性。然而，现有的关键词PIR方案难以支持布尔检索模型，而该模型是实际应用中需要术语逻辑组合所必需的。本文提出了一种新颖的关键词PIR方案，利用了同态等值运算的进展。它支持在具有多对多关键词-值映射的数据库上进行隐私保护检索，同时支持布尔运算符以实现表达性搜索逻辑。重要的是，这种扩展保留了经典PIR的核心安全保证。据我们所知，这是首次将关键词PIR与布尔检索模型相结合的工作。实验评估表明，我们的方案实现了与多对多关键词-值数据库中值总数成比例的通信成本降低，同时获得了与值数量线性扩展的聚合查询处理性能提升。这些改进增强了其在隐私保护网络搜索和专利检索等实际应用中的可行性。</span></span></p><p cid="n147" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s536-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s536-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n149" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">36、Bleeding Pathways: Vanishing Discriminability in LLM Hidden States Fuels Jailbreak Attacks</span></span></p><p cid="n150" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLMs）仍然容易受到越狱攻击的威胁，这些攻击利用对抗性提示来规避安全措施。当前的安全微调方法面临两个关键限制。首先，它们往往难以在安全性和实用性之间取得平衡，更强的安全措施往往会过度拒绝无害的用户请求。其次，它们经常忽略隐藏在看似良性任务中的恶意意图，使模型容易受到攻击。我们的工作确定了这些问题的根本原因：在响应生成过程中，LLM区分有害输出和安全输出的能力会减弱。实验证据证实了这一点，揭示出安全响应和有害响应的隐藏状态之间的可分性随着生成过程的推进而降低。这种减弱的辨别力迫使模型在生成过程的更早阶段做出合规性判断，限制了它们识别正在形成的恶意意图的能力，并导致了上述两种失败。为了缓解这一漏洞，我们引入了DEEPALIGN——一种增强LLM安全性的内在防御框架。通过在响应生成的中点应用对比隐藏状态引导，DEEPALIGN放大了有害和良性隐藏状态之间的分离，使生成过程中能够持续进行内在毒性检测和干预。此外，它有助于对有害查询提供上下文适当的安全响应，从而扩展安全响应的可行空间。评估结果表明了DEEPALIGN的有效性。在跨越不同架构和规模的多样化LLM中，它将九种不同越狱攻击的成功率降低到接近零或最低水平。重要的是，它在保持模型能力的同时减少了过度拒绝。配备DEEPALIGN的模型在拒绝具有挑战性的良性查询时，错误率降低了高达3.5%，并且标准任务性能下降不到1%。这标志着在安全-效用帕累托前沿方面取得了重大进展。</span></span></p><p cid="n151" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f4-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f4-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n153" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">37、BLERP: BLE Re-Pairing Attacks and Defenses</span></span></p><p cid="n155" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">蓝牙低功耗(BLE)是一种无处不在的无线技术，被数十亿设备用于交换敏感数据。根据蓝牙核心规范v6.1的定义，BLE的安全性依赖于两个主要协议：配对协议，用于建立长期密钥；以及会话建立协议，用于使用新的会话密钥加密通信。尽管标准允许已配对设备重新配对以协商新的安全级别，但这种机制的安全影响仍未被探索，尽管存在设备伪装和中间人(MitM)攻击的相关风险。我们分析了标准v6.1中定义的BLE重新配对机制，并确定了六个设计漏洞，其中包括四个新发现的漏洞，如未经验证的重新配对和安全级别降级。这些漏洞是设计缺陷，影响任何使用配对的符合标准的BLE设备，无论其蓝牙版本或安全级别如何。我们还提出了四种利用这些漏洞的新型重新配对攻击，我们称之为BLERP。这些攻击能够以最小或无需用户交互(一键或零点击)的方式实现设备伪装和中间人攻击。我们的攻击是首个针对BLE重新配对的攻击，利用了BLE配对与会话建立之间的相互作用，并滥用了SMP安全请求消息。我们开发了一个新型工具包，实现了我们的攻击并支持BLE配对的测试，包括端到端的中间人攻击。重现该工具包仅需低成本硬件(nRF52)和开源软件(Mynewt、NimBLE和Scapy)。我们的大规模评估展示了攻击对22个目标的影响，包括15个BLE主机、12个BLE控制器、高达5.4版本的蓝牙以及最安全的配置(SC、SCO和认证配对)。在我们的实验中，我们还发现了影响Apple、Android和NimBLE BLE栈的实现重新配对漏洞。我们实施并评估了两种互补的缓解措施：一种向后兼容的重新配对逻辑加固方案，供应商可立即部署；以及一种认证重新配对协议，从设计上解决了这些攻击。我们通过实证验证了加固重新配对的有效性，并使用ProVerif形式化建模和验证了认证重新配对。</span></span></p><p cid="n156" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f121-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f121-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n158" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">38、Breaking Isolation: A New Perspective on Hypervisor Exploitation via Cross-Domain Attacks</span></span></p><p cid="n159" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">虚拟机监控程序面临关键内存安全漏洞的威胁，其中指针损坏是最普遍和最严重的形式之一。现有的利用框架依赖于识别宿主机中的高度受限结构并准确确定其运行时地址，但在虚拟机监控程序环境中，此类结构稀少且被地址空间布局随机化(ASLR)进一步混淆，因此这种方法无效。我们观察到现代虚拟化环境存在弱内存隔离问题——客户机内存完全由攻击者控制，但可从宿主机访问，这为利用提供了可靠的原始基础。基于这一观察，我们首次对跨域攻击(CDA)进行了系统性的特征描述和分类，这是一类通过重用客户机内存实现能力提升的利用技术。为自动化这一过程，我们开发了一个系统，用于识别跨域小工具，将其与损坏的指针匹配，合成触发输入，并组装完整的利用链。我们在QEMU和VirtualBox的15个真实世界漏洞上的评估表明，CDA具有广泛的适用性和有效性。</span></span></p><p cid="n160" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f376-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f376-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n162" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">39、Breaking the Bulkhead: Demystifying Cross-Namespace Reference Vulnerabilities in Kubernetes Operators</span></span></p><p cid="n163" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Kubernetes Operator是一种旨在管理Kubernetes集群内应用生命周期的自动化工具，它扩展了Kubernetes的功能，并减轻了人类工程师的操作负担。虽然Operator显著简化了DevOps工作流程，但也引入了新的安全风险。特别是，Kubernetes强制执行命名空间隔离以分离工作负载并限制用户访问，确保用户只能与其授权命名空间内的资源交互。然而，Kubernetes Operator通常需要提升的权限，并且可能与多个命名空间中的资源交互。这引入了一类新的漏洞——跨命名空间引用漏洞。其根本原因在于资源声明的范围与Operator逻辑实现范围之间的不匹配，导致Kubernetes无法正确隔离命名空间。利用此类漏洞，具有单个授权命名空间有限权限的攻击者可能利用Operator执行影响其他未授权命名空间的操作，导致权限提升及其他进一步影响。据我们所知，本文是首个系统性研究Kubernetes Operator攻击的论文。我们提出了跨命名空间引用漏洞及其两种攻击策略，展示了攻击者如何绕过命名空间隔离。通过大规模测量，我们发现野外环境中超过14%的Operator可能存在漏洞。我们的发现已报告给相关开发者，截至投稿时已获得8项确认和7个CVE编号，影响了包括Kubernetes发明者谷歌和Operator发明者红帽在内的供应商，这凸显了增强Kubernetes Operator安全实践的迫切需求。为缓解此问题，我们开源了静态分析工具套件，并提出了具体的缓解措施以造福整个生态系统。</span></span></p><p cid="n164" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f761-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f761-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n166" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">40、Breaking the Generative Steganography Trilemma: ANStega for Optimal Capacity, Efficiency, and Security</span></span></p><p cid="n167" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">生成式隐写术在隐蔽通信方面展现出巨大潜力，然而现有方法常受限于容量、效率和安全性三者的权衡困境。基于霍夫曼编码（HC）的方法效率低下且安全性不足，而基于算术编码（AC）的方法虽能实现最优容量，但也存在安全风险。尽管近期已有可证明安全的方法解决了安全问题，但往往以增加嵌入复杂度或降低容量为代价——无法达到基于AC方法的高容量水平。为解决这一三重困境，我们将非对称数值系统（ANS）应用于隐写术。我们的核心洞见是重新利用ANS状态机，将其解码函数用于嵌入，编码函数用于提取。为将这一概念转化为实用系统，我们引入了几项关键创新。首先，我们采用流式架构结合状态重归一化，以实现任意长度消息的稳定嵌入。其次，我们采用直接浮点运算，避免高概率到频率的转换，从而降低复杂度和精度损失。更重要的是，我们引入了一种创新的密码学掩码机制，确保采样过程由密码学安全的伪随机数生成器驱动，从而实现可证明的安全性。最后，通过将核心计算优化为高效的位移操作，ANStega实现了卓越的嵌入和提取速度。实验结果验证了ANStega同时实现了最优嵌入容量、最优效率（O(1)嵌入复杂度）和最优安全性，成功解决了生成式隐写术中长期存在的三重困境。</span></span></p><p cid="n168" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f605-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f605-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n170" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">41、BSFuzzer: Context-Aware Semantic Fuzzing for BLE Logic Flaw Detection</span></span></p><p cid="n171" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">蓝牙低功耗（BLE）已成为现代互联设备的基础通信标准。然而，其复杂设计引入了微妙的逻辑缺陷，如字段误解或无效状态转换，这些缺陷可能导致身份验证绕过、未经授权的控制或拒绝服务（DoS）攻击。这些问题常常逃避传统的模糊测试和形式化分析。为解决这一差距，我们提出了BSFuzzer，一种基于蓝牙核心规范指导的、黑盒的、上下文感知的语义模糊测试框架。BSFuzzer利用大型语言模型（LLM）代理来语义解析蓝牙规范，从文本、图表和上下文中提取状态机和数据包语义。然后生成两种类型的变异：协议规则的字段级违规和关键转换的状态级破坏。这些变异被组合成结构化测试序列并在目标设备上执行。LLM代理进一步用于验证响应是否符合预期行为，从而能够检测传统模糊测试器无法触及的微妙逻辑缺陷。我们在19个真实的BLE设备上评估了BSFuzzer，包括9个系统级芯片（SoC）模块和10部智能手机。它发现了36个安全问题，其中包括34个先前未知的漏洞，其中9个已获得CVE标识符。两个关键漏洞通过漏洞赏金计划被一家主要供应商认可。实验结果表明，BSFuzzer在基于LLM的规范分析（高达97%）和响应验证（高达85.8%）方面均达到高准确率，证明了其在语义提取和提升模糊测试性能方面的有效性。与四种最先进的BLE漏洞检测工具相比，BSFuzzer实现了9.34%更高的代码覆盖率，并暴露了更广泛的漏洞类别，证明了其在发现BLE协议实现中深层解释不一致方面的有效性。</span></span></p><p cid="n172" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f94-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f94-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n174" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">42、Bullseye: Detecting Prototype Pollution in NPM Packages with Proof of Concept Exploits</span></span></p><p cid="n175" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">原型污染是JavaScript中的一个关键安全漏洞，特别是在Node.js包和应用程序中，攻击者可以操纵全局对象原型并向所有继承自该原型的对象注入恶意属性。最先进的静态和动态方法在检测此漏洞方面面临显著限制，无论是在准确性还是效率方面。静态方法难以识别不可利用的漏洞（例如，由于缺少带有预防机制的代码上下文），导致高误报率，同时还存在可扩展性问题。动态方法由于能够访问运行时信息，因此误报率较低；然而，由于代码可达性低（例如，由于使用了不适当的参数类型/值），其漏报率可能很高。在本文中，我们提出了Bullseye，一个全自动化动态分析框架，可对Node.js包中的原型污染漏洞提供经过验证且可扩展的分析。Bullseye的创新方法结合了广泛的入口点覆盖、上下文感知的漏洞生成和双运行时验证预言机。我们使用包测试套件中开发者提供的输入，以及从先前工作中提取的原型污染相关漏洞利用输入。然后，我们使用相关的漏洞利用输入候选执行每个入口点，并观察运行时以检测原型污染的迹象。我们在不到8小时内分析了44,513个高流行度的Node.js包（每周下载量超过10,000次）以及5,879个每周下载量较低的包。我们在290个包中检测到了零日原型污染漏洞，且没有误报。我们已负责任地向各包维护者披露了所有发现，并附带了概念验证漏洞利用代码。截至2025年7月22日，我们总共被分配了149个CVE；其中，66个已公开，25个被评为严重级别，34个被评为高危级别。</span></span></p><p cid="n176" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s211-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s211-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n178" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">43、BunnyFinder: Finding Incentive Flaws for Ethereum Consensus</span></span></p><p cid="n179" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">以太坊作为领先的区块链平台，依赖激励机制来提高其稳定性。最近，针对这些激励机制已出现多种攻击手段，例如所谓的重组攻击，这种攻击会导致诚验证者提出的区块被丢弃。在重组攻击中，诚验证者获得的奖励低于其应得的份额。然而，发现这些攻击严重依赖专业知识，且可能需要大量人工工作。我们提出了proto，一个只需少量人工工作即可发现以太坊激励缺陷的框架。proto受故障注入启发，这是一种在软件测试中常用的发现实现漏洞的技术。与发现实现漏洞不同，我们的目标是发现设计缺陷。我们的主要技术贡献包括一个精心设计的&#34;策略生成器&#34;，可生成大量攻击实例；一个自动工作流程，用于发起攻击并分析结果；以及一个集成了强化学习的工作流程，用于微调攻击参数并识别最具盈利能力的攻击。我们使用该框架模拟了总计7,991个攻击实例，并得出以下结果：首先，我们的框架重现了五种先前通过人工方式发现的已知激励攻击；其次，我们发现了三种可归类为激励缺陷的新攻击；最后且令人惊讶的是，我们的一个实验还发现了两个实现漏洞。</span></span></p><p cid="n180" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s281-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s281-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n182" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">44、Cache Me, Catch You: Cache Related Security Threats in LLM Serving Frameworks</span></span></p><p cid="n183" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLMs）正在迅速重塑数字交互方式。其性能和效率高度依赖于先进的缓存机制，如前缀缓存和语义缓存。然而，这些机制引入了新的攻击面。与以往专注于训练阶段LLMs投毒攻击的研究不同，本文首次对LLM推理阶段出现的缓存相关安全风险进行了全面研究。我们对主流LLM服务框架中的缓存实现进行了系统性研究，随后确定了六种新型攻击向量，分为两类：（1）面向用户的欺诈攻击，通过前缀缓存碰撞和语义模糊投毒来操纵缓存条目，向用户传递恶意内容；（2）系统完整性攻击，利用缓存漏洞绕过安全检查，例如使用分块或多模态碰撞来规避内容审核。我们在领先的开源框架上验证了这些攻击向量，并评估了其影响和成本。此外，我们提出了五种多层防御策略并评估了其有效性。我们向受影响的供应商（包括vLLM、SGLang、GPTCache、AIBrix、rtp-llm和LMDeploy）负责任地披露了我们的发现。所有供应商都已确认这些漏洞，值得注意的是，vLLM、GPTCache和AIBrix已采纳我们提出的缓解方法并修复了其漏洞。我们的研究结果强调了在快速扩展的LLM生态系统中保护缓存基础设施的重要性。</span></span></p><p cid="n184" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f2812-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f2812-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n186" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">45、Cascading and Proxy Membership Inference Attacks</span></span></p><p cid="n187" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">成员推理攻击（MIA）通过确定特定查询实例是否包含在数据集中，来评估训练好的机器学习模型对其训练数据的揭示程度。根据攻击者是否被允许在成员查询上训练影子模型，我们将现有的MIA分为自适应或非自适应两类。在自适应设置中，攻击者在访问查询实例后可以训练影子模型，我们强调了利用实例间成员依赖关系的重要性，并提出了一种称为级联成员推理攻击（CMIA）的攻击无关框架，该框架通过条件影子训练整合成员依赖关系，以提高成员推理性能。在非自适应设置中，攻击者被限制在获取成员查询前训练影子模型，我们引入了代理成员推理攻击（PMIA）。PMIA采用代理选择策略，识别与查询实例行为相似的样本，并利用它们在影子模型中的行为进行成员后验概率测试以执行成员推理。我们为这两种攻击提供了理论分析，大量实验结果表明，在两种设置下，CMIA和PMIA都显著优于现有的MIA，特别是在低假阳性区域，这对于评估隐私风险至关重要。</span></span></p><p cid="n188" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s661-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s661-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n190" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">46、CAT: Can Trust be Predicted with Context-Awareness in Dynamic Heterogeneous Networks?</span></span></p><p cid="n191" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">信任预测为决策制定、风险缓解和系统安全增强提供了有价值的支持。最近，图神经网络（GNN）已成为一种有前景的信任预测方法，因为它能够学习能够捕捉网络内复杂信任关系的 expressive 节点表示。然而，当前基于GNN的信任预测模型面临几个局限性：（i）大多数模型无法捕捉信任的动态性，导致推理结果存疑。（ii）它们很少考虑现实网络的异构性，导致丰富语义的丢失。（iii）它们都不支持上下文感知性，这是信任的基本属性，使得预测结果变得粗糙。为此，我们提出了CAT，这是第一个支持信任动态性并能准确表示现实世界异构性的基于GNN的上下文感知信任预测模型。CAT包含图构建层、嵌入层、异构注意力层和预测层。它使用连续时间表示处理动态图，并通过时间编码函数捕捉时间信息。为了建模图的异构性并利用语义信息，CAT采用双重注意力机制，识别不同节点类型以及每种类型内节点的重要性。为了实现上下文感知，我们引入了元路径的新概念来提取上下文特征。通过构建上下文嵌入和集成上下文感知聚合器，CAT可以预测上下文感知信任和整体信任。在三个真实数据集上的广泛实验表明，CAT在信任预测方面优于五组基线方法，同时展现出对大规模图的强大可扩展性以及对信任导向和GNN导向攻击的鲁棒性。</span></span></p><p cid="n192" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f2171-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f2171-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n194" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">47、CatBack: Universal Backdoor Attacks on Tabular Data via Categorical Encoding</span></span></p><p cid="n195" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">机器学习中的后门攻击因其能够秘密破坏模型而引起了广泛关注，但大多数研究都集中在图像等 homogeneous 数据上。在这项工作中，我们提出了一种针对表格数据的新型后门攻击，由于同时存在数值和分类特征，这种攻击尤其具有挑战性。我们的核心思想是一种新颖的将分类值转换为浮点表示的技术。与传统方法如独热编码或序数编码相比，这种方法保留了足够的信息以保持干净模型的准确性。通过这种方法，我们创建了一种基于梯度的通用扰动，适用于所有特征，包括分类特征。我们在五个数据集和四种流行模型上评估了我们的方法。结果表明，在白盒和黑盒设置（包括 Vertex AI 等实际应用）中，攻击成功率高达100%，揭示了表格数据存在严重漏洞。我们的方法在性能上超越了先前的工作（如 Tabdoor），同时能够躲避最先进的防御机制。我们针对频谱签名、神经网络净化、Beatrix 和精细剪枝等防御方法评估了我们的攻击，所有这些方法都无法成功防御。我们还验证了我们的攻击能够成功绕过流行的异常检测机制。</span></span></p><p cid="n196" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1469-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1469-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n198" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">48、Causal-Guided Detoxify Backdoor Attack of Open-Weight LoRA Models</span></span></p><p cid="n1106" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">低秩适应（LoRA）已成为微调大型语言模型（LLMs）的有效方法，并在开源社区中得到广泛应用。然而，通过Hugging Face等平台分发LoRA适配器会带来新的安全漏洞：恶意适配器可以轻易传播并规避传统监督机制。尽管存在这些风险，针对基于LoRA的微调的后门攻击研究仍然相对不足。现有的后门攻击策略并不适用于此场景，因为它们通常依赖于无法获取的训练数据，未能考虑LoRA特有的结构特性，或遭受高误触发率（FTR），从而损害了其隐蔽性。为应对这些挑战，我们提出了因果引导的去毒化后门攻击（CBA），这是一种专为开源权重LoRA模型设计的新型后门攻击框架。CBA无需访问原始训练数据，并通过两项关键创新实现高度隐蔽性：（1）一种覆盖引导的数据生成流程，通过行为探索合成任务对齐的输入；（2）一种因果引导的去毒化策略，通过保留任务关键神经元合并中毒和干净的适配器。与先前方法不同，CBA能够基于因果影响进行权重分配，实现训练后的攻击强度控制，无需重复重新训练。在六个LoRA模型上的评估表明，CBA实现了高攻击成功率，同时将FTR比基线方法降低50-70%。此外，它对最先进的后门防御表现出更强的抵抗力，凸显了其隐蔽性和鲁棒性。</span></span></p><p cid="n200" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f168-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f168-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n202" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">49、Cease at the Ultimate Goodness: Towards Efficient Website Fingerprinting Defense via Iterative Mutual Information Minimization</span></span></p><p cid="n203" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">针对日益增长的网络隐私威胁，Tor网络通过去中心化、加密的基础设施路由流量，提供了针对监控的重要保护。然而，网站指纹攻击（WFA）对Tor的匿名性构成了严峻挑战。本文介绍了FRUGAL，一种利用网站流量与标签之间的互信息（MI）减少作为优化目标的流量混淆方法，为网站指纹防御（WFD）研究提供了新的视角。FRUGAL通过在最能累积减少互信息的位置 strategically 注入虚拟数据包，与最先进的（SOTA）防御机制相比取得了显著性能。它能在有效降低各种攻击模型下的攻击成功率（ASR）的同时，保持最小的带宽开销（BWO），并减轻对抗训练的影响。大量实验验证了FRUGAL在包括封闭世界、开放世界和真实世界模拟环境在内的各种场景中的有效性。例如，在封闭世界环境中，FRUGAL将DF模型的ASR降低至2.68%，带宽开销为30%，显著优于之前的SOTA防御方法，如Palette（11.54%的ASR，87%的BWO）。当FRUGAL的BWO增加到可比的80%水平时，ASR进一步降至1%以下，显示出显著的鲁棒性，即使在对抗训练后仍保持在9.42%，而Palette则为20.27%。这项研究不仅为WFD研究提供了新视角，还将FRUGAL确立为对抗WFA的强大通用防御框架。</span></span></p><p cid="n204" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f786-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f786-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n206" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">50、CELLSHIFT: RTT-Aware Trace Transduction for Real-World Website Fingerprinting</span></span></p><p cid="n207" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">网站指纹识别是一种隐私攻击，攻击者通过机器学习预测用户通过Tor网络访问的网站。近期研究提出使用Tor出口中继可测量的用户自然交互的&#34;真实&#34;模式或轨迹来评估WF攻击，但这些轨迹并不能准确反映入口侧WF攻击者所观察到的模式。在本文中，我们提出了将出口轨迹转换为入口轨迹的新方法，以便更准确地估计WF对实际Tor用户构成的风险。我们的方法利用轨迹时间戳和元数据提取多次往返时间估计，并使用它们将&#34;转换&#34;轨迹到目标观察点的视角。通过广泛评估，我们证明我们的方法在多个合成和真实数据集上均优于现有技术，且效率显著提高；它们使研究人员能够更准确地代表入口侧WF攻击者面临的现实挑战，并生成增强数据集，使攻击者能够提升现有WF攻击的性能。</span></span></p><p cid="n208" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1004-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1004-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n210" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">51、CHAMELEOSCAN: Demystifying and Detecting iOS Chameleon Apps via LLM-Powered UI Exploration</span></span></p><p cid="n211" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">变色龙应用在提交时展示合法功能以规避iOS应用商店审核，然后在安装后转变为非法版本。尽管这类应用普遍存在，但其底层转换方法和开发者-用户合谋机制仍鲜为人知。现有检测方法受限于静态分析或元数据依赖，对混合实现、新型变种或元数据稀缺实例无效。为解决这些局限，我们通过隐蔽渠道收集了500个iOS变色龙应用，构建了一个精心策划的数据集，系统识别出10种不同的转换模式（包括4种先前未记录的变种）。基于这些发现，我们提出了ChameleoScan，这是首个用于可靠验证变色龙应用的LLM驱动自动化UI探索框架。该系统通过其核心创新——预测性元数据分析、语义界面理解和类人交互策略，在保持本地决策可解释性的同时确保全局检测一致性。对1,644个iOS应用的全面评估展示了其操作效能（9.85%检测率，92.59%精确度），且研究结果已获Apple正式认可。实现代码和数据集可在</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/ChameleoScan" target="_blank">https://github.com/ChameleoScan</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">获取。</span></span></p><p cid="n212" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1906-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1906-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n214" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">52、Character-Level Perturbations Disrupt LLM Watermarks</span></span></p><p cid="n215" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLM）水印已成为一种有前景的版权保护、滥用预防和机器生成内容检测技术。它在LLM生成过程中注入可检测信号，使相应的检测器能够进行后续识别。为了评估水印方案的鲁棒性，现有研究通常采用水印移除攻击，旨在通过修改水印文本来擦除嵌入的信号。然而，我们揭示现有水印移除攻击并非最优，这导致了一种误解，即有效的水印移除要么需要大的扰动预算，要么需要攻击者具备强大的能力，例如对目标LLM或其水印检测器进行无限查询。对移除攻击能力的系统性审视以及更复杂技术的发展在很大程度上仍未得到充分探索。因此，现有水印方案的鲁棒性可能被高估。为了填补这一空白，我们首先形式化了LLM水印的系统模型，并描述了两种受限于对水印检测器访问有限的真实威胁模型。然后我们分析了不同类型的扰动在其攻击范围上的差异，即单次编辑能够影响的标记数量。我们观察到，字符级扰动（如拼写错误、交换、删除、同形异义字）通过破坏标记化过程可以同时影响多个标记。我们证明，在最严格的威胁模型下，字符级扰动相比标记级或句子级方法在移除水印方面显著更有效。我们进一步提出了基于遗传算法（GA）的引导式移除攻击，该算法使用参考检测器进行优化。在具有对水印检测器有限黑盒查询的实际威胁模型下，我们的方法展示了强大的移除性能。在五个代表性水印方案和两个广泛使用的LLM上的实验一致证实了字符级扰动的优越性以及参考检测器引导的GA在现实约束下移除水印的有效性。此外，我们认为在考虑潜在防御时存在一种对抗困境：任何固定防御都可以通过适当的扰动策略绕过。基于这一原则，我们提出了一种自适应复合字符级攻击。实验结果表明，这种方法可以有效防御现有防御。我们的研究突显了现有LLM水印方案中的重大漏洞，并强调了开发新型鲁棒机制的紧迫性。</span></span></p><p cid="n216" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s138-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s138-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n218" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">53、Characterizing the Implementation of Censorship Policies in Chinese LLM Services</span></span></p><p cid="n219" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">从中国防火墙实施的网络级审查，到TOM-Skype和微信等第三方服务实施的特定平台机制，中国的互联网审查一直在随着新技术的发展而不断演变。在当前的AI时代，像大语言模型（LLMs）这样的新兴工具也不例外。然而，确保符合中国严格的法定审查标准，对服务提供商来说是一项独特而复杂的挑战。虽然目前关于大语言模型内容审核的研究主要集中在对齐技术上，但这些技术缺乏可靠性，无法充分满足严格执行的信息管控要求。</span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在这项工作中，我们首次对嵌入中文大语言模型（LLM）服务中的显性屏蔽进行了研究。我们利用活跃聊天会话期间服务器与客户端之间通信中的信息泄露，旨在找出屏蔽决策在LLM服务工作流程中的嵌入位置。我们观察到，百度文心一言、DeepSeek、豆包、Kimi和通义千问等知名服务持续依赖传统、过时的屏蔽策略。我们发现屏蔽设置在输入、输出和搜索阶段，后两个阶段会向客户端机器泄露不同数量的被审查信息，包括近乎完整的回复和未在浏览器中呈现的搜索参考内容。</span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">鉴于有必要在全球舞台上的竞争与本土审查限制之间取得平衡，我们实时观察到托管模型的服务提供商在自我矛盾中做出的让步。通过这项工作，我们强调了构建更全面的大语言模型（LLM）内容可访问性威胁模型的重要性，该模型应整合实时部署，以研究与现实世界使用相关的访问情况，特别是在审查严格的地区。</span></span></p><p cid="n220" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1761-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1761-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n222" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">54、Chasing Shadows: Pitfalls in LLM Security Research</span></span></p><p cid="n224" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型(LLMs)在安全研究中日益普及。然而，它们的独特特性引入了一些挑战，这些挑战削弱了可重复性、严谨性和评估的既定范式。先前的工作已经确定了传统机器学习研究中的常见陷阱，但这些研究早于LLMs的出现。在本文中，我们确定了九种常见的陷阱，这些陷阱随着LLMs的出现而变得(更加)相关，并且可能损害涉及它们的研究的有效性。这些陷阱贯穿整个计算过程，从数据收集、预训练和微调到提示和评估。我们评估了这些陷阱在2023年至2024年间所有72篇发表在顶级安全和软件工程会议上的同行评审论文中的普遍性。我们发现每篇论文至少包含一个陷阱，且每个陷阱出现在多篇论文中。然而，只有15.7%的当前陷阱被明确讨论，表明大多数陷阱仍未被认识到。为了了解它们的实际影响，我们进行了四个实证案例研究，展示了个别陷阱如何误导评估、夸大性能或损害可重复性。基于我们的发现，我们提供了可行的指导方针，以支持社区未来的工作。</span></span></p><p cid="n225" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1749-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1749-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n227" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">55、Chimera: Harnessing Multi-Agent LLMs for Automatic Insider Threat Simulation</span></span></p><p cid="n228" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">内部威胁可导致不可接受的损失，是一种普遍且重要的安全问题，因此其检测至关重要。近年来，基于机器学习的内部威胁检测（ITD）方法已被提出并取得了有前景的结果。尽管取得了这些成功，但一个主要挑战——数据不足——限制了这些ITD方法的进一步发展。矛盾之处在于，企业内部数据高度敏感且通常无法获取，而公共数据集要么在现实世界覆盖方面有限，要么在合成数据的情况下缺乏丰富的语义信息和真实的行为模式。因此，构建真实的内部威胁数据集至关重要。为应对这一挑战，我们提出了Chimera，这是首个基于大型语言模型（LLM）的多智能体框架，可自动模拟良性和恶意内部活动，并收集跨不同企业环境的日志。基于对组织构成和结构特征的分析，Chimera通过详细的角色建模定制每个LLM智能体以代表单个员工，并与小组会议、成对互动和自组织调度等模块相结合。通过这种方式，Chimera能够准确反映真实企业运营的复杂性。Chimera的当前版本包含15种不同类型的手工抽象内部攻击，如知识产权盗窃和系统破坏。使用Chimera，我们在三种典型的数据敏感型组织场景（包括科技公司、金融机构和医疗机构）中模拟良性和攻击活动，并生成了一个名为ChimeraLog的新数据集，以促进基于机器学习的ITD方法的发展。为评估ChimeraLog的质量和真实性，我们进行了全面的人类研究和定量分析。结果表明该数据集具有多样性和真实性。进一步的专业分析突显了真实威胁模式的存在以及可解释的活动轨迹。此外，我们在ChimeraLog上评估了现有内部威胁检测方法的有效性。平均F1得分为0.83，显著低于在基准数据集CERT上观察到的0.99分，从而说明了ChimeraLog在威胁检测任务中带来的更大难度。</span></span></p><p cid="n229" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f375-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f375-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n231" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">56、Cirrus: Performant and Accountable Distributed SNARK</span></span></p><p cid="n232" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">简洁非交互式知识论证（SNARKs）能够在许多应用中实现计算的高效验证。然而，为大规模任务（如可验证机器学习或虚拟机）生成SNARK证明在计算上仍然昂贵。一种有前景的方法是将证明生成工作负载分布在多个工作节点上。一个实用的分布式SNARK协议应具有三个特性：水平扩展性且开销低（每个工作节点线性计算和对数级通信）、可追责性（高效检测恶意工作节点）以及与电路和工作节点数量无关的通用可信设置。现有协议无法同时实现所有这些特性。在本文中，我们提出了Cirrus，这是首个同时实现所有三种理想特性的分布式SNARK生成协议。我们的协议基于HyperPlonk（EUROCRYPT&#39;23），继承了其通用可信设置。它实现了工作节点和协调器的线性计算复杂度，同时具有低通信开销。为实现可追责性，我们引入了一种高效的追责协议来定位恶意工作节点。此外，我们提出了一种分层聚合技术，以进一步减少协调器的工作负载。我们在硬件适中的机器上实现并评估了Cirrus。实验表明，Cirrus具有高度可扩展性：使用32台8核机器，在40秒内即可为拥有3300万门电路的证明生成。与最先进的可追责协议Hekaton（CCS&#39;24）相比，Cirrus在PLONK友好型电路（如Pedersen哈希）上的证明生成速度提高了7倍以上。我们的追责协议也能在4秒内高效识别出故障工作节点，使Cirrus特别适用于去中心化和外包计算场景。</span></span></p><p cid="n233" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f668-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f668-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n235" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">57、CoLD: Collaborative Label Denoising Framework for Network Intrusion Detection</span></span></p><p cid="n236" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">标签噪声在网络入侵检测中构成了重大挑战，导致错误分类和检测准确率下降。处理噪声标签的现有方法通常缺乏对网络流量的深入洞察，盲目重建标签分布以过滤带有噪声标签的样本，从而造成次优性能。本文从因果关联的角度揭示了噪声标签对入侵检测模型的影响，将性能下降归因于网络流量中跨类别的局部特征一致性。受此启发，我们提出了CoLD，一个用于网络入侵检测的协同标签去噪框架。CoLD将原始特征集划分为多个子集，采用局部联合学习来破坏局部一致性，迫使编码器学习细粒度和鲁棒的表示。它进一步应用因果协同去噪，通过分析多种表示与其潜在真实标签之间的因果差异来检测和过滤噪声标签，从而生成一个经过净化的数据集用于训练抗噪声分类器。在多个基准数据集上的实验表明，CoLD有效提升了分类性能和对标签噪声的鲁棒性，凸显了其在增强嘈杂环境中网络入侵检测系统的潜力。</span></span></p><p cid="n237" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1950-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1950-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n239" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">58、Connecting the Dots: An Investigative Study on Linking Private User Data Across Messaging Apps</span></span></p><p cid="n241" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">移动消息应用已成为日常交流的重要组成部分，拥有庞大的用户基础（例如，Telegram超过9.5亿用户，KakaoTalk达4870万用户）。为提升用户参与度和扩大用户规模，消息应用提供了丰富多样的上下文相关和平台特定功能，如附近用户搜索、联系人发现以及基于单点登录（SSO）的账户链接。虽然这些功能使用户能够在单个移动设备上使用多种消息应用，但它们也带来了跨多个消息应用链接私人用户信息的隐私风险，这一问题尚未得到充分研究。本文对韩国广泛使用的消息应用（包括KakaoTalk、Telegram、WhatsApp、Signal和Tinder）中的隐私威胁进行了深入分析，展示了利用联系人发现、基于SSO的账户链接和附近用户搜索功能的具体攻击实例，这些攻击会损害用户隐私。更重要的是，我们将这些攻击串联起来，实施了首个跨平台链接攻击，使攻击者能够去匿名化用户名，并推断大量非目标用户和目标用户的物理位置，平均误差范围为324米。我们的研究结果表明，保障联系人发现的安全性至关重要，因为宽松的联系人发现政策允许攻击者利用电话号码和个人资料图片作为链接键，跨多个消息应用连接私人用户信息。我们讨论并提出了缓解策略以减轻所呈现的威胁。</span></span></p><p cid="n242" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s556-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s556-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n244" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">59、Consensus in the Known Participation Model with Byzantine Faults and Sleepy Replicas</span></span></p><p cid="n245" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们研究了已知参与模型中的一致性问题，该模型同时存在拜占庭故障和休眠副本，其中诚实副本可能不可预测地进入休眠状态，且副本知道最少活跃诚实副本的数量。我们的主要贡献是对这种混合故障模型中的一致性问题进行了细粒度处理。首先，我们提出了一个同步原子广播协议，其期望延迟为$5Delta+2delta$，最佳情况延迟为$2Delta+2delta$，其中$Delta$是网络延迟的上界，$delta$是实际网络延迟。其次，在部分同步网络中（$Delta$值未知），我们表明可以使传统的拜占庭容错(BFT)协议容忍休眠副本，但必须做出稳定存储假设（副本需要将中间共识参数存储在稳定存储中）。最后，在部分同步网络但不假设稳定存储的情况下，我们展示了关于副本总数$n$、拜占庭副本最大数量$f$和同时休眠副本最大数量$s$之间关系的几个界限。利用这些界限，我们将HotStuff (PODC&#39;19)转化为一个能够容忍休眠副本而不牺牲性能的协议。</span></span></p><p cid="n246" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s448-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s448-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n248" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">60、Constructive Noise Defeats Adversarial Noise: Adversarial Example Detection for Commercial DNN Services</span></span></p><p cid="n249" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">商业深度神经网络服务已以机器学习即服务（MLaaS）的形式发展起来。为缓解对抗样本的潜在威胁，已提出了各种检测方法。然而，现有方法通常需要访问目标模型的细节或训练数据集，这在MLaaS场景中通常不可用。在无法获取目标模型细节或训练数据集的情况下，这些方法的检测准确率会显著下降。在本文中，我们提出了Falcon，一种由第三方提供的对抗样本检测方法，能够同时实现准确性和效率。基于干净样本和对抗样本在噪声容忍度上的差异，我们探索了一种建设性噪声，这种噪声添加到干净样本中不会影响模型的输出标签，但当添加到对抗样本中时，会导致模型输出发生明显变化。对于每个输入，Falcon生成具有特定分布和强度的建设性噪声，并通过添加建设性噪声前后目标模型输出的差异来实现检测。我们在4个公共数据集上进行了大量实验，以评估Falcon在检测10种典型攻击时的性能。Falcon优于最先进的检测方法，实现了对抗样本的最高真阳性率（TPR）和干净样本的最低假阳性率（FPR）。此外，Falcon在6个知名商业深度神经网络服务上实现了约80%的TPR和5%的FPR，性能优于最先进的方法。即使对手完全了解检测细节，Falcon也能保持其准确性。</span></span></p><p cid="n250" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s250-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s250-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n252" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">61、Continuous User Behavior Monitoring using DNS Cache Timing Attacks</span></span></p><p cid="n253" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">域名系统（DNS）是互联网的核心组成部分。客户端查询DNS服务器以将域名转换为IP地址。本地DNS缓存减少了查询DNS服务器所需的时间，从而降低了连接尝试的延迟。先前的研究表明，可以通过时序攻击利用DNS缓存来测试用户最近是否访问过特定网站，但这些研究缺乏驱逐功能，即无法精确监控用户访问网站的时间。其他研究则专注于路由器中的DNS缓存。所有先前的攻击都需要在受害者系统上执行某种形式的代码（例如原生代码、Java或JavaScript），而这并不总是可行的。我们引入了DMT，这是一种新颖的Evict+Reload攻击，可通过本地系统范围的DNS缓存持续监控受害者的互联网访问。DMT的基础是可靠的DNS缓存驱逐：我们提出了4种DNS缓存驱逐技术，用于在无权限和沙盒化原生攻击、虚拟化跨VM攻击以及基于浏览器的攻击（即带有JavaScript的网站和利用网站中字体串行加载的无脚本攻击）中驱逐本地DNS缓存。我们的攻击在默认设置以及使用DNS-over-TLS、DNSSEC或非默认DNS转发器进行安全防护时均有效。在我们的最快驱逐原语下，我们在所有上下文中观察到的平均驱逐时间为77.267毫秒，重新加载和测量时间在最佳情况（跨VM攻击）下为100个域名平均685.86毫秒，在最坏情况（基于JavaScript的攻击）下平均14.710秒。因此，对于五分钟粒度的攻击盲区，在最佳情况下小于0.26%，在最坏情况下为4.92%，这构成了可靠的攻击。在端到端的跨VM攻击中，我们可以在不到一秒的时间内可靠地检测出从103个网站列表（在开放世界场景中）的访问，F1得分为92.48%。在我们的基于JavaScript的攻击中，对于检测10个网站的访问，在有和无DNSSEC的情况下，我们分别实现了82.86%和78.89%的F1分数。我们认为DMT泄露了对敲诈和诈骗活动有价值的信息，或可用于提供针对受害者EDR解决方案的定制化漏洞利用。</span></span></p><p cid="n254" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f2287-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f2287-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n256" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">62、Convergent Privacy Framework for Multi-layer GNNs through Contractive Message Passing</span></span></p><p cid="n257" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">差分隐私(DP)已被集成到图神经网络(GNN)中，以保护敏感的结构信息，例如各种应用中的边、节点及相关特征。一种突出的方法是扰动消息传递过程，这是大多数GNN架构的核心。然而，现有方法通常会导致隐私成本随层数线性增长(例如，在Usenix Security&#39;23上发表的GAP)，最终需要添加过多噪声以维持合理的隐私水平。当使用表现优于单层GNN的多层GNN处理包含敏感信息的图数据时，这一局限性尤为突出。在本文中，我们通过将隐私放大技术应用于消息传递过程，并利用标准GNN操作固有的收缩特性，从理论上证明了隐私预算随层数收敛。受此分析启发，我们提出了一种简单而有效的收缩图层(CGL)，它在确保理论保证所需收缩性的同时保留了模型效用。我们的框架CARIBOU支持训练和推理，配备了收缩聚合模块、隐私分配模块和隐私审计模块。实验评估表明，CARIBOU显著改善了隐私-效用权衡，并在隐私审计任务中取得了卓越的性能。</span></span></p><p cid="n258" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f255-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f255-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n260" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">63、CoordMail: Exploiting SMTP Timeout and Command Interaction to Coordinate Email Middleware for Convergence Amplification Attack</span></span></p><p cid="n261" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文介绍了一种名为COORDMAIL的新型且强大的邮件汇聚放大攻击。传统的邮件DoS攻击主要向目标邮箱发送垃圾邮件，对邮件服务器运行的影响有限。相比之下，COORDMAIL利用SMTP协议的固有特性，即长会话超时和客户端控制的交互，巧妙地协调来自各种邮件中间件的反射邮件，最终将它们同时定向到入站邮件服务器。因此，不同邮件中间件的放大能力被集中起来，形成高度放大的攻击流量。从SMTP会话状态机和邮件反射行为出发，我们确定了众多适用于COORDMAIL的现实世界邮件中间件，包括10,079个反弹服务器、584个开放邮件中继和6个邮件转发服务提供商。通过构建SMTP命令序列，COORDMAIL能够以极低的速率与这些中间件保持长时间的SMTP通信，并控制它们在任何给定时刻稳定地反射邮件。我们证明COORDMAIL以低成本高效：1000个SMTP连接可实现超过30,000倍的带宽放大。虽然大多数现有安全机制对COORDMAIL无效，但我们提出了可行的缓解措施，可将COORDMAIL的汇聚放大能力降低数十倍。我们已负责任地向邮件中间件和主流邮件服务提供商报告了COORDMAIL，其中一些已接受我们的建议。</span></span></p><p cid="n262" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1414-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1414-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n264" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">64、CoT-DPG: A Co-Training based Dynamic Password Guessing Method</span></span></p><p cid="n265" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">密码仍然是主要的身份验证方法，安全界研究密码猜测以增强密码安全性。动态密码猜测持续收集目标信息并在猜测过程中动态拟合分布，从而扩大了威胁。现有方法主要分为两类：动态调整密码策略和基于生成模型的动态生成。然而，这些方法从单一视角拟合目标分布，忽略了不同维度信息之间的互补效应。如果能充分利用多维度信息，动态密码猜解性能将大幅提升，但如何有效融合多维度信息仍是一个挑战。受此启发，我们提出了CoT-DPG，一种新型动态密码猜解框架，允许多个猜解模型协作学习并互补知识。这是协同训练方法在多视图学习中首次应用于密码猜解。首先，在特征层面，我们基于增量训练动态更新神经网络参数并拟合目标分布。其次，在字符层面，我们设计了策略分布优化方法以减轻策略选择的盲目性。第三，我们采用协同训练方法进行多维度互补学习、迭代训练和密码生成。最后，实验证明了所提框架的有效性，在八个真实世界密码数据集上，与最先进方法相比，破解率绝对提升了6.4%至26.7%。</span></span></p><p cid="n266" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s755-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s755-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n268" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">65、Crack in the Armor: Underlying Infrastructure Threats to RPKI Publication Point Reachability</span></span></p><p cid="n269" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">RPKI在防止BGP前缀劫持方面的有效性不仅依赖于有效ROA的存在，还依赖于依赖方（RPs）从发布点（PPs）成功检索ROA的能力。在此检索过程中保证数据完整性和不间断连接，需要正确实施底层基础设施（即DNS和路由基础设施）中的安全措施。在本文中，我们收集了信息检索过程中使用的具体DNS和路由基础设施信息，并分析了影响RPKI PP可达性的基础设施威胁。关于DNS基础设施，我们报告显示31个PP（48.4%）容易受到DNS欺骗攻击，并指出了DNSSEC未保护区域出现的原因，例如重定向到未保护区域的CNAME和委托给第三方不安全DNS服务器的NS记录。关于与名称服务器通信的路由基础设施，我们的分析显示，多达55个PP（85.9%）在其解析路径上至少有一个未受ROA保护的名称服务器，并强调gTLD名称服务器缺乏ROA注册是其中44个PP存在漏洞的原因。关于RP-PP通信的路由基础设施，我们报告有5个PP未为其PP服务器的IP地址注册ROA。路由劫持攻击的模拟表明，在最脆弱的PP情况下，高达65%到83%的自治系统（ASes）可能会失去与该PP的连接。此外，我们研究了发布点之间的确定性和概率性依赖关系，发现了一个关键问题：一些由RIR运营的PP依赖于安全性较低的下层PP，这会显著放大不安全PP中的漏洞影响，可能导致级联故障。</span></span></p><p cid="n270" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1141-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1141-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n272" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">66、CRISP: An Efficient Cryptographic Framework for ML Inference Against Malicious Clients</span></span></p><p cid="n273" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于半诚实安全模型的机器学习推理协议在实际应用中容易受到恶意客户端的攻击，这些攻击可能导致机器学习模型参数的泄露。先前的研究引入了额外的MAC计算来确保客户端行为的正确性，但这在线上推理阶段增加了运行时间和通信成本。在本工作中，我们提出了CRISP，一个高效的两方密码学框架，旨在防御恶意客户端的攻击。具体而言：1）我们基于一种新的密码学原语（函数秘密共享）设计了非线性层的协议，我们方法的核心是优化MAC的重构过程。2）我们为线性层提出了一个复数域验证机制，该机制通过更好地利用同态加密CKKS中的复数空间，消除了额外的MAC计算。此外，在我们之前的工作（SIMC，USENIX Security&#39;22）中，我们识别了实际应用中的兼容性问题。当应用某些混淆电路优化时，非线性层中的MAC重构过程可能会泄露模型的中间输入和输出。相比之下，CRISP有效地避免了这一问题。在SIMC考虑的安全推理基准测试中，CRISP将机器学习推理的总通信成本降低了高达94%，并将推理延迟减少了高达43%。</span></span></p><p cid="n274" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s11-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s11-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n276" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">67、Cross-Boundary Mobile Tracking: Exploring Java-to-JavaScript Information Diffusion in WebViews</span></span></p><p cid="n277" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">WebViews是将基于Web的内容嵌入Android应用的常用方法。尽管它们提供与浏览器类似的功能并在隔离环境中执行，但应用可以通过在运行时动态注入JavaScript代码直接干扰WebViews。尽管先前工作已广泛分析了应用的Java代码，但现有框架对WebView中执行的JavaScript代码的可见性有限。因此，人们对WebView中执行的脚本的行为和特征以及是否存在隐私违规行为的理解有限。为解决这一差距，我们提出了WebViewTracer，这是一个旨在在运行时动态分析WebView中JavaScript代码执行情况的框架。我们的系统将WebView内部的JavaScript执行跟踪与Java方法调用信息相结合，以捕获Java SDK和Web脚本之间发生的信息交换。我们利用WebViewTracer对10K个Android应用数据集进行了首次大规模的WebView内部隐私违规行为动态分析。我们检测到4,597个加载WebView的应用，发现其中超过69%的应用将敏感和跟踪相关信息（通常是JavaScript代码无法访问的信息）注入到WebView中。这包括广告ID和Android构建ID等标识符。关键的是，90%的应用使用基于Web的API将这些信息泄露给第三方服务器。我们还发现了WebView中的JavaScript代码使用常见的Web指纹识别技术的具体证据，这些技术可以补充其跟踪信息。我们观察到，WebView的动态特性正在被积极利用，以便在移动跟踪生态系统中的多个参与者之间扩散敏感信息，这表明Android WebView存在隐私风险。通过揭示这些持续的隐私违规行为，我们的研究旨在促使平台利益相关者对嵌入式Web技术的使用进行更多审查，并强调需要额外的安全措施。</span></span></p><p cid="n278" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s910-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s910-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n280" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">68、Cross-Cache Attacks for the Linux Kernel via PCP Massaging</span></span></p><p cid="n282" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">尽管内存损坏防御研究已有数十年历史，内核内存分配器仍然是一个关键的攻击面。尽管最近的缓解策略降低了传统攻击技术的有效性，但我们证明稳健的跨缓存攻击仍然可行并构成重大威胁。在本文中，我们介绍了PCPLost，一种跨缓存内存按摩技术，它通过巧妙利用侧信道推断内核分配器的内部状态来绕过主流缓解措施。我们证明，诸如越界(OOB)漏洞——以及通过支点利用的释放后使用(UAF)和双重释放(DF)漏洞——可以通过跨缓存攻击可靠地利用，适用于所有通用缓存，即使在存在噪声的情况下也是如此。我们通过利用PCPLost利用6个公开披露的CVE漏洞，验证了我们方法的通用性和稳健性，并讨论了可能的缓解措施。我们的方法在获取跨缓存布局方面具有显著的可靠性（大多数情况下超过90%），这表明当前的缓解策略无法在Linux内核中为此类攻击提供全面保护。</span></span></p><p cid="n283" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f862-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f862-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n285" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">69、Cross-Consensus Reliable Broadcast and its Applications</span></span></p><p cid="n286" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">传统的拜占庭容错共识协议主要关注节点组内部的工作流程。近年来，许多共识应用涉及跨组通信。例如，不同基础设施上复制状态机之间的通信、基于分片的协议中不同分片节点之间的通信，以及跨链桥接。然而，很少有人致力于建模跨组通信的属性。在这项工作中，我们提出了一种名为跨共识可靠广播（XRBC）的新原语。XRBC原语建模了两个组之间通信的安全属性，其中至少有一个组执行共识协议。我们在不同假设下提供了三种XRBC构造，并展示了三种不同的XRBC协议应用：通过Reticulum（NDSS 2024）的案例研究实现的跨分片协调协议，通过Chainspace（NDSS 2018）的案例研究实现的跨分片交易协议，以及跨链桥接解决方案。我们的评估结果表明，我们的协议具有很高的效率，并能惠及不同的应用。例如，在我们对Reticulum的案例研究中，我们的方法比传统方法实现了61.16%的更低延迟。</span></span></p><p cid="n287" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s207-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s207-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n289" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">70、Cryptobazaar: Private Sealed-bid Auctions at Scale</span></span></p><p cid="n290" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文介绍了Cryptobazaar，一种可扩展、私密且去中心化的密封投标拍卖协议。特别地，我们的协议通过保护未中标出价者的出价机密性，同时确保结果的可公开验证性，并仅依赖单个不可信拍卖师进行协调，从而保护未中标出价者的隐私。Cryptobazaar的核心是将一个用于计算一元编码出价列表逻辑或的高效分布式协议，与多种新颖的零知识简洁知识论证相结合，这些论证可能具有独立的学术价值。我们提出了协议的多种变体，可用于高效进行第一价格、第二价格以及更一般的(p+1)价格拍卖，以及顺序第一价格拍卖。最后，我们对Cryptobazaar实现的性能评估表明该协议具有高度实用性。例如，一次包含128名出价者、价格范围为1024个值的拍卖在0.5秒内完成，且每个出价者仅需发送和接收约32KB的数据。</span></span></p><p cid="n291" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f481-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f481-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n293" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">71、CryptPEFT: Efficient and Private Neural Network Inference via Parameter-Efficient Fine-Tuning</span></span></p><p cid="n294" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">公开可用的预训练大模型（即主干网络）和用于参数高效微调（PEFT）的轻量级适配器已成为现代机器学习流水线的标准组件。然而，在推理过程中保护用户输入和微调适配器的隐私（这些适配器通常在敏感数据上训练）仍然是一个重大挑战。将密码学技术（如多方计算（MPC））应用于PEFT设置仍然会在主干网络和适配器之间产生大量加密计算，这主要是由于它们之间固有的双向通信。为解决这一限制，我们提出了CryptPEFT，这是首个专为私有推理场景设计的PEFT解决方案。CryptPEFT引入了一种新颖的单向通信（OWC）架构，将加密计算仅限制在适配器内，显著降低了计算和通信开销。为在此约束下保持强大的模型效用，我们探索了OWC兼容适配器的设计空间，并采用自动化架构搜索算法来优化私有推理效率与模型效用之间的权衡。我们在广泛使用的图像分类数据集上使用Vision Transformer主干网络对CryptPEFT进行了评估。结果表明，CryptPEFT显著优于现有基线，在模拟广域网（WAN）和局域网（LAN）环境中实现了20.62倍至291.48倍的加速。在CIFAR-100上，CryptPEFT仅需2.26秒的推理延迟即可达到85.47%的准确率。这些研究结果表明，CryptPEFT为现代基于PEFT的推理提供了一种高效且隐私保护的解决方案。</span></span></p><p cid="n295" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1102-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1102-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n297" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">72、CTng: Secure Certificate and Revocation Transparency</span></span></p><p cid="n298" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们提出了CTng，这是一种演进而实用的PKI设计，能有效解决现有PKI系统面临的多项关键挑战。CTng确保了强大的安全特性，包括证书的透明保证和明确无误的撤销保证，这些都是在NTTP安全模型下实现的，即无需信任任何单一的CA、日志记录方或依赖方。即使在这些实体存在任意腐败的情况下，这些保证仍然成立，只需假设腐败监控者的数量有一个已知上限（例如f=8），且对性能的影响最小。CTng还支持离线证书验证并保护依赖方的隐私，同时提供可扩展且高效的撤销更新分发。这些特性显著优于当前的PKI设计。特别是，虽然证书透明（CT）旨在消除单一信任点，但现有规范仍然假设日志记录方是善意的。通过日志冗余来解决这个问题是可能的，但效率较低，限制了部署配置中f≤2的情况。我们提供了对CTng开源原型（安全分析和评估），表明它在实际部署条件下是高效且可扩展的。</span></span></p><p cid="n299" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s213-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s213-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n301" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">73、CtPhishCapture: Uncovering Credential-Theft-Based Phishing Scams Targeting Cryptocurrency Wallets</span></span></p><p cid="n302" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">由于涉及巨大的经济利益，基于凭证窃取的加密货币钱包网络钓鱼（CtPhish）骗局已成为加密货币生态系统中最为普遍的恶意活动之一。在这些攻击中，受害者被诱骗访问CtPhish网站或应用程序，并受骗泄露其凭证，从而使攻击者能够窃取其加密货币资产。尽管存在几种网络钓鱼检测方法，但它们要么不适用于CtPhish，要么存在显著局限性。为填补这一空白，我们提出了CtPhishCapture，一个针对CtPhish网站和应用程序的大规模检测系统。CtPhishCapture访问可疑网站，采用基于大型语言模型（LLM）的检测方法来识别CtPhish网站，并尝试下载和分析潜在的CtPhish应用程序以进行进一步检测。经过六个月的部署，CtPhishCapture识别出5,138个CtPhish网站和10,612个CtPhish应用程序。值得注意的是，只有17%的网站和21%的应用程序先前被社区报告过，这表明CtPhishCapture新发现了83%的网站和79%的应用程序，使其成为迄今为止已知最大的CtPhish检测系统。利用收集的数据集，我们对CtPhish生态系统进行了全面的端到端测量和分析。我们的分析研究了攻击者如何诱骗受害者访问CtPhish网站和应用程序，如何获取用户信任，以及最终如何窃取受害者的加密货币资产。此外，我们还对相关网站和应用程序进行了深入测量，包括其特征、规避技术和估计的财务损失。最后，我们与一家领先的搜索引擎提供商合作部署了CtPhishCapture。通过整合CtPhishCapture的检测结果，每周关于CtPhish的用户投诉减少了5.8倍。</span></span></p><p cid="n303" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f2854-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f2854-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n305" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">74、cwPSU: Efficient Unbalanced Private Set Union via Constant-weight Codes</span></span></p><p cid="n306" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">私有集合并（PSU）允许两方在不泄露任何额外信息的情况下计算其私有集合的并集。尽管已有几种针对非平衡场景的PSU协议被提出，但随着较大集合规模的增加，这些构造方案仍存在显著的通信开销。此外，它们对无意识伪随机函数的多重调用导致通信轮次增加，这已成为实际应用中的瓶颈。在本工作中，我们提出了cwPSU，一种基于常重码和层次全同态加密的新型非平衡PSU协议。为防止信息泄露，我们引入了一种称为批量密文重排的新技术，实现了打包密文的安全重排序。此外，我们提出了一种优化的算术常重等价算子，将非标量乘法的数量减少到朴素方法所需的三分之一。我们协议的通信复杂度与较小集合的大小呈线性关系，且与较大集合的大小无关。值得注意的是，cwPSU仅需一轮在线通信。实验结果表明，cwPSU在各种网络条件下均优于现有最先进协议，实现了通信量减少5.1至32.4倍，运行时间加速3.1至13.3倍。</span></span></p><p cid="n307" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1128-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1128-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n309" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">75、Dataset Reduction and Watermark Removal via Self-supervised Learning for Model Extraction Attack</span></span></p><p cid="n310" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为保护高价值深度神经网络的知识产权，黑盒水印技术已成为一种关键防御手段并日益受到重视。这些方法通过精心设计的触发样本将水印嵌入到模型的预测行为中，从而能够通过API查询进行验证。同时，模型提取攻击通过利用查询访问来复制带水印的模型，从而威胁专有深度学习模型。这些攻击也为水印方案的稳健性和对抗能力提供了见解。然而，先前的方法难以去除水印信息，无意中保留了防御机制。它们还存在效率低下的问题，通常需要数千次查询才能达到竞争性能。为解决这些局限性，我们提出了一个名为SSLExtraction的查询高效模型提取框架。SSLExtraction通过特征空间中的贪婪随机游走选择查询，从而实现有效的模型复制和水印去除。具体而言，SSLExtraction遵循自监督学习范式提取内在数据表示，将原始像素级输入转换为与水印无关的特征。然后，我们在特征空间中提出了一种贪婪随机游走算法，以构建一个分布良好的查询集，有效覆盖特征空间同时避免冗余查询。通过在特征空间中选择查询，我们的方法自然地将水印模式识别为异常值，从而实现同时去除水印。此外，我们提出了一种专门为水印任务设计的评估指标，强调良性模型与被盗模型之间的区别。与依赖手动预定义阈值的前期方法不同，我们的评估指标采用假设检验来衡量可疑模型与带水印模型和良性模型之间的相对距离，识别可疑模型最接近的模型。实验结果表明，与基线方法相比，我们的方法显著降低了查询成本，同时在各种数据集和水印场景中有效去除了水印。</span></span></p><p cid="n311" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f223-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f223-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n313" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">76、Decompiling the Synergy: An Empirical Study of Human–LLM Teaming in Software Reverse Engineering</span></span></p><p cid="n315" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLMs）正在改变以往由人类主导的领域。本研究首次系统性地探讨了LLMs如何在软件逆向工程（SRE）过程中与分析师协作。为此，我们首先通过一项针对153名从业者的在线调查，记录了LLMs在SRE领域的应用现状，然后设计了一项细粒度的人类研究，研究对象是两个具有代表性的真实世界软件的&#34;夺旗&#34;风格二进制文件。在我们的研究中，我们对48名参与者（分为24名新手和24名专家）的SRE工作流程进行了监测，观察了超过109小时的SRE过程。通过18项研究发现，我们揭示了LLMs在SRE中的各种益处和危害。值得注意的是，我们发现LLM辅助缩小了专业知识差距：新手的理解率提高了约98%，达到专家水平，而专家则获益甚微；然而，LLMs也会产生有害的幻觉、无用的建议和无效的结果。已知算法函数的筛选速度提高了2.4倍，工件恢复（名称、注释、类型）增加了至少66%。总体而言，我们的研究结果确定了人类与LLMs在SRE中的强大协同效应，但也强调了当前LLMs集成中的显著缺陷。</span></span></p><p cid="n316" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f380-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f380-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n318" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">77、Demystifying RPKI-Invalid Prefixes: Hidden Causes and Security Risks</span></span></p><p cid="n319" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">资源公钥基础设施（RPKI）通过利用路由源授权（ROA）对象将IP前缀与其合法的源ASN关联起来，从而增强互联网路由安全性。尽管RPKI部署迅速——目前已有超过51.3%的互联网路由被ROA覆盖，但截至今天仍有6,802个RPKI无效前缀。本研究首次对RPKI无效前缀的隐藏原因进行全面研究和分类，揭示ROA配置错误通常发生在IP租赁和IP传输服务过程中。我们确定了导致这些配置错误的场景，并将96.9%的RPKI无效前缀归因于此类配置错误。我们进一步展示了它们对数据平面的级联影响，指出虽然大多数前缀的影响可以忽略不计，但3.1%的前缀会导致完全连接丢失，7.1%的前缀通过增加延迟和额外跳数来降低路由性能——在某些情况下甚至会绕过预期的安全机制；此外，我们发现此类配置错误正在触发劫持检测系统的误报。为验证我们的研究结果，我们通过与174个网络运营商直接合作，构建了一个包含294个配置错误前缀的真实数据集。我们还采访了16家大型ISP和主要租赁经纪人关于其ROA管理实践，并提出了避免ROA配置错误的建议。总之，这项研究不仅填补了先前研究的空白，还为网络运营商提供了可操作的改进ROA管理和减少RPKI无效公告发生的建议。</span></span></p><p cid="n320" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s161-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s161-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n322" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">78、Demystifying the Access Control Mechanism of ESXi VMKernel</span></span></p><p cid="n324" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">VMware ESXi是一种广泛部署的企业级1型管理程序，作为现代云基础设施的基础。为加强特权隔离，ESXi在VMKernel中引入了强制访问控制机制。然而，由于VMKernel的专有和闭源特性，其内部访问控制架构在很大程度上仍不透明且未被充分探索。先前的研究主要集中在虚拟设备漏洞和虚拟机逃逸上，而VMKernel的内部访问控制机制和特权模型则很少被检查。为填补这一空白，我们对VMKernel的访问控制机制进行了首次全面的安全分析。我们开发了一种面向域-控制结构的分析方法来重建关键内部权限逻辑，并设计了一种结构感知的调试框架以支持细粒度的运行时验证。利用该框架，我们发现了几个关键的设计缺陷，包括可写且不受保护的内存控制结构以及可被利用的开发者保留的系统调用接口。我们演示了三种实际攻击场景，这些场景利用这些缺陷来绕过沙箱限制、提升权限并获得持久访问。总之，我们向VMware报告了14个漏洞，所有漏洞均已得到确认和修复，共获得42,000美元的漏洞赏金。</span></span></p><p cid="n325" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f700-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f700-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n327" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">79、DirtyFree: Simplified Data-Oriented Programming in the Linux Kernel</span></span></p><p cid="n328" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着内核控制流完整性（KCFI）的出现，面向数据编程（DOP）已成为传统控制流劫持技术（如返回导向编程，ROP）的重要替代方案。与控制流攻击不同，DOP通过操作内核数据流实现权限提升，而无需违反控制流完整性。然而，传统的DOP攻击由于其多阶段特性仍然复杂且实用性有限，通常需要堆地址泄露、任意地址读取和任意地址写入能力。每个阶段都对内核对象的选择和使用施加了严格限制。为解决这些限制，我们引入了DirtyFree，这是一种利用任意释放原语的系统性利用方法。该原语能够强制释放攻击者控制的内核对象，显著降低利用要求并简化整体利用过程。DirtyFree提供了一种在多种内核缓存中识别合适的任意释放对象的系统方法，并提出了针对安全关键对象（如cred）的结构化利用策略。通过广泛评估，我们成功识别出覆盖大多数内核缓存的14个任意释放对象，通过成功利用24个真实世界内核漏洞证明了DirtyFree的实际有效性。此外，我们提出并实现了两种旨在缓解DirtyFree的缓解技术，有效防止了利用，同时仅产生微不足道的性能开销（分别为0.28%和-0.55%）。</span></span></p><p cid="n329" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f527-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f527-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n331" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">80、Discovering Blind-Trust Vulnerabilities in PLC Binaries via State Machine Recovery</span></span></p><p cid="n332" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">可编程逻辑控制器（PLC）是控制具有现实世界物理效应设备的工业计算机，这些系统中的安全漏洞可能导致灾难性后果。尽管先前的研究已提出检测PLC状态机中安全问题的技术，但大多数方法需要访问设计规范或源代码——这些资源通常对分析师或终端用户不可用。本文针对一类普遍存在的漏洞，我们将其命名为&#34;盲目信任漏洞&#34;，这些漏洞由外围输入上缺失或不完整的安全检查引起。我们引入了Ta&#39;veren，这是一个新颖的基于静态分析的框架，可以直接从PLC二进制文件中识别此类漏洞，而不依赖于固件重托管，这仍然是固件分析中的一个开放研究问题。Ta&#39;veren恢复了PLC二进制文件中的有限状态机，从而能够在各种规范下重复进行安全分析。为了将程序状态抽象为逻辑相关状态，我们利用了PLC一致使用特定变量表示内部状态的见解，从而允许进行激进的状态去重。这一见解使我们能够在不损害完备性的情况下有效去重状态。我们开发了Ta&#39;veren的原型并在真实的PLC二进制文件上对其进行了评估。实验表明，Ta&#39;veren能够高效地恢复有意义的有限状态机，并以高有效性发现关键的安全违规。</span></span></p><p cid="n333" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1624-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1624-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n335" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">81、Distributed Broadcast Encryption for Confidential Interoperability across Private Blockchains</span></span></p><p cid="n336" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">跨分布式账本技术(DLT)网络的互操作依赖于账本状态从一个网络到另一个网络的安全传输。对于访问权限仅限于注册成员的私有网络而言，这尤其具有挑战性。现有方法依赖于一个可信的集中式代理，该代理接收一个网络的加密账本状态，解密它，然后将其发送到另一个网络的成员。尽管这种方法有效，但它违背了DLT的基本原则，即避免单点故障（或单一信任源）。在本文中，我们利用全分布式广播加密(FDBE)构建了一个用于私有网络间机密信息共享的完全去中心化协议。与传统广播加密(BE)相比，FDBE的特点是分布式设置和密钥生成，即互不信任的各方无需可信设置即可就BE的公钥达成一致，并安全地派生其解密密钥。给定任何FDBE，两个私有网络可以安全地共享信息：一个网络中的发送者使用另一个网络的FDBE公钥为其成员加密消息。所构建的方案在简化的通用可组合性(UC)框架下是安全的。为进一步证明我们方法的实用性，我们提出了首个具有恒定大小解密密钥和密文的FDBE实例，并通过一个参考实现评估了其性能，该实现考虑了Hyperledger Cacti互操作框架内的两个私有Hyperledger Fabric网络。</span></span></p><p cid="n337" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1200-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1200-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n339" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">82、DNN Latency Sequencing: Extracting DNN Architectures from Intel SGX Enclaves with Single-Stepping Attacks</span></span></p><p cid="n341" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">深度神经网络（DNN）是现代计算的核心组成部分，支撑着图像识别、自然语言处理和音频分析等应用。这些模型的架构（例如，图层的数量和类型）被视为宝贵的知识产权，因为其设计需要大量的专业知识和计算投入。尽管可信执行环境（TEEs）如Intel SGX已被采用来保护这些模型，但最近关于模型提取攻击的研究表明，侧信道攻击（SCAs）仍可被用来提取DNN模型的架构。然而，许多现有的模型提取攻击要么没有考虑TEE的保护，要么仅限于特定类型的模型，降低了它们的实际应用性。在本文中，我们介绍了DNN延迟排序（DLS），这是一种新颖的模型提取攻击框架，针对在Intel SGX enclave中运行的DNN架构。DLS采用SGX-Step对模型执行单步操作并收集细粒度延迟轨迹，然后在函数和基本块级别进行分析以重建模型架构。我们的关键见解是，DNN架构本质上会影响执行行为，从而能够从延迟模式中实现准确的重建。我们在使用三种广泛使用的深度学习库（Darknet、TensorFlow Lite和ONNX Runtime）构建的模型上评估了DLS，并分别实现了97.3%、96.4%和93.6%的架构恢复准确率。我们进一步证明了DLS能够实现高级攻击，突显了其实用性和有效性。</span></span></p><p cid="n342" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1455-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1455-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n344" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">83、DOM-XSS Detection via Webpage Interaction Fuzzing and URL Component Synthesis</span></span></p><p cid="n345" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于DOM的跨站脚本（DOM-XSS）是一种普遍存在的Web漏洞。先前关于此类漏洞的大规模自动化检测和确认工作存在若干局限性。首先，先前的研究不与页面交互，因此无法执行依赖于用户操作的事件处理程序中的漏洞。其次，先前的研究无法找到URL组件，如GET参数和片段值，这些组件在用特定键/值实例化时会执行更多代码路径。为此，我们引入了SWIPE，这是一种DOM-XSS分析基础设施，它使用模糊测试生成用户交互以触发事件处理程序，并利用动态符号执行（DSE）自动合成URL参数和片段。我们在来自Tranco前30,000个热门域名的页面中找到的44,480个URL上运行了SWIPE。与先前的工作相比，SWIPE的模糊测试工具发现了多15%的漏洞。此外，我们发现URL中缺乏参数和片段会显著阻碍DOM-XSS检测，并证明SWIPE的DSE引擎可以合成先前未见过的URL参数和片段，从而触发20个新的漏洞。</span></span></p><p cid="n346" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1467-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1467-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n348" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">84、DUALBREACH: Efficient Dual-Jailbreaking via Target-Driven Initialization and Multi-Target Optimization</span></span></p><p cid="n349" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">最近的研究集中在探索大型语言模型（LLMs）的漏洞，旨在从LLMs中引发有害和/或敏感内容。然而，由于针对LLMs和护栏的双重越狱攻击研究不足，当试图绕过受护栏保护的安全对齐LLMs时，现有攻击的有效性有限。因此，本文提出了DualBreach，一种面向双重越狱的目标驱动框架。DualBreach采用目标驱动初始化（TDI）策略动态构建初始提示，并结合多目标优化（MTO）方法，利用近似梯度联合调整针对护栏和LLMs的提示，从而在减少查询次数的同时实现高双重越狱成功率。对于黑盒护栏，DualBreach要么采用强大的开源护栏，要么通过训练代理模型来模拟目标黑盒护栏，从而将护栏整合到MTO过程中。通过对多个常用数据集的广泛评估，我们证明了DualBreach在双重越狱场景中的有效性。实验结果表明，DualBreach以更少的查询次数优于最先进的方法，在所有设置下都取得了显著更高的成功率。具体而言，DualBreach对受Llama-Guard-3保护的GPT-4实现了93.67%的平均双重越狱成功率，而其他方法达到的最佳成功率为88.33%。此外，DualBreach每次成功双重越狱仅使用平均1.77次查询，优于其他最先进的方法。在防御方面，我们提出了基于XGBoost的集成防御机制EGuard，该机制整合了多种护栏的优势，与Llama-Guard-3相比表现出优越的性能。</span></span></p><p cid="n350" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1062-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1062-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n352" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">85、DualStrike: Accurate, Real-time Eavesdropping and Injection of Keystrokes on Commodity Keyboards</span></span></p><p cid="n353" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们发现，在键盘上同时实现窃听和非侵入式单键注入是可行的，特别是对于快速普及的霍尔效应键盘。本文介绍了DualStrike，一种新型攻击系统，允许攻击者远程监听受害者输入并控制霍尔效应键盘上的任意按键。这种能力基于受害者的输入和上下文，开启了严重攻击（如文件删除、私钥窃取和篡改）的大门，且无需对受害者的计算机进行硬件或软件修改。我们在DualStrike中提出了几项关键创新，包括一种基于新型紧凑电磁铁的高频磁欺骗硬件设计、一种无需同步的攻击方案，以及一种使用商用现成组件的基于磁力计的监听机制。我们的真实世界实验表明，DualStrike可以可靠地攻击六种最新霍尔效应键盘模型上的任意按键。具体而言，DualStrike在所有测试模型上实现了98.9%以上的按键注入准确率。在端到端测试中，监听模块实现了高监听准确率（即超过99%）。为了提高DualStrike的鲁棒性，我们实现了一种校准算法来应对键盘位移，即使偏移达到4厘米，仍能保持98.5%的注入准确率。我们还发现了DualStrike对现有磁屏蔽机制的免疫性，并为霍尔效应键盘提出了一种新型屏蔽方法。</span></span></p><p cid="n354" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s46-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s46-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n356" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">86、Efficiently Detecting DBMS Bugs through Bottom-up Syntax-based SQL Generation</span></span></p><p cid="n357" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于语法的测试是发现数据库管理系统（DBMS）中错误的一种有前景的技术。所有现有的基于语法的SQL生成工具都采用自上而下的生成方法。为了构建SQL查询（语法树），生成器从根节点开始向前探索SQL语法，当无法将更多的语法规则应用于语法树的叶子节点时停止。然而，自上而下的生成方法倾向于投入更多精力探索接近根节点的浅层语法，而忽略了语法空间中更深层次的功能丰富的语法。因此，它在发现DBMS错误方面效率不高。本文提出了一种新的基于语法的自下而上SQL生成技术，将更多的测试资源投入到探索功能丰富的语法规则中。SQL语法的探索从一个有趣的语法规则开始，该规则概述了功能丰富的SQL功能的语法。然后，生成器将该语法规则回溯（自下而上）到根节点，创建一个揭示该有趣语法的语法路径。然后，扩展和合并多个自下而上生成的语法路径，以创建用于模糊测试的多样化SQL查询。原型工具SQLBull采用自下而上的生成技术进行模糊测试。在评估中，SQLBull在5个经过充分测试的DBMS中发现了63个零日漏洞：MySQL、MariaDB、CockroachDB、DuckDB和PostgreSQL。它在错误发现和代码覆盖率方面都优于所有现有工具。评估结果验证了自下而上生成技术的有效性。</span></span></p><p cid="n358" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f198-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f198-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n360" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">87、Enhancing Legal Document Security and Accessibility with TAF</span></span></p><p cid="n362" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">数字时代使得越来越多的服务可以通过网络访问。然而，法律获取是一个关键例外，法律仍然以纸质形式发布或发布在过时的网络平台上。采用数字法律平台的司法管辖区通常面临确保法律在线安全的困难。在本文中，我们介绍了TAF系统，该系统旨在保护法律库免受未经授权的更改，并确保法律的完整性。与以往的档案或更新框架不同，TAF是首个针对攻击者完全控制托管库这一威胁模型设计的系统。它还将每个已签名的库状态与发布者定义的法律日期绑定，从而实现可验证的特定日期检索。首先，TAF使法律文档库无论发布时间多久，都能保持可访问和可验证。其次，TAF允许任何具有库读取权限的独立验证法律库的更改。第三，TAF可供没有技术背景或网络安全知识的用户使用。TAF建立在TUF的软件更新保证、Git的版本控制结构以及强时间概念的基础上，其中时间被视为与特定库状态绑定的签名的数据。TAF将法律文档的整个演变转变为可验证、有时间戳的状态序列，确保每个过去或现在的版本都可以通过密码学方式验证。这一特性单独由Git或TUF无法提供。我们证明了TAF的安全性、可扩展性和性能，分析了其在各种攻击场景中的行为、在大法律库上的性能以及易用性。作为TAF安全性和性能的证明，TAF已被美国14个司法管辖区投入使用，包括巴尔的摩市、马里兰州和华盛顿特区。</span></span></p><p cid="n363" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1002-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1002-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n365" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">88、Enhancing Semantic-Aware Binary Diffing with High-Confidence Dynamic Instruction Alignment</span></span></p><p cid="n366" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">二进制差异检测是检测两段二进制代码之间差异的技术，是各种安全分析任务中的基础技术。现有研究表明，足够数量的细粒度对齐作为锚点可以显著提高二进制差异检测的总体准确性。然而，现有方法仍存在诸多限制，阻碍了准确高效的锚点识别。基于语法的技术容易受到激进编译优化的影响，而基于语义的方法则受限于高计算成本或低代码覆盖率。本文重新审视动态分析，寻求新的见解以解决现有方法的局限性。我们的主要见解是，并非所有动态语义对于识别有效的指令对齐都是必要或同等有效的。因此，我们可以优先使用动态执行资源，部分揭示能够有效推导指令对齐的运行时值。基于上述见解，我们提出了Barracuda，一种基于从强制执行中提取的部分指令语义的高置信度指令对齐技术。我们已实现Barracuda并进行了大量实验以评估其有效性。广泛的实验结果表明，Barracuda能够检测到24.0%更多的指令对齐作为锚点，且精度高达92.1%。Barracuda检测到的锚点可以增强最先进的二进制差异检测工具DeepBinDiff和SigmaDiff，在各种二进制差异检测场景中，F1分数分别提高了12.3%至42.7%和2.2%至4.1%。</span></span></p><p cid="n367" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f663-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f663-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n369" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">89、Enhancing Website Fingerprinting Attacks against Traffic Drift</span></span></p><p cid="n370" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">匿名通信系统，如Tor，容易受到各种网站指纹（WF）攻击的威胁，这些攻击通过分析网络流量模式来损害用户隐私。特别是，复杂的攻击采用深度学习（DL）模型来识别与特定网站相关的独特流量模式，使攻击者能够确定用户访问了哪些网站。然而，这些攻击并未设计用于处理流量漂移，如网站内容和网络条件的变化。由于流量漂移在现实生活中很常见，这些攻击在实际部署中的有效性显著降低。为解决这一局限性，我们开发了Proteus，这是第一个自适应WF攻击框架，能够在有效减轻流量漂移影响的同时，在实际场景中保持稳健的性能。Proteus的关键设计理念是仅使用漂移流量持续微调WF模型，而不需要收集部署模型时的真实标签，从而使模型能够近乎实时地适应复杂的流量漂移。具体而言，Proteus通过最小化最大均值差异来对齐原始流量和漂移流量的特征分布，并通过优化预测的熵分布来增强模型置信度。此外，它利用高斯混合模型获取可靠的伪标签，这些标签随后用于监督微调，以进一步增强其对漂移流量的鲁棒性。值得注意的是，Proteus可以与现有的基于DL的WF攻击无缝集成，以增强它们对流量漂移的适应能力。我们在包含超过35万个真实世界Tor浏览轨迹的六个流量漂移场景的大规模数据集上评估了Proteus。结果表明，对于识别漂移流量，Proteus在八种最先进的WF攻击上实现了平均94.24%的F1分数相对提升。</span></span></p><p cid="n371" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s59-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s59-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n373" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">90、Entente: Cross-silo Intrusion Detection on Network Log Graphs with Federated Learning</span></span></p><p cid="n375" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于图的入侵检测系统（GNIDS）在检测组织内部及跨边界的复杂网络攻击（如高级持续性威胁APTs）方面已展现出显著优势。尽管现有GNIDS取得了令人满意的检测精度，并能适应不断变化的攻击和正常行为模式，但它们大多假设数据集中式设置。然而，随着隐私法规约束的增加和操作限制，灵活的数据收集并不总是现实可行的。我们认为GNIDS的实际发展需要考虑分布式收集环境，并利用联邦学习（FL）作为一种可行的范式来解决这一挑战。我们观察到，将FL直接应用于GNIDS可能效果不佳，原因包括客户端图异构性以及不同GNIDS的多样化设计选择。我们提出了一系列针对图数据集的新技术来解决这些问题，包括参考图合成、图素描和自适应贡献缩放，最终开发了一个名为ENTENTE的新系统。通过利用领域知识，ENTENTE能够同时实现有效性、可扩展性和鲁棒性。在LANL、OpTC和Pivoting大规模数据集上的经验评估表明，ENTENTE优于最先进的FL基线模型。我们还评估了ENTENTE在针对GNIDS环境的FL投毒攻击下的表现，通过将攻击成功率限制在较低值，展示了其鲁棒性。总体而言，我们的研究为构建跨域GNIDS指明了一个有前景的方向。</span></span></p><p cid="n376" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s93-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s93-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n378" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">91、Eviction Notice: Reviving and Advancing Page Cache Attacks</span></span></p><p cid="n379" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">页面缓存攻击与硬件无关，并具有较高的时间和空间分辨率。自2019年以来部署的缓解措施仅保留了Evict+Reload风格的时序测量，但由于驱逐操作，这些测量方法具有极低的时间分辨率并对系统性能产生严重影响。在本文中，我们表明页面缓存攻击的问题比预期的要大得多。我们首先提出了一种基于四种基本操作的新系统化页面缓存攻击方法：刷新(flush)、重载(reload)、驱逐(evict)和监控(monitor)。基于这些基本操作，我们推导出五种针对页面缓存通用攻击技术：Flush+Monitor、Flush+Reload、Flush+Flush、Evict+Monitor和Evict+Reload。我们展示了所有基本操作的机制，这些机制可在最新的Linux内核上运行，绕过现有的缓解措施。我们在三种场景中展示了我们重新激活的页面缓存攻击的实用性，表明我们在攻击的空间和时间分辨率方面将技术水平提高了几个数量级：首先，使用我们最快的攻击方法(Flush+Monitor)，在跨进程隐蔽信道中实现了平均37.7 kB/s的信道容量。其次，对于低频攻击，我们展示了跨进程的按键间时序和事件检测攻击，空间分辨率为4 kB，时间分辨率为0.8 μs，将技术水平提高了6个数量级。第三，在网站指纹攻击中，我们在前100名的封闭世界场景中实现了90.54%的F1分数。我们得出结论，有必要针对页面缓存侧通道实施进一步的缓解措施。</span></span></p><p cid="n380" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f6-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f6-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n382" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">92、EXIA: Trusted Transitions for Enclaves via External-Input Attestation</span></span></p><p cid="n383" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">可信执行环境（TEE）已被采用以保障向不可信云外包的计算安全，相关的远程认证机制使用户能够在启动时验证外包计算的完整性。然而，内存损坏攻击在启动后认证的情况下不会被检测到，从而破坏TEE的安全保证。虽然控制流认证（CFA）方案旨在检测运行时妥协，但大多数现有CFA方案缺乏具体的验证方法，且可能被仅数据攻击绕过。在本文中，我们提出了外部输入认证的概念，用于认证对TEE保护应用程序的所有写入，基于内存损坏攻击通常始于意外写入的观察。该方法通过验证所有写入符合预期来确保可信飞地状态，将控制流劫持等安全问题转化为因意外输入导致的软件崩溃等可靠性问题。为了高效地推导和验证参考测量，当前版本的外部输入认证仅限于验证者已知其输入的飞地应用程序。该设计通过在AMD SEV-SNP和Penglai上实现和评估原型得到验证，其中安全性和性能评估显示，在包括安全模型训练、模型推理、数据库工作负载和密钥管理在内的案例研究中，性能开销最小。</span></span></p><p cid="n384" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f2421-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f2421-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n386" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">93、Exploiting TLBs in Virtualized GPUs for Cross-VM Side-Channel Attacks</span></span></p><p cid="n387" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着虚拟GPU在云计算中的日益普及，多租户共享GPU所带来的潜在安全问题在很大程度上被忽视了。本文通过研究GPU微架构组件中的信息泄露问题，迈出了揭示这些风险的基础性一步。具体而言，我们开发了一种针对虚拟化NVIDIA GPU中后备转换缓冲区（TLBs）的Prime+Probe攻击原语。我们讨论了GPU虚拟化环境带来的几个独特挑战，并展示了我们的设计如何有效克服这些挑战。利用这一原语，我们在云环境中进行了两个跨虚拟机侧信道攻击案例研究：一个是《反恐精英2》游戏中的作弊漏洞，可以揭示隐藏的对手；另一个是网站指纹攻击，可以识别虚拟桌面用户浏览的网页。据我们所知，这些是在云环境中针对虚拟化GPU展示的首个侧信道攻击，突显了先前未知的安全风险，值得进一步研究。</span></span></p><p cid="n388" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1480-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1480-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n390" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">94、ExpShield: Safeguarding Web Text from Unauthorized Crawling and LLM Exploitation</span></span></p><p cid="n391" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着大型语言模型越来越多地记忆网络爬取的训练内容，它们面临暴露版权或私人信息的风险。现有的保护措施需要爬虫或模型开发者的配合，从根本上限制了其有效性。我们提出了ExpShield，一种主动的自我保护机制，通过不可见的扰动来减轻记忆同时保持可读性，并将其表述为一个约束优化问题。由于缺乏针对自然文本的个体级风险指标，我们首先提出了实例利用（instance exploitation）这一指标，用于衡量在特定文本上进行训练会增加从一组候选文本中猜中该文本的可能性——零值表示完美的防御。对于缺乏足够知识的防御者来说，直接解决这个问题是不可行的，因此我们开发了两种有效的代理解决方案：单层优化和合成扰动。为了增强防御能力，我们揭示并验证了记忆触发假设，这有助于识别记忆的关键标记。利用这一见解，我们设计了有针对性的扰动，这些扰动（i）中和内在的触发标记以减少记忆，以及（ii）引入人工触发标记来误导模型记忆。实验验证了我们的防御在语言和视觉到语言建模中的各种攻击、模型规模和任务上的有效性。即使存在隐私后门，在防御下，成员推理攻击（MIA）的AUC值从0.95降至0.55，实例利用值接近于零。这表明，与理想的无滥用场景相比，尽管文本实例被包含在训练数据中，但其暴露的风险几乎保持不变。</span></span></p><p cid="n392" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f11-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f11-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n394" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">95、Fast Pointer Nullification for Use-After-Free Prevention</span></span></p><p cid="n395" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">像C和C++这样的低级编程语言提供了动态内存管理功能，但由于不当的释放处理，容易受到使用后释放（UAF）漏洞的攻击。这些漏洞源于通过悬空指针访问内存，构成了重大风险。尽管已经提出了各种防御机制，但现有解决方案往往面临性能开销高、内存使用过度或安全保证不足等挑战，限制了它们的实用性。指针置零（PN）作为一种有前景的UAF缓解技术，通过跟踪指针并在缓冲区释放时将其置零而受到关注。然而，现有的PN技术由于精确地将每个指针与其目标缓冲区关联而导致效率低下，造成昂贵的元数据查找。此外，它们忽略了指针存储的空间局部性，导致不必要的注册数量增加。本文介绍了快速指针置零（FPN），这是一种基于PN的新防御方法，它在区域级别组织元数据以消除昂贵的搜索操作，并使用基于块的注册来有效捕获指针局部性。在SPEC CPU基准测试和实际应用程序上的实验结果表明，与先前的PN技术相比，FPN提供了强大的安全保证，同时显著降低了性能和内存开销。FPN还兼容多线程环境和大规模Web应用程序。</span></span></p><p cid="n396" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f753-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f753-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n398" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">96、Faster Than Ever: A New Lightweight Private Set Intersection and Its Variants</span></span></p><p cid="n399" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在本工作中，我们提出了一种新的轻量级双方隐私集合交（PSI）范式，适用于半诚实模型和恶意模型。它只需要少量基础OT（不经意传输）和一次不经意键值存储（OKVS）编码和解码。所有计算（除基础OT外）均可使用SIMD加速的对称密码指令和高效的位运算实现。此外，我们将所提出的PSI协议扩展到电路PSI，并进一步扩展到多种PSI变体，包括PSI基数、PSI求和和隐私连接与计算（PJC）。所有提出的协议均在局域网（LAN）和广域网（WAN）环境下进行了评估，并与现有工作进行了性能比较。实验结果表明，在相同设置下，所提出的PSI在运行时间上比最高效的基于VOLE（不经意线性评估）的PSI快约40%，同时通信开销更低。对于电路PSI，它比基于VOLE的电路PSI构造快3.7倍，通信量减少1.5倍。在PSI基数和PSI求和的情况下，分别实现了高达12.4倍和10倍的加速，同时仅产生适度的通信开销。对于PJC，所提出的协议在运行时间上比先前工作快762倍，通信量减少3.2倍，即使在低带宽条件下也能保持高效率。</span></span></p><p cid="n400" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f131-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f131-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n402" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">97、FidelityGPT: Correcting Decompilation Distortions with Retrieval Augmented Generation</span></span></p><p cid="n403" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">反编译是一项关键技术，可将机器码转换为人类可读格式，在没有源代码的情况下促进分析和调试。然而，这个过程面临保真度问题，这些问题会显著降低反编译输出的可读性和准确性。现有方法部分解决了这些问题，如变量重命名和结构简化，但在复杂且实用的闭源二进制场景中，通常无法提供足够的检测和纠正。为此，我们引入了FidelityGPT，这是一个新颖的框架，通过系统性地检测和纠正反编译代码与其原始源代码之间的差异，提高反编译代码的准确性和可读性。FidelityGPT定义了针对闭源环境的失真提示模板，并采用检索增强生成（RAG）技术和动态语义强度算法。该算法基于语义强度识别失真行，并从数据库中检索相似代码。此外，还设计了一种变量依赖算法，通过分析变量间的依赖关系来识别冗余变量，并将冗余变量名整合到提示上下文中，从而克服了长上下文输入的局限性。这些综合技术使FidelityGPT成为首个能够有效解决基于大语言模型的反编译优化中反编译失真问题的框架。我们在二进制相似性基准测试的620个函数对上评估了FidelityGPT，实现了89%的平均检测准确率和83%的精确率。与当前最先进的模型DeGPT（平均修复率（FR）为83%，平均修正修复率（CFR）为37%）相比，FidelityGPT表现出优越的性能，其平均FR为94%，平均CFR为64%。FidelityGPT显著提高了准确性和可读性，强调了其在增强反编译方面的有效性及其推动逆向工程发展的潜力。</span></span></p><p cid="n404" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s989-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s989-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n406" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">98、FirmAgent: Leveraging Fuzzing to Assist LLM Agents with IoT Firmware Vulnerability Discovery</span></span></p><p cid="n407" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">物联网设备的快速普及带来了严重的安全漏洞。现有的漏洞检测技术存在多种缺陷：静态分析解决方案（包括大型语言模型，LLMs）存在高误报率且无法提供概念验证(PoC)样本，而动态分析解决方案（如模糊测试）则往往存在高漏报率。为应对这些挑战，我们提出了FirmAgent，这是首个利用模糊测试辅助LLM智能体在物联网固件中查找漏洞的混合解决方案。我们的设计基于一个关键观察：模糊测试能够准确识别固件中与输入相关的代码点，而静态分析则可以彻底分析从这些代码点开始的程序路径。FirmAgent利用模糊测试收集运行时输入点（即污点源）并重建潜在的漏洞路径。然后，它应用一个LLM智能体沿着潜在路径执行上下文感知的污点分析，并应用另一个LLM智能体优化模糊测试生成的测试用例以生成概念验证测试用例。我们在14个真实物联网固件上评估了FirmAgent。它以91%的精确率识别出182个漏洞，其中包括140个先前未知的漏洞，其中17个已被分配CVE编号。我们的结果表明，FirmAgent在检测能力和精确率方面均显著优于最先进的工具。</span></span></p><p cid="n408" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1943-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1943-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n410" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">99、FirmCross: Detecting Taint-style Vulnerabilities in Modern C-Lua Hybrid Web Services of Linux-based Firmware</span></span></p><p cid="n411" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">静态污点分析已成为检测基于Linux固件Web服务中隐含漏洞的基本技术。然而，现有工作通常过于简化固件Web服务的组成。具体而言，漏洞检测范围仅考虑C二进制文件（即从目标固件中提取的二进制文件）。在本工作中，我们观察到现代固件广泛结合Lua脚本/字节码和C二进制文件来实现混合Web服务，显然，那些以C二进制文件为导向的漏洞检测技术难以取得令人满意的性能。鉴于此，我们提出了FirmCross，一个专门针对C-Lua混合Web服务的自动化污点式漏洞检测器。与现有检测器相比，FirmCross可以自动反混淆目标固件中的Lua字节码，额外识别Lua代码空间中的独特污点源，并系统性地捕获C-Lua跨语言污点流。在评估中，FirmCross在一个包含来自11个厂商的73个固件映像的数据集中，比最先进的方法（即MangoDFA和LuaTaint）多检测出6.82倍至14.5倍的漏洞。值得注意的是，FirmCross帮助在目标固件映像中识别出610个0日漏洞。在向厂商报告这些漏洞后，迄今为止已有31个漏洞ID被分配。</span></span></p><p cid="n412" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1251-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1251-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n414" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">100、FLIPPYRAM: A Large-Scale Study of Rowhammer Prevalence</span></span></p><p cid="n416" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Rowhammer是动态随机存取存储器（DRAM）中的一种扰动错误，可以通过软件故意触发，即通过反复读取（即锤击）不同DRAM行中的邻近内存位置来实现。尽管大量研究评估了Rowhammer效应，特别是其触发方式和利用方法，但大多数研究仅使用了少量双列直插式存储模块（DIMM）样本。只有少数研究提供了该效应普遍性的证据，但这些研究存在明显局限，仅限于特定硬件配置或基于FPGA的实验（这些实验能精确控制DIMM），限制了结果的泛化程度。在本文中，我们进行了首个关于Rowhammer效应的大规模研究，涉及来自822个系统的1006个数据集。我们使用最先进的基于软件的DRAM和Rowhammer工具，在一个名为FlippyRAM的全自动化跨平台框架中测量Rowhammer的普遍性。我们的框架自动收集DRAM信息，并使用5种工具来逆向工程DRAM寻址函数，然后基于这些逆向工程函数使用7种工具发起Rowhammer攻击。我们从2024年12月30日至2025年6月30日，通过在线和USB闪存驱动器向数千名参与者分发该框架。总体而言，我们从具有各种CPU、DRAM代际和供应商的系统中收集了1006个数据集。我们的研究显示，在1006个数据集中，有453个（822个独特系统中的371个）成功完成了DRAM寻址函数逆向工程的第一阶段，这表明成功且可靠地恢复DRAM寻址函数仍然是一个重大的开放性问题。在第二阶段，126个数据集（占总数据集的12.5%）在我们的全自动化Rowhammer攻击中出现了位翻转。我们的结果表明，全自动化即可武器化的Rowhammer攻击所能影响的系统比例低于基于FPGA和实验室实验所表明的比例，但12.5%的比例已足以成为威胁行为者的实用攻击向量。此外，我们的研究结果强调，围绕Rowhammer可利用性的两个最紧迫的研究挑战是：更可靠的逆向工程寻址函数（因为50%未出现位翻转的数据集在DRAM逆向工程阶段失败），以及跨多样化处理器微架构的可靠Rowhammer攻击（因为只有12.5%的数据集包含位翻转）。解决这些挑战中的每一个都可能使易受Rowhammer攻击的系统数量翻倍，并使Rowhammer在现实场景中成为更紧迫的威胁。</span></span></p><p cid="n417" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1810-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1810-paper.pdf</a></span></span></p><p style="display: none;"><mp-style-type data-value="3"></mp-style-type></p>



<p><a href="https://wechat2rss.xlab.app/link-proxy/?k=007d269e&amp;r=1&amp;u=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU0MzgzNTU0Mw%3D%3D%26mid%3D2247486060%26idx%3D1%26sn%3D2ed581b7ad4a96197103b393cdfea9a7">跳转微信打开</a></p>
]]></content:encoded>
      <pubDate>Sun, 01 Mar 2026 14:04:00 +0800</pubDate>
    </item>
    <item>
      <title>NDSS 2026论文清单及摘要（中）</title>
      <link>https://mp.weixin.qq.com/s?__biz=MzU0MzgzNTU0Mw==&amp;mid=2247486060&amp;idx=2&amp;sn=75c9796f6cfd6cf0ea4c4ffd390dd333</link>
      <description></description>
      <content:encoded><![CDATA[<p><span>漏洞战争</span> <span>2026-03-01 14:04</span> <span style="display: inline-block;">广东</span></p>






  
  <p><img src="https://wechat2rss.xlab.app/img-proxy/?k=f03ea743&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fsz_mmbiz_jpg%2FtJDT9c8t2sz36MDumEsk7ib4ltjXjaP5M8SRaXUSMyMVFapPriacbG1Jskn3dUDfNITAF2IglC7MUiblvvraFlkOI1RT6XI7DyQk9UdJYA9f6I%2F0%3Fwx_fmt%3Djpeg"/></p>
  
  <p class="mp_profile_iframe_wrp" nodeleaf=""><mp-common-profile class="js_uneditable custom_select_card mp_profile_iframe" data-pluginname="mpprofile" data-nickname="漏洞战争" data-alias="vulwar" data-from="0" data-headimg="http://mmbiz.qpic.cn/mmbiz_png/icNlicgdbzSdWzbtNBGKasvuCIJ0vjJMt3QXRbMdakfbN6oq553ax43vZeJaD0QPnP4ktdfDS01vozNKsiapNz0SQ/0?wx_fmt=png" data-signature="谈人生，聊梦想，话安全，说风云" data-id="MzU0MzgzNTU0Mw==" data-is_biz_ban="0" data-service_type="1" data-verify_status="1"></mp-common-profile></p><p cid="n419" mdtype="paragraph" style="box-sizing: border-box;" data-pm-slice="0 0 []"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">101、FlyTrap: Physical Distance-Pulling Attack Towards Camera-based Autonomous Target Tracking Systems</span></span></p><p cid="n420" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">自主目标跟踪（ATT）系统，尤其是ATT无人机，广泛应用于监控、边境控制和执法等领域，同时也被滥用于跟踪和破坏行为。因此，ATT的安全性对实际应用至关重要。在此背景下，我们提出了一种新型攻击：距离拉回攻击（DPA），并对其进行了系统性研究，该攻击利用ATT系统的漏洞，危险地减少跟踪距离，导致无人机被捕获、传感器攻击敏感性增加，甚至发生物理碰撞。为实现这些目标，我们提出了FlyTrap，一种新颖的物理世界攻击框架，它使用一把对抗伞作为可部署和领域特定的攻击向量。FlyTrap专门设计用于满足ATT无人机攻击的关键目标：物理可部署性、闭环有效性和时空一致性。通过新颖的渐进式距离拉回策略和可控的时空一致性设计，FlyTrap在实际环境中操控ATT无人机，实现了显著的系统级影响。我们的评估包括在真实白盒甚至商用ATT无人机（包括DJI和HoverAir）上进行的新数据集、指标和闭环实验。结果表明，FlyTrap能够将跟踪距离减少到可被捕获、传感器攻击甚至直接坠机的范围内，凸显了ATT系统安全部署的紧迫安全风险和实际意义。</span></span></p><p cid="n421" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s904-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s904-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n423" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">102、Formal Analysis of BLE Secure Connection Pairing and Revelation of the PE Confusion Attack</span></span></p><p cid="n424" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">安全连接(SC)配对是最新版本的安全协议，旨在保护通过低功耗蓝牙(BLE)信道传输的敏感信息。对该协议进行正式且严谨的分析对于提高安全保证和识别潜在漏洞至关重要。然而，协议流程的复杂性、配对方法形式化的困难以及过于理想化的用户假设为这种分析带来了重大障碍。在本文中，我们解决了这些挑战，并使用Tamarin工具对BLE-SC配对协议进行了准确且全面的正式分析。我们提取了每个参与者的状态机作为协议建模的蓝图，并使用等式理论来形式化配对方法选择逻辑。我们的模型包含了细微的用户行为，并考虑了更强的对手能力，包括对临时带外信道等私有信道的潜在妥协。我们开发了一种验证策略来自动化协议分析，并实现了一个脚本以在多个服务器上并行化验证任务。我们验证了84种配对案例，并确定了协议所需的最小安全假设。此外，我们的结果揭示了一种新的中间人(MitM)攻击，我们称之为PE混淆攻击。我们提供了在受控环境中模拟和理解此攻击的工具和概念验证(PoC)漏洞利用程序。最后，我们提出了防御此攻击的对策，提高了BLE-SC配对协议的安全性。</span></span></p><p cid="n425" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f779-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f779-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n427" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">103、From Noise to Signal: Precisely Identify Affected Packages of Known Vulnerabilities in npm Ecosystem</span></span></p><p cid="n428" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">npm是最大的开源软件生态系统，拥有超过300万个软件包。然而，包之间的复杂依赖关系使其面临严重的安全威胁，因为许多包直接或间接依赖于其他存在已知漏洞的包。及时更新这些易受攻击的依赖是软件供应链安全中的一个重大挑战，主要由于漏洞的广泛影响和修复它们的高昂成本。最近的研究表明，现有的包级漏洞传播分析工具会导致高误报率，而函数级工具在npm生态系统中尚不适用于大规模分析。在本文中，我们提出了一个新颖的框架VulTracer，它可以精确高效地执行函数级漏洞传播分析。通过为每个包独立构建丰富的语义图，然后将它们连接起来，VulTracer可以精确定位漏洞传播路径并识别真正受影响的包。通过比较评估，我们的框架在调用图构建中实现了0.905的F1分数，并将npm audit的误报率降低了94%。我们对整个npm生态系统进行了迄今为止最大规模的函数级漏洞影响测量，涵盖了3400万个包版本。结果表明，包级分析确定的68.28%的潜在影响只是噪音，因为易受攻击的代码是不可达的。此外，我们的研究还发现真正的漏洞传播（信号）是浅层的，影响在仅仅几个依赖跳转内就会显著减弱。VulTracer为缓解警报疲劳并提供了一种实用路径，使安全工作能够专注于真正可达的威胁。</span></span></p><p cid="n429" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1902-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1902-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n431" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">104、From Obfuscated to Obvious: A Comprehensive JavaScript Deobfuscation Tool for Security Analysis</span></span></p><p cid="n432" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">JavaScript的广泛应用使其成为恶意攻击者的有吸引力的目标，这些攻击者采用复杂的混淆技术来隐藏恶意代码。当前的去混淆工具存在严重局限性，严重限制了它们的实际有效性。现有工具难以处理多样化的输入格式，仅针对特定的混淆类型，并且产生晦涩难懂的输出，阻碍了人工分析。为应对这些挑战，我们提出了JSIMPLIFIER，这是一个全面的去混淆工具，采用多阶段流水线，包括预处理、基于抽象语法树的静态分析、动态执行跟踪以及大型语言模型（LLM）增强的标识符重命名。我们还引入了多维评估指标，结合了控制/数据流分析、代码简化评估、熵度量和基于LLM的可读性评估。我们构建并发布了最大的真实世界混淆JavaScript数据集，包含44,421个样本（23,212个野生恶意样本和21,209个良性样本）。评估显示，JSIMPLIFIER在处理20种混淆技术时达到100%的处理能力，在评估子集上达到100%的正确性，代码复杂度降低88.2%，并通过多个LLM验证可读性提高超过4倍。我们的成果推进了JavaScript去混淆研究和实际安全应用的基准。</span></span></p><p cid="n433" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f2198-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f2198-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n435" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">105、From Perception to Protection: A Developer-Centered Study of Security and Privacy Threats in Extended Reality (XR)</span></span></p><p cid="n436" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">XR的沉浸式特性引入了一组根本不同的安全与隐私（S&amp;P）挑战，这些挑战源于传统范式难以缓解的前所未有的用户交互和数据收集。作为XR应用的主要架构师，开发者在应对新型威胁方面发挥着关键作用。然而，为了有效支持开发者，我们首先必须了解他们如何感知和应对不同威胁。尽管这一问题日益重要，但缺乏从开发者角度深入考察XR安全与隐私的威胁感知研究。为填补这一空白，我们采访了23名专业XR开发者，重点关注XR中的新兴威胁。我们的研究旨在解决两个研究问题，以揭示XR开发中的现有问题并确定可行的前进路径。通过考察开发者对安全与隐私威胁的感知，我们发现：（1）XR开发决策（如丰富的传感器数据收集、用户生成内容界面）与安全与隐私威胁密切相关并可能放大这些威胁，但开发者往往没有意识到这些风险，导致威胁感知中的认知偏见；（2）现有缓解方法的局限性，加上战略、技术和沟通支持不足，削弱了开发者有效应对这些威胁的动机、意识和能力。基于这些发现，我们提出了切实可行且考虑各利益相关者的建议，以在整个XR开发过程中提升XR的安全与隐私。这项工作代表了XR领域首次进行的威胁感知、以开发者为中心的研究——XR技术的沉浸式、数据丰富特性在这一领域引入了独特的挑战。</span></span></p><p cid="n437" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s807-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s807-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n439" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">106、Fuzzilicon: A Post-Silicon Microcode-Guided x86 CPU Fuzzer</span></span></p><p cid="n440" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">现代中央处理器（CPU）是黑盒、专有的，并且越来越具有复杂的微架构缺陷，这些缺陷能够规避传统分析。虽然其中一些关键漏洞是通过繁琐的手动工作发现的，但为现实世界的后硅处理器构建一个自动化的系统性漏洞检测框架仍然是一个挑战。在本文中，我们提出了Fuzzilicon，这是第一个针对现实世界x86 CPU的后硅模糊测试框架，它能够深入检查微代码和微架构层。Fuzzilicon自动化了那些以前只能通过大量手动逆向工程才能发现的漏洞的检测，并通过引入微代码级检测工具弥合了可见性差距。Fuzzilicon的核心是一种从处理器微架构直接提取反馈的新技术，该技术通过逆向工程英特尔的专有微代码更新接口实现。我们开发了一种最小侵入性的检测方法，并将其基于 hypervisor 的模糊测试工具集成，以实现精确的反馈引导输入生成，无需访问寄存器传输级（RTL）或供应商支持。应用于英特尔的Goldmont微架构，Fuzzilicon发现了5个重要发现，包括两个以前未知的微代码级推测执行漏洞。此外，Fuzzilicon框架自动重新发现了先前工作中手动检测到的μSpectre类漏洞。与基线技术相比，Fuzzilicon将覆盖率收集开销降低了31倍，并实现了可挂钩位置16.27%的唯一微代码覆盖率，这是该领域的首个经验基线。作为一个实用的、覆盖率引导的、可扩展的后硅模糊测试方法，Fuzzilicon为自动化发现复杂CPU漏洞建立了新的基础。</span></span></p><p cid="n441" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1486-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1486-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n443" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">107、GoldenFuzz: Generative Golden Reference Hardware Fuzzing</span></span></p><p cid="n444" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">现代硬件系统因高性能和应用特定功能的需求驱动而日益复杂，引入了大量的错误和安全关键漏洞。模糊测试已成为发现此类缺陷的可扩展解决方案。然而，现有的硬件模糊测试器由于依赖缓慢的设备仿真，存在语义感知有限、测试效率低下和计算开销大等问题。本文提出了GoldenFuzz，一种新颖的两阶段硬件模糊测试框架，部分地将测试用例的精炼与覆盖率和漏洞探索解耦。GoldenFuzz利用一个快速、符合ISA规范的黄金参考模型（GRM）作为被测设备（DUT）的&#34;数字孪生&#34;。它首先对GRM进行模糊测试，实现快速、低成本的测试用例精炼，加速在DUT上的深度架构探索和漏洞发现。在模糊测试流程中，GoldenFuzz通过精心选择的指令块串联来迭代构建测试用例，这些指令块平衡了指令间和指令内的微妙质量。利用高覆盖率和低覆盖率样本见解的反馈驱动机制进一步增强了GoldenFuzz在硬件状态探索方面的能力。我们对三个RISC-V处理器（RocketChip、BOOM和CVA6）的评估表明，GoldenFuzz在实现最高覆盖率的同时，以最少的测试用例长度和计算开销显著优于现有模糊测试器。GoldenFuzz发现了所有已知漏洞和五个新漏洞，其中四个被归类为高度严重，CVSS v3严重性评分超过七分。它还识别了商业BA51-H核心扩展中的两个先前未知的漏洞。</span></span></p><p cid="n445" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1663-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1663-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n447" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">108、Hey there! You are using WhatsApp: Enumerating Three Billion Accounts for Security and Privacy</span></span></p><p cid="n448" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">WhatsApp作为截至2025年初拥有35亿活跃账户的平台，是全球最大的即时通讯平台。凭借庞大的用户基础，WhatsApp在全球通信中发挥着关键作用。要发起对话，用户必须首先确认其联系人是否已在该平台注册。这是通过查询WhatsApp服务器实现的，服务器会提取用户通讯录中的手机号码（如果用户已授权访问）。这种架构 inherently enables phone number enumeration，因为服务必须允许合法用户查询联系人可用性。虽然速率限制是防止滥用的标准防御措施，我们重新审视了这一问题，并表明WhatsApp在规模化枚举方面仍然存在高度漏洞。在我们的研究中，我们每小时能够探测超过一千万个电话号码而未遇到阻止或有效的速率限制。我们的研究结果不仅证明了这一漏洞的持续性，还揭示了其严重性。我们进一步发现，2021年Facebook数据泄露事件中披露的电话号码中，近一半仍然活跃在WhatsApp上，强调了此类泄露带来的持续风险。此外，我们还对WhatsApp用户进行了普查，揭示了即使消息本身是端到端加密的，大型通讯服务仍能产生的宏观洞察。利用收集的数据，我们还发现某些X25519密钥在不同设备和电话号码中被重复使用，表明存在不安全（自定义）实现或欺诈活动。</span></span></p><p cid="n449" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s805-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s805-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n451" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">109、Hiding an Ear in Plain Sight: On the Practicality and Implications of Acoustic Eavesdropping with Telecom Fiber Optic Cables</span></span></p><p cid="n452" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">光纤因其对外部干扰的抵抗能力和低信号损耗而被广泛认为是可靠的通信渠道。本文展示了电信光纤中存在的一个关键侧信道，该信道允许进行声学窃听。通过利用光纤对声振动的敏感性，攻击者可以远程监测光纤结构中由声音引起的形变，并进一步从原始声波中恢复信息。随着现代建筑中光纤到户（FTTH）安装的普及，这一问题变得尤为令人担忧。攻击者只需访问光纤的一端，即可使用商用分布式声学传感（DAS）系统窃听另一端周围的环境。然而，由于光纤本身对空气传播的声音不够敏感，我们引入了一种&#34;感官受体&#34;以提高声学捕获能力。我们的研究结果表明，能够恢复关键信息，如人类活动、室内定位和对话内容，这引发了人们对光纤通信网络隐私的重要担忧。</span></span></p><p cid="n453" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f546-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f546-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n455" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">110、HoneySat: A Network-based Satellite Honeypot Framework</span></span></p><p cid="n456" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">卫星是关键任务服务的支柱，使我们的现代社会能够正常运转，例如GPS。多年来，卫星被认为具有安全性，因为其难以理解的架构和依赖&#34;通过隐匿实现安全&#34;的策略。然而，技术进步使这些假设过时，为潜在攻击铺平了道路。不幸的是，目前无法收集有关卫星对抗技术的数据，这阻碍了导致反措施开发的情报生成。在本文中，我们提出了HoneySat，这是第一个高交互式卫星蜜罐框架，能够真实地模拟真实的立方星（CubeSat），这是一种小型卫星（SmallSat）。为了证明HoneySat的有效性，我们调查了小型卫星运营商并通过互联网部署了HoneySat。我们的研究结果显示，90%的卫星运营商同意HoneySat提供了真实的模拟。此外，HoneySat成功欺骗了现实世界中的攻击者，并收集了22个真实的对抗性交互。最后，我们进行了硬件在环操作，其中HoneySat成功与在轨运行的小型卫星任务进行了通信。</span></span></p><p cid="n457" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f537-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f537-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n459" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">111、HOUSTON: Real-Time Anomaly Detection of Attacks against Ethereum DeFi Protocols</span></span></p><p cid="n460" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着去中心化金融（DeFi）持续创新金融体系，其基础构件的安全性仍是其大规模应用的关键关注点。在DeFi领域，风险极高，每周都有数百万美元的财务损失事件反复发生。所有主要的基于区块链的金融应用（即DeFi协议）都由称为智能合约的程序构建并与之交互。虽然已开发了许多安全工具来识别单个智能合约中的特定漏洞类别（如重入攻击），但在自动实时识别针对DeFi协议的攻击方面，投入的努力相对较少。在本文中，我们提出了一种新颖的方法，用于实时、通用且可解释地识别针对DeFi协议的攻击。具体而言，我们识别潜在的风险交易，而不依赖于任何已知的漏洞模式。我们的方法在HOUSTON系统中实现，首先自动识别共同实现DeFi应用的智能合约集合，然后在监控新的相关交易时，构建和更新自定义异常检测模型。我们的模型包含典型执行路径（控制流）的信息，以及协议如何处理数据的信息，这些信息被捕获为合约函数参数与存储变量之间可能的不变量关系。HOUSTON提供可解释的警报，可用于攻击分类。我们在超过2200万笔交易的大型语料库上评估了HOUSTON，涵盖了115个DeFi事件。在我们的实验中，HOUSTON实现了94.8%的检测真阳性率，同时保持低假阳性率。与最先进的异常检测系统相比，HOUSTON实现了更高的真阳性数量和更低的假阳性率。最后，我们在真实环境中部署了HOUSTON，它在普通硬件上展示了实时监控能力，同时保持了高准确性。</span></span></p><p cid="n461" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1534-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1534-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n463" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">112、Huma: Censorship Circumvention via Web Protocol Tunneling with Deferred Traffic Replacement</span></span></p><p cid="n464" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着互联网审查日益普遍，用户常常依赖隐蔽通道来规避监控并访问受限内容。Web协议隧道工具使用网站作为代理，将隐蔽数据封装在Web协议中，以与合法流量混合从而避免检测。然而，现有工具容易通过流量分析被检测到，使审查者能够通过指纹攻击或因产生异常浏览模式来识别此类工具的使用。我们提出了Huma，一种新的Web协议隧道工具，解决了现有的检测问题。通过延迟隐蔽数据传输，Huma允许参与规避审查的网站首先返回未修改的内容，而嵌入隐蔽数据的响应则在后台准备并在客户端的下一个请求期间发送，从而避免了促进指纹识别的时间异常。通过依赖基于真实浏览活动建模的显式用户模拟器，Huma也遵循用户预期的浏览行为。最后，Huma防止对手控制的网站将通信端点绑定在一起，从而能够轻松扩展以支持内部网审查场景中的隐蔽通信。</span></span></p><p cid="n465" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f328-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f328-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n467" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">113、HyperMirage: Direct State Manipulation in Hybrid Virtual CPU Fuzzing</span></span></p><p cid="n468" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">虚拟机监视器对现代云基础设施的安全性和可用性至关重要，但它们必须向客户虚拟机暴露大量的虚拟化接口——这是攻击者可以利用的攻击面。虚拟机监视器中最复杂且对安全敏感的组件之一是其虚拟CPU实现，通常在最高特权级别实现。尽管之前的模糊测试研究在检查虚拟机监视器的虚拟CPU组件方面取得了有希望的进展，但现有技术无法深入覆盖该组件，因为其复杂的性质需要繁琐的手动设置来访问各个接口，同时采用次优技术降低了模糊测试吞吐量。我们通过HyperMirage解决了这些缺陷，这是一种新型虚拟机监视器模糊测试工具，能够自动高效地探索虚拟CPU实现所模拟的大量架构状态空间。HyperMirage采用一种新颖的直接状态操作方法，使安全分析师无需手动构建架构有效的虚拟机状态作为模糊测试种子，该方法直接且自动地修改虚拟机监视器在模糊测试过程中所使用的虚拟机状态视图。此外，我们扩展了最先进的基于编译器的符号执行引擎，使其成为首个可用于裸机目标的引擎，并将其集成到高效的覆盖率引导虚拟机监视器模糊测试工具中，使HyperMirage与现有技术相比能够显著提高模糊测试吞吐量。我们通过在Intel x86架构上对生产级Xen和KVM虚拟机监视器进行模糊测试，提供了HyperMirage的案例研究。我们的评估表明，HyperMirage能够比先前工作多覆盖200%的虚拟CPU接口，与可用的虚拟机监视器模糊测试工具相比，在整个虚拟CPU空间上实现了显著更高的覆盖率。此外，HyperMirage在Xen中发现了9个新漏洞，在KVM中发现了2个新漏洞，所有这些漏洞都已被各自的项目维护者确认。</span></span></p><p cid="n469" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1763-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1763-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n471" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">114、Icarus: Achieving Performant Asynchronous BFT with Only Optimistic Paths</span></span></p><p cid="n472" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">区块链技术的出现重新激发了人们对拜占庭容错（BFT）共识的研究兴趣，特别是异步BFT，因为它对网络攻击具有抵抗力。为了提高传统异步BFT的性能，最近的研究提出了双路径范式：在有利情况下通过乐观路径提高效率，在不利情况下通过悲观路径（通常通过多值验证拜占庭协议（MVBA）实现）保证活性。然而，由于MVBA协议固有的复杂性和低效性，现有的双路径协议在不利情况下表现出高实现复杂性和性能差。此外，双路径范式中的两种构成类型——串行路径和并行路径——各自面临额外的限制。具体而言，串行类型在乐观路径和悲观路径之间切换困难，而并行类型会丢弃其中一个路径的区块，导致带宽浪费和吞吐量降低。为解决这些限制，我们提出了Icarus，这是一种单路径异步BFT协议，仅利用乐观路径而不使用悲观路径。乐观路径确保Icarus在有利情况下的效率。为保证不利条件下的活性，Icarus采用旋转链机制：每个节点并行广播一个区块链，这些链以轮询方式轮流作为乐观路径。由于无故障节点的链持续增长，一旦积累了足够区块的链成为乐观路径，其区块就可以被提交，从而确保即使在不利条件下也能保持活性。为在路径转换过程中保持一致性，Icarus引入了双连续验证值拜占庭协议（tcv$^2$-BA），该协议对先前路径上已提交区块的高度进行对齐。我们通过理论分析验证了Icarus的正确性，并通过各种实验证明了其高性能。</span></span></p><p cid="n473" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f60-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f60-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n475" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">115、Identifying Logical Vulnerabilities in QUIC Implementations</span></span></p><p cid="n476" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">QUIC是一种现代传输协议，正被各大平台和服务越来越多地采用，因此其安全性和正确性至关重要。然而，QUIC规范和实现的复杂性引入了细微且危险逻辑缺陷的机会。现有的QUIC测试工具主要关注与内存相关的漏洞，而难以检测逻辑漏洞。因此，逻辑漏洞的发现目前仍然高度依赖人工审计。在本文中，我们介绍了MerCuriuzz，这是一种新颖的黑盒模糊测试框架，旨在自动发现QUIC实现中的逻辑漏洞。我们对16种广泛使用的QUIC实现进行了MerCuriuzz评估，发现了14个先前未知的逻辑漏洞，这些漏洞影响了quiche、xquic和aioquic等流行实现。这些漏洞可能带来严重的安全风险，使攻击者能够耗尽服务器资源、使服务崩溃或拒绝合法用户访问服务器。我们将这些漏洞分为六类，并提出了缓解策略。我们还负责任地向相关供应商披露了我们的发现，其中11个漏洞已被供应商确认并获得奖励，例如Cloudflare和阿里云。</span></span></p><p cid="n477" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1777-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1777-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n479" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">116、Idioms: A Simple and Effective Framework for Turbo-Charging Local Neural Decompilation with Well-Defined Types</span></span></p><p cid="n480" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">反编译器帮助逆向工程师在比汇编代码更高抽象层次上分析软件。不幸的是，由于编译过程会丢失信息，传统的确定性反编译器生成的代码缺乏许多使源代码具有可读性的特性，例如变量和类型名称。神经反编译器提供了通过统计方法填补这些细节的可能性。然而，现有的神经反编译工作存在重大局限，使其无法应用于真实代码，例如无法为用户定义的复合类型提供定义。在这项工作中，我们介绍了Idioms，这是一种简单、可推广且有效的神经反编译方法，可以将任何大型语言模型微调为能够生成适当用户定义类型定义以及反编译代码的神经反编译器，同时我们还创建了一个新数据集Realtype，其中包含比现有神经反编译基准测试更复杂和更真实的类型。我们证明，我们的方法在神经反编译领域取得了最先进的结果。在最具挑战性的现有基准测试Exebench上，我们的模型达到了54.4%的准确率，而LLM4Decompile为46.3%，Nova为37.5%；在Realtype上，我们的模型性能提升了至少95%。</span></span></p><p cid="n481" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f795-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f795-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n483" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">117、In-Context Probing for Membership Inference in Fine-Tuned Language Models</span></span></p><p cid="n484" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">成员推断攻击（MIAs）对微调的大型语言模型（LLMs）构成了严重的隐私威胁，特别是当模型使用敏感数据针对特定领域任务进行适配时。虽然先前的黑盒MIA技术依赖于置信度分数或令牌似然度，但这些信号通常与样本的固有特性（如内容难度或稀有性）相互纠缠，导致泛化能力差且信噪比低。在本文中，我们提出了ICP-MIA，这是一个基于训练理论的新颖MIA框架，特别关注优化过程中出现的收益递减现象。我们引入了优化差距作为成员的基本信号：在收敛时，成员样本表现出最小的剩余损失降低潜力，而非成员则保留显著的进一步优化潜力。为了在黑盒环境中估计这一差距，我们提出了上下文探测（ICP）——一种无需训练的方法，通过 strategically 构建的输入上下文模拟类似微调的行为。我们提出了两种探测策略：基于参考数据（使用语义相似公共样本）和自扰动（通过掩码或生成）。在三个任务和多个LLMs上的实验表明，ICP-MIA显著优于先前的黑盒MIA，特别是在低误报率的情况下。我们进一步分析了参考数据对齐、模型类型、PEFT配置和训练计划如何影响攻击效果。我们的研究结果表明，ICP-MIA是一个实用的、有理论基础的框架，可用于评估已部署LLMs的隐私风险。</span></span></p><p cid="n485" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f892-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f892-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n487" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">118、Incident Response Planning Using a Lightweight Large Language Model with Reduced Hallucination</span></span></p><p cid="n488" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">及时有效的应急响应是应对日益增多的网络攻击的关键。然而，为复杂系统确定正确的响应措施是一项重大技术挑战。缓解这一挑战的一种有前景的方法是利用嵌入大型语言模型（LLM）中的安全知识来协助安全操作员在事件处理过程中的工作。最近的研究已经证明了这种方法的可能性，但当前的方法主要基于前沿LLM的提示工程，这种方法成本高昂且容易出现幻觉。我们通过提出一种使用LLM进行应急响应规划的新方法来减少幻觉，从而解决这些局限性。我们的方法包括三个步骤：微调、信息检索和前瞻性规划。我们证明，在特定假设条件下，我们的方法生成的响应计划具有有限的幻觉概率，并且可以通过增加规划时间使这种概率任意小。此外，我们展示了我们的方法是轻量级的，可以在普通硬件上运行。我们在文献中报道的事件日志上评估了我们的方法。实验结果表明，我们的方法a）比前沿LLM缩短高达22%的恢复时间，并且b）能够广泛适用于各种事件类型和响应措施。</span></span></p><p cid="n489" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f358-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f358-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n491" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">119、Indicator of Benignity: An Industry View of False Positive in Malicious Domain Detection and its Mitigation</span></span></p><p cid="n492" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">恶意域名检测是保护用户免受网络攻击的关键技术。尽管这些系统已展现出显著的检测能力，但它们在现实世界中的误报（FPs）规模仍然未知，且常被忽视。为了阐明这一重要方面，我们进行了一项首次测量研究，使用了从全球最大的网络安全供应商之一收集的6年误报报告。我们的研究结果表明，当前检测系统普遍采用的基于流行度的顶级域名列表不足以避免误报。事实上，在生产环境中仍存在大量误报。我们认为，主要原因之一是该领域的努力主要集中在检测恶意指标（即入侵指标，IOC）上，而忽视了良性指标（即良性指标，IOB）。在本文中，我们首次专注于IOB检测的研究。我们的工作基于一个关键发现：对于生产环境中的许多误报，其IOB可以在互联网上找到。然而，由于互联网的开放性和网络内容的不结构化，我们在识别这些IOB时面临两个主要挑战：理解IOB是什么以及评估IOB的可信度。为应对这些挑战，我们提出了一个IOB的传递信任模型，并在名为IOBHunter的系统中实现了该模型。IOBHunter利用了大语言模型（LLM）和思维链（CoT）技术，这些技术已在解决其他几种安全威胁方面展现出良好的能力。我们使用包含已验证误报的数据集进行的评估显示，IOBHunter可以达到99.22%的精确率和68.6%的召回率。IOBHunter还在为期两个月的实际部署中进行了进一步评估，期间IOBHunter识别出了4,338个已确认的误报和2,051个被攻陷的域名。</span></span></p><p cid="n493" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1869-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1869-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n495" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">120、InverTune: A Backdoor Defense Method for Multimodal Contrastive Learning via Backdoor-Adversarial Correlation Analysis</span></span></p><p cid="n496" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">像CLIP这样的多模态对比学习模型展示了卓越的视觉-语言对齐能力，现已成为许多大规模多模态系统的基础组件。然而，它们对后门攻击的脆弱性带来了严重的安全风险。攻击者可以植入潜伏的触发器，这些触发器能在下游任务中持续存在，从而在触发器出现时实现对模型行为的恶意控制。尽管最近的防御机制取得了巨大成功，但由于对攻击者知识的强假设或对干净数据的过度需求，它们仍然不切实际。在本文中，我们提出了InverTune，这是首个在最小攻击者假设条件下的多模态模型后门防御框架，既不需要攻击目标的先验知识，也不需要访问被污染的数据集。与依赖于中毒阶段使用的数据集的现有防御方法不同，InverTune通过三个关键组件有效识别并移除后门工件，从而实现对后门攻击的强大保护。具体而言，（1）InverTune首先通过对抗性模拟暴露攻击特征，通过分析模型响应模式概率性地识别目标标签。（2）在此基础上，我们开发了一种梯度反转技术，通过激活模式分析来重建潜伏的触发器。（3）最后，采用聚类引导的微调策略，仅使用少量任意干净数据来消除后门功能，同时保留原始模型能力。实验结果表明，InverTune将最先进（SOTA）攻击的平均攻击成功率（ASR）降低了97.87%，同时将干净准确率（CA）的 degradation限制在仅3.07%。这项工作为保障多模态系统安全建立了新范式，推进了基础模型部署的安全性，同时不损害性能。</span></span></p><p cid="n497" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1666-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1666-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n499" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">121、IoTBec: An Accurate and Efficient Recurring Vulnerability Detection Framework for Black Box IoT devices</span></span></p><p cid="n500" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">物联网设备的激增导致了漏洞利用的增加。现有的漏洞检测方法严重依赖固件或源代码进行分析，这种依赖严重限制了它们在实际黑盒场景中的效率。为解决这一局限性，我们提出了IoTBec，一种新颖的、不依赖固件和源代码的循环漏洞检测框架。IoTBec创新性地基于黑盒接口和已知漏洞信息构建了漏洞接口签名（VIS），该签名用于将潜在的循环漏洞与目标设备进行匹配。该框架随后将基于签名的检测与大型语言模型（LLM）驱动的模糊测试深度融合。当匹配成功时，IoTBec自动利用LLMs生成针对性的模糊测试载荷进行验证。为评估IoTBec，我们在来自五大物联网厂商的设备上进行了广泛实验。结果表明，IoTBec发现的漏洞数量比当前最先进的（SOTA）黑盒模糊测试方法多7倍以上，精确度为100%，召回率为93.37%。总体而言，IoTBec检测到183个漏洞，其中169个被分配了CVE ID。在这些漏洞中，53个是新发现的，平均CVSS 3.x评分为8.61，涵盖了缓冲区溢出、命令注入和CSRF问题。值得注意的是，通过LLM驱动的模糊测试，IoTBec还发现了25个先前未知的漏洞。实验证据表明，IoTBec独特的固件和源代码独立范式提高了检测效率，并能够发现新型和变体漏洞。我们将在</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/IoTBec" target="_blank">https://github.com/IoTBec</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">上发布IoTBec的源代码和实验数据。</span></span></p><p cid="n501" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f634-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f634-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n503" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">122、Ipotane: Balancing the Good and Bad Cases of Asynchronous BFT</span></span></p><p cid="n504" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">最先进的异步拜占庭容错（BFT）协议集成了部分同步的乐观路径。其最终目标是在有利情况下匹配部分同步协议的性能，在不利情况下匹配纯异步协议的性能。尽管先前的研究在有利情况下表现出色，但在条件不利时却存在不足。为解决这些缺点，最近的一项工作Abraxas（CCS&#39;23）在所有情况下都保持了稳定的吞吐量，但由于乐观路径故障检测缓慢，在不利情况下造成了极高的最坏情况延迟。另一项最近的工作ParBFT（CCS&#39;23）确保了所有情况下的良好延迟，但由于使用了额外的异步二进制协议（ABA）实例，在不利情况下吞吐量降低。我们提出了Ipotane协议，在吞吐量和延迟两方面，在有利情况下实现了与部分同步协议相当的性能，在不利情况下实现了与纯异步协议相当的性能。Ipotane同时运行两条路径：2-chain HotStuff作为乐观路径，以及一个新的原始双功能拜占庭协议（DBA）作为悲观路径。DBA封装了有偏ABA和验证异步拜占庭协议（VABA）的功能。在Ipotane中，如果副本的乐观路径更快，则向DBA输入0；如果悲观路径更快，则输入1。DBA的ABA功能通过输出1及时发出乐观路径故障的信号，确保Ipotane在不利情况下的低延迟。同时，Ipotane执行DBA实例，通过其VABA功能持续产生悲观区块。在检测到故障时，Ipotane提交最后两个悲观区块以保持高吞吐量。此外，Ipotane利用DBA的有偏特性来确保提交悲观区块的安全性。大量实验验证了Ipotane在所有情况下的高吞吐量和低延迟。</span></span></p><p cid="n505" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s3-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s3-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n507" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">123、IsolatOS: Detecting Double Fetch Bugs in COTS RTOS by Re-enabling Kernel Isolation</span></span></p><p cid="n508" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">双重获取漏洞是指内核反复从用户空间内存中检索数据，而未确保连续数据获取之间的一致性。这一问题在实时操作系统（RTOS）中尤为严重，因为严格的时序要求限制了互斥锁等同步机制的使用，从而倾向于以牺牲安全性为代价实现低延迟内存访问。大多数当前检测技术采用静态源代码分析，无法应用于具有专有内核的商业现成（COTS）RTOS。因此，采用启发式时间窗口阈值来检测跨边界内存重复访问的动态方法被采用。然而，这些方法由于模式识别过于宽泛，常常产生大量误报，并导致显著的仿真开销。我们引入了IsolatOS，一种硬件支持的检测方法，利用内核隔离功能来指示双重获取漏洞的跨边界内存访问。主要难点在于在不导致RTOS系统崩溃的情况下强制执行隔离边界的同时保持透明度，以提高效率。IsolatOS首先通过实现动态仪器来拦截对用户内存的特权访问，记录访问的元数据，然后通过异常恢复技术在故障处理期间维持系统稳定性。在执行后阶段，因果分析检查违规轨迹，以区分合法的双重访问和可利用的双重获取。在QNX、VxWorks和seL4上的评估证明了IsolatOS的有效性，与基于仿真的方法相比，运行时开销降低了70倍，识别出42个独特漏洞（39个供应商确认，2个分配的CVE）。这些结果验证了硬件辅助的内核隔离是COTS RTOS环境中双重获取检测的可行范式。我们还通过利用这些发现展示了其在汽车系统中的实际影响。</span></span></p><p cid="n509" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s568-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s568-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n511" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">124、Janus: Enabling Expressive and Efficient ACLs in High-speed RDMA Clouds</span></span></p><p cid="n513" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">RDMA云日益普及，访问控制列表（ACL）对于规范RDMA应用、服务和租户的未授权网络访问至关重要。然而，RDMA独特的队列对（QP）语义和高传输特性使得现有的ACL表达式和执行机制无法以用户友好的方式全面高效地管理RDMA流量。在本文中，我们提出了Janus，一个专为RDMA云设计的定制化ACL系统。Janus设计了具有QP语义的专用ACL表达式来识别RDMA连接，并提供了一种高级策略语言用于表达复杂的ACL意图以管理RDMA流量。Janus进一步利用具有流量感知和架构特定优化的DPU来执行ACL策略，实现了线速RDMA检查和稳健的策略更新。我们使用NVIDIA BlueField-3 DPU实现了Janus的开源原型。实验表明，Janus为管理未授权RDMA访问提供了足够的表达能力，并在200Gbps真实RDMA测试环境中实现了线吞吐量且延迟小于5µs。</span></span></p><p cid="n514" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f721-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f721-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n516" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">125、Kangaroo: A Private and Amortized Inference Framework over WAN for Large-Scale Decision Tree Evaluation</span></span></p><p cid="n517" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着模型即服务（Models-as-a-Service）的快速采用，数据和模型隐私问题变得越来越关键。为解决这些问题，各种隐私保护推理方案已被提出。特别是由于决策树的高效性和可解释性，私有决策树评估（PDTE）已引起广泛关注。然而，现有的PDTE方案存在显著局限性：其通信和计算成本随树的数量、节点数或树深度而扩展，这使得它们对于大规模模型（尤其是在广域网环境中）效率低下。为解决这些问题，我们提出了Kangaroo，这是一个基于打包同态加密的私有且分摊的决策树推理框架。具体而言，我们设计了一种新颖的模型隐藏和编码方案，结合安全特征选择、 oblivious 比较和安全路径评估协议，实现了随着节点数或树数量增加时开销的完全分摊。此外，我们通过优化（包括相同模型共享、延迟感知和自适应编码调整策略）提升了框架的性能和功能。在广域网环境中，Kangaroo比最先进的一次性交互方案实现了14倍至59倍的性能提升。对于大规模决策树推理任务，与现有方案相比，它实现了3倍至44倍的加速。值得注意的是，在广域网环境下，Kangaroo能够以每树约60毫秒（分摊）的速度评估包含969棵树和411,825个节点的随机森林。</span></span></p><p cid="n518" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s892-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s892-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n520" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">126、Know Me by My Pulse: Toward Practical Continuous Authentication on Wearable Devices via Wrist-Worn PPG</span></span></p><p cid="n521" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">利用生理信号进行生物特征认证为可穿戴设备的安全且用户友好的访问控制提供了有前景的途径。虽然心电图（ECG）信号已显示出高度的可区分性，但其侵入式传感要求和间断性采集限制了其实用性。另一方面，光电容积脉搏波描记法（PPG）能够实现连续、非侵入式的认证，并可无缝集成到手腕可穿戴设备中。然而，大多数先前的研究依赖于高频PPG（例如75-500赫兹）和复杂的深度模型，这会导致显著的能耗和计算开销，阻碍了其在功率受限的实际系统中的部署。在本文中，我们首次在智能手表We-Be Band上实现了连续认证系统的实际部署和评估，该系统使用低频（25赫兹）多通道PPG信号。我们的方法采用带有注意力机制的Bi-LSTM从4通道PPG的短时（4秒）窗口中提取身份特定特征。通过对公共数据集（PTTPPG）和我们自己的We-Be数据集（26名受试者）的广泛评估，我们展示了强大的分类性能，平均测试准确率为88.11%，宏F1得分为0.88，错误接受率（FAR）为0.48%，错误拒绝率（FRR）为11.77%，等错误率（EER）为2.76%。与512赫兹和128赫兹的设置相比，我们的25赫兹系统将传感器功耗分别降低了53%和19%，同时不牺牲性能。我们发现25赫兹的采样率保持了认证准确性，而20赫兹时性能急剧下降，仅提供微不足道的额外节能，这凸显了25赫兹作为实际下限的重要性。此外，我们发现仅使用静息数据训练的模型在运动状态下表现不佳，而活动多样化的训练则提高了在不同生理状态下的鲁棒性。</span></span></p><p cid="n522" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1087-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1087-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n524" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">127、KnowHow: Automatically Applying High-Level CTI Knowledge for Interpretable and Accurate Provenance Analysis</span></span></p><p cid="n525" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">网络威胁情报（CTI）报告中的高级自然语言知识，如ATT&amp;CK框架，有助于应对高级持续性威胁（APT）攻击。然而，如何在现实世界的攻击检测系统中（如溯源分析系统）自动应用CTI报告中的高级知识，仍然是一个开放性问题。这一挑战源于知识与低级安全日志之间的语义差距：CTI报告中的知识以自然语言形式编写，而攻击检测系统只能处理文件访问或网络IP操作等低级系统事件。手动方法可能劳动密集且容易出错。在本文中，我们提出了KnowHow，一种由CTI知识驱动的在线溯源分析方法，可以自动将CTI报告中以自然语言编写的高级攻击知识应用于检测低级系统事件。KnowHow的核心是一种新颖的攻击知识表示方法——通用入侵指标（gIoC），它表示攻击的主体、客体和行动。通过将系统事件中的系统标识符（如文件路径）提升为自然语言术语，KnowHow可以将系统事件与gIoC匹配，并进一步将其与以自然语言描述的技术进行匹配。最后，基于与系统事件匹配的技术，KnowHow对攻击步骤的时间逻辑进行推理，并在系统事件中检测潜在的APT攻击。我们的评估表明，KnowHow能够准确检测开源数据集和工业数据集中的所有16个APT活动，而现有方法都引入了大量误报。同时，我们的评估也表明，KnowHow最多减少了90%的节点级误报，同时具有更高的节点级召回率，并且对几种未知攻击和模仿攻击具有鲁棒性。</span></span></p><p cid="n526" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s199-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s199-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n528" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">128、LatticeBox: A Hardware-Software Co-Designed Framework for Scalable and Low-Latency Compartmentalization</span></span></p><p cid="n530" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">现代软件系统日益依赖隔离机制来隔离不可信或潜在脆弱的组件，如第三方驱动程序和即时编译代码。然而，现有的硬件隔离技术面临可扩展性限制、高切换延迟和安全性不足等问题。特别是，某些隔离技术使用的权限更改指令（如Intel MPK的WRPKRU）可能被不可信代码利用，从而增加了安全部署的复杂性。在本文中，我们介绍了LatticeBox，这是一个基于硬件-软件协同设计的框架，采用基于格的访问控制模型来解决这些局限性。LatticeBox将权限和内存区域编码为紧凑的分层N位向量。这种设计实现了硬件架构，将域切换延迟降低到单个CPU周期，并从根本上防止了权限切换指令的滥用。此外，LatticeBox采用定制指令（lp_land）来强制严格的跨域控制流完整性，有效防止未授权的间接函数调用。我们在RISC-V BOOM核心上实现了LatticeBox，并使用微基准测试和实际应用程序（包括WebAssembly运行时和Linux内核模块）对其进行了评估。结果表明，LatticeBox的域切换速度比Intel MPK快达180倍，同时支持细粒度、可扩展的隔离。在实际工作负载上的评估显示性能影响较小，增强的WebAssembly运行时仅降低2%的性能，而运行隔离Linux内核模块的ApacheBench吞吐量仅降低3%。</span></span></p><p cid="n531" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f515-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f515-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n533" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">129、Learning from Leakage: Database Reconstruction from Just a Few Multidimensional Range Queries</span></span></p><p cid="n534" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">可搜索加密(SE)在实现加密数据的安全高效查询方面展现出巨大潜力。为实现这种效率，SE不可避免地会泄露一些信息，而一个重大的开放性问题在于这种泄露的危险程度如何。尽管先前的重构攻击在一维范围查询设置中已显示出有效性，但将其扩展到高维数据集仍面临挑战。现有方法要么需要过多的查询信息（例如，观察到所有可能响应的攻击者），要么在稀疏数据库中产生低质量的重构。在这项工作中，我们提出了REMIN，一种针对多维设置中SE方案的新型滥用泄露攻击，利用范围查询中的访问和搜索模式泄露。REMIN利用无监督表示学习将查询共现频率转换为几何信号，使攻击者能够推断加密记录之间的相对空间关系。这种方法在最小泄露的情况下实现了高维数据集的准确且可扩展的重构。此外，我们引入了REMIN-P，这是一种包含实用 poisoning 策略的攻击主动变体。通过注入少量辅助锚点，REMIN-P显著提高了重构质量，特别是在数据空间的稀疏或边界区域。我们在合成和真实数据集上对我们的攻击进行了广泛评估。与最先进的重构攻击相比，我们的重构攻击将均方误差(MSE)降低了高达50%，同时保持了快速且可扩展的运行时间。根据 poisoning 策略的不同，我们的 poisoning 攻击可以进一步将平均MSE额外降低50%。</span></span></p><p cid="n535" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f935-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f935-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n537" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">130、Les Dissonances: Cross-Tool Harvesting and Polluting in Pool-of-Tools Empowered LLM Agents</span></span></p><p cid="n538" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLM）代理是由LLM驱动的自主系统，能够利用一系列工具进行推理和规划以解决问题。然而，在LLM代理中集成多种工具带来了安全管理的挑战，包括确保工具兼容性、处理依赖关系以及保护LLM代理任务工作流中的控制流。在本文中，我们首次对多工具支持的LLM代理中的任务控制流进行了系统性的安全分析。我们识别出一种新型威胁——跨工具收集与污染（XTHP），该威胁包含多种攻击向量，首先劫持代理任务的正常控制流，然后收集并污染LLM代理系统中的机密或私有信息。为理解此威胁的影响，我们开发了Chord，一个动态扫描工具，旨在自动检测易受XTHP攻击的现实世界代理工具。我们对来自两大LLM代理开发框架LangChain和LlamaIndex的66个现实世界工具的评估显示，75%的工具易受XTHP攻击攻击，凸显了该威胁的普遍性。</span></span></p><p cid="n539" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f577-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f577-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n541" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">131、Light into Darkness: Demystifying Profit Strategies Throughout the MEV Bot Lifecycle</span></span></p><p cid="n542" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">由于无许可区块链的透明性，机会主义交易者可以通过竞争盈利机会并创建MEV机器人来使这一过程永不停歇，从而提取最大可提取价值(MEV)。然而，这种行为损害了区块链系统的共识安全性和效率。因此，了解MEV机器人的行为策略对于防范其危害至关重要。不幸的是，现有工作主要集中在MEV市场的宏观测量上，而MEV机器人策略的具体类型和分布仍然未知。在本文中，我们开发了APOLLO工具，用于分析机器人整个生命周期中的细粒度策略，从而首次对MEV机器人盈利策略进行了系统性研究。我们对2,052个MEV机器人的大规模分析得出了许多新的见解。特别是，我们首次介绍了野外机器人使用的20种代码级策略，在智能合约反混淆方面迈出了第一步，以发现隐藏在混淆机器人代码中的策略，并发现了五种能为MEV机器人带来盈利机会的特定类型交易。</span></span></p><p cid="n543" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s506-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s506-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n545" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">132、Light2Lie: Detecting Deepfake Images Using Physical Reflectance Laws</span></span></p><p cid="n546" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">生成模型（如GAN和基于扩散的架构）的快速发展导致了超写实合成图像的广泛创建。尽管这些技术推动了媒体和数据生成的创新，但也引发了重大的伦理、社会和安全问题。对此，已开发出多种检测方法，包括频域分析和深度学习分类器。然而，这些方法通常难以推广到未见过的生成模型，且往往缺乏物理基础，使其容易受到自适应攻击的影响，并且在可解释性方面存在局限。我们提出了Light2Lie，这是一个物理增强的深度伪造检测框架，它利用镜面反射原理，特别是菲涅耳反射率模型，来揭示生成模型难以有效重现的光-表面相互作用中的不一致性。我们的方法首先采用神经网络估计表面基础反射率，然后导出一种受微面启发的镜面响应图，该图编码了真实图像与合成图像之间微妙的几何和光学差异。该信号作为特征图被整合到二级分类器中，使其能够学习基于反射率驱动模式来区分两类图像。为进一步增强鲁棒性，我们引入了一种反馈细化机制，利用分类错误更新基础反射率模型的输出，将物理建模与学习目标紧密耦合。在多个深度伪造数据集上的广泛实验表明，我们的方法在处理未见过的生成模型样本时获得了更好的泛化性能，在多样化的深度伪造领域达到高达74%的精确率，优于最先进的基线方法，同时提供稳健的、基于物理的决策。</span></span></p><p cid="n547" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s923-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s923-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n549" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">133、Lightening the Load: A Cluster-Based Framework for A Lower-Overhead, Provable Website Fingerprinting Defense</span></span></p><p cid="n550" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">网站指纹识别（WF）攻击仍然是加密流量的一大威胁，促使开发了广泛的防御措施。其中，两类突出的防御方法是基于正则化的防御，它使用固定的填充规则来塑造流量，以及基于超序列的方法，它将痕迹隐藏在预定义的模式中。在这项工作中，我们提出了一个统一的框架，用于设计自适应WF防御，该方法结合了正则化的有效性和超序列式分组的可证明安全性。该方案首先从痕迹中提取行为模式，并将它们聚类到$(k,l)$-多样匿名集中；然后，一个早期时间序列分类器（从ECDIRE改编）从保守的全局正则化参数集切换到更轻量级的特定参数集。我们将该设计实例化为自适应塔马劳（Adaptive Tamaraw），它是Tamaraw的一个变体，在保留其原始信息论保证的同时，按聚类分配填充参数。在公共真实世界数据集上的全面实验证实了其优势。通过调整$k$，操作者可以在隐私和效率之间进行权衡：在其高隐私模式下，自适应塔马劳将任何攻击者的准确率上限推至低于30%，而在以效率为中心的设置中，与经典塔马劳相比，它将总开销减少了99个百分点。</span></span></p><p cid="n551" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1760-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1760-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n553" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">134、Lightweight Internet Bandwidth Allocation and Isolation with Fractional Fair Shares</span></span></p><p cid="n555" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">确保公共互联网上的公平带宽分配具有挑战性。拥塞控制算法(CCA)通常无法实现公平性，特别是当不同CCA同时运行时。在分布式拒绝服务(DDoS)攻击期间，这一挑战变得更加突出，合法流量可能完全被饿死。解决这一挑战的一种方法是通过在路由器上直接分配带宽来强制执行公平性。然而，现有解决方案通常分为两类：一类易于部署但无法提供安全的网络内带宽隔离，另一类提供强大的隔离保证但依赖于阻碍实际部署的复杂假设。为了弥合这两类解决方案之间的差距，我们引入了一种基于每流公平份额(FFS)概念的新公平模型。在每个路径节点上，流的FFS以数据包标签的形式表示，并在转发路径上更新，传达其当前出口带宽的公平份额。数据包携带的FFS与概率性转发的结合，实现了流的有效和可扩展隔离，同时具有最小开销。FFS是第一个将低实现和部署开销与有效带宽隔离相结合的系统，同时保持对源地址欺骗和DDoS攻击的鲁棒性，并提供高性能、可扩展性以及最小的延迟和抖动。我们证明FFS能够在隔离15种不同CCA的带宽的同时，保持延迟和抖动最小。我们的高速实现能够在商用硬件上维持160 Gbps的线路速率。在真实的互联网拓扑上评估时，FFS在带宽分配的中位数和总量上都优于几种最新且安全的带宽隔离系统。在我们的安全分析中，我们证明FFS为每个流量流保证了一个非零的带宽分配下限，确保即使结合源地址欺骗，DDoS攻击也无法阻止合法通信。最后，我们提出了FFS的扩展，为发送方提供准确且安全的速率反馈，允许快速速率适应且最小化数据包丢失。</span></span></p><p cid="n556" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f23-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f23-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n558" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">135、Limitless Scalability: A High-Throughput and Replica-Agnostic BFT Consensus</span></span></p><p cid="n559" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">传统的拜占庭容错（BFT）共识协议采用星型拓扑结构，由领导者处理所有消息传输，导致副本数量增加时性能迅速下降。最近，许多研究通过探索多层拓扑结构（如树结构）来减少领导的扇出，以提高可扩展性。然而，这些方法要么依赖于多项式扇出来保持容错能力，要么受到拓扑深度对吞吐量影响的限制，最终仅带来有限的可扩展性提升。为此，我们提出了Tide，这是首个能够随着副本数量增长而保持稳健性能的BFT共识协议，这得益于我们对对数扇出拓扑和高并行流水线的设计。Tide在拓扑设计中利用冗余连接作为关键洞察，在不降低弹性的情况下减少扇出。Tide进一步引入了一种新颖的流水线机制，其中层间交互动态确定提案并行度，从而将吞吐量与拓扑深度解耦。使用100台云服务器的真实实验表明，当副本数量从100扩展到1000时，最先进协议的吞吐量下降了65%至90%，延迟增加了50倍。相比之下，Tide保持了与副本数量无关的高吞吐量，约为50ktps，比其他协议高出5倍以上，而其延迟保持在0.3秒至0.4秒之间。</span></span></p><p cid="n560" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f101-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f101-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n562" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">136、LinkGuard: A Lightweight State-Aware Runtime Guard Against Link Following Attacks in Windows File System</span></span></p><p cid="n563" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Windows文件系统中的链接跟随（LF）攻击允许攻击者通过滥用精心设计的符号链接组合（链接链），将正常的文件操作悄悄重定向到受保护的文件，从而实现对受保护文件的任意操作。这类攻击通常表现为单步攻击或多步攻击，具体取决于构建的链接链的顺序。现有的针对LF攻击的防御措施要么依赖于复杂的建模，要么存在兼容性差和适用性有限的问题，且没有一种能够为不同类型的LF攻击提供全面保护。在本文中，我们提出了LinkGuard，一个针对Windows系统的轻量级状态感知运行时防御机制。LinkGuard的创新之处在于其两阶段设计：第一阶段通过执行动态主体过滤来提高防御效率，仅监控涉及链接链创建和跟随的文件操作及相关主体；第二阶段基于有限状态机（FSM）的规则匹配来精确防御LF攻击，确保有效且准确的防御。我们在五个代表性的Windows系统上评估了LinkGuard的原型，以验证其兼容性。在一个包含70个真实世界漏洞的数据集上，LinkGuard成功缓解了所有单步攻击和95.45%的多步攻击，并且在良性操作上零误报。在微基准测试中，LinkGuard平均仅产生1%的开销，在实际应用工作负载中产生3.4%的开销，同时在良性文件操作上仅增加5毫秒的延迟。</span></span></p><p cid="n564" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f2943-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f2943-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n566" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">137、LLMBisect: Breaking Barriers in Bug Bisection with A Comparative Analysis Pipeline</span></span></p><p cid="n567" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">错误二分法是一项重要的安全任务，旨在理解受软件错误影响的版本范围，即确定引入错误的提交。然而，传统的基于补丁的二分方法面临几个重大障碍：例如，它们假设引入错误的提交（BIC）和补丁提交修改相同的函数，但这并非总是成立；它们通常仅依赖代码变更，而提交消息中经常包含丰富的漏洞相关信息；它们还基于简单的启发式方法（例如假设BIC初始化了补丁中删除的代码行），缺乏对漏洞的逻辑分析。在本文中，我们观察到大型语言模型（LLMs）有潜力突破现有解决方案的障碍，例如能够很好地理解补丁和提交中的文本数据和代码。我们开发了一个全面的多阶段流程，利用LLLMs来（1）充分利用完整的补丁信息，（2）让LLM评估错误的逻辑以及提交成为引入错误提交的可能性，以及（3）通过多次筛选过程逐步缩小候选范围。在我们的评估中，我们证明该方法比最先进的解决方案准确率提高38%以上。我们的结果进一步证实了全面的多阶段流程是必不可少的，因为它比简单的LLM应用准确率提高60%。</span></span></p><p cid="n568" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s990-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s990-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n570" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">138、Loki: Proactively discovering online scams by mining toxic search queries</span></span></p><p cid="n571" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在线电子商务诈骗，从购物诈骗到宠物诈骗，每年在全球造成数百万美元的经济损失。为此，安全社区已经开发了高度准确的检测系统，能够确定网站是否具有欺诈性。然而，寻找可作为输入提供给这些下游检测系统的候选诈骗网站具有挑战性：依赖用户报告本质上是被动的且反应缓慢，而主动发出搜索引擎查询以返回候选网站的系统则存在覆盖范围有限且无法推广到新型诈骗类型的问题。在本文中，我们提出了LOKI系统，该系统旨在识别可能返回大量欺诈性网站的搜索引擎查询。LOKI实现了基于特权信息学习（LUPI）和搜索引擎结果页面（SERP）特征提取的关键词评分模型。我们在10个主要诈骗类别中对LOKI进行了严格验证，并在所有类别中展示了相较于启发式和数据驱动基线20.58倍的发现率提升。利用仅包含1,663个已知诈骗网站的小型种子集，我们使用通过该方法识别的关键词发现了52,493个先前未报告的野外诈骗案例。最后，我们证明了LOKI可以推广到先前未见过的诈骗类别，突显了其在发现新兴威胁方面的实用性。</span></span></p><p cid="n572" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s184-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s184-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n574" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">139、Looma: A Low-Latency PQTLS Authentication Architecture for Cloud Applications</span></span></p><p cid="n575" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">量子计算机威胁着打破传统TLS的密码学基础，促使向后量子密码学转变。然而，后量子认证会带来显著的性能开销，特别是在高握手率的云环境中进行相互TLS认证时。我们提出了Looma，一种快速的后量子认证架构，它将认证分为快速的路径上签名/验证操作和慢速的路径外异步预计算，在不牺牲安全性的情况下减少了握手延迟。集成到TLS 1.3中，与基于Dilithium-2的基线相比，Looma将PQTLS握手延迟降低了最多44%。我们的研究结果表明，Looma在云环境中扩展后量子安全通信具有实用性。</span></span></p><p cid="n576" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f74-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f74-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n578" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">140、Losing the Beat: Understanding and Mitigating Desynchronization Risks in Container Isolation</span></span></p><p cid="n579" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">当今容器提供的隔离是通过高度协调地利用Linux命名空间和cgroups实现的。然而，随着计算范式的演变，特别是对跨命名空间资源共享有强烈需求的无服务器计算的出现，这种容器保护的基础已经动摇。这种共享削弱了容器的隔离模型，正如我们在研究中发现的，导致了命名空间-cgroup不同步（NCD）漏洞的出现。在本文中，我们对此类风险进行了研究，旨在确定其根本原因并理解其影响。我们的研究揭示，流行的容器工具都存在NCD风险，这在我们发现的四个新漏洞和一个错误中得到了证实。从根本上说，命名空间共享扩展了容器的隔离边界，这可能违反cgroups设定的限制，从而削弱了这两种机制提供的联合保护。这种冲突通常无法通过现有的容器工具调和。为了应对这一挑战并满足命名空间共享的需求，我们提出了一个内核级解决方案，以统一命名空间和cgroups在监控容器实例资源方面的分散职责。我们的设计将命名空间处理的资源管理与cgroups强制执行的限制相结合，并确定了它们应遵循的协作策略。分析和评估表明，我们的方法有效缓解了NCD风险，同时对Linux内核、主流容器工具和实际应用程序造成的成本可以忽略不计，并保持与这些系统的完全兼容性。</span></span></p><p cid="n580" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1381-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1381-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n582" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">141、Mapping the Cloud: A Mixed-Methods Study of Cloud Security and Privacy Configuration Challenges</span></span></p><p cid="n583" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">云服务配置错误仍然是安全和隐私事件的主要原因，这通常源于云平台配置的复杂性。为了更好地理解这些挑战，我们分析了从2008年到2024年间约251,900条与安全和隐私相关的Stack Overflow帖子。通过使用主题建模和定性分析，我们系统地映射了云用例与其相关的安全和隐私配置挑战，揭示了云运营商所面临障碍的全景图。我们确定了技术性和以人为中心的问题，包括与文档不足以及缺乏针对运营商环境的上下文感知工具相关的问题。值得注意的是，身份验证和访问控制挑战出现在所有已识别的用例中，贯穿云部署、集成和维护的几乎所有阶段。我们的研究结果强调了需要可用、定制化和上下文敏感的支持工具和资源，以帮助开发人员安全地配置云服务。</span></span></p><p cid="n584" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1302-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1302-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n586" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">142、Memory Backdoor Attacks on Neural Networks</span></span></p><p cid="n587" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Torsten Krauß（维尔茨堡大学），Alexandra Dmitrienko（维尔茨堡大学），Yisroel Mirsky（内盖夫本古里安大学）</span></span></p><p cid="n588" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">神经网络通常在专有数据集上进行训练，使其成为有吸引力的攻击目标。我们提出了一种新颖的数据集提取方法，利用创新的训练时后门攻击，使恶意联邦学习（FL）服务器能够通过简单的索引过程系统性地、确定性地提取完整的客户端训练样本。与先前技术不同，我们的方法确保精确的数据恢复，而非概率性重建或幻觉，提供对记忆哪些样本及数量的精确控制，并展现出高容量和鲁棒性。受感染模型在接收到基于模式的索引触发器时会输出数据样本，从而在不影响全局模型效用的情况下，系统性地从每个客户端的本地数据中提取有意义的片段。为解决模型输出尺寸较小的问题，我们提取片段后将其重新组合。该攻击仅需对训练代码进行微小修改，可在客户端验证过程中轻易逃避检测。因此，这种漏洞代表了FL供应链的真实威胁，恶意服务器可向客户端分发修改后的训练代码，并从其更新中恢复私人数据。在分类器、分割模型和大型语言模型上的评估表明，可以从客户端模型中恢复数千个敏感训练样本，同时对任务性能影响最小，经过多轮FL后可窃取客户端的整个数据集。例如，医疗分割数据集的提取仅需3%的效用下降。这些研究结果揭示了FL系统中的关键隐私漏洞，强调了分布式训练管道中需要更强的完整性和透明度。</span></span></p><p cid="n589" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1870-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1870-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n591" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">143、Memory Band-Aid: A Principled Rowhammer Defense-in-Depth</span></span></p><p cid="n592" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">DRAM中的Rowhammer位翻转使软件攻击者能够完全攻破各类系统。硬件缓解措施可以精确且高效，但它们面临漫长的部署周期和非常有限或无更新能力的缺点。因此，改进的攻击方法已多次绕过已部署的硬件保护措施，使得商用系统容易受到Rowhammer攻击。在本文中，我们提出了Memory Band-Aid，一种针对Rowhammer的纵深防御方案。Memory Band-Aid并非长期高效的硬件缓解措施的替代品，而是一种纵深防御，在硬件缓解措施对特定系统世代不足时激活。为此，Memory Band-Aid在内存控制器中引入了按线程和按存储库的DRAM访问速率限制，确保无法达到Rowhammer位翻转所需的最小行激活次数。我们在Ubuntu Linux上实现了Memory Band-Aid的概念验证，并在2个Intel和2个AMD系统上进行了测试，由于当前硬件缺乏按存储库的限制，我们基于全局带宽限制进行实现。使用这个PoC，我们发现包含少量硬件更改的完整实现在一组真实的Phoronix宏基准测试中开销仅为0%至9.4%。在导致DRAM压力的微基准测试中，我们观察到1至5.1倍的减速。这两种开销仅适用于不可信的、被限制的工作负载，例如所有用户空间程序或仅选定的沙箱，如浏览器中的沙箱。特别是因为Memory Band-Aid可以按需启用，我们得出结论，Memory Band-Aid是一种重要的纵深防御，应作为第二防御层在实际中部署。</span></span></p><p cid="n593" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s156-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s156-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n595" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">144、MEVisor: High-Throughput MEV Discovery in DEXs with GPU Parallelism</span></span></p><p cid="n596" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">去中心化金融（DeFi）是区块链上新兴的金融服务，能够实现自动和匿名的交易。在DeFi中，去中心化交易所（DEXs）维护一对代币的储备，并确定代币交换的汇率。然而，DEXs也为最大可提取价值（MEV）创造了机会，攻击者可以通过包含、排除或重新排序DEX交易来利用代币价格差异并获取利润。发现MEV机会需要高吞吐量，因为12秒的区块间隔和庞大的搜索空间施加了严格的时间限制。然而，现有工具由于依赖CPU绑定执行，频繁的状态分叉和缓慢的DEX执行，导致吞吐量低下。在本文中，我们首次利用GPU并行计算能力来提升套利和三明治策略中的MEV搜索吞吐量。更准确地说，我们将MEV机器人编译为GPU应用程序，然后启动数千个GPU线程并行搜索利润。为此，我们设计了新的解决方案来解决三大挑战：设计在GPU上模拟交易的作弊代码，提出减少GPU内存使用的内存管理器，以及设计策略感知的变异以提高输入多样性。我们实现了一个名为MeVisor的原型，它在GPU上运行DEXs，并使用并行遗传算法搜索MEV。基于以太坊的3,941个真实MEV案例进行评估，MeVisor实现了每秒330万至510万笔交易的吞吐量，比CPU基准性能高出10万倍。在2025年第一季度的大规模研究中，MeVisor估计MEV机会在2到14笔交易之间，最多可获得110万美元的MEV利润。</span></span></p><p cid="n597" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f93-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f93-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n599" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">145、MIMIR: Masked Image Modeling for Mutual Information-based Adversarial Robustness</span></span></p><p cid="n600" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">视觉变换器（ViTs）已成为基础架构，并作为现代视觉-语言模型的骨干网络。尽管它们表现出色，但ViTs对逃避攻击表现出明显的脆弱性，这需要开发专门针对其独特架构的对抗训练（AT）策略。虽然直接解决方案可能涉及将现有的AT方法应用于ViTs，但我们的分析揭示了显著的不兼容性，特别是与最先进（SOTA）方法（如Generalist（CVPR 2023）和DBAT（USENIX Security 2024））存在明显差异。本文对ViTs中的对抗鲁棒性进行了系统研究，并基于其自编码器自监督预训练提供了新的互信息（MI）理论分析。具体而言，我们证明了在基于ViT的自编码器中，对抗样本与其潜在表示之间的MI应通过推导出的MI边界进行约束。基于这一见解，我们提出了一个名为MIMIR的自监督AT方法，该方法采用MI惩罚机制，通过自编码器的掩码图像建模促进对抗预训练。在CIFAR-10、Tiny-ImageNet和ImageNet-1K上的大量实验表明，MIMIR能够持续提高自然准确率和鲁棒性，在ImageNet-1K上超越了最先进的AT结果。值得注意的是，MIMIR对未预见攻击和常见损坏数据表现出更强的鲁棒性，并且能够抵御拥有完整防御机制知识的自适应攻击。我们的代码和训练模型可在以下公开获取：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/xiaoyunxxy/MIMIR" target="_blank">https://github.com/xiaoyunxxy/MIMIR</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n601" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1813-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1813-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n603" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">146、MinBucket MPSI: Breaking the Max-Size Bottleneck in Multi-Party Private Set Intersection</span></span></p><p cid="n604" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">多方隐私集合求交（基数）协议使T（T&gt;2）方，每方持有一个私有集合，能够联合计算集合的交集（或基数），而不会向其他方泄露任何额外信息。迄今为止，所有已知的MPSI（MPSI-Card）协议都需要与大规模集合大小成比例的通信复杂度，这从根本上阻碍了它们在具有异构输入规模的实际应用中的高效部署。在这项工作中，我们提出了一种基于新协议的MPSI新框架：批量成员条件随机生成和联合私有相等性测试。通过实例化这一框架，我们开发了两种MPSI协议，其通信复杂度与小集合的大小成线性关系，与大集合的大小成对数关系。一种协议可抵御任意数量的合谋方，而另一种协议可抵御(T-2)个合谋方。此外，我们还开发了一种称为联合置换私有相等性测试的协议，并提出了MPSI-Card框架。通过实例化这一框架，我们推导出一种具有类似通信效率的MPSI-Card协议：与小集合大小成线性关系，与大集合大小成对数关系，可抵御任意数量的合谋方。我们在局域网和广域网环境中实现了我们的协议并进行了广泛实验。实验结果表明，随着集合间大小差异或持有小集合的参与者数量的增加，我们的协议实现了显著更好的性能。在5个持有大规模集合（大小为2^20）和5个持有小规模集合（大小为2^10）的参与方设置中，使用单线程和10 Mbps带宽，我们的MPSI（MPSI-Card）协议仅需12.2（12.2）MB的通信量和129.86（130.05）秒的运行时间。与Wao等人（USENIX Security 2024）的最先进MPSI和高等人（PETS 2024）的MPSI-Card相比，我们的协议实现了通信成本降低157倍（76倍）和运行时间加速12.7倍（3.1倍）。</span></span></p><p cid="n605" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f182-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f182-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n607" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">147、Mirage: Private, Mobility-based Routing for Censorship Evasion</span></span></p><p cid="n609" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在专制和高度监控的环境中，传统通信网络容易受到审查、监控和破坏。虽然像Tor这样的去中心化匿名网络能提供强大的隐私保障，但它们仍然依赖于集中式互联网基础设施，使其容易受到大规模封锁或关闭。为解决这些局限性，我们提出了MIRAGE，一种基于移动性的隐私保护消息系统，专为抗审查通信而设计。MIRAGE采用基于区域的路由方案，根据人群的高层移动模式概率性地转发消息。为防止个人移动行为的泄露，MIRAGE通过局部差分隐私保护用户的移动模式，确保参与网络不会通过可观察的路由决策揭示个人的位置历史。我们在Cadence中实现了MIRAGE，这是一个开源模拟器，提供了一个统一框架，用于使用节点间随时间推移的近似地理遭遇来评估基于移动性的协议。我们分析了MIRAGE的隐私与效率权衡，并使用真实世界轨迹对其性能进行了评估：(1)传统流行病和基于随机游走的路由协议，以及(2)最先进的隐私保护地理路由协议。这些轨迹包括：一个是在不同城市地点收集的行人移动模式，另一个是出租车运营的GPS轨迹。我们的结果表明，与流行病路由相比，MIRAGE显著减少了消息开销，在投递率方面优于概率泛洪，同时比现有技术提供更强的隐私保障。</span></span></p><p cid="n610" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s237-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s237-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n612" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">148、Mobius: Enabling Byzantine-Resilient Single Secret Leader Election with Uniquely Verifiable State</span></span></p><p cid="n613" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">单密钥领导者选举（SSLE）协议能够在确保不可预测性的情况下，在一组注册节点中每轮选举出一个单一领导者。以太坊已将SSLE确定为其发展路线图中的关键组成部分，并采用其作为应对潜在攻击的潜在解决方案。然而，我们识别出一种新型攻击，称为&#34;状态唯一性&#34;攻击，该攻击由恶意领导者提出多个可公开验证的状态引起。这种攻击破坏了后续领导者选举中的&#34;唯一性&#34;属性，并很可能导致上层协议基本安全属性（如活跃性）的违反。这一漏洞源于将唯一性保证降低为每次选举只有一个状态的设计，并可推广到现有的SSLE构造中。我们基于理论分析和在以太坊上的实际执行进一步量化了这种攻击的严重性，强调了设计可证明安全的SSLE协议所面临的严峻挑战。为了解决&#34;状态唯一性&#34;攻击同时确保安全性和实际性能，我们提出了一个名为Mobius的通用SSLE协议，该协议不依赖额外的信任假设。具体而言，Mobius防止每次选举生成多个可验证状态，并通过创新的&#34;近似唯一随机化&#34;机制在连续执行中实现唯一状态。除了在通用可组合性框架中提供全面的安全分析外，我们还开发了Mobius的概念验证实现，并进行了广泛实验以评估其安全性和开销。实验结果表明，Mobius在显著降低协议执行过程中的通信复杂度的同时增强了安全性，在注册阶段实现了超过80%的减少。</span></span></p><p cid="n614" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f2407-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f2407-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n616" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">149、MUTATO: Enhancing Fuzz Drivers with Adaptive API Option Mutation</span></span></p><p cid="n617" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">模糊测试是发现漏洞和提高软件系统可靠性的核心技术。最近的研究表明，现代覆盖率引导模糊测试的主要瓶颈不在于模糊测试工具本身，而在于模糊驱动程序的构建——特别是它们在探索库API中选项参数时的有限灵活性。现有方法主要关注变异输入数据，常常忽略了从根本上影响API行为并可能隐藏关键漏洞的配置选项。为解决这一差距，我们提出了MUTATO，一种新的多维度模糊驱动程序增强方法，它使用覆盖率引导的ε-贪婪策略系统且自适应地变异输入数据和选项参数。与需要侵入性修改模糊测试工具或仅针对程序级选项的先前工作不同，MUTATO在驱动程序级别运行，确保了与模糊测试工具无关的适用性，并能与手动和自动生成的驱动程序无缝集成。我们进一步引入了选项参数模糊测试语言（OPFL）来指导驱动程序的增强。在10个广泛使用的C/C++库上进行的大量实验表明，与原始AFL++和LibFuzzer驱动程序相比，MUTATO增强的驱动程序平均分别实现了14%和13%的代码覆盖率提升，并发现了12个先前未知的漏洞，其中包括3个CVE。值得注意的是，我们在API中发现了4个漏洞，而OSS-Fuzz尽管进行了超过18,060小时的模糊测试却未能检测到这些漏洞。</span></span></p><p cid="n618" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s820-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s820-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n620" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">150、MVP-ORAM: a Wait-free Concurrent ORAM for Confidential BFT Storage</span></span></p><p cid="n621" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">众所周知，仅靠加密不足以保护数据隐私。执行操作时暴露的访问模式也可能被用于推理攻击。 oblivious RAM (ORAM) 通过使客户端请求变得不可知来隐藏访问模式。然而，现有协议在支持并发客户端和拜占庭容错(BFT)方面仍然存在局限性。我们提出了 MVP-ORAM，这是第一个支持易故障并发客户端的无等待 ORAM 协议。与之前的工作不同，MVP-ORAM 避免使用需要额外安全假设的可信代理，以及基于客户端间通信或分布式锁的并发控制机制，这些机制限制了整体吞吐量和容忍故障客户端的能力。相反，MVP-ORAM 使客户端能够执行并发请求并在发生时合并冲突更新，满足无等待特性，即客户端独立于其他客户端的性能或故障取得进展。由于等待和冲突自由是根本上矛盾的目标，无法在异步并发 ORAM 服务中同时实现，我们定义了一个依赖于应用程序工作负载和并发客户端数量的较弱不可知性概念，并证明 MVP-ORAM 在客户端执行倾斜块访问的实际场景中是安全的。通过实现无等待特性，MVP-ORAM 可以无缝集成到现有的机密 BFT 数据存储中，创建了第一个 BFT ORAM 构造。我们在一个机密 BFT 数据存储上实现了 MVP-ORAM，并证明我们的原型在现代云环境中每秒可以处理数百次 4KB 访问。</span></span></p><p cid="n622" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1809-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1809-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n624" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">151、MVPNalyzer: An Investigative Framework for Auditing the Security </span></span><span md-inline="html_entity" data-content="&amp;" style="box-sizing: border-box;"><span leaf="">&amp;</span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""> Privacy of Mobile VPNs</span></span></p><p cid="n625" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">移动用户越来越依赖虚拟专用网络(VPN)来保护自己免受跟踪、监控和审查。VPN应用通过要求拦截用户流量而处于特权地位。虽然这保护了终端用户流量免受恶意网络中介(如监控互联网服务提供商)的侵害，但它导致了一种关键的&#34;信任转移&#34;，即从这些网络中介转移到VPN提供商。然而，尽管这一角色至关重要，但VPN应用，尤其是在移动平台上，仍然缺乏充分的审计。在这项工作中，我们提出了MVPN-Audit，一个可扩展的框架，用于系统分析Android VPN应用。该框架旨在处理Android VPN生态系统的独特挑战，使能够对VPN应用在网络各层的行为进行详细调查。我们将我们的框架应用于Google Play商店中的281个流行VPN应用，并发现了基本和关键问题：61个应用传输未加密数据，其中5个以明文形式发送敏感的VPN配置文件，允许攻击者劫持VPN隧道连接；29个应用将用户流量(包括DNS)泄露到隧道外；169个应用未能混淆流量以避免简单阻塞；76个应用传输广告ID，这是一种广泛用于设备和用户跟踪的设备唯一标识符；107个应用在其VPN配置文件中未能实施最佳安全实践。这些应用的总安装量达数亿次，突显了受影响用户的规模。我们的研究结果揭示了开发者疏忽的令人担忧的模式，突显了执行不力、透明度不足和维护不善如何继续削弱基本的安全保障。</span></span></p><p cid="n626" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1573-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1573-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n628" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">152、NetCap: Data-Plane Capability-Based Defense Against Token Theft in Network Access</span></span></p><p cid="n629" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">令牌在企业网络访问控制中发挥着至关重要的作用，它通过在各种协议（如JSON Web令牌、OAuth 2.0）中实现安全的身份验证和授权，使用户能够使用有效的访问令牌访问授权资源，而无需重复提交凭据。然而，授权主机内所有进程所获得的普遍信任，加上令牌的较长生命周期，为恶意进程劫持令牌并冒充合法用户创造了机会。这种威胁影响广泛范围的协议，并已导致众多真实世界事件。在本文中，我们提出了NetCap，这是一种新的防御机制，旨在防止攻击者在企业环境中使用被盗令牌访问未授权资源。其核心思想是引入不可伪造的、进程级的能力，这些能力与授权进程绑定。这些能力被持续嵌入到进程的网络流量中，以供目标资源进行验证，并且频繁刷新。进程身份与能力之间的这种绑定确保了即使访问令牌被恶意进程窃取，没有有效能力也无法通过身份验证。为了支持网络中进程生成的大量请求，NetCap引入了一种基于可编程交换机和eBPF的新型数据平面设计。通过多种优化技术，我们的系统支持能力的内联生成和嵌入，使大量流量能够以线路速率处理且开销极小。我们的广泛评估表明，NetCap在各种协议和实际应用中保持线路速率的网络性能，同时开销可忽略不计，并有效保护这些应用程序免受令牌盗窃攻击。</span></span></p><p cid="n630" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f273-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f273-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n632" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">153、NetRadar: Enabling Robust Carpet Bombing DDoS Detection</span></span></p><p cid="n633" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">地毯式轰炸攻击是分布式拒绝服务（DDoS）攻击日益普遍的一种变体，它同时攻击受害者网络中的多个服务器，通过最小化每流恶意流量吞吐量来规避检测。聚合的恶意流量压垮了网络接入点（如网关），导致拒绝服务。此外，高级攻击者采用应用层攻击方法生成在语义和流量体积上都不明显的恶意流量，使得现有的DDoS检测机制失效。我们提出了NetRadar，一个能够实现准确且稳健的地毯式轰炸攻击检测的DDoS检测器。NetRadar利用服务器-网关协作架构，聚合从受害者网络收集的流量和服务器端特征，并进行跨服务器分析以定位受害服务器。为实现服务器辅助的地毯式轰炸检测，我们引入了一个兼容多种服务的通用服务器端特征集，以及一种能够处理运行时特征不匹配问题的稳健模型训练方法。此外，我们还提出了一种高效的跨服务器入站流量分析方法，有效利用了地毯式轰炸流量的相似性，同时降低了计算开销。在真实和模拟数据集上的评估表明，NetRadar的检测性能优于最先进的解决方案，在所有地毯式轰炸检测场景中均实现了超过94%的准确率。</span></span></p><p cid="n634" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f2118-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f2118-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n636" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">154、NeuroStrike: Neuron-Level Attacks on Aligned LLMs</span></span></p><p cid="n637" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">安全对齐对于大型语言模型（LLM）的道德部署至关重要，它引导模型避免生成有害或不道德的内容。当前的对齐技术，如监督微调和基于人类反馈的强化学习，仍然存在脆弱性，可以通过精心设计的对抗性提示绕过。不幸的是，此类攻击依赖于反复试验，缺乏跨模型的泛化能力，且受可扩展性和可靠性的限制。本文提出了NeuroStrike，一种新颖且可泛化的攻击框架，它利用了对齐技术引入的根本性漏洞：对稀疏、专门的安全神经元的依赖，这些神经元负责检测和抑制有害输入。我们将NeuroStrike应用于白盒和黑盒场景：在白盒场景中，NeuroStrike通过前馈激活分析识别安全神经元，并在推理过程中剪除它们以禁用安全机制。在黑盒场景中，我们提出了首个LLM画像攻击，利用安全神经元的可转移性，在开源权重代理模型上训练对抗性提示生成器，然后将其部署到黑盒和专有目标模型上。我们在来自主要LLM开发者的20多个开源权重LLM上评估了NeuroStrike。通过移除目标层中不到0.6%的神经元，NeuroStrike仅使用普通恶意提示就实现了76.9%的平均攻击成功率（ASR）。此外，NeuroStrike泛化到四个多模态LLM，对不安全图像输入的攻击成功率达到100%。安全神经元在不同架构间有效转移，使11个微调模型和5个蒸馏模型的ASR分别提高到78.5%和77.7%。黑盒LLM画像攻击在五个黑盒模型（包括谷歌的Gemini系列）上实现了63.7%的平均ASR。</span></span></p><p cid="n638" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s660-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s660-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n640" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">155、NEXUS: Towards Accurate and Scalable Mapping between Vulnerabilities and Attack Techniques</span></span></p><p cid="n641" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">通用漏洞与暴露(CVE)计划每年记录数千个已知漏洞，但没有关于这些漏洞可能如何被攻击者利用的可操作上下文。另一方面，MITRE ATT&amp;CK框架概述了攻击战术、技术和程序(TTPs)，但没有将其与特定漏洞联系起来。虽然实现CVE描述到TTPs的自动映射可以允许更准确、更高效地检测和缓解威胁，但现有工作面临几个挑战：(i)缺乏将CVEs与TTPs链接的大规模、高质量数据集；(ii)现有数据中存在数据分布不均和关键TTPs缺失的问题；(iii)从非结构化CVE描述中准确提取敌对行为的困难；以及(iv)缺乏用于持续修正映射的自适应学习机制。本文通过NEXUS框架解决了这些挑战，该框架可自动将CVEs映射到TTPs。我们的评估(基于一个新构建的数据集，涵盖208个TTPs和92K+个CVEs，以及其他公共数据集)表明，NEXUS在CVE到TTP的映射中实现了97.94%的最高F1分数，并且能够处理新的CVE条目，而现有工作的最高F1分数仅为67.68%。</span></span></p><p cid="n642" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f2926-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f2926-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n644" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">156、ObliInjection: Order-Oblivious Prompt Injection Attack to LLM Agents with Multi-source Data</span></span></p><p cid="n645" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">提示注入攻击旨在污染大语言模型(LLM)的输入数据，误导其完成攻击者选择的任务而非预期任务。在许多应用和代理中，输入数据来源于多个来源，每个来源贡献整体输入的一部分。在这些多源场景中，攻击者可能只控制部分来源并污染相应片段，但通常不知道这些片段在输入中的排列顺序。现有的提示注入攻击要么假设整个输入数据来自攻击者控制的单一来源，要么忽略不同来源片段排列的不确定性。因此，它们在涉及多源数据的领域中效果有限。在这项工作中，我们提出了ObliInjection，这是首个针对具有多源输入数据的大语言模型应用和代理的提示注入攻击。ObliInjection引入了两项关键技术创新：顺序无关损失(order-oblivious loss)，用于量化无论干净和污染片段如何排列，大语言模型都会完成攻击者选择任务的可能性；以及顺序GCG算法(orderGCG algorithm)，专门用于最小化顺序无关损失并优化污染片段。跨越三个不同应用领域数据集和十二个大语言模型的全面实验表明，ObliInjection高度有效，即使输入数据中只有6-100个片段中的一个被污染。我们的代码和数据可在以下网址获取：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/ReachalWang/ObliInjection" target="_blank">https://github.com/ReachalWang/ObliInjection</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n646" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f702-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f702-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n648" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">157、OCCUPY+PROBE: Cross-Privilege Branch Target Buffer Side-Channel Attacks at Instruction Granularity</span></span></p><p cid="n649" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，分支目标缓冲器（BTB）在系统安全研究中引起了广泛关注。在某些攻击场景中，该组件在逻辑或物理上被共享，被攻击者滥用以构建侧信道，从而泄露受害进程的敏感分支信息。然而，现有的BTB侧信道攻击要么因跨权限隔离机制而无法从用户模式泄露内核控制流信息，要么在分支监控中存在空间分辨率有限的问题。在本文中，我们提出了Occupy+Probe，一种基于驱逐的新型BTB侧信道攻击，它通过直接从用户模式成功暴露内核控制流行为来弥合这些差距。我们的方法从对Intel处理器上与偏移量相关的BTB更新机制的深入逆向工程开始，并揭示&#34;在用户模式下创建的BTB条目可以直接被内核模式条目替换，而不管底层的替换策略和硬件隔离如何&#34;，这构成了Occupy+Probe的基础。与现有的BTB侧信道攻击相比，Occupy+Probe消除了攻击者和受害者之间条目共享的需求。此外，它在分支监控中实现了指令级别的粒度，超越了现有基于驱逐的BTB侧信道器的空间分辨率。我们通过实验证明，Occupy+Probe可以在各种Intel处理器上以高空间分辨率跨权限边界泄露控制流信息。此外，我们通过针对Linux内核加密API的详细案例研究验证了Occupy+Probe的实际有效性，展示了其破坏关键内核操作的潜力。此外，与先前基于驱逐的BTB侧信道相比，Occupy+Probe展示了提取内核分支标签值的独特能力，这可用于破坏KASLR。</span></span></p><p cid="n650" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s925-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s925-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n652" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">158、Odysseus: Jailbreaking Commercial Multimodal LLM-integrated Systems via Dual Steganography</span></span></p><p cid="n653" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">多模态大语言模型（MLLMs）将文本与其他模态（如图像）相结合，展现出强大的能力，并在现实商业系统中日益广泛应用。然而，其日益普及也引发了关于滥用的担忧，例如生成有害内容。为缓解这些风险，对齐技术常被用于使模型行为与人类价值观保持一致。尽管有这些努力，但近期研究表明，越狱攻击可以绕过对齐并引发不安全输出。目前，大多数现有越狱方法针对开源模型设计，对集成额外过滤器的商业MLLM系统的效果有限。这些过滤器能够检测并阻止恶意输入和输出内容，显著降低越狱威胁。本文揭示，这些安全过滤器的成功严重依赖于一个关键假设：恶意内容必须在输入或输出中明确可见。这一假设在传统LLM集成系统中通常有效，但在MLLM集成系统中却不再成立，因为攻击者可以利用多种模态来隐藏对抗意图，导致现有MLLM集成系统产生虚假的安全感。为挑战这一假设，我们提出了Odysseus，一种新颖的越狱范式，引入双重隐写术，将恶意查询和响应 covertly 嵌入到看似无害的图像中。我们的方法通过四个阶段进行：（1）恶意查询编码，（2）隐写术嵌入，（3）模型交互，和（4）响应提取。我们首先将攻击者指定的恶意提示编码为二进制矩阵，并使用隐写术模型将其嵌入图像中。修改后的图像将被输入到目标MLLM集成系统中。我们鼓励目标MLLM集成系统将生成的不当内容植入到载体图像中（通过隐写术），供攻击者本地解码隐藏的响应。在基准数据集上的广泛实验表明，我们的Odysseus成功攻击了多个前沿且现实的MLLM集成系统，包括GPT-4o、Gemini-2.0-pro、Gemini-2.0-flash和Grok-3，攻击成功率高达99%。它暴露了现有防御中的一个根本盲点，呼吁重新思考MLLM集成系统中的跨模态安全问题。</span></span></p><p cid="n654" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f808-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f808-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n656" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">159、On Borrowed Time: Measurement-Informed Understanding of the NTP Pool’s Robustness to Monopoly Attacks</span></span></p><p cid="n657" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">互联网服务和应用严重依赖于网络时间的可用性和准确性。网络时间协议（NTP）是最古老的核心网络协议之一，至今仍是互联网上时钟同步的实际标准机制。尽管存在多个NTP基础设施，但其中之一&#34;NTP池&#34;因其两个基本原因而成为一个极具吸引力的攻击目标：1）它采用分布式管理，基于志愿者服务器；2）被广泛使用，包括全球的物联网和基础设施设备。我们首次收集了关于NTP池的直接、非推断性和全面的数据，包括：纵向的服务器和账户成员资格、服务器配置、时间质量、别名和全球查询流量负载。我们在九个月内收集了完整且细粒度的数据，发现了超过15,000台服务器（包括活跃和非活跃服务器），并对NTP池的使用情况、动态性和稳健性提供了新的见解。通过分析地址别名、账户和网络连接，我们发现池中只有19.7%的活跃服务器是完全独立的。最后，我们证明，拥有我们数据的攻击者能够更好、更精确地发起&#34;垄断攻击&#34;，只需10台或更少的恶意NTP服务器，就能捕获90%国家中绝大多数NTP池流量。我们的研究结果提出了多种可以改进该池稳健性的途径。</span></span></p><p cid="n658" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f541-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f541-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n660" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">160、On the Security Risks of Memory Adaptation and Augmentation in Data-plane DoS Mitigation</span></span></p><p cid="n662" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">商用交换机的数据平面可编程性正在通过支持自适应的线速率缓解策略，重塑拒绝服务（DoS）防御的格局。最近的系统如Cerberus [SP&#39;24]利用控制平面支持来扩展有限的交换机内存，从而能够快速应对不断演变的攻击。在本文中，我们揭示了该模型中一个微妙但关键的漏洞；即，正是那些使防御系统具有敏捷性和可扩展性的机制，可能被一类新的协调式DoS攻击所破坏。我们提出了Heracles，这是首个利用可编程交换机中的硬件级约束来协调数据平面和控制平面内存中精确资源争用的攻击。通过利用侧信道时序信号，Heracles触发了同步增强、内存挤压和时间窗口利用，这是三种正交的争用策略，会显著降低甚至完全禁用DoS缓解能力。我们在真实的Tofino硬件上实现并测试了Heracles，表明它可以可靠地破坏各种DoS攻击配置文件下的DoS防御，即使使用松散（1-2秒）时间同步的攻击源也是如此。为缓解这一威胁，我们提出了Shield，一种多层DoS缓解草图架构，它解耦了控制平面和数据平面层的内存操作，在保持线速率性能和检测准确性的同时，有效缓解了Heracles攻击。</span></span></p><p cid="n663" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1857-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1857-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n665" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">161、One Email, Many Faces: A Deep Dive into Identity Confusion in Email Aliases</span></span></p><p cid="n666" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">电子邮件地址作为在线账户管理的通用标识符，其别名机制在电子邮件提供商与外部平台之间引入了显著的身份混淆问题。本文首次对电子邮件别名引起的不一致性问题进行了系统性分析，其中提供商将别名地址（如</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf="">ALICE@example.com</span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">、</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf="">alice+work@example.com</span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">）视为基础电子邮件（</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf="">alice@example.com</span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">）的额外入口，而平台通常将它们视为不同的身份。通过对28家电子邮件提供商和18个在线平台的别名机制进行实证评估，我们揭示了关键差距：（1）只有Gmail完整记录了其别名规则，而11家提供商默默地支持未文档化的别名行为；（2）由于缺乏标准化文档和实际实施，平台要么无法区分别名地址，要么过度激进地排除了包含特定符号的所有电子邮件。真实世界的滥用案例表明，攻击者利用别名在npm中从单个基础电子邮件创建多达139个账户用于垃圾邮件活动。我们的用户研究进一步强调了安全风险，显示31.65%具有别名知识的参与者因提供商实现不一致而将钓鱼邮件误认为是合法的电子邮件别名。那些认为自己理解电子邮件别名的用户，特别是受教育程度高、男性和技术参与者，更容易受到钓鱼攻击。我们的研究结果强调了电子邮件别名标准化和透明的迫切需求。我们贡献了OriginMail工具，帮助平台解决别名混淆问题，并向相关利益相关者披露漏洞。</span></span></p><p cid="n667" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s148-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s148-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n669" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">162、OptiMix: Scalable and Distributed Approaches for Latency Optimization in Modern Mixnets</span></span></p><p cid="n670" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">提出的混网（mixnets）提供网络级匿名性，但代价是增加了通信延迟，这 consequently限制了它们仅适用于延迟容忍型应用，缩小了参与此类用例的客户端匿名集合。解决这一问题需要优化延迟，正如最近在LARMix（NDSS&#39;24）和LAMP（NDSS&#39;25）中通过节点排列和战略路由所探索的那样。然而，这些方法针对特定的混网设计，依赖简化的模型和信任假设，或存在实际效率有限的问题。相比之下，OptiMix通过引入一种通用的低延迟混网模型来弥合这些差距，该模型可适应所有成熟的设计。为此，我们首先提出了一种高效的分布式协议，用于在混网中排列节点，在保持对对手的无偏性（unbiasability）的同时实现低延迟特性。其次，我们引入了优化通信延迟的新型战略路由方案。第三，我们设计了一种负载均衡算法，能够均匀分配流量而不损害路由策略的延迟优化特性。第四，我们使用已部署的Nym混网数据进行了广泛评估，展示了在各种混网设计中显著降低延迟的同时最小化匿名损失——与最先进的解决方案相比实现了高达4倍的性能提升。最后，考虑到延迟减少会导致匿名性降低或带宽开销增加——正如匿名三难困境（anonymity trilemma）所述——我们提出了一种覆盖路由机制，使客户端能够受益于低延迟混网而不损害匿名性，代价是生成额外的覆盖流量。</span></span></p><p cid="n671" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s2680-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s2680-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n673" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">163、OSAVRoute: Advancing Outbound Source Address Validation Deployment Detection with Non-Cooperative Measurement</span></span></p><p cid="n674" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">源IP地址欺骗促进了各种恶意攻击，而出站源地址验证（OSAV）仍然是防止欺骗数据包离开网络的最佳当前实践。准确测量OSAV的部署对于研究网络对IP欺骗的脆弱性至关重要。然而，此类测量通常需要从被测试网络内部发送欺骗数据包，需要网络运营商的合作。本文介绍了OSAVRoute，这是首个能够捕获OSAV部署细粒度特征的非合作系统。与现有只能识别OSAV缺失的非合作方法不同，OSAVRoute能够识别OSAV的存在与缺失，并进一步测量其阻塞粒度和阻塞深度，实现了先前仅限于合作方法的能力。OSAVRoute通过显式追踪欺骗数据包的转发路径实现这一功能，能够识别其生成和传播行为。OSAVRoute的准确率达到99.4%，覆盖范围比CAIDA Spoofer多3.1倍的自治系统（AS），它揭示84.2%的测试AS未部署OSAV，尤其是在ISP网络中。在实施OSAV的网络中，95.5%在前两个IP跳内阻塞欺骗数据包，但表现出各种阻塞粒度，其中/22到/24最为常见。此外，我们首次揭示了MANRS参与与OSAV部署之间的正相关关系。</span></span></p><p cid="n675" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s17-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s17-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n677" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">164、PACS: Privacy-Preserving Attribute-Driven Community Search over Attributed Graphs</span></span></p><p cid="n678" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在数据驱动应用中，属性驱动的社区搜索已引起越来越多的关注，旨在帮助用户在属性图上找到满足特定要求的高质量子图。然而，在进行社区搜索时，很少有工作考虑数据隐私。一个关键原因是现实世界中的图规模持续增长，而属性驱动的社区搜索涉及在加密图数据上计算复杂指标，包括结构凝聚性和属性相关性，这些计算过于耗时，难以实际应用。本文首次提出了一种面向云的隐私保护属性驱动社区搜索实用方案，命名为PACS。PACS使服务器能够在接近毫秒的时间内高效响应属性驱动的社区搜索，同时无需访问属性图和搜索结果的敏感信息。为此，我们设计了两种结构：安全社区索引和安全边表，用于保护原始属性图的隐私。安全社区索引使云服务器能够高效识别满足结构凝聚性且具有最高属性分数的目标社区。特别是，我们采用内积加密来基于加密属性向量评估社区的属性驱动分数。通过BGN同态加密构建的安全边表，使云服务器能够安全地检索目标社区的边信息而无需了解其细节。我们进行了全面的安全分析，证明PACS实现了CQA2安全性。在真实社交网络数据集上的实验评估表明，PACS在处理属性驱动社区搜索时实现了接近毫秒级的效率。</span></span></p><p cid="n679" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1586-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1586-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n681" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">165、Paladin: Defending LLM-enabled Phishing Emails with a New Trigger-Tag Paradigm</span></span></p><p cid="n682" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着大型语言模型的快速发展，其恶意使用（特别是在生成钓鱼内容方面）的潜在威胁日益普遍。利用LLM的能力，恶意用户可以合成没有拼写错误和其他易于检测特征的钓鱼邮件。此外，这类模型能够生成针对特定主题的钓鱼信息，根据目标领域定制内容，提高成功率。由于LLM生成的钓鱼邮件通常缺乏清晰或可区分的语言特征，检测此类内容仍是一项重大挑战。因此，大多数现有的语义级检测方法难以可靠地识别它们。虽然某些基于LLM的检测方法显示出前景，但它们计算成本高，且受底层语言模型性能的限制，使其难以大规模部署。在这项工作中，我们旨在解决这一问题。我们提出了Paladin，它使用各种插入策略将触发器-标签关联嵌入到基础LLM中，将其改造为检测型LLM。当检测型LLM生成与钓鱼相关的内容时，它会自动包含可检测的标签，从而实现更轻松的识别。基于隐式和显式触发器与标签的设计，我们考虑了四种不同的场景。我们从隐蔽性、有效性和稳健性三个关键角度评估我们的方法，并与现有的基线方法进行比较。实验结果表明，我们的方法优于基线方法，在所有场景中均实现了超过90%的检测准确率。</span></span></p><p cid="n683" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s2522-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s2522-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n685" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">166、Pallas and Aegis: Rollback Resilience in TEE-Aided Blockchain Consensus</span></span></p><p cid="n686" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">许多拜占庭容错(BFT)共识算法利用可信组件来提高弹性并减少通信开销。然而，最近的研究发现，当可信组件崩溃、丢失状态或被克隆时，存在一个关键的回滚攻击漏洞。现有的防御方法要么将崩溃的副本视为拜占antine节点，从而增加副本数量，要么在组件间复制可信状态，这会带来巨大的性能开销，并且仅提供有限的容错能力。我们提出了一种稳健的替代方案：一种针对可信组件的安全状态保存机制，消除了在副本间复制可信状态的高昂成本。其核心是Aegis，这是首个专为使用可信组件的BFT协议设计的高效视图同步器。Aegis确保每个副本在任何视图中只有一个可信组件实例可以投票，即使可信组件在崩溃后重新启动或被敌对者克隆。在Aegis的基础上，我们引入了Pallas，这是首个能够在强敌对者控制固定数量的拜占庭副本并可能导致数量不定的可信组件崩溃的情况下保持安全性的BFT共识协议。我们确定了在部分同步条件下Pallas确保活跃性的敌对条件。在Amazon AWS上进行的大量地理分布式评估表明，Pallas在稳定条件下提供高性能且开销可忽略，吞吐量比现有协议高41%，延迟低29%。更重要的是，在其他协议失败的敌对条件下，Pallas仍能保持活跃性和优雅降级。</span></span></p><p cid="n687" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f2443-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f2443-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n689" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">167、Pando: Extremely Scalable BFT Based on Committee Sampling</span></span></p><p cid="n690" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">拜占庭容错（BFT）协议一直面临着可扩展性问题。事实上，随着副本数量n的增加，其性能会急剧下降。尽管已有大量工作试图实现可扩展性目标，但这些工作最多只能扩展到大约一百个副本，尤其是在低端机器上。在本文中，我们基于所谓的委员会采样方法开发了BFT协议，该方法选择一个小型委员会进行共识，并将结果传达给所有副本。然而，这种方法一直专注于拜占庭协议（BA）问题（仅考虑副本），而非拜占庭容错（BFT）问题（在客户端-副本模型中）；此外，该方法主要仅具有理论意义，因为实际上它适用于不切实际的大n值。我们基于委员会采样方法，在部分同步环境中构建了一个名为Pando的极其高效、可扩展且具有自适应安全性的BFT协议。我们在Amazon EC2上的评估表明，与现有协议相比，Pando可以轻松扩展到WAN环境中的一千个副本，实现62.57 ktx/秒的吞吐量。</span></span></p><p cid="n691" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s273-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s273-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n693" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">168、PANDORA: Lightweight Adversarial Defense for Edge IoT using Uncertainty-Aware Metric Learning</span></span></p><p cid="n695" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">资源受限的物联网设备的快速增长显著扩大了攻击面，暴露了网络中的关键漏洞。因此，依赖静态、基于签名的传统入侵检测系统已日益过时。现代攻击者现在采用复杂、自动化且通常是新颖（零日）的攻击，这些攻击可以轻易绕过此类传统防御。此外，现有基于机器学习的入侵检测模型在实际场景中往往难以处理概念漂移和无法泛化到未知威胁等挑战。为解决这些差距，我们引入了PANDORA（资源受限架构上的概率网络防御），这是一个用于检测边缘设备上零日攻击的新型端到端框架。PANDORA做出三项关键贡献：1）它学习不确定性感知的概率嵌入，以创建网络流量的鲁棒表示；2）它引入了一种新颖的概率流形结构和距离（PMSD）损失函数，实现了有效的零样本泛化；3）它利用高效的Mamba-专家混合（MoE）架构进行设备端部署。为验证我们的方法，我们还引入了TTDFIOTIDS2025数据集，这是一个新的高保真基准，包含复杂、程序生成的攻击。我们的广泛评估表明，PANDORA显著优于最先进的模型，在CICIDS2017上仅通过10次样本适应即可达到0.971的F1分数。关键的是，在域偏移条件下，其零样本检测准确率高达99%，并且在部署到树莓派时，保持约24 MB的低内存占用和高达4.26流/秒的吞吐量，证明了其在实时边缘安全中的实际可行性。</span></span></p><p cid="n696" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f713-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f713-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n698" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">169、Passive Multi-Target GUTI Identification via Visual-RF Correlation in LTE Networks</span></span></p><p cid="n699" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">LTE网络采用全球唯一临时标识符（GUTI）来保护用户免受永久国际移动用户身份（IMSI）的暴露，但我们表明，这些标识符可以通过被动观察在无需预先了解目标的情况下被解析并链接到特定设备。我们将带有时间戳的设备使用视觉观察与使用商用软件定义无线电（SDR）捕获的空中控制平面消息相关联。有限状态机（FSM）算法处理同步流以解析相机视场（FoV）内每个设备的GUTI，只要捕获相应的控制平面消息，仅需观察三次用户交互即可完成。在多个商业长期演进（LTE）网络进行的实地实验验证了多目标解析能力：在某些部署中，我们观察到GUTI可保持长达33天，且重新分配行为通常可被链接。一旦链接，这些长期存在的标识符通过被动监测寻呼消息和无线资源控制（RRC）消息，实现了从小区到寻呼区域范围的分层位置跟踪。与需要预先存在的标识符（如电话号码）和主动探测的主动IMSI捕获器或先前的GUTI攻击不同，我们的方法是仅监听模式，并可扩展到视场内的多个设备。</span></span></p><p cid="n700" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f2487-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f2487-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n702" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">170、PathProb: Probabilistic Inference and Path Scoring for Enhanced and Flexible BGP Route Leak Detection</span></span></p><p cid="n703" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">边界网关协议（BGP）缺乏内在安全性，使互联网容易受到路由泄漏等严重威胁。现有的检测方法存在二元分类僵化、误报率高以及权威AS关系数据稀疏等局限性。为应对这些挑战，本文提出了PathProb——一种新颖的范式，通过计算AS链路的拓扑感知概率分布和计算AS路径的合法性分数，灵活识别路由泄漏。我们的方法将蒙特卡洛方法与路由策略的整数线性规划公式相结合，以高效推导这些解决方案。我们使用真实的BGP路由跟踪和路由泄漏事件对PathProb进行了全面评估。结果表明，我们的推理模型在具有高置信度的验证数据集上优于最先进的方法。PathProb以98.45%的召回率检测真实世界的路由泄漏，同时将误报率比现有替代方法降低4.29~20.08个百分点。此外，PathProb的路径合法性评分使网络管理员能够动态调整路由泄漏检测阈值——根据其特定的误报容忍度和安全需求定制安全态势。最后，PathProb与新兴的路由缓解机制（如自治系统提供者授权（ASPA））无缝兼容，能够灵活集成以增强泄漏检测能力。</span></span></p><p cid="n704" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1691-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1691-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n706" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">171、Peering Inside the Black-Box: Long-Range and Scalable Model Architecture Snooping via GPU Electromagnetic Side-Channel</span></span></p><p cid="n707" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着深度神经网络（DNN）在自动驾驶和人脸识别等安全关键应用中的日益普及，它们也成为对抗性攻击的目标。然而，DNN的机密信息（包括模型架构）通常对攻击者隐藏。因此，对抗性攻击通常在黑盒环境下发起，这限制了其有效性。在本文中，我们提出了ModelSpy，一种基于GPU电磁（EM）泄漏的隐蔽DNN架构窥探攻击。ModelSpy能够在几米外甚至穿透墙壁提取完整的架构信息。ModelSpy基于一个关键观察：在DNN推理过程中，GPU会发出远场电磁信号，这些信号表现出特定于架构的幅度调制。我们开发了一个分层重建模型，从嘈杂的电磁信号中恢复细粒度的架构细节。为了提高对不同且不断演变的架构的可扩展性，我们设计了一个迁移学习方案，利用外部电磁泄漏与内部GPU活动之间的相关性。我们设计并实现了一个概念验证系统，以证明ModelSpy的可行性。我们在五款高端消费级GPU上的评估显示，ModelSpy在架构重建方面具有高准确性，包括97.6%的层分割准确率和94.0%的超参数估计准确率，工作距离可达6米。此外，ModelSpy重建的DNN与受害架构具有相当的性能，并能有效增强黑盒对抗性攻击。</span></span></p><p cid="n708" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s141-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s141-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n710" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">172、PhantomMap: GPU-Assisted Kernel Exploitation</span></span></p><p cid="n711" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">图形处理单元（GPU）已成为现代计算中的关键组件，推动了高性能渲染和并行处理的发展。其中，Arm公司的Mali GPU是在移动设备中部署最广泛的。与CPU端成熟且稳健的防御措施相比，GPU的安全保护仍然不足。因此，GPU已成为攻击者绕过CPU防御的首选目标。例如&#34;三角行动&#34;（Operation Triangulation）等重大事件已经证明，GPU端的漏洞可以被利用来危害系统安全。尽管威胁日益增加，对Mali GPU的全面深入的安全分析仍然缺失。为填补这一空白，我们首次对Mali GPU的内存映射机制进行了深入的安全分析，发现了两个新的安全弱点：分配-映射解耦和物理地址验证缺失。利用这些弱点，我们提出了PhantomMap，一种新颖的GPU辅助利用技术，可将有限的堆漏洞转化为强大的物理内存读写原语，无需特权能力或信息泄露即可绕过主流内核防御。为评估其安全影响，我们开发了一个静态分析工具，能够系统识别所有易受攻击的映射路径，在两种Mali驱动架构中发现了15个利用链。我们基于真实世界的CVE漏洞开发了15个端到端漏洞利用程序，进一步证明了PhantomMap的实用性，其中包括CVE-2025-21836的首个公开漏洞利用程序。最后，我们设计并实现了一个轻量级的驱动内缓解措施，在Pixel 6和Pixel 7设备上以最小的性能开销消除了根本原因。</span></span></p><p cid="n712" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f201-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f201-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n714" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">173、PhantomMotion: Laser-Based Motion Injection Attacks on Wireless Security Surveillance Systems</span></span></p><p cid="n715" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">无线安全监控系统因其日益提高的性价比而被广泛部署。运动检测通常被集成到这些系统中，作为其安全功能的核心，用于检测是否有人在监控范围内，然后触发系统开始录制或通知财产所有者。在本文中，我们提出了PhantomMotion，一种新的攻击框架，用于欺骗这些安全系统的运动检测功能。它可以通过将激光束瞄准运动检测范围来秘密地创建虚假运动刺激，并通过嗅探无线流量确认系统对刺激的响应。PhantomMotion不需要任何专业设备，也不需要在监控区域内进行物理运动。它包含一个集成了激光控制和WiFi嗅探的新型硬件平台，以及一种新的运动注入生成机制。我们开发了一款智能手机应用程序来实现PhantomMotion，并在18种流行的无线运动激活安全系统上验证了其有效性。实验结果表明，PhantomMotion能够始终生成虚假运动来成功触发这些系统，平均耗时12.8秒，激光点移动平均距离为1.1米。值得注意的是，我们验证了PhantomMotion可以在高达120米的距离上有效工作。</span></span></p><p cid="n716" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1454-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1454-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n718" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">174、Phishing in Wonderland: Evaluating Learning-Based Ethereum Phishing Transaction Detection and Pitfalls</span></span></p><p cid="n719" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">钓鱼攻击仍然是以太坊生态系统的一个重大威胁，占以太坊相关网络犯罪的50%以上，并促使基于机器学习的防御措施兴起。本文提出了一个综合框架，通过解决特征选择、类别不平衡、模型鲁棒性和算法优化等关键挑战，来增强以太坊交易中的钓鱼检测。通过对现有方法的系统性评估，我们确定了实践中的主要差距，特别是在特征处理和不可持续的性能提升方面。我们的分析和实证评估表明，所提出的框架提高了检测的泛化能力和有效性。这些研究结果强调了需要完善检测策略，以应对区块链领域日益复杂的钓鱼战术。</span></span></p><p cid="n720" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f694-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f694-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n722" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">175、PhishLang: A Real-Time, Fully Client-Side Phishing Detection Framework Using MobileBERT</span></span></p><p cid="n723" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们提出了PhishLang，这是首个完全基于客户端的反钓鱼框架，以基于Chromium的浏览器扩展形式实现。PhishLang利用轻量级语言模型(MobileBERT)实现钓鱼网站的实时、设备端检测。与难以应对规避性威胁的传统启发式或静态特征模型，以及对于客户端使用而言资源消耗过大的深度学习方法不同，PhishLang分析页面源代码的上下文结构，在检测性能上与几种最先进的模型相当，同时内存消耗比类似架构低多达7倍。在为期3.5个月的期间内，我们实时部署了该框架，成功识别了约26,000个钓鱼URL，其中许多是流行反钓鱼黑名单未检测到的，从而证明了PhishLang辅助当前检测措施的潜力。另一方面，该浏览器扩展超越了多种反钓鱼工具，在零日攻击期间检测到超过91%的威胁。PhishLang还表现出强大的对抗鲁棒性，通过解析器级防御和对抗性重训相结合的方式，抵抗了16类真实问题空间的规避攻击。为了帮助终端用户和研究社区，我们已经开源了PhishLang框架和浏览器扩展。</span></span></p><p cid="n724" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1037-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1037-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n726" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">176、PhyFuzz: Detecting Sensor Vulnerabilities with Physical Signal Fuzzing</span></span></p><p cid="n727" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">传感器漏洞可被物理信号攻击利用，导致传感器测量错误，危及依赖传感器做出关键决策的系统。尽管已有数百项研究发现了众多传感器漏洞，但它们都依赖于人工专家分析，需要耗时耗力的试错过程。缺乏自动化方法辅助检测传感器漏洞，已成为连接传感器安全研究与工业应用之间鸿沟的主要障碍。本文提出PhyFuzz，一种新的物理信号模糊测试范式，它依赖物理测试信号来检测现有及潜在的新型传感器漏洞，无需人工干预。为应对物理信号模糊测试带来的前所未有的挑战，如信号参数的无限搜索空间和多样化传感器硬件的黑盒设计，我们设计了一种独特的模糊测试算法，能够高效构建测试信号，并对传感器漏洞识别和评估进行有效的特征离散化。我们实现了PhyFuzz原型系统，支持声学、激光和电磁信号的模糊测试。实验表明，该系统能够在9种不同类型的13个传感器上识别出46个漏洞，其中包括6个未公开的案例。</span></span></p><p cid="n728" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f29-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f29-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n730" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">177、PIRANHAS: PrIvacy-Preserving Remote Attestation in Non-Hierarchical Asynchronous Swarms</span></span></p><p cid="n731" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">远程认证是评估远程设备完整性的基本安全机制。在实践中，现有协议缺乏公开可验证性和交互要求，这阻碍了认证方案的广泛采用。Ebrahimi 等人 (NDSS&#39;24) 的最新工作构建了公开可验证的非交互式远程认证，但却忽略了认证敏感系统的另一个重要要求：隐私保护。在物联网集群中，许多设备可能处理敏感数据，这些设备应产生单一的认证证明，同样存在此类需求。在本文中，我们同时应对这两个挑战。我们提出了 PIRANHAS，一种针对单个设备和集群的公开可验证、异步且匿名的认证方案。我们利用 zk-SNARKs 将任何经典的对称远程认证方案转换为非交互式、公开可验证且匿名的方案。验证者仅确认认证的有效性，而不了解任何关于相关设备的识别信息。对于物联网集群，PIRANHAS 使用递归 zk-SNARKs 对整个集群的认证证明进行聚合。我们的系统支持任意网络拓扑结构，并允许节点动态加入和离开网络。我们为单设备和集群场景提供了形式化安全证明，表明我们的构造满足所需的安全保证。此外，我们使用 Noir 和 Plonky2 框架提供了我们方案的开源实现，实现了仅 356ms 的聚合运行时间。</span></span></p><p cid="n732" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f526-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f526-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n734" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">178、Pitfalls for Security Isolation in Multi-CPU Systems</span></span></p><p cid="n736" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在嵌入式系统中，将多个CPU集成到单个系统芯片(SoC)中可以实现更高的性能，并将任务分离为独立的固件和优化架构。例如，ARM Cortex-M4核心可以运行主固件，而Cortex-M0核心可以运行实时操作系统(RTOS)。此类集成的安全影响仍不明确，例如，如果一个攻击者在某个CPU上执行代码，是否能够完全攻破第二个CPU或泄露受保护数据。在这项工作中，我们系统地识别了此类集成导致的安全问题，特别是与内存和外设访问控制相关的问题。这些问题源于在新多CPU系统中重用单CPU安全机制，如内存保护单元(MPU)。我们确定了此类系统中可能存在的四种主要攻击向量，并发现市场上大量系统似乎存在漏洞。这些攻击向量可能导致对另一个CPU受保护内存的任意读写，甚至导致代码执行。此外，我们发现一种流行的开源RTOS FreeRTOS[17]的通信机制（被建议作为多CPU系统上固件间的通信机制）在多CPU场景中引入了代码执行漏洞。随后，我们通过实施四种攻击向量验证了我们的理论预测，并证明了其实际有效性。此外，我们发现在一个案例中，发现的攻击面可能导致自定义可信执行环境(TEE)实现的攻破。我们向供应商负责任地披露了我们的发现，导致发布了安全公告并对专有网络栈实现进行了修复。</span></span></p><p cid="n737" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f971-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f971-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n739" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">179、PortRush: Detect Write Port Contention Side-Channel Vulnerabilities via Hardware Fuzzing</span></span></p><p cid="n740" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">CPU漏洞在现代CPU架构中持续构成安全挑战。在CPU漏洞中，写端口竞争——由多个功能模块同时竞争有限的共享写端口引起——仍未得到充分研究。本文研究了CPU中的写端口竞争侧信道漏洞，并提出了</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">PortRush</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">，一种新型模糊测试框架，用于在寄存器传输级（RTL）检测和验证此类漏洞。首先，PortRush构建</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">写请求图（WRG）</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">，通过建模目标共享存储单元的功能模块之间的写路径和优先关系，静态识别潜在的写端口竞争实例。其次，在WRG中，PortRush实现了</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">分层聚合和解码</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">方法，通过监控设计层次结构中的相关硬件信号，高效检测写端口竞争。第三，PortRush采用</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">竞争引导的硬件模糊测试</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">方法，触发写端口竞争，并将竞争触发的指令序列与瞬时执行攻击模式自动结合，从而验证写端口竞争侧信道漏洞。我们在三个RISC-V CPU（BOOM、NutShell和Rocket Core）上评估了PortRush，证明了其在识别和触发写端口竞争方面的有效性。此外，我们验证了所发现的漏洞可在实际的写端口竞争攻击场景中被利用。基于这些漏洞，我们提出了两种新型攻击向量：</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Birgus变体</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">，利用重排序缓冲区中物理寄存器文件的竞争；以及</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">MSHRush</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">，利用L1数据缓存中加载/存储单元（LSU）与缺失状态处理寄存器（MSHR）之间的竞争，以诱导依赖于秘密的执行延迟。我们还为CPU开发者提出了缓解此类漏洞的策略。</span></span></p><p cid="n741" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f587-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f587-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n743" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">180、Practical Traceable Over-Threshold Multi-Party Private Set Intersection</span></span></p><p cid="n744" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">带阈值的多方私密集合交集（MP-PSI）通过披露至少出现在t个参与者集合中的元素，而非要求元素出现在所有n个集合中，从而增强了MP-PSI的灵活性。在每位参与者负责其数据集的场景中，例如数字取证，带阈值的MP-PSI应披露交集元素及其对应持有者，以便元素可追溯，从而保证交集的可靠性。我们将支持可追溯性的带阈值MP-PSI称为可追溯超阈值多方私密集合交集（T-OT-MP-PSI）。然而，此类协议的研究仍然有限，当前解决方案能够抵抗t-2个半诚实参与者，但代价是巨大的计算开销。在本文中，我们提出了两种新颖的可追溯OT-MP-PSI协议。第一种是高效可追溯OT-MP-PSI（ET-OT-MP-PSI），它将Shamir秘密共享与可忽略可编程伪随机函数相结合，在抵抗最多t-2个半诚实参与者的同时显著提高了效率。第二种是增强安全性的可追溯OT-MP-PSI（ST-OT-MP-PSI），它通过进一步利用可忽略线性评估协议，实现了抵抗多达n-1个半诚实参与者的安全性。与Mahdavi等人最近的Traceable OT-MP-PSI协议相比，我们的协议消除了某些特殊参与者不共谋的安全假设，并提供了更强的安全保证。我们实现了所提出的协议并在各种设置下进行了广泛实验。我们将我们的协议与Mahdavi等人的协议进行了性能比较。尽管我们的可追溯OT-MP-PSI协议增强了安全性，但实验结果表明其具有高效率。例如，给定5个参与者，阈值为3，集合大小为2^14时，我们的ET-OT-MP-PSI协议比Mahdavi等人的协议快15056倍，而ST-OT-MP-PSI协议快505倍。</span></span></p><p cid="n745" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s38-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s38-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n747" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">181、PriSrv+: Privacy and Usability-Enhanced Wireless Service Discovery with Fast and Expressive Matchmaking Encryption</span></span></p><p cid="n748" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">服务发现是无线网络中的基本过程，使设备能够动态地查找并与服务通信，对于5G和物联网等现代系统的无缝运行至关重要。本文介绍了PriSrv+，一种针对现代无线网络和资源受限环境的先进隐私和可用性增强型服务发现协议。PriSrv+基于PriSrv（NDSS&#39;24），通过解决在表达性、隐私性、可扩展性和效率方面的关键局限性，同时保持与广泛使用的无线协议（如mDNS、BLE和Wi-Fi）的兼容性。PriSrv+的一个关键创新是开发了快速且表达性强的匹配加密（FEME），这是第一个能够支持具有无界属性宇宙的表达性访问控制策略的匹配加密方案，允许使用任意字符串作为属性。FEME显著增强了服务发现的灵活性，同时确保了强大的消息和属性隐私。与PriSrv相比，PriSrv+优化了加密操作，加密速度提高了7.62倍，解密速度提高了6.23倍，并将密文大小减少了87.33%。此外，与PriSrv相比，PriSrv+将服务广播的通信成本降低了87.33%，匿名相互认证的通信成本降低了86.64%。形式化安全证明确认了FEME和PriSrv+的安全性。在多个平台上的广泛评估表明，与现有最先进的协议相比，PriSrv+实现了卓越的性能、可扩展性和效率。</span></span></p><p cid="n749" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s87-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s87-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n751" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">182、PrivATE: Differentially Private Average Treatment Effect Estimation for Observational Data</span></span></p><p cid="n752" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">因果推断在多学科科学研究中发挥着关键作用。从观测数据中估计因果效应，特别是平均处理效应（ATE），已引起广泛关注。然而，从现实世界观测数据计算ATE会对用户造成严重的隐私风险。差分隐私提供了严格的理论保证，已成为隐私保护数据分析的标准方法。然而，现有的差分隐私ATE估计研究依赖于特定假设，提供的隐私保护有限，或无法提供全面的信息保护。为此，我们引入了PrivATE，一个确保差分隐私的实用ATE估计框架。实际上，不同场景需要不同程度的隐私保护。例如，在教育评估中，只有测试成绩通常是敏感信息，而所有类型的医疗记录数据通常都是私有的。为了适应不同的隐私需求，我们在PrivATE中设计了两个级别的隐私保护（即标签级和样本级）。通过推导自适应匹配限制，PrivATE有效平衡了噪声引起的误差和匹配误差，从而实现了更准确的ATE估计。我们的评估验证了PrivATE的有效性。在所有数据集和隐私预算下，PrivATE均优于基线方法。</span></span></p><p cid="n753" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1350-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1350-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n755" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">183、PrivCode: When Code Generation Meets Differential Privacy</span></span></p><p cid="n756" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLMs）在代码生成和补全方面表现出色。然而，在私有数据集上对这些模型进行微调可能会引发隐私和专有性问题，例如敏感个人信息的泄露。差分私有（DP）代码生成通过生成保留统计特性同时减少隐私泄露担忧的合成数据集，为保护敏感代码提供了理论保证。然而，DP代码生成面临着严格的语法依赖性和隐私-效用权衡的显著挑战。我们提出了PrivCode，这是首个专门为代码数据集设计的DP合成器。它采用两阶段框架来提高隐私性和效用性。在第一阶段，称为&#34;隐私净化&#34;，PrivCode通过使用DP-SGD训练模型并引入语法信息来保留代码结构，生成符合DP要求的合成代码。第二阶段，称为&#34;效用提升&#34;，在无隐私风险的合成代码上对更大的预训练LLM进行微调，以减轻DP造成的效用损失，提高生成代码的效用性。在四个LLMs上的广泛实验表明，在四个基准测试的各种测试任务中，PrivCode生成的代码具有更高的效用。实验还证实了它在不同隐私预算下保护敏感数据的能力。我们在匿名链接提供了复制包。</span></span></p><p cid="n757" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f936-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f936-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n759" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">184、PrivORL: Differentially Private Synthetic Dataset for Offline Reinforcement Learning</span></span></p><p cid="n760" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">最近，离线强化学习（RL）已成为一种流行的强化学习范式。在离线强化学习中，数据提供者共享预先收集的数据集——无论是作为单个转换还是形成轨迹的转换序列——以实现强化学习模型（也称为智能体）的训练，而无需直接与环境交互。与传统强化学习相比，离线强化学习减少了与环境的交互，并在导航任务等关键领域已证明其有效性。同时，关于离线强化学习数据集隐私泄露的担忧也随之出现。为了保护离线强化学习数据集中的私人信息，我们提出了首个差分隐私（DP）离线数据集合成方法PrivORL，该方法分别利用扩散模型和扩散转换器在差分隐私条件下合成转换和轨迹。然后，合成数据集可以安全地发布用于下游分析和研究。PrivORL采用在公共数据集上预训练合成器，然后使用差分随机梯度下降（DP-SGD）在敏感数据集上进行微调的流行方法。此外，PrivORL引入了由好奇心驱动的预训练，该方法利用好奇心模块的反馈来多样化合成数据集，从而能够生成与敏感数据集高度相似的多样化合成转换和轨迹。在五个敏感离线强化学习数据集上的广泛实验表明，与基线方法相比，我们的方法在差分隐私转换和轨迹合成中实现了更好的效用和保真度。复制包可通过匿名链接获取。</span></span></p><p cid="n761" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f149-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f149-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n763" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">185、Prompt Injection Attack to Tool Selection in LLM Agents</span></span></p><p cid="n764" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">工具选择是LLM智能体的关键组成部分。一种流行的方法遵循两步过程——检索和选择——从工具库中为给定任务选择最合适的工具。在这项工作中，我们引入了ToolHijacker，这是一种针对无框场景中工具选择的新型提示注入攻击。ToolHijacker将恶意工具文档注入工具库，以操纵LLM智能体的工具选择过程，迫使其始终为攻击者选择的目标任务选择攻击者的恶意工具。具体而言，我们将此类工具文档的制定表述为一个优化问题，并提出了一种两阶段优化策略来解决它。我们广泛的实验评估表明，ToolHijacker非常有效，在应用于工具选择时，显著优于现有的基于手动和自动化的提示注入攻击。此外，我们探索了各种防御措施，包括基于预防的防御（StruQ和SecAlign）和基于检测的防御（已知答案检测、DataSentinel、困惑度检测和窗口化困惑度检测）。我们的实验结果表明，这些防御措施不足，凸显了开发新防御策略的迫切需求。</span></span></p><p cid="n765" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s675-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s675-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n767" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">186、ProtocolGuard: Detecting Protocol Non-compliance Bugs via LLM-guided Static Analysis and Dynamic Verification</span></span></p><p cid="n769" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">网络协议实现应严格遵循其规范以确保可靠和安全的通信。然而，自然语言规范的固有歧义常导致开发者的误解，使协议实现偏离标准行为。这些偏差会导致细微的不合规错误，引发互操作性和关键安全问题。与内存损坏错误不同，这类错误通常不表现出明显的错误行为，导致现有的错误预言机制不足以全面检测它们。此外，现有工作需要大量手动工作来验证发现和分析根本原因，严重限制了它们的实际可扩展性。</span></span></p><p cid="n770" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出了ProtocolGuard，一个新颖的框架，通过结合大语言模型（LLM）引导的静态分析与基于模糊测试的动态验证，系统性地检测不合规错误。ProtocolGuard首先使用混合方法从协议规范中提取规范性规则，并执行LLM引导的程序切片，提取与每条规则相关的代码片段。然后，它利用LLM检测这些规则与代码逻辑之间的语义不一致，并动态验证这些错误是否可以被触发。为便于错误验证，ProtocolGuard首先使用LLM自动生成断言语句并对代码进行插桩，将静默的不一致转变为可观察的断言失败。接着，借助LLM生成更有可能触发错误的初始测试用例进行动态验证。最后，ProtocolGuard动态测试插桩后的代码，确认错误识别并生成概念验证测试用例。</span></span></p><p cid="n771" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们实现了ProtocolGuard的原型，并在11个广泛使用的协议实现上对其进行了评估。ProtocolGuard以高精度成功发现了158个不合规错误，其中70个已得到确认，且大多数可以转换为断言并进行动态验证。与现有最先进工具的对比表明，在错误检测能力方面，ProtocolGuard在精确率和召回率上都优于它们。</span></span></p><p cid="n772" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f521-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f521-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n774" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">187、Pruning the Tree: Rethinking RPKI Architecture from the Ground up</span></span></p><p cid="n775" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">资源公钥基础设施（RPKI）是BGP的关键安全机制，但随着其采用规模的扩大，其架构复杂性日益成为关注点。当前RPKI设计大量重用了传统PKI组件，如X.509 EE证书、ASN.1编码和基于XML的存储库协议，这些引入了过多的密码验证、冗余元数据以及在存储和处理方面的低效。我们表明，这些设计选择虽然基于既定标准，但造成了显著的性能瓶颈，增加了攻击面，并阻碍了大规模互联网部署的可扩展性。在本文中，我们首次对RPKI设计中复杂性的根本原因进行了系统性分析，并通过实验量化了它们在现实世界中的影响。我们表明，RPKI依赖方超过70%的验证时间花费在证书解析和签名验证上，其中大部分是不必要的。基于这一见解，我们引入了改进的RPKI（iRPKI），这是一种向后兼容的重新设计，在保留所有安全保证的同时显著减少了协议开销。iRPKI消除了EE证书和ROA签名，合并了撤销和完整性对象，用Protobuf替换了冗长的编码，并重新构造了存储库元数据以实现更高效的访问。我们通过实验证明，在Routinator验证器中实现的iRPKI实现了处理时间20倍的加速，带宽需求18倍的改进，缓存内存占用8倍的减少，同时消除了已在RPKI软件中导致至少10个漏洞的漏洞类别。iRPKI显著提高了在互联网中特别是在受限环境中大规模部署RPKI的可行性。我们的设计可以增量部署而不会影响现有操作。我们开源了我们的设计、对象模板、发布点软件和RP实现，以促进iRPKI集成到当前RPKI部署中，并能够复现我们的研究。我们进一步提供了如何从我们提出的改进中推导新RPKI规范的建议，以促进标准化。</span></span></p><p cid="n776" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s823-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s823-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n778" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">188、Prεεmpt: Sanitizing Sensitive Prompts for LLMs</span></span></p><p cid="n780" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型(LLMs)的兴起带来了新的隐私挑战，特别是在推理过程中，提示中的敏感信息可能暴露给专有的LLM API。在本文中，我们解决了在保持响应质量的同时正式保护提示中包含的敏感信息的问题。为此，首先，我们引入了一种受密码学启发的&#34;提示净化器&#34;概念，用于转换输入提示以保护其敏感标记。其次，我们提出了Pr$epsilonepsilon$mpt，一个实现提示净化器的系统，专注于仅能从各个标记中推导出的敏感信息。Pr$epsilonepsilon$mpt将敏感标记分为两类：(1)LLM的响应仅依赖于格式的标记(如社会保障号、信用卡号)，对此我们使用格式保留加密(FPE)；(2)响应依赖于特定值的标记(如年龄、薪资)，对此我们应用度量差分隐私(mDP)。我们的评估表明，Pr$epsilonepsilon$mpt是一种实现有意义隐私保证的实用方法，与未净化的提示相比保持了高效用，并优于先前的方法。</span></span></p><p cid="n781" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1277-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1277-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n783" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">189、Q-MLLM: Vector Quantization for Robust Multimodal Large Language Model Security</span></span></p><p cid="n784" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">多模态大型语言模型（MLLMs）在跨模态理解方面展现出令人印象深刻的能力，但尽管拥有强大的文本安全机制，仍易通过视觉输入受到对抗性攻击。这些弱点源于两个核心问题：视觉表示的连续性使得基于梯度的攻击成为可能，以及基于文本的安全机制无法充分迁移到视觉内容。我们提出了Q-MLLM，一种新颖的架构，通过集成两级向量量化来创建对抗性攻击的离散瓶颈，同时保留多模态推理能力。通过在像素块和语义级别对视觉表示进行离散化，Q-MLLM能够阻断攻击路径并弥合跨模态安全对齐的差距。我们的两阶段训练方法确保了稳健的学习同时保持模型效用。实验表明，Q-MLLM在抵御越狱攻击和有毒图像攻击方面的防御成功率显著优于现有方法。值得注意的是，除一个可争议的案例外，Q-MLLM对越狱攻击实现了完美的防御成功率（100%），同时在多个效用基准测试上保持有竞争力的性能，且推理开销最小。这项研究确立了向量量化作为安全多模态AI系统的有效防御机制，无需昂贵的特定安全微调或检测开销。</span></span></p><p cid="n785" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s407-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s407-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n787" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">190、QNBAD: Quantum Noise-induced Backdoor Attacks against Zero Noise Extrapolation</span></span></p><p cid="n788" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">变分量子算法（VQA）已成为在嘈杂中等规模量子（NISQ）时代实现实用量子优势的最有前景的范例之一。为了提高VQA在嘈杂硬件上的计算精度，零噪声外推（ZNE）已成为一种广泛采用且有效的错误缓解技术。然而，对ZNE的日益依赖也增加了识别潜在对抗性攻击的重要性。我们审视了现有的后门攻击，并强调了它们为何难以破坏ZNE。具体而言，仅修改电路结构的量子后门攻击只会移动理想输出而不影响噪声相关的外推过程，从而使ZNE保持完整。同样，不考虑设备特定噪声而训练的参数级后门在不同硬件平台上表现出不一致的行为，导致不可靠或无效的攻击。基于这些观察，我们发现了一类新的后门漏洞，专门针对ZNE的独特属性。在本研究中，我们提出了QNBAD，这是一种针对ZNE的新型隐蔽后门攻击。QNBAD经过精心设计，可在大多数设备上保持变分量子电路的正确功能。然而，在特定的噪声模型下，它利用量子噪声与电路结构之间的微妙相互作用，系统性地操纵不同噪声水平下的采样期望值。这种有针对性的干扰破坏了ZNE拟合过程，并导致显著偏差的最终估计。与先前的后门方法相比，QNBAD在四个平台和六个应用中实现了绝对误差放大1.68倍至11.7倍的显著提升。此外，它在各种拟合函数和ZNE变体中保持有效。</span></span></p><p cid="n789" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1665-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1665-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n791" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">191、ReFuzz: Reusing Tests for Processor Fuzzing with Contextual Bandits</span></span></p><p cid="n792" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">处理器设计依赖于迭代修改和重用成熟的设计。然而，这种对先前设计的重用也导致多个处理器之间存在相似的漏洞。随着处理器通过迭代修改变得越来越复杂，高效检测现代处理器中的漏洞变得至关重要。受软件模糊测试的启发，硬件模糊测试最近已证明其在检测处理器漏洞方面的有效性。然而，据我们所知，现有的处理器模糊测试器单独测试每个设计，缺乏理解先前处理器中已知漏洞的能力，无法微调模糊测试以识别相似或新的漏洞变体。为了解决这一差距，我们提出了</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">ReFuzz</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">，一个自适应模糊测试框架，它利用上下文老虎机来重用来自先前处理器的高度有效测试，以在给定ISA内测试目标处理器（PUT）。通过智能修改能触发先前处理器漏洞的测试，</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">ReFuzz</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">能够检测PUT中的相似漏洞和新变体。</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">ReFuzz</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">发现了三个新的安全漏洞和两个新的功能错误。</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">ReFuzz</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">通过重用触发先前处理器中已知漏洞的测试，检测到一个漏洞。一个功能错误存在于共享设计模块的三个处理器中。第二个错误有两个变体。此外，与现有的模糊测试器相比，</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">ReFuzz</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">通过重用高度有效的测试来提高覆盖率效率，实现了平均511.23倍的覆盖率加速和高达9.33%的额外总覆盖率。</span></span></p><p cid="n793" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f118-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f118-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n795" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">192、Repairing Trust in Domain Name Disputes Practices: Insights from a Quarter-Century’s Worth of Squabbles</span></span></p><p cid="n796" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">《统一域名争议解决政策》（UDRP）旨在平衡两个相互竞争的目标：赋予商标持有人迅速解决域名滥用的权力——例如销售经常绕过黑名单等技术保护措施的假冒商品，并保护注册人免受过度主张商标的当事人采取的激进法律策略。自实施以来，UDRP已成为超过一千二百个域名扩展的实际争议解决机制，比最初的三个有了显著增加。然而，尽管取得了成功，批评者认为该政策助长了破坏信任和公平的做法。不幸的是，由于缺乏大规模结构化数据，有意义的改革努力陷入停滞，这限制了实证评估，并使基础性问题在过去二十多年中一直悬而未决。为解决这一长期存在的空白，我们训练了模型从90,153个UDRP争议程序中提取结构化数据，从而实现了迄今为止对该政策最全面的实证分析。我们的研究结果揭示了几个问题，显示在几乎所有争议中近三分之一的案件存在&#34;法庭选购&#34;现象，43个案例中存在潜在的利益冲突，以及许多当事人的延迟回应时间远超预期——所有这些都影响了UDRP的感知公平性和效率。除了侵蚀信任外，这些问题还带来了严重的安全挑战：在专家组下令转移域名后，2,751个恶意域名仍在恶意行为者控制下长达四个月。总体而言，我们的研究结果强调了政策改革的必要性，以帮助恢复信任并提高互联网应对商标侵权的实际标准的透明度。基于我们的发现，我们建议引入更多自动化、加强监督和执行更明确的合规规则，以确保UDRP继续成为基于商标的名称争议的可靠工具——特别是在互联网随着新的通用顶级域名（2026年）和日益敌对的数字环境不断扩张的背景下。</span></span></p><p cid="n797" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s174-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s174-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n799" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">193、Rethinking Fake Speech Detection: A Generalized Framework Leveraging Spectrogram Magnitude</span></span></p><p cid="n800" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">受深度学习进步驱动的语音合成技术已取得了显著的逼真效果，使其能够在各个领域实现多样化应用。然而，这些技术也可能被用来生成虚假语音，带来重大风险。尽管现有的虚假语音检测方法在受控环境中表现出有效性，但它们往往难以推广到未见过的场景，包括新的合成模型、语言和录音条件。此外，许多现有方法依赖于特定假设，且缺乏对虚假语音中固有伪影的全面理解。本文通过提出一种专注于分析语谱图幅度的新视角，重新思考了虚假语音检测任务。通过广泛分析，我们发现合成语音在语谱图的幅度表示中始终表现出伪影，如纹理细节减少和不同幅度范围的不一致性。利用这些见解，我们引入了一种新颖的无假设且通用的虚假语音检测框架。该框架基于幅度将语谱图分层表示，并利用二维和三维表示在空间和离散余弦变换（DCT）域中检测伪影。这种设计使框架能够有效捕捉虚假语音中固有的细粒度伪影和合成不一致性。大量实验表明，该框架在几个广泛使用的公共音频深度伪造数据集上取得了最先进的性能。此外，在涉及黑盒网络语音克隆API的真实场景评估中，突显了该框架的鲁棒性和实际适用性， consistently优于基线方法。</span></span></p><p cid="n801" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1024-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1024-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n803" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">194、Revealing The Secret Power: How Algorithms Can Influence Content Visibility on Twitter/X</span></span></p><p cid="n804" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，社交网络推荐算法的不透明设计和公众对其的有限理解引发了人们对信息曝光可能被操纵的担忧。降低内容可见性，即所谓的&#34;影子封禁&#34;，可能有助于限制有害内容；然而，它也可能被用来压制不同声音。这促使我们需要更大的透明度和对这一做法的更好理解。在本文中，我们通过对两个Twitter/X数据集进行大规模定量分析来研究可见性变化的存在，这些数据集包含来自900多万用户的超过4000万条推文，重点关注围绕乌克兰-俄罗斯冲突和2024年美国总统大选的讨论。我们使用浏览量来检测可见性降低或增加的模式，并检查这些模式如何与用户观点、社会角色和叙事框架相关联。我们的分析表明，算法系统性地惩罚包含外部资源链接的推文，将其可见性降低多达8倍，而不管其意识形态立场或来源可靠性如何。相反，内容可见性可能会根据产生它的特定账户而被惩罚或青睐，正如比较基辅独立报和RT.com的推文或唐纳德·特朗普和卡玛拉·哈里斯的推文时所观察到的那样。总体而言，我们的工作强调了内容审核和推荐系统透明度的重要性，以保护公共话语的完整性并确保对在线平台的公平访问。</span></span></p><p cid="n805" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s718-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s718-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n807" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">195、Revisiting Differentially Private Hyper-parameter Tuning</span></span></p><p cid="n808" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们研究了差分隐私在超参数调优中的应用，该过程涉及从多个候选运行中选择最佳运行。与许多隐私学习算法（包括普遍使用的DP-SGD）不同，选择最佳运行的隐私影响常常被忽视。尽管最近的研究提出了针对调优过程的通用隐私选择解决方案，但一个悬而未决的问题仍然存在：这种隐私上界是否紧密？本文从实证和理论两方面探讨了这一问题。最初，我们提供的研究证实了当前隐私分析中关于隐私选择的结论在一般情况下确实是紧密的。然而，当我们具体研究白盒环境下的超参数调优问题时，这种紧密性便不再成立。这一点首先通过对调优过程进行隐私审计得到证明。我们的研究结果表明，即使在强大的审计设置下，当前的理论隐私边界与经验隐私泄露之间仍存在显著差距。这一差距促使我们进行后续的理论研究，由于超参数调优具有独特性质，我们为其提供了改进的隐私上界。我们的改进边界带来了更好的效用。与之前仅限于特定参数配置的分析相比，我们的分析还展示了更广泛的应用性。总体而言，我们对理解因&#34;选择&#34;导致的隐私退化做出了贡献。</span></span></p><p cid="n809" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s447-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s447-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n811" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">196、Robust Fraud Transaction Detection: A Two-Player Game Approach</span></span></p><p cid="n812" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于机器学习（ML）的欺诈检测系统被企业广泛采用，以减少欺诈活动造成的经济损失。然而，欺诈者具有智能性且快速演变，采用先进技术伪造交易特征以规避检测系统。更糟糕的是，由于这些伪造过程不受小范围限制，基于小规模扰动的现有鲁棒性增强方法无效。检测不受限制扰动的欺诈活动显著增加了欺诈检测的不确定性，这仍然是一个开放性问题。为解决这一问题，我们提出了GAMER，一个基于双人博弈的鲁棒欺诈检测系统，在检测欺诈活动时实现了高准确性和强鲁棒性。具体而言，GAMER利用特征选择主动对抗欺诈检测中的智能欺诈者（即选择较少的特征以减少特征伪造的组合），并创新地将检测过程表述为双人博弈。通过求解双人博弈的均衡点，GAMER计算特征选择的最优概率，该概率考虑了欺诈者所有可能的伪造策略。基于均衡点的选择概率不仅最小化了欺诈者获得的收益，从而阻止他们发起伪造；还使系统能够在检测欺诈活动时选择鲁棒特征（即不太可能被伪造的特征），增强了系统在欺诈检测中的鲁棒性。我们的理论和实验结果验证了威慑和鲁棒性增强的特性。此外，对全球领先在线支付企业遭受的真实攻击进行的实验表明，GAMER优于传统的鲁棒性增强技术，在为期两个月的欺诈检测中平均将F1分数提高了67.5%。</span></span></p><p cid="n813" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1611-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1611-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n815" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">197、ropbot: Reimaging Code Reuse Attack Synthesis</span></span></p><p cid="n817" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">代码重用攻击是现代基于内存损坏攻击的最关键基石之一。然而，将代码片段(gadgets)拼接在一起的任务仍然是一个耗时且手动的过程。过去十年间已发表大量研究旨在自动化解决这个问题，但实践中很少被采用。这些解决方案在性能或支持的架构方面通常不切实际，或者无法生成有效的代码链。系统分析表明，它们都采用生成-测试方法，即首先枚举所有代码片段，然后使用符号执行或SMT求解器来推理哪些代码片段可以组合成链。不幸的是，这种方法随可用代码片段的数量呈指数级扩展，从而限制了在较大二进制文件上的可扩展性。在这项工作中，我们重新审视这一基本策略，并提出了一种新的代码片段分组方法，称为ROPBlock，它与代码片段有一个关键区别：ROPBlock保证可以链接。我们将ROPBlock的概念与图搜索算法相结合，提出了一种代码链接方法，与先前的工作相比显著提高了性能。我们将设置寄存器为攻击者指定值的时间复杂度从O(2^n)降低到O(n)。这在实践中带来了2-3个数量级的加速。同时，ROPBlock使我们能够建模复杂的代码片段——例如涉及ret2csu或包含条件分支的代码片段——而大多数其他方法在设计上无法考虑这些。由于ROPBlock与架构无关，我们的方法可以应用于多种架构。我们的原型工具ropbot在评估的所有37个二进制文件上平均2.5秒内即可生成调用dup-dup-execve的复杂真实世界代码链。除了一种方法外，所有其他方法都无法在此场景下生成任何代码链。对于需要设置六个寄存器值的困难场景——mmap链，ropbot找到的目标数量是第二佳技术的5倍。为了展示其多功能性，我们在x64、MIPS、ARM和AArch64上评估了ropbot。我们仅通过添加十二行代码就在不到两小时内添加了RISC-V支持。最后，我们证明ropbot在各自的数据集上优于所有现有工具。</span></span></p><p cid="n818" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f845-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f845-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n820" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">198、Rounding-Guided Backdoor Injection in Deep Learning Model Quantization</span></span></p><p cid="n821" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">模型量化是将深度学习模型部署在资源受限环境中的常用技术。然而，它也可能引入先前被忽视的安全风险。在这项工作中，我们提出了QuRA，一种利用模型量化来嵌入恶意行为的新型后门攻击。与依赖训练数据投毒或模型训练操作的传统后门攻击不同，QuRA仅通过量化操作工作。具体而言，QuRA首先采用一种新颖的权重选择策略来识别影响后门目标的关键权重（同时考虑保持模型整体性能）。然后，通过优化这些权重的舍入方向，我们在不降低准确率的情况下跨模型层放大后门效应。大量实验表明，QuRA在大多数情况下实现了接近100%的攻击成功率，且性能下降可忽略不计。此外，我们证明QuRA能够适应并绕过现有的后门防御措施，凸显了其威胁潜力。我们的研究结果强调了广泛使用的模型量化过程中的关键漏洞，强调了需要更强大的安全措施。我们的实现可在</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/cxx122/QuRA" target="_blank">https://github.com/cxx122/QuRA</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">获取。</span></span></p><p cid="n822" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s113-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s113-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n824" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">199、RoundRole: Unlocking the Efficiency of Multi-party Computation with Bandwidth-aware Execution</span></span></p><p cid="n825" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在隐私保护分布式计算系统如安全多方计算(MPC)中，跨方通信是主要瓶颈。过去二十年间，众多卓越协议被提出以降低整体通信复杂度，显著缩小了MPC与明文计算之间的差距。然而，这些进展常常忽视了一个关键方面：</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">非对称</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">通信模式。这种不平衡导致执行过程中产生大量带宽浪费，从而&#34;锁定&#34;了性能。本文提出了RoundRole，一种针对秘密共享MPC的带宽感知执行优化。其核心思想是将决定通信模式的逻辑角色与决定带宽的物理节点</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">解耦</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。通过将整体协议划分为并行任务，并为每个任务将每个逻辑角色战略性地映射到物理节点，RoundRole能够根据固有协议通信量和物理带宽有效分配通信工作负载。这种执行级别的优化充分利用了网络资源并&#34;解锁&#34;了效率。我们将RoundRole集成到广泛使用的开源MPC框架ABY3之上。在六种不同网络环境（具有同构和异构带宽）下对九种协议进行的广泛评估展示了显著的性能提升，最高可达7.1倍的加速比。</span></span></p><p cid="n826" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f52-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f52-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n828" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">200、RTCON: Context-Adaptive Function-Level Fuzzing for RTOS Kernels</span></span></p><p cid="n829" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">实时操作系统(RTOS)因其包含蓝牙和Wi-Fi等多种子系统而被广泛应用于嵌入式系统。随着其功能不断增长，其攻击面也随之扩大，使其面临更多的安全威胁。为应对这一问题，模糊测试等动态测试技术已被广泛应用于嵌入式系统。然而，对于RTOS，由于其复杂性，这些技术难以有效测试内核中深度嵌套的函数。在本文中，我们提出了RTCon，一种面向RTOS内核的上下文自适应函数级模糊测试工具。RTCon通过在模糊测试过程中自适应生成函数上下文，对RTOS内核中的任何目标函数进行函数级模糊测试。此外，RTCon采用多层分类方法根据置信度对崩溃进行分类，帮助分析师专注于高置信度崩溃。我们实现了RTCon的原型，并在四种流行的RTOS内核上进行了评估：Zephyr、RIOT、FreeRTOS和ThreadX。结果表明，RTCon发现了27个漏洞，其中包括25个新漏洞。我们向维护者报告了所有这些漏洞，并获得了14个CVE编号。RTCon在崩溃分类方面也展示了其有效性，高置信度崩溃的精确度达到92.7%，而低置信度崩溃的精确度仅为5.8%。</span></span></p><p cid="n830" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1600-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1600-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p style="display: none;"><mp-style-type data-value="3"></mp-style-type></p>



<p><a href="https://wechat2rss.xlab.app/link-proxy/?k=5b7f3597&amp;r=1&amp;u=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU0MzgzNTU0Mw%3D%3D%26mid%3D2247486060%26idx%3D2%26sn%3D75c9796f6cfd6cf0ea4c4ffd390dd333">跳转微信打开</a></p>
]]></content:encoded>
      <pubDate>Sun, 01 Mar 2026 14:04:00 +0800</pubDate>
    </item>
    <item>
      <title>NDSS 2026论文清单及摘要（下）</title>
      <link>https://mp.weixin.qq.com/s?__biz=MzU0MzgzNTU0Mw==&amp;mid=2247486060&amp;idx=3&amp;sn=b2d8e7d8dbdb8671d797ec81df76296f</link>
      <description></description>
      <content:encoded><![CDATA[<p><span>漏洞战争</span> <span>2026-03-01 14:04</span> <span style="display: inline-block;">广东</span></p>






  
  <p><img src="https://wechat2rss.xlab.app/img-proxy/?k=cec8f99c&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fsz_mmbiz_jpg%2FtJDT9c8t2swicHOqPapFS5l3o9ibmW1PkQ5YFbep07v6guMYWhUVlbJQtnElT8MS0JQmhIpic1zMGh19SriaV8wpRkibcKoBuXsr1J5qVia3P7eq8%2F0%3Fwx_fmt%3Djpeg"/></p>
  
  <p class="mp_profile_iframe_wrp" nodeleaf=""><mp-common-profile class="js_uneditable custom_select_card mp_profile_iframe" data-pluginname="mpprofile" data-nickname="漏洞战争" data-alias="vulwar" data-from="0" data-headimg="http://mmbiz.qpic.cn/mmbiz_png/icNlicgdbzSdWzbtNBGKasvuCIJ0vjJMt3QXRbMdakfbN6oq553ax43vZeJaD0QPnP4ktdfDS01vozNKsiapNz0SQ/0?wx_fmt=png" data-signature="谈人生，聊梦想，话安全，说风云" data-id="MzU0MzgzNTU0Mw==" data-is_biz_ban="0" data-service_type="1" data-verify_status="1"></mp-common-profile></p><p cid="n832" mdtype="paragraph" style="box-sizing: border-box;" data-pm-slice="0 0 []"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">201、RTrace: Towards Better Visibility of Shared Library Execution</span></span></p><p cid="n833" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">软件供应链安全近年来已成为一个关键问题。现代软件系统越来越多地依赖第三方依赖项来加速开发。共享库是现代软件系统中软件共享的主要形式，因此也是第三方依赖的主要形式。随着越来越多的攻击针对软件供应链，理解这些依赖项的行为对于识别漏洞和恶意代码至关重要。因此，准确追踪共享库内的函数调用对于有效的软件安全分析至关重要。然而，现有的库函数追踪工具往往无法满足这一需求。正如我们在本文中所展示的，最先进的库函数追踪工具在有效性和可扩展性方面存在局限，遗漏了大量函数调用，并且在处理更复杂的工作负载时失败，导致对运行时行为的不完整或误导性视图。在本文中，我们提出了RTrace，一个旨在解决现有解决方案局限性的追踪工具。我们分析了广泛使用的追踪工具遗漏函数调用的根本原因，并确定了常见陷阱，如依赖不正确的符号信息以及无法监控早期或间接的函数调用。RTrace通过结合全面的运行时监控、函数边界检测以及对隐式和非传统函数调用的支持，克服了这些挑战。我们将RTrace与四种最先进的追踪工具（即ltrace、drltrace、ldaudit和IntelPT）进行了比较。我们在21个应用程序和92个共享库上的评估表明，RTrace在检测函数调用方面显著优于现有工具。RTrace在所有基准测试中至少达到0.92的F1分数，而最好的现有追踪工具仅达到0.74，从而提供了对共享库运行时行为的更准确可见性。最后，我们展示了如何通过提供更完整的共享库函数使用视图，利用RTrace辅助检测恶意包和进行漏洞分析。</span></span></p><p cid="n834" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1243-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1243-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n836" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">202、SACK: Systematic Generation of Function Substitution Attacks Against Control-Flow Integrity</span></span></p><p cid="n837" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">控制流完整性（CFI）是一种广泛采用的防御控制流劫持攻击的技术，旨在限制间接控制传输到一组合法目标。然而，即使在精确的静态CFI策略下，攻击者仍然可以通过函数替换攻击（Sub攻击）来劫持控制流，即用一个仍然允许集合内的有效目标替换另一个有效目标。尽管先前的研究已经通过手动构建证明了此类攻击的可行性，但没有一种方法能够系统化、可扩展地端到端地构建这些攻击。在这项工作中，我们提出了SACK，这是第一个用于大规模自动构建Sub攻击的系统框架。SACK从良性执行中收集触发的间接调用目标，并在大型语言模型的协助下合成安全预言机。然后，它自动执行目标替换，并利用安全预言机检测安全违规，同时确保执行严格遵循精确的CFI策略。我们将SACK应用于七种广泛使用的应用程序，成功构建了419个危及关键安全功能的Sub攻击。我们进一步基于SQLite3、V8和Nginx中的历史漏洞开发了五个端到端漏洞利用程序，实现了任意命令执行或身份验证绕过。我们的研究结果表明，SACK提供了一个可扩展且自动化的管道，能够在不同应用程序中发现大量端到端攻击。</span></span></p><p cid="n838" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f2317-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f2317-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n840" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">203、SAGA: A Security Architecture for Governing AI Agentic Systems</span></span></p><p cid="n841" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于大型语言模型(LLM)的代理日益自主地相互交互、协作和委派任务，且与人类的互动最小化。代理系统治理的行业指南强调用户需要对其代理保持全面控制，以减轻恶意代理可能造成的潜在损害。多项提出的代理系统设计解决了代理身份、授权和委派问题，但仍停留在纯理论层面，缺乏具体实现和评估。最重要的是，它们不提供用户控制的代理管理。为解决这一差距，我们提出了SAGA，即可扩展的代理系统安全治理架构，使用户能够监督其代理的整个生命周期。在我们的设计中，用户向中央实体(提供者)注册其代理，该实体维护代理的联系信息、用户定义的访问控制策略，并帮助代理在代理间通信中执行这些策略。我们引入了一种用于派生访问控制令牌的密码学机制，可对代理与其他代理的交互进行细粒度控制，并提供正式的安全保证。我们在多个代理任务上评估了SAGA，使用位于不同地理位置的代理以及多种设备端和云端LLM，结果表明在广泛条件下，系统性能开销最小，且不影响底层任务效用。我们的架构实现了自主代理的安全可信部署，促进了该技术在敏感环境中的负责任应用。</span></span></p><p cid="n842" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s869-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s869-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n844" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">204、Scalable Off-chain Auction</span></span></p><p cid="n845" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">区块链拍卖在数字资产（如NFT）的价格发现中发挥着重要作用。然而，尽管其重要性显著，但在以太坊等区块链上直接实施拍卖会面临可扩展性问题。具体而言，链上交易的数量随竞标者数量增加而急剧下降，导致网络拥堵、交易费用上升和交易确认时间延长。这种可扩展性的缺失严重限制了系统处理当今经济中常见的大规模、高速拍卖的能力。在本工作中，我们构建了一个协议，使得拍卖商可以完全在链下进行密封投标拍卖，当各方行为诚实时；如果在n方拍卖协议中有k个竞标者偏离（例如，不公开其密封投标），则链上复杂度仅为O(k)。这优于现有解决方案，即使只有一个竞标者偏离协议，现有解决方案也需要O(n)的链上复杂度。在拍卖商恶意的情况下，我们的协议仍能确保拍卖成功终止。我们实现了该协议，并证明与现有链上解决方案相比，它提供了显著的效率提升。我们使用零知识简洁非交互知识论证（zkSnark）来实现可扩展性，这也确保了链上合约和其他参与者无法获取竞标者身份及其各自投标的信息，除了获胜者和中标金额。</span></span></p><p cid="n846" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s410-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s410-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n848" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">205、SECV: Securing Connected Vehicles with Hardware Trust Anchors</span></span></p><p cid="n849" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">现代车辆将车外网络（EVN）与车内网络（IVN）集成，以支持导航、诊断和空中更新。这种融合引入了EVN平台作为IVN网关处控制消息的新来源，打破了网关仅过滤来自简单、孤立且隐式信任的遗留ECU流量的传统假设。相反，EVN平台托管了一个具有完整操作系统和多个应用程序的复杂EVN管理器，大大扩大了攻击面：被攻破的操作系统或应用程序可以伪造规避网关过滤的控制消息。我们提出了SECV，一种运行时安全机制，使IVN网关能够准确验证源自EVN的控制消息，即使EVN管理器被攻破。sys在可信执行环境（TEE）内调解所有EVN到IVN的流量，执行每应用程序验证，并附加密码学证明。这些证明由IVN网关使用硬件安全模块（HSM）进行验证，提供低开销的可靠消息认证。SECV解决了TEE-HSM信任建立、实时调解和妥协情况下的稳健归属等实际挑战。在配备ARM TrustZone和符合EVIT标准的HSM的汽车SoC上实现，SECV仅提供6.5%的传输几何平均开销和极端通信突发期间的1.5%额外消息丢失，强制执行强大的安全保证，有效缓解源自EVN的攻击，同时满足实时约束。</span></span></p><p cid="n850" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f106-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f106-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n852" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">206、Select-Then-Compute: Encrypted Label Selection and Analytics over Distributed Datasets using FHE</span></span></p><p cid="n853" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">私有集合交集（PSI）协议允许查询者确定数据集中是否存在某项，而无需揭示查询内容或暴露不匹配的记录。它在欺诈检测、合规监控、健康分析和跨分布式数据源的安全协作等领域有广泛应用。在这些情况下，通过PSI获得的结果可能是敏感的，甚至在向查询者揭示结果之前，需要对相关数据进行某种形式的下游计算，这些计算可能涉及浮点运算，例如机器学习模型的推理。尽管已经提出了许多此类协议，其中一些甚至支持在分布式加密集合上进行安全查询，但它们未能解决上述现实世界的复杂问题。在这项工作中，我们首次提出了&#34;加密标签选择和分析&#34;协议构建，它允许查询者安全地检索不仅限于标识符之间的交集结果，还包括与相交标识符相关联的数据/标签的下游函数结果。为此，我们构建了一种基于近似CKKS全同态加密的新颖协议，支持对实值数据进行高效的标签检索和下游计算。此外，我们引入了几种技术来处理大域中的标识符（例如64位或128位），同时确保下游计算的高精度。最后，我们实现了并基准测试了我们的协议，将其与最先进的方法进行比较，并在真实世界的欺诈数据集上进行了评估，展示了其在大规模用例场景中的可扩展性和效率。我们的结果显示比先前方法快1.4倍至6.8倍，能够在65秒内对真实数据集上的加密标签进行选择和分析，使我们的协议在实际部署中具有实用性。</span></span></p><p cid="n854" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f207-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f207-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n856" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">207、Shadow in the Cache: Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference</span></span></p><p cid="n857" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">键值（KV）缓存通过存储中间注意力计算（键值对）以避免冗余计算，是加速大语言模型（LLM）推理的基本机制。然而，这种效率优化引入了显著但尚未充分探索的隐私风险。本文首次对这些漏洞进行了全面分析，证明攻击者可以直接从KV缓存中重建敏感的用户输入。我们设计并实现了三种不同的攻击向量：直接逆向攻击、适用范围更广且更强大的碰撞攻击，以及基于语义的注入攻击。这些方法证明了KV缓存隐私泄露问题的实际性和严重性。为缓解这一问题，我们提出了KV-Cloak，一种新颖、轻量且高效的防御机制。KV-Cloak使用基于可逆矩阵的混淆方案，结合算子融合，来保护KV缓存。我们的广泛实验表明，KV-Cloak有效阻止了所有提出的攻击，将重建质量降低到随机噪声水平。重要的是，它在几乎不损害模型准确性的情况下实现了这种强大的安全性，且性能开销极小，为可信LLM部署提供了实用的解决方案。</span></span></p><p cid="n858" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f258-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f258-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n860" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">208、Should I Trust You? Rethinking the Principle of Zone-Based Isolation DNS Bailiwick Checking</span></span></p><p cid="n861" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">DNS缓存投毒攻击通过向解析器中注入伪造的资源记录来秘密劫持域名访问。为应对此类攻击，解析器采用辖区检查（bailiwick checking）这一关键防御机制，旨在过滤DNS响应中可能存在的恶意记录。然而，在第三方服务背景下，域名所有权与传统自上而下的区域授权模型之间的不匹配，对辖区检查的有效性构成了重大挑战。本文对辖区检查的设计与实现进行了系统性分析，证明主流解析器普遍采用保守原则：它们会缓存任何满足最低约束的资源记录，而不管其与原始查询的直接相关性如何。基于这一发现，我们提出了一种新型缓存投毒攻击（称为&#34;布谷鸟域名&#34;）：攻击者通过控制单个子域名，可危害其父域名或兄弟域名。测试结果表明，包括BIND9和Microsoft DNS在内的七种主要DNS解析器实现存在漏洞。通过大规模测量研究，我们确认44.64%的开放解析器和21家主要公共DNS服务提供商也面临风险。此外，我们发现No-IP、ClouDNS和Akamai等7家提供商提供的超过百万个子域名可能易受此类攻击劫持。我们已进行了负责任的披露，向受影响的软件供应商和服务提供商报告了相关问题。BIND9、Unbound、PowerDNS和Technitium已确认我们的报告并分配了3个CVE编号。我们呼吁社区和软件厂商共同应对现代服务生态系统对辖区检查有效性提出的新挑战。</span></span></p><p cid="n862" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f330-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f330-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n864" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">209、Side-channel Inference of User Activities in AR/VR Using GPU Profiling</span></span></p><p cid="n865" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">过去十年，AR/VR设备彻底改变了我们与数字世界的交互方式。用户经常在这些设备上安装的第三方应用中分享敏感信息，如位置、浏览历史，甚至是财务数据，并假设这些信息受到恶意行为者的保护，处于安全环境中。最近的研究表明，恶意应用可以利用这些功能监控良性应用，通过跟踪用户活动，利用性能计数器API等细粒度分析工具。然而，并非所有AR/VR设备（如Meta Quest）都支持应用间监控，因为它们禁用了并发独立应用执行。在本文中，我们提出了OVRWatcher，一种面向AR/VR设备的新型侧通道原语，它通过后台脚本监控低分辨率（1Hz）的GPU使用情况来推断用户活动，这与依赖高分辨率分析的前期工作不同。OVRWatcher能够捕捉不同速度、距离和渲染场景下GPU指标与3D对象交互之间的相关性，无需并发应用执行、应用数据访问或额外SDK安装。我们证明了OVRWatcher在识别独立AR/VR和WebXR应用方面的有效性。OVRWatcher还能区分虚拟对象，例如沉浸式购物应用中真实用户选择的产品以及虚拟会议的参与者数量，从而揭示用户的产品偏好并可能暴露会议中的机密信息。OVRWatcher在应用识别方面实现了超过99%的准确率，在对象级推断方面实现了超过98%的准确率。</span></span></p><p cid="n866" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1302-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1302-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n868" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">210、SIPConfusion: Exploiting SIP Semantic Ambiguities for Caller ID and SMS Spoofing</span></span></p><p cid="n869" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">会话初始化协议（SIP）是现代实时通信系统的基石，为VoIP、VoLTE和RCS等服务中的语音通话、文本消息和多媒体会话提供支持。尽管SIP提供了身份验证和身份声明的机制，但其固有的灵活性可能导致不同实现之间存在语义歧义，从而被攻击者利用。在本文中，我们提出了SIPChimera，一种新颖的黑盒模糊测试框架，旨在系统性地识别SIP实现中基于身份歧义的身份欺骗漏洞。我们对六种广泛使用的开源SIP服务器（包括Asterisk和OpenSIPS）和九种流行的用户代理进行了SIPChimera评估，发现攻击者可以通过操纵身份头信息来欺骗身份并绕过身份验证。我们通过评估五种VoIP设备、七种商业SIP部署和三种运营商级基于RCS的短信平台，展示了这些漏洞的现实影响。我们的实验表明，攻击者可以利用这些漏洞在VoIP通话中进行来电显示欺骗，并通过RCS发送欺骗性短信，冒充任意用户或服务。我们已向相关供应商负责任地披露了我们的发现，并收到了积极确认。最后，我们提出了缓解这些问题的解决方案。</span></span></p><p cid="n870" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s116-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s116-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n872" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">211、Small Cell, Big Risk: A Security Assessment of 4G LTE Femtocells in the Wild</span></span></p><p cid="n873" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">femtocell是小型、由运营商部署的基站，旨在扩展移动网络覆盖范围，但它们与运营商移动基础设施的整合引入了显著的新攻击面。虽然5G femtocell标准最近才最终确定，但4G LTE femtocell已经标准化并广泛实施。在这项工作中，我们基于真实商业设备和大规模互联网测量，对4G LTE femtocell进行了首次系统性安全评估。我们系统分析了4款商业femtocell设备的软件和硬件，确定了5个关键且普遍存在的漏洞，这些漏洞可导致本地或远程系统被攻破。我们的全球互联网测量发现了86,108个疑似femtocell部署，其中许多容易受到远程攻击。此外，我们在真实运营商网络中实验验证了单个被攻破的femtocell可作为攻击移动核心网络及其订阅者的有力入口点。我们的研究结果表明，在现有4G LTE网络中，femtocell安全仍然是一个紧迫的关切问题。我们将研究结果报告给了全球移动通信系统协会（GSMA）和第三代合作伙伴计划（3GPP）服务与系统方面工作组3（SA3）。3GPP SA3随后批准了一项进一步强化5G femtocell安全的研究项目，以及一项定义5G femtocell安全保证规范（SCAS）的工作项目。</span></span></p><p cid="n874" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1968-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1968-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n876" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">212、SNPeek: Side-Channel Analysis for Privacy Applications on Confidential VMs</span></span></p><p cid="n878" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于可信执行环境（TEEs）的机密虚拟机（CVMs）能够实现新的隐私保护解决方案。然而，它们将侧信道泄漏排除在其威胁模型之外，将缓解此类攻击的责任转移给开发者。但是，这些缓解措施要么不够通用，要么在实际应用中速度太慢，而且开发者目前缺乏一种系统、高效的方法来测量和比较实际部署中的泄漏情况。在本文中，我们提出了SNPeek，一个开源工具包，它可在生产级AMD SEV-SNP硬件上提供可配置的侧信道跟踪原语，并结合基于统计和机器学习的分析流程，实现自动化的泄漏估计。我们将SNPeek应用于三个部署在CVM上以增强用户隐私的代表性工作负载——私有信息检索、私有频繁项和Wasm用户定义函数，并发现了先前未被注意到的泄漏，包括一个以497 kbit/s速率泄露数据的隐蔽信道。结果表明，SNPeek能够精确定位漏洞，并指导基于 oblivious memory 和差分隐私的低开销缓解措施，为从业者提供了一条具有实际意义的部署具有实质性保密保证的CVMs的路径。</span></span></p><p cid="n879" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f699-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f699-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n881" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">213、SoK: Analysis of Accelerator TEE Designs</span></span></p><p cid="n882" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">加速器可信执行环境（TEE）是一种流行技术，为加速器中的敏感数据/代码提供强大的机密性、完整性和隔离保护。然而，大多数研究针对特定CPU或加速器设计，因此缺乏通用性。最近的TEE调查部分总结了加速器计算中的威胁和保护措施，但尚未提供构建加速器TEE的指南，也未比较其安全解决方案的优缺点。本文多年来对加速器TEE进行了全面分析。我们总结了构建加速器TEE的典型框架，并归纳了从软件到物理攻击的广泛使用的攻击向量。此外，我们对加速器TEE的三大安全机制进行了系统化：(1)访问控制，(2)内存加密/解密，(3)认证。对于每个方面，我们比较了现有研究中不同的安全解决方案并总结了它们的见解。最后，我们分析了影响TEE在实际平台部署的因素，特别是关于可信计算基（TCB）和兼容性问题。</span></span></p><p cid="n883" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1424-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1424-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n885" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">214、SoK: Cryptographic Authenticated Dictionaries</span></span></p><p cid="n886" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们对认证字典（ADs）的研究进行了系统化整理——这是一种密码学数据结构，能够支持密钥透明度、二进制透明度、可验证键值存储以及完整性保留文件系统等应用。首先，我们提出了一个统一框架，概括了五种常见部署场景背后的信任和威胁假设。其次，我们提炼并调和了文献中分散的各种安全定义，明确了它们提供的保证以及各自的适用场景。第三，我们构建了AD结构的分类法，并分析了它们的渐近成本，揭示了一个明显的二元对立：所有已知方案要么在查找和更新操作上都需O(log n)时间，要么仅通过使另一操作付出O(n)的代价来实现某一操作的O(1)时间复杂度。令人惊讶的是，即使引入更强的信任假设，这一障碍仍然存在，这削弱了&#34;更多信任换取效率&#34;的直观认识。最后，我们提出了应用驱动的研究问题，包括现实的审计模型以及在当前完全不提供可验证完整性的系统中促进采用的激励机制。</span></span></p><p cid="n887" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1465-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1465-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n889" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">215、SoK: Take a Deep Step into Linux Kernel Hardening Effectiveness from the Offensive-Defensive Perspective</span></span></p><p cid="n890" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">尽管人们已付出巨大努力来加固Linux内核——这一支撑众多广泛使用的发行版（如Ubuntu、Debian、Fedora）的基础——但它仍然持续面临复杂且顽固的内存安全漏洞。在本研究中，我们引入了一个新颖的系统性框架，从攻击者的角度将内核利用分解为三个不同阶段。通过对2015年以来121个公开记录的漏洞利用进行综合分析，我们识别并分类了64个反复出现的攻击向量。利用这种结构化方法，我们对51个现有的内核防御机制进行了深入评估，清晰地映射了它们的覆盖范围、局限性、冗余性和相互依赖性。我们的研究结果揭示了显著的保护缺口：23个攻击向量完全没有得到保护，31个现有防御机制可以被绕过或已过时。此外，我们还发现流行下游发行版在理论有效性与实际部署之间存在显著差异，突显了四个主要发行版中4个未被充分利用的加固措施和配置错误。通过阐明这些关键缺口并提供可行的见解，我们的工作指导内核开发者和安全实践者加强防御策略并完善未来安全设计。</span></span></p><p cid="n891" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1725-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1725-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n893" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">216、SoK: Understanding the Fundamentals and Implications of Sensor Out-of-band Vulnerabilities</span></span></p><p cid="n894" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">传感器是信息物理系统(CPS)的基础，通过将物理刺激转换为数字测量值，实现感知和控制。然而，尽管对传感器物理攻击的研究日益增多，由于该领域的临时性特点，我们对传感器硬件漏洞的理解仍然零散。此外，无限的攻击信号空间进一步威胁抽象和防御复杂化。为解决这一差距，我们提出了一个系统化框架，称为传感器带外(OOB)漏洞，首次基于底层物理原理为传感器攻击面提供了全面抽象。我们采用自底向上的系统化方法，分析三个层面的OOB漏洞。在组件层面，我们确定导致OOB漏洞的物理原理和局限性。在传感器层面，我们对已知攻击进行分类并评估其实用性。在系统层面，我们分析传感器融合、闭环控制和智能感知等CPS特性如何影响OOB威胁的暴露和缓解。我们的研究结果为传感器硬件安全提供了基础理解，并为旨在构建更安全传感器和CPS的传感器设计师、安全研究人员和系统开发者提供了指导及未来方向。</span></span></p><p cid="n895" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s450-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s450-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n897" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">217、STIP: Three-Party Privacy-Preserving and Lossless Inference for Large Transformers in Production</span></span></p><p cid="n898" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">模型参数和用户数据的隐私对于基于Transformer的云服务（如在线聊天机器人）至关重要。虽然最近在安全多方计算和同态加密方面的进展提供了强大的密码学保证，但其计算开销使得它们对于大规模Transformer模型的实时推理变得不可行。在这项工作中，我们提出了一种实用的替代方案，在实际部署中平衡隐私和效率。我们引入了一个三方威胁模型，涉及模型开发者、云模型服务器和数据所有者，捕捉了实际AI服务的信任假设和部署条件。在该框架内，我们设计了一种基于半对称置换的保护机制，并提出了STIP，这是首个可在商用硬件上部署的大规模Transformer三方隐私保护推理系统。STIP在保持无损推理准确性的同时，正式限制了隐私泄露。为进一步保护模型参数，STIP集成了可信执行环境以抵御模型提取和微调攻击。我们在六种代表性的Transformer模型家族（包括多达700亿参数的模型）和三种部署设置下评估了STIP。STIP的效率与无保护的全云推理相当，例如，STIP在LLaMA2-7B模型上实现了31.7毫秒的延迟。STIP还表现出对用户数据和模型参数各种攻击的有效抵抗力。STIP已在我们专有的70B模型的生产环境中部署。在为期三个月的在线测试中，STIP仅带来12%的额外延迟，且未报告任何隐私事件，证明了其在生产规模AI系统中的实用性和稳健性。</span></span></p><p cid="n899" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s35-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s35-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n901" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">218、Strategic Games and Zero-Shot Attacks on Heavy-Hitter Network Flow Monitoring</span></span></p><p cid="n902" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">高频检测是线级DDoS缓解和速率限制的基础，然而其针对自适应攻击者的鲁棒性在很大程度上尚未被探索。我们构建了一个端到端评估框架，将高频检测逻辑嵌入到交换级模拟器中，并使用强化学习自动调整其参数，以对网络中的大象流进行速率限制。随后，我们将该保护系统与一个自适应攻击者对抗，该攻击者学习在规避检测的同时最大化吞吐量，并展示其能够将配置的带宽上限提高高达299%，暴露了系统性的盲点。为了加强监控系统，我们采用了一种联合对抗训练形式：检测器与攻击者共同进化，达到一种攻防纳什均衡，其中攻击者利用网络带宽的能力降低了2.2倍。最后，我们证明可以使用机器学习创建智能数据包合成器，能够在9个测试系统中的8个上执行带宽利用，而无需针对检测系统的任何先验知识。我们将其称为零次攻击，因为它不需要了解目标高频检测系统即可执行其功能。我们的开源框架有助于量化未被充分照亮的攻击面，并为对抗鲁棒的数据平面流监控提供了一种建设性方法。</span></span></p><p cid="n903" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1301-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1301-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n905" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">219、Success Rates Doubled with Only One Character: Mask Password Guessing</span></span></p><p cid="n906" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">虽然传统的全密码猜测攻击已被广泛研究，但很少有研究探索掩码密码猜测，即攻击者通过利用各种侧信道攻击（如肩窥、指纹和按键音频反馈）以某种方式获得了目标受害者的密码的部分信息（如长度和/或某些字符）。为了评估具有不同能力的掩码攻击者构成的威胁，我们研究了四种主要的掩码猜测场景，每种场景基于攻击者利用的不同类型的信息（例如，受害者密码的长度和某些字符）。我们首次通过提出两种密码模型（基于神经网络的PassSeq和基于概率统计的Kneser-Ney），系统地全面地描述了结合侧信道先验、可识别个人信息（PII）和先前泄露的（姐妹）密码的掩码猜测的影响。我们使用最大似然估计技术，提出了一种新的猜测次数估计方法，以准确高效地估计在给定密码模型下针对目标密码所需的猜测次数。在15个大规模数据集上的广泛实验证明了PassSeq和Kneser-Ney的有效性。特别是在十次猜测内：（1）当拖网攻击者知道受害者4位PIN码的字符组成（无顺序）时，成功率提高152%（从14%增至35%）；（2）当基于PII的定向攻击者知道受害者密码的长度时，成功率提高47%-82%；（3）如果该定向攻击者还知道受害者密码的一个字符（除长度外），成功率通常翻倍，达到7%-29%（而对于能够利用受害者姐妹密码的定向攻击者，这些数字将达到33%-73%）。为了进一步验证我们掩码猜测模型的实用性，我们从11种流行键盘（如苹果、戴尔、联想）收集了真实的按键音频数据，并复制了通过声学侧信道推断部分密码信息的攻击。实验表明，我们的PassSeq显著提高了现有按键推断攻击的成功率，在10次猜测内实现了额外5.6%-166.7%的改进。这项工作强调掩码密码猜测是一种值得更多关注的破坏性威胁。</span></span></p><p cid="n907" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1059-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1059-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n909" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">220、SVDefense: Effective Defense against Gradient Inversion Attacks via Singular Value Decomposition</span></span></p><p cid="n910" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">联邦学习（FL）能够在不共享原始数据的情况下实现协作模型训练，但容易受到梯度反转攻击（GIA），即攻击者通过共享的梯度重建私有数据。现有防御方法要么对嵌入式平台造成不切实际的计算开销，要么无法同时实现隐私保护和良好的模型效用。此外，许多防御方法可以被已获取防御细节的自适应攻击者轻易绕过。为解决这些局限性，我们提出了SVDefense，一种针对GIA的新型防御框架，利用截断奇异值分解（SVD）来模糊梯度更新。SVDefense引入了三项关键创新：自适应能量阈值，能够适应客户端的脆弱性；通道加权近似，选择性保留有效模型训练所需的关键梯度信息，同时增强隐私保护；以及层加权聚合，用于处理类别不平衡情况下的有效模型聚合。我们的广泛评估表明，在图像分类、人体活动识别和关键词识别等多个应用中，SVDefense通过提供强大的隐私保护且对模型精度影响最小，优于现有防御方法。此外，SVDefense适用于部署在各种资源受限的嵌入式平台上。论文接受后，我们将公开我们的代码。</span></span></p><p cid="n911" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s114-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s114-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n913" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">221、SYSYPHUZZ: the Pressure of More Coverage</span></span></p><p cid="n915" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">内核模糊测试能有效发现漏洞。虽然现有的内核模糊测试器主要专注于最大化代码覆盖率，但仅靠覆盖率并不能保证彻底的探索。此外，旨在最大化覆盖率的现有模糊测试器已进入平台期。这一紧迫情况凸显了需要一个新的方向：面向代码频率的内核模糊测试。然而，增加对低频内核代码的探索面临两个关键挑战：(1)资源限制使得在不导致任务爆炸的情况下难以调度足够的任务来探索低频区域。(2)随机突变常常会破坏针对低频区域的系统调用上下文依赖，降低模糊测试的有效性。在我们的论文中，我们首先通过评估Syzkaller在Linux内核中的表现，对不平衡代码覆盖率进行了细粒度研究，并作为回应，提出了SYSYPHUZZ，一个旨在增强对测试不足代码区域探索的内核模糊测试器。SYSYPHUZZ引入了选择性任务调度，以动态优先排序和管理探索任务，避免任务爆炸。它还采用上下文保持突变策略，降低破坏重要执行上下文的风险。我们将SYSYPHUZZ与最先进的(SOTA)内核模糊测试器Syzkaller和SyzGPT进行了比较评估。我们的结果表明，SYSYPHUZZ显著减少了探索不足的代码区域数量，发现了Syzkaller遗漏的31个独特漏洞和SyzGPT遗漏的27个漏洞。此外，SYSYPHUZZ还发现了Syzbot遗漏的5个漏洞，Syzbot在数百台虚拟机上持续运行，这证明了SYSYPHUZZ的有效性。为了评估SYSYPHUZZ对最先进模糊测试器的增强效果，我们将它与SyzGPT集成，产生了SyzGPTsysy，它发现了多33%的独有漏洞，凸显了SYSYPHUZZ的潜力。所有发现的漏洞都已负责任地披露给Linux维护者。我们在</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/HexHive/Sysyphuzz" target="_blank">https://github.com/HexHive/Sysyphuzz</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">上发布了SYSYPHUZZ的源代码，并正在尝试将其合并到Syzkaller中。</span></span></p><p cid="n916" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s921-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s921-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n918" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">222、Targeted Password Guessing Using k-Nearest Neighbors</span></span></p><p cid="n919" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着用户密码账户数量的不断增加，用户越来越倾向于重复使用密码。最近，已有大量研究致力于构建针对性的密码猜测模型来表征用户的密码重复使用行为。然而，现有研究主要专注于通过仅训练相似的密码对（例如，textnormal{texttt{Shark0301} → texttt{shark03}}）来表征微小的修改行为。这导致了过拟合问题，使得现有模型忽视了用户的大幅度修改行为（例如，textnormal{texttt{Shark0301} → texttt{Bear03}}）。为填补这一空白，本文引入了一种名为 emph{k}-最近邻针对性密码猜测（KNN-TPG）的新非参数方法。KNN-TPG构建了一个数据存储，保留了所有源密码的上下文向量以及目标密码的前缀。在生成新密码的过程中，KNN-TPG从数据存储中检索 emph{k} 个最近邻向量，以确保生成的密码更好地符合真实的密码分布。通过创造性地将KNN-TPG与我们提出的基于Transformer的密码模型相结合，我们提出了一个新的针对性密码猜测模型，即KNNGuess。在生成新密码的每一步，KNNGuess预测并利用三种不同的分布，旨在全面建模用户的密码重复使用行为。我们通过大量实验验证了KNNGuess模型和KNN-TPG方法的有效性，这些实验包括12个大规模真实世界密码数据集，包含48亿个密码。更具体地说，当用户在网站A的密码（即$pw_A$）被泄露时，在100次猜测内，KNNGuess猜测其在网站B的密码（即$pw_B$，且$pw_B$$neq$$pw_A$）的成功率对于普通用户为25.40%，对于安全意识较强的用户为10.26%，比其主要竞争对手高出8.52%-119.0%（平均55.33%）。与最先进的密码模型（即Pass2Edit和PointerGuess）相比，这一数值高出8.52%-27.66%（平均18.09%）。我们的研究结果表明，密码篡改攻击的威胁比用户预期的要高。</span></span></p><p cid="n920" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s2077-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s2077-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n922" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">223、Targeted Physical Evasion Attacks in the Near-Infrared Domain</span></span></p><p cid="n923" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">多种攻击依赖于红外光源或吸热材料，以在各种图像识别应用中不可察觉地欺骗系统，使其错误解读视觉输入。然而，几乎所有现有方法只能发起无目标攻击，并且由于用例特定约束（如位置和形状）而需要大量优化。本文提出了一种新颖、隐蔽且经济高效的攻击方法，能够生成有目标和无目标的对抗性红外扰动。通过使用现成的红外手电筒将透明薄膜上的投影投射到目标物体上，我们的方法首次能够在红外领域可靠地发起无激光有目标攻击。在数字和物理领域交通标志上的大量实验表明，与先前工作相比，我们的方法在各种攻击场景中（包括不同光照条件、距离和角度）具有更强的鲁棒性，并能取得更高的攻击成功率。同样重要的是，我们的攻击方法成本极低，部署成本不到50美元，仅需几十秒。最后，我们提出了一种基于分割的新型检测方法，能够有效抵御我们的攻击，F1分数高达99%。</span></span></p><p cid="n924" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1568-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1568-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n926" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">224、TBTrackerX: Fantastic Trigger Bots and Where to Find Malicious Campaigns on X</span></span></p><p cid="n927" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在线社交网络（OSNs）中的恶意行为者使用脚本控制的社会机器人，通过回复或评论与用户互动。这些机器人被编程为仅在帖子中出现特定触发关键词时才激活。我们将这类先进的上下文感知活动者称为触发机器人（TB）代理，其目的是欺骗用户为非法产品付款或泄露敏感的金融凭证。本文对TB代理的检测和特征进行了系统性和数据驱动的研究。我们介绍了TBTrackerX，这是一个为收集和分析TB活动而设计的新框架。使用该系统，我们从2,647个独特的TB代理中捕获了4,452个TB代理回复，这些回复针对我们的蜜罐账户，并揭示了与X平台上超过84K用户的互动。我们的研究结果表明，TB代理通过使用上下文相似的回复（相似度高达0.97）、表现出间歇性发布模式（爆发时间从15秒到5分钟不等）以及在活动高峰期后采用休眠行为来规避检测。此外，我们还识别出一个协调的TB生态系统，其特征是虚假的TB关注者和共享的TB主控者。这项研究强调了迫切需要更好的审核和检测机制来对抗这些复杂的社会媒体操纵形式。</span></span></p><p cid="n928" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1239-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1239-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n930" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">225、The Dark Side of Flexibility: Detecting Risky Permission Chaining Attacks in Serverless Applications</span></span></p><p cid="n931" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">现代无服务器平台通过将基础设施与函数级开发解耦，实现了应用的快速演进。然而，这种灵活性导致无服务器应用的去中心化函数级权限配置与集中式云访问控制系统之间存在根本性不匹配。我们观察到，这种不匹配通常会导致无服务器应用中的函数存在风险权限，攻击者可以利用这些风险权限链接多个函数来提升权限、接管账户，甚至横向移动以入侵其他账户。我们将此类攻击称为&#34;风险权限链接攻击&#34;。在本工作中，我们提出了一种自动化推理系统，能够检测可用于链接攻击的风险权限。首先，我们基于以攻击者为中心的模式抽象方法，明确捕获了来自不同函数和账户的独立权限如何合并为实际的攻击链。基于这种抽象，我们构建了一个模式引导的检测工具，用于发现现实世界无服务器应用中的可利用权限链。我们通过分析来自AWS和阿里云官方生产级应用仓库的无服务器应用，评估了我们的方法。结果表明，我们的分析发现了28个存在漏洞的应用，包括5个已确认的CVE、6个负责任的漏洞认可和1个安全赏金。这些发现表明，风险权限链接攻击不仅是理论风险，也是已经存在于商业无服务器部署中的结构性且可利用的威胁，其根源在于去中心化无服务器应用与集中式访问控制模型之间的根本性不匹配。</span></span></p><p cid="n932" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s819-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s819-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n934" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">226、The Heat is On: Understanding and Mitigating Vulnerabilities of Thermal Image Perception in Autonomous Systems</span></span></p><p cid="n935" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">热成像相机日益被视为自主系统中确保低能见度条件下感知能力的可行解决方案。自动驾驶汽车、机器人和无人机的热感知集成管线中集成了专业光学元件和先进信号处理技术，能够捕捉相对温度变化，并在传统可见光相机难以应对的场景（如夜间、雾天或大雨）中检测生物和物体。然而，热感知系统的安全性和可信度是否与传统相机相当，目前尚不清楚。我们的研究揭示了热图像处理中存在的三种新型漏洞，这些漏洞存在于热相机固有的均衡化、校准和透镜机制中。这些漏洞可由环境中自然存在或恶意放置的热源触发，改变感知到的相对温度，或产生时间控制的人工制品，从而阻碍障碍物避让功能的正常运行。我们系统分析了三种自主系统用热相机（FLIR Boson、InfiRay T2S、FPV XK-C130）中的漏洞，评估了它们对三种微调热物体检测器和两种可见光-热融合自动驾驶模型的影响。研究结果显示，由于均衡化过程中的缺陷，行人检测的平均精度下降了50%，融合模型下降了45%。最高时速40公里的真实道路测试显示，行人误检率高达100%，且能以91%的成功率制造虚假障碍物，这些影响在攻击结束后仍会持续数分钟。为解决这些问题，我们提出了并评估了三种新型威胁感知信号处理算法，能够动态检测并抑制攻击者引入的人工制品。我们的研究结果揭示了热感知过程的可靠性，旨在提高人们对该技术用于障碍物避避时局限性的认识。</span></span></p><p cid="n936" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s330-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s330-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n938" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">227、The Role of Privacy Guarantees in Voluntary Donation of Private Health Data for Altruistic Goals</span></span></p><p cid="n939" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">出于利他目的自愿捐赠私人健康信息，例如支持研究进展，是一种常见做法。然而，对数据滥用和泄露的担忧可能会阻碍人们捐赠其信息。隐私增强技术（PETs）旨在缓解这些担忧，从而实现安全私密的数据共享。本研究通过在Prolific平台招募参与者进行了一项情景调查（N=494），考察了美国人在四种PETs提供的通用保障下，为开发新治疗而捐赠医疗数据的意愿：数据过期、匿名化、目的限制和访问控制。研究探讨了验证这些保障的两种机制：自我审计和专家审计，并控制了混杂因素的影响，包括人口统计特征以及两种类型的数据收集机构：营利性和非营利性机构。我们的研究结果表明，受访者对非营利实体事先抱有极高的隐私期望，因此明确列出隐私保护措施对其整体感知影响甚微。相比之下，提供隐私保障提升了受访者对营利实体的隐私期望，使其与非营利组织的期望几乎持平。此外，尽管技术界建议将审计作为增加对PET保障信任的机制，但我们观察到关于此类审计透明度的效果有限。我们强调了这些发现相关的风险，并强调了未来跨学科研究工作的迫切需要，以弥合技术界与终端用户之间在审计PETs有效性认知方面的差距。</span></span></p><p cid="n940" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s518-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s518-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n942" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">228、There is No War in Ba Sing Se: A Global Analysis of Content Moderation in Large Language Models</span></span></p><p cid="n943" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLMs）被广泛用于信息获取，但其内容审核行为在不同地理和语言背景下差异显著。本文对来自15个领先LLMs的70多万条回复进行了首次全面分析，这些回复从12个地点使用1,118个涵盖五个类别的敏感查询（涉及13种语言）进行评估。我们发现存在显著的地理差异，审核率在不同地点间相对差异高达60%——例如，软审核（如回避性回复）在德语语境中出现率为14.3%，而在祖鲁语语境中为24.9%。按类别分析，其他（通常不安全）、仇恨言论和性内容比政治或宗教内容受到更严格的审核，其中政治内容显示出最大的地理变异性。我们还观察到在线和离线模型版本之间的差异，例如DeepSeek本地部署时的软审核率比通过API调用时高出15.2%。回复长度（和时间）分析显示，审核过的回复平均比未审核的回复短约50%。这些发现对AI公平性和数字平等具有重要意义，因为不同地点的用户获得的信息访问不一致。我们首次提供了LLM内容审核中地理跨语言偏差的系统证据，并展示了模型选择如何极大影响用户体验。</span></span></p><p cid="n944" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f593-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f593-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n946" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">229、ThinkTrap: Denial-of-Service Attacks against Black-box LLM Services via Infinite Thinking</span></span></p><p cid="n947" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLMs）已成为广泛应用的基础组件，包括自然语言理解与生成、具身智能和科学发现。随着其计算需求的持续增长，这些模型越来越多地被部署为云服务，使用户能够通过互联网访问强大的LLMs。然而，这种部署模式引入了一类新的威胁：通过无限推理的拒绝服务（DoS）攻击，攻击者精心设计输入，导致模型进入过长的或无限生成循环。这些攻击会耗尽后端计算资源，降低或拒绝向合法用户提供服务。为缓解此类风险，许多LLM提供商采用闭源、黑盒设置来隐藏模型内部结构。在本文中，我们提出了ThinkTrap，一种针对LLM服务的DoS攻击的新型输入空间优化框架，即使在黑盒环境中也能实施。ThinkTrap的核心思想是将离散令牌映射到连续嵌入空间，然后在利用输入稀疏性的低维子空间中进行高效的黑盒优化。此优化的目标是识别能够诱导先进LLMs进行延长或非终止生成的对抗性提示，以实现最小的令牌开销的DoS攻击。我们在多个商业闭源LLM服务上评估了所提出的攻击。结果表明，即使在远低于这些平台通常实施的限制性请求频率限制（通常每分钟10次请求，10 RPM）的情况下，该攻击仍可将服务吞吐量降低至原始容量的1%，在某些情况下甚至导致完全服务失效。</span></span></p><p cid="n948" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f639-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f639-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n950" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">230、Through the Authentication Maze: Detecting Authentication Bypass Vulnerabilities in Firmware Binaries</span></span></p><p cid="n951" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">嵌入式Web服务已广泛应用于路由器和网关等网络设备中。这些服务通常暴露在公共网络上，使其成为身份验证绕过攻击的诱人目标。此类漏洞允许攻击者无需有效凭据即可获得特权访问，对设备完整性和网络安全构成严重威胁。现有的检测技术主要依赖手动分析或刚性启发式方法，在面对多样化且不断发展的身份验证方案时效果不佳。我们提出了AuthSpark，一种用于检测固件二进制文件中身份验证绕过漏洞的新型动态分析框架。AuthSpark利用成功和失败身份验证尝试之间的执行轨迹相似性来定位凭据检查点，然后跟踪身份验证相关变量的传播以识别身份验证成功逻辑，最后采用具有特定任务能力调度和变异策略的自定义灰盒模糊测试器来探索绕过路径。我们在32个包含14个已知漏洞的真实设备固件上评估了AuthSpark。AuthSpark成功识别出44个凭据检查中的42个，并检测到所有14个已知漏洞。更重要的是，当应用于最新版本的固件时，AuthSpark发现了6个零日身份验证绕过漏洞，其中4个已获得官方编号（3个CVE和1个PSV）。这些结果凸显了AuthSpark的有效性及其发现真实系统中关键安全漏洞的潜力。</span></span></p><p cid="n952" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f2757-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f2757-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n954" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">231、Tickets to Hide: An Inside Look into the Anti-Abuse Ecosystem through Internal Abuse Data</span></span></p><p cid="n955" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">各种治理工具旨在打击互联网滥用行为——从删除受版权保护内容的立法到阻止垃圾邮件的屏蔽列表。反过来，这些工具依赖于行业标准来处理滥用行为：向网络所有者报告滥用情况并请求缓解措施。尽管许多托管服务提供商迅速采取行动以保持互联网环境的清洁，但有些则没有。这就引发了一个问题：哪种类型的滥用会得到后续处理，以及决定采取缓解措施或忽略所报告滥用的理由是什么。通过与荷兰执法部门的独特合作，我们获得了进入一家以滥用行为闻名的托管服务提供商运营后端的权限。对其内部滥用处理机制的罕见一瞥使我们能够研究影响反滥用行动的反滥用生态系统中的机制。我们发现，客户通知率高度依赖于报告者和滥用类别。与儿童性虐待材料(CSAM)和垃圾邮件相关的滥用报告会导致采取缓解措施，而关于版权侵权和端口扫描的报告则经常被忽视。诸如屏蔽、解除对等连接和执法部门查询等可能直接影响业务连续性的治理工具会影响客户通知，而个人滥用报告则容易被忽视。我们希望这项研究能够为政策制定者提供参考，使治理工具包与实际的滥用处理实践保持一致。</span></span></p><p cid="n956" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f468-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f468-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n958" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">232、Time and Time Again: Leveraging TCP Timestamps to Improve Remote Timing Attacks</span></span></p><p cid="n960" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">最著名的侧信道攻击之一是通过执行特定操作所需的时间来推断秘密信息。许多系统已被证明容易受到此类攻击，范围从加密算法、Web应用程序到微架构实现。通过网络连接利用这些侧信道泄露已被证明具有挑战性，这是由于往返时间的变化，即网络抖动。随着处理器速度变快导致时间差异变小，系统变得更复杂使得收集一致测量更加困难，以及网络拥塞加剧网络抖动，时序攻击已变得尤其具有挑战性。在这项工作中，我们引入了新的远程时序攻击方法，这些方法完全不受网络路径上的抖动影响，使其比基于往返时间的时序攻击效率提高数倍，并且能够检测到更小的时间差异。更具体地说，执行时间是从服务器在确认请求和发送响应时生成的TCP时间戳值推断出来的。此外，我们展示了如何利用对传入请求的顺序处理来扩展与秘密相关的操作时间，从而实现更准确的攻击。最后，通过广泛的测量和实际案例研究，我们证明了本文介绍的技术与其他时序攻击方法相比具有多种优势：需要更少的前提条件，任何基于TCP的协议都容易受到这些攻击，并且这些攻击可以分布式执行。</span></span></p><p cid="n961" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s893-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s893-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n963" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">233、Time will Tell: Large-scale De-anonymization of Hidden I2P Services via Live Behavior Alignment</span></span></p><p cid="n964" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">I2P（隐形互联网项目）是一种流行的匿名通信网络。尽管现有的I2P去匿名化方法专注于在大量网络流量中识别目标隐藏服务的潜在流量模式，但它们往往无法有效地扩展到由众多路由器组成的大型且多样化的I2P网络。在本文中，我们介绍了一种名为I2PERCEPTION的低成本方法，用于揭示I2P隐藏服务的IP地址。在I2PERCEPTION中，攻击者部署floodfill路由器来被动监控I2P路由器并收集其RouterInfo。我们分析了路由器信息发布机制，以准确识别路由器的加入（即开启）和离开（即关闭）行为，从而实现对I2P网络细粒度的实时行为推断。通过主动探测获取托管在I2P路由器之一上的目标隐藏服务的实时行为（即开启-关闭模式）。通过关联目标隐藏服务和I2P路由器的实时行为，我们缩小了与隐藏服务行为匹配的路由器集合，从而揭示隐藏服务的真实网络身份以实现去匿名化。通过在八个月内仅部署15个floodfill路由器，我们通过大量真实实验验证了我们方法的精确性和有效性。结果表明，I2PERCEPTION成功地去匿名化了所有受控的隐藏服务。</span></span></p><p cid="n965" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f114-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f114-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n967" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">234、TIPSO-GAN: Malicious Network Traffic Detection Using a Novel Optimized Generative Adversarial Network</span></span></p><p cid="n968" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">检测高级网络威胁，特别是零日漏洞，在网络安全中构成重大挑战。本文提出了TIPSO-GAN，一种用于检测恶意流量的优化生成对抗网络（GAN）。TIPSO-GAN通过将GAN训练构建为群体优化问题，利用集体智能进行复杂优化，解决了基于GAN的入侵检测系统（IDS）的常见问题，如训练不稳定性和模式崩溃。为了增强粒子群优化（PSO），TIPSO-GAN采用了三种策略：（1）自适应惯性权重以平衡探索与开发，（2）多样性保持策略以防止过早收敛，（3）反馈循环以重新初始化停滞粒子。TIPSO-GAN将迁移学习与时间衰减多头自注意力机制相结合，以优先考虑近期特征，有助于检测未见过的恶意流量。目标函数中结合重构损失和焦点损失，进一步确保正常样本的真实性，同时关注具有挑战性的恶意样本。在CIC-IDS2018、CICAPT-IIoT2024和CIC-DDoS2019数据集上，TIPSO-GAN分别实现了99.1±0.1、98.9±0.1和98.7±0.1的F1值，比最强基线模型高出0.2-1.0 F1，并超过了transformer IDS模型。在CICAPT-IIoT2024上，它达到了0.999±0.002的宏观PR-AUC，领先于次优方法（0.960±0.005）。在严格的零日评估中，TIPSO-GAN在LOFO测试中达到92.3 F1，在跨数据集实验中达到79-83 F1，同时保持召回率高于0.80。尽管经过PSO增强训练，TIPSO-GAN仍保持0.42毫秒延迟、约2400流/秒吞吐量和2.1 GB内存占用，性能稳定至10^8流。我们的代码可在</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/osampas27/tipsoganmod" target="_blank">https://github.com/osampas27/tipsoganmod</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">获取。</span></span></p><p cid="n969" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f3241-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f3241-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n971" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">235、To Shuffle or not to Shuffle: Auditing DP-SGD with Shuffling</span></span></p><p cid="n972" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">差分随机梯度下降（DP-SGD）算法支持以形式化差分隐私（DP）保证训练机器学习（ML）模型。传统上，DP-SGD使用泊松子采样在每个迭代中选择批次来处理训练数据。最近，由于更好的兼容性和更低的计算开销，洗牌已成为一种常见替代方案。然而，在洗牌下计算严格的理论DP保证仍然是一个开放问题。因此，使用洗牌训练的模型通常被评估为好像使用了泊松子采样，这可能导致不正确的隐私保证。这提出了一个引人入胜的研究问题：我们能否验证使用洗牌的最先进模型所报告的理论DP保证与其实际泄漏之间是否存在差距？为此，我们定义了新的DP审计程序来分析使用洗牌的DP-SGD，并衡量它们在不同批次大小、隐私预算和威胁模型下紧密估计隐私泄漏的能力。总体而言，我们证明使用这种方法训练的DP模型大大高估了其隐私保证（高达4倍）。然而，我们也发现理论泊松DP保证与洗牌实际隐私泄漏之间的差距并非在所有参数设置和威胁模型中都是一致的。最后，我们研究了洗牌过程的两种常见变体，这些变体会导致进一步的隐私泄漏（高达10倍）。总体而言，我们的工作强调了在没有严格分析方法的情况下使用洗牌而非泊松子采样的风险。</span></span></p><p cid="n973" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f597-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f597-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n975" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">236、Token Time Bomb: Evaluating JWT Implementations for Vulnerability Discovery</span></span></p><p cid="n976" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">JSON Web令牌（JWT）已成为现代分布式Web应用中安全信息交换的广泛采用标准，特别是在身份验证和授权场景中。然而，JWT的实现引入了各种漏洞，例如签名验证绕过、令牌欺骗和拒绝服务攻击。尽管先前研究已报告了此类个别漏洞，但缺乏对JWT实现的系统性研究。在本文中，我们提出了JWTFuzz，一种新颖的测试方法，用于有效发现JWT实现中的漏洞。我们对10种流行编程语言中的43个JWT实现进行了JWTFuzz评估，发现了31个先前未知的安全漏洞，其中20个已被分配CVE编号。我们展示了这些漏洞的安全影响，例如在Kubernetes中实现身份验证绕过和对Apache James的拒绝服务攻击。我们进一步将这些漏洞分为五类，并提出了几种缓解策略。我们与国际互联网工程任务组（IETF）讨论了我们的缓解策略，他们已认可我们的发现，并建议在新RFC文档中采用我们的缓解措施。我们还向相关提供商报告了已识别的漏洞，并收到了Apache、Connect2id、Kubernetes、Let&#39;s Encrypt和RedHat的确认和漏洞赏金奖励。</span></span></p><p cid="n977" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f697-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f697-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n979" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">237、Towards Effective Prompt Stealing Attack against Text-to-Image Diffusion Models</span></span></p><p cid="n981" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">以DALL·E和Midjourney为代表的文本到图像（T2I）模型因能创建逼真的图像而广受欢迎。这些图像的质量依赖于精心设计的提示词，这些提示词已成为宝贵的知识产权。虽然熟练的提示词创作者在市场上展示其AI生成的艺术作品以吸引买家，但这种业务无意使他们面临&#34;提示词窃取攻击&#34;。现有的最先进攻击技术通过针对特定模型的训练，从固定的修饰符集合（即风格描述）中重建提示词，这些技术在适应不同展示作品（即目标图像）和扩散模型方面表现出有限的适应性和有效性。为缓解这些限制，我们提出了Prometheus，一种无需训练、包含中间代理、基于搜索的提示词窃取攻击方法，通过与本地代理模型交互来逆向工程展示作品中的宝贵提示词。该方法包含三项创新设计。首先，我们引入了动态修饰符，作为先前工作中使用的静态修饰符的补充。这些动态修饰符提供了更多与展示作品相关的具体细节，我们利用自然语言处理分析即时生成它们。其次，我们设计了一种上下文匹配算法，用于对动态和静态修饰符进行排序。这一离线过程有助于减少后续步骤的搜索空间。第三，我们与本地代理模型交互，使用贪心搜索算法逆向提示词。基于反馈指导，我们优化提示词以实现更高的保真度。评估结果显示，Prometheus成功地从PromptBase和AIFrog等流行平台提取提示词，针对Midjourney、Leonardo.ai和DALL·E等多样化的受害者模型，实现了25.0%的攻击成功率提升。我们还验证了Prometheus能够抵抗广泛的潜在防御措施，进一步突显了其在实践中的严重性。</span></span></p><p cid="n982" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1899-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1899-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n984" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">238、TranSPArent: Taint-style Vulnerability Detection in Generic Single Page Applications through Automated Framework Abstraction</span></span></p><p cid="n985" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">单页应用（SPA）框架允许开发者使用高级组件（如搜索框）在单个HTML页面中构建复杂的Web应用程序。SPAs面临的一个研究问题是如何检测污点式漏洞，因为SPA框架以新形式重新引入了不安全的DOM API，例如将SPA组件参数作为污点汇点。尽管先前的研究已致力于改进SPAs中的漏洞检测，但据我们所知，这些方法严重依赖硬编码的污点汇点，这不仅需要针对不同的SPA框架进行手动维护，还可能遗漏某些不安全的SPA API，从而导致检测到的漏洞出现漏报。在本文中，我们提出了TranSPArent，一个SPA漏洞检测工具，它通过结合静态分析和动态分析自动抽象SPA框架，以揭示框架特定的汇点，从而促进端到端的静态漏洞检测。TranSPArent首先从不安全的DOM API列表执行反向污点分析，直到框架接口，以揭示接口的哪些部分可能污染DOM API。这种自动框架抽象每个SPA框架只需执行一次。然后，TranSPArent检测发现的SPA汇点与攻击者可控源之间的数据流路径，以检测每个应用程序中的污点式漏洞。我们在GitHub仓库数据库上评估了TranSPArent，发现了11个零日漏洞，包括一个拥有24k+ GitHub星标和每月3000万请求的仓库。迄今为止，其中四个零日漏洞已被开发者修复和/或确认。在我们的评估过程中，TranSPArent从三种最广泛使用的SPA框架（Vue、React和Angular）中总共发现了19个中间SPA汇点。其中14个新发现的汇点未在CodeQL标准库（最先进的静态分析工具）中列出。</span></span></p><p cid="n986" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1721-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1721-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n988" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">239、Trust Me, I Know This Function: Hijacking LLM Static Analysis using Bias</span></span></p><p cid="n990" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型(LLMs)越来越多地被用于执行大规模的自动化代码审查和静态分析，支持漏洞检测、代码摘要和重构等任务。在本文中，我们识别并利用了基于LLM的代码分析中的一个关键漏洞：一种抽象偏差，导致模型过度泛化熟悉的编程模式而忽略微小但有意义的错误。攻击者可以利用这个盲点，通过最小程度的修改来劫持LLM的解释控制流，同时不影响实际的运行时行为。我们将这种攻击称为熟悉模式攻击(FPA)。我们开发了一个全自动的黑盒算法，用于发现并向目标代码中注入FPA。我们的评估表明，FPA不仅对基础模型和推理模型有效，而且可以在不同模型家族(OpenAI、Anthropic、Google)之间迁移，并且在多种编程语言(Python、C、Rust、Go)中具有通用性。此外，即使模型通过强大的系统提示被明确警告了这种攻击，FPA仍然有效。最后，我们探讨了FPA的积极防御用途，并讨论了它们对面向代码的LLM可靠性和安全的更广泛影响。</span></span></p><p cid="n991" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f2066-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f2066-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n993" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">240、UIEE: Secure and Efficient User-space Isolated Execution Environment for Embedded TEE Systems</span></span></p><p cid="n994" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">可信执行环境（TEE）已被广泛探索用于增强嵌入式系统的安全性。现有的嵌入式TEE系统运行时占用较小的内存空间，仅提供安全关键功能，以保持最小的可信计算基（TCB）。不幸的是，这种设计选择导致这些TEE系统软件资源不足，难以在嵌入式TEE内执行具有大型代码库的复杂应用程序。在本文中，我们提出了一种用户空间隔离执行环境（UIEE），通过在TEE内直接运行未经修改的数据处理应用程序来增强TEE功能，同时不增加TCB大小。UIEE通过为应用程序动态分配足够的内存区域来构建沙箱环境，并将其与丰富执行环境（REE）和TEE隔离，从而保护UIEE免受REE攻击，同时保护TEE免受潜在受损的UIEE应用程序的侵害。此外，我们提出了一种基于库操作系统（即Linux内核库，LKL）的UIEE运行时环境，可为UIEE应用程序提供标准C运行时API。为了解决LKL的并发问题，我们提出了一种LKL线程同步机制，在具有单线程执行模型的UIEE内运行多线程LKL。此外，我们还设计了一种新颖的按需线程迁移机制，以实现在UIEE内的LKL上下文切换。我们在NXP IMX6Q SABRE-SD评估板上实现并部署了一个UIEE原型，成功在UIEE内运行了8个未经修改的真实世界基于libc的应用程序。实验结果表明，UIEE带来的性能开销可以忽略不计。我们是第一个提出面向TrustZone的LibOS并评估其可行性和安全特性的研究。</span></span></p><p cid="n995" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s208-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s208-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n997" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">241、Understanding the Status and Strategies of the Code Signing Abuse Ecosystem</span></span></p><p cid="n999" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">使用数字证书对软件签名是其可信性和完整性的重要保障。然而，攻击者可以滥用这一机制为恶意样本获取签名，从而促进恶意软件的传播。尽管已有工作揭示了代码签名滥用的实例，但这一问题仍然存在且不断升级。理解生态系统的演变和滥用者的策略对于改进防御机制至关重要。在本工作中，我们对代码签名滥用进行了大规模测量，使用了从野外收集的3,216,113个已签名的恶意PE文件。通过细粒度分类，我们识别出43,286个被滥用的证书，并将其分为五种滥用类型，创建了迄今为止最大的标记数据集。我们的分析表明，滥用仍然普遍存在，涉及来自114个国家、由46个证书颁发机构（CA）发行的证书。我们还观察到了滥用者技术的演变，并识别了证书撤销方面的当前局限性。此外，我们表征了滥用者的行为和策略，揭示了五种规避检测、降低成本和增强滥用影响的策略。值得注意的是，我们发现了3,484个多态证书集群，并首次记录了恶意软件利用多态技术规避撤销检查的实际案例。我们的研究结果揭示了当前代码签名实践中的关键缺陷，预计将提高社区对滥用威胁的认识。</span></span></p><p cid="n1000" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f2857-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f2857-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1002" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">242、Understanding the Stealthy BGP Hijacking Risk in the ROV Era</span></span></p><p cid="n1003" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">路由源验证（ROV）的部分部署带来了一种意外的安全威胁，称为隐蔽的BGP劫持，即一种特别难以察觉的BGP劫持形式，其中恶意路由可以在不到达（从而提醒）受害者的情况下转移流量。这一风险在很大程度上仍未被探索，既没有记录在案的现实世界事件，也没有系统性的特征描述。为了填补这一空白，我们形式化了隐蔽的BGP劫持，并提出了启发式方法，通过路由表差异来发现潜在实例。我们进行了首次实证研究，以跟踪和描述现实世界中的隐蔽BGP劫持，贡献了一个精选的现实世界事件数据集和一个长期监控服务。受实证见解的启发，我们进一步进行了分析研究，以全面评估风险。这需要准确的ROV部署数据、完整的全球互联网路由以及定制的分析模型。为了应对这些挑战，我们开发了SHAMAN，一个专门用于评估隐蔽BGP劫持风险的BGP路由推断框架。SHAMAN整合多种来源构建准确的ROV部署视图，通过高效的基于矩阵的方法推断完整的全球互联网路由，并通过&#34;受害者-目标-劫持者&#34;三元组模型促进统计风险分析。SHAMAN将生成互联网规模路由的时间从三个月以上缩短到仅5.22小时，使得在现实ROV部署下能够对83亿条生成路由进行系统性风险评估。我们的研究结果显示隐蔽BGP劫持的总体成功概率为14.1%，而在特定情况下，有针对性的攻击成功率高达99.5%。与我们现实世界数据集的验证显示，事件级别的准确度高达95.9%，证明了我们分析结果的真实性。</span></span></p><p cid="n1004" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s97-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s97-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1006" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">243、Unknown Target: Uncovering and Detecting Novel In-Flight Attacks to Collision Avoidance (TCAS)</span></span></p><p cid="n1007" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">是防止空中碰撞的强制性最后安全保障。尽管该系统具有关键的安全作用，但其未经认证和加密的通信协议长期以来一直被确认为安全风险。尽管研究人员先前已经展示了实际的注入攻击，但官方评估认为这些漏洞仅限于实验室环境，并指出目前尚无缓解措施。在本文中，我们对这两种说法提出质疑。我们提供了有力证据表明，针对TCAS的飞行中网络攻击已经发生。通过对一系列涉及多架飞机的异常事件的公开飞行和通信数据进行详细分析，我们确定了一种与幽灵飞机注入攻击一致的独特特征。我们详细说明了这种新型攻击如何利用传统协议特性，并描述了三种复杂度递增的攻击策略；其中最具攻击性的策略可以将目标的感知距离减少3.5公里以上，足以从远距离触发受害飞机的防撞警报。我们实现了与观察到的事件最一致的攻击策略，并进行了实验评估，实现了1.9公里的欺骗性距离减少，证实了其可行性。此外，为应对此类威胁提供基础，我们提出了一种新颖的、向后兼容的方法，通过重新利用受害者广播的TCAS警报数据来地理定位此类攻击的来源。在最可能的攻击变体模拟场景中，我们的方法实现了855米的中位数定位精度。将此技术应用于真实事件数据，我们能够识别出异常现象以及观察到的幽灵飞机注入攻击的可能来源。</span></span></p><p cid="n1008" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1806-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1806-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1010" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">244、Unshaken by Weak Embedding: Robust Probabilistic Watermarking for Dataset Copyright Protection</span></span></p><p cid="n1012" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在现代数据即服务（DaaS）生态系统中，数据策展商（如数据经纪公司）从众多贡献者处聚合高质量数据，并为深度学习模型提供商将其变现。然而，恶意策展商可能出售有价值的数据却不告知其原始贡献者，这违反了个人利益和法律。侵入式水印是保护数据版权的最先进技术之一，它能检测可疑模型是否携带预定义模式。然而，这些方法面临诸多限制：在低水印注入率（≤1.0%）下难以工作；性能下降；误报；对水印清洗缺乏鲁棒性。</span></span></p><p cid="n1013" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出了一种创新的侵入式水印方法，称为</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">DIP</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">（数据智能概率水印），以支持数据集所有权验证，同时解决上述局限性。它应用了感知分布的样本选择算法，嵌入带水印样本与多个输出之间的概率关联，并采用双重验证框架，同时利用推理结果及其分布作为水印信号。在4个图像和5个文本数据集上的广泛实验表明，</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">DIP</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">保持了模型性能，并在1%的注入预算下实现了89.4%的平均水印成功率。我们进一步验证了</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">DIP</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">与各种水印数据设计正交，并能无缝整合其优势。此外，</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">DIP</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在多种模态（图像和文本）和任务（回归）上证明有效，在大语言模型的生成任务上也表现出色。</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">DIP</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">对各种对抗环境具有鲁棒性，包括3种基于数据增强、3种基于数据清洗、4种基于鲁棒训练和3种基于合谋的水印移除方法，而现有的最先进方法则无法应对。源代码已发布于</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/SixLab6/DIP" target="_blank">https://github.com/SixLab6/DIP</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n1014" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1356-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1356-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1016" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">245、Unveiling BYOVD Threats: Malware’s Use and Abuse of Kernel Drivers</span></span></p><p cid="n1017" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">&#34;自带漏洞驱动程序&#34;（BYOVD）攻击利用合法的、经过数字签名的Windows驱动程序中隐藏的缺陷，使攻击者能够进入内核空间，禁用安全控制，并执行从勒索软件到国家支持的网络间谍活动的隐蔽行动。由于大多数公共沙箱仅检查用户模式活动，这种内核级别的滥用通常难以被发现。在这项工作中，我们首先介绍了首个BYOVD行为的动态分类法。该分类法基于对实际事件的手动调查和细粒度内核跟踪分析综合而成，将每次攻击映射到连续的阶段，并列举了每个步骤中被滥用的关键API。然后，我们提出了一种基于虚拟化的沙箱，它跟踪驱动程序执行路径的每一步，从最初的用户模式请求到最低级别的内核指令，而无需重新签名驱动程序或修改主机。最后，沙箱自动为每个观察到的动作添加相应的分类注释，生成一份分阶段报告，突出显示样本表现出可疑行为的位置和方式。针对当前的BYOVD技术环境进行测试，我们分析了8,779个加载了773个不同签名驱动程序的恶意软件样本。该沙箱标记了48个驱动程序的可疑行为，随后的手动验证导致向微软、其供应商和公共威胁情报平台披露了七个先前未知的漏洞驱动程序。我们的结果表明，对内核控制流的深入、透明跟踪可以揭示传统分析流程无法发现的BYOVD滥用行为，丰富了社区对驱动程序利用的知识，并促进了Windows防御的主动加固。</span></span></p><p cid="n1018" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1491-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1491-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1020" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">246、User-Space Dependency-Aware Rehosting for Linux-Based Firmware Binaries</span></span></p><p cid="n1021" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">固件重托管是一种基础仿真技术，能够大规模地对固件二进制文件进行动态分析。成功重托管基于Linux的固件服务需要正确模拟系统级功能（如设备接口）和用户空间依赖项（如配置文件、进程间通信）。然而，现有解决方案未能充分利用用户空间知识。作为第一个用户空间进程的初始化例程负责设置操作环境，但往往执行不完整，导致初始化不完整。此外，所有仿真故障都被统一处理，无法区分系统级仿真问题及其对用户空间依赖项的间接影响。为填补这一空白，我们开发了FIRMWELL框架，该框架首先将固件重托管建模为目标二进制文件及其用户空间依赖项的协同仿真。它首先重托管初始化例程以构建环境，然后启动目标服务，这一过程通常涉及一百多个进程。当仿真故障发生时，FIRMWELL会识别阻塞进程，分析错误仿真的资源，并应用有针对性的修复。关键策略是通过纠正底层系统级仿真错误来解决用户空间依赖项故障，同时利用程序分析进行精确的资源值推断。在对14,049个固件镜像的评估中，FIRMWELL成功重托管了6,490个服务，比现有最佳方法高出1.6-8倍（FirmAE为3,581个，Greenhouse为3,962个，Pandawan为810个），同时将平均重托管时间减少了1.8-8.4倍（分别为12分钟、22分钟、74分钟和101分钟）。FIRMWELL被应用于对1,043个固件镜像进行模糊测试，发现了67个零日漏洞，其中10个已被分配CVE标识符。</span></span></p><p cid="n1022" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s249-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s249-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1024" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">247、Validity Is Not Enough: Uncovering the Security Pitfall in Chainlink’s Off-Chain Reporting Protocol</span></span></p><p cid="n1025" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">区块链预言机在将链外交易所的价格数据传递给智能合约方面发挥着关键作用，从而实现自动化金融服务。作为主导的预言机服务提供商，Chainlink采用去中心化预言机网络(DON)来提供价格数据。在Chainlink的DON中，多个预言机节点独立观察加密货币的价格并运行链下报告(OCR)协议，从它们的观测值中确定一个唯一价格。源自OCR协议的价格偏差将带来安全风险。为防止拜占庭预言机节点引发任意价格偏差，OCR的有效性属性确保确定的价格被诚实观测值所限制。然而，这一界限在实际环境中仍不明确，且拜占庭行为仍能引发多大程度的价格偏差尚不清楚。本文通过实证和理论分析，深入研究了拜占庭行为对OCR协议中确定价格的潜在影响。首先，我们的实证分析显示，在实际环境中，拜占庭行为在OCR协议中仍有足够空间影响确定的价格。随后，我们详细阐述了战略性地影响确定价格的拜占庭行为，并对其影响进行了形式化建模。此外，我们使用Chainlink的真实世界价格数据评估了这些拜占庭行为的影响。实验结果表明，拜占庭行为引发的价格偏差可达ETH价格的8.47%。我们的案例研究进一步表明，被拜占庭行为影响的价格值可能带来下游金融影响，规模可达10^5美元，而此类价格值的累积影响可能达到数百万美元。总之，这项工作揭示出，即使在有效性保证下，拜占庭行为仍可能对OCR协议中的确定价格产生不可忽视的影响。我们已将发现结果向Chainlink进行了道德报告，旨在支持OCR协议的安全性。</span></span></p><p cid="n1026" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f458-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f458-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1028" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">248、Vault Raider: Stealthy UI-based Attacks Against Password Managers in Desktop Environments</span></span></p><p cid="n1029" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">密码管理器通过生成强大且唯一的密码显著改进了基于密码的身份验证，同时通过自动填充功能简化了实际的身份验证过程。关键的是，在传统浏览环境中使用时，自动填充提供了额外的安全保护，因为它可以轻易地挫败网络钓鱼攻击，因为网站域名信息唾手可得。随着主要网络服务越来越多地部署独立的原生应用程序的趋势，密码管理器也开始为桌面环境提供通用自动填充和其他用户友好的功能。然而，目前尚不清楚密码管理器的安全保护在这些环境中如何运作。在本文中，我们通过首次对流行密码管理器（包括1Password和LastPass）在主要桌面环境（macOS、Windows、Linux）中提供的自动填充相关功能进行系统性实证分析，填补了这一空白。我们通过实验发现，密码管理器采用不同的策略与桌面应用程序交互，并采用不同级别的针对基于用户界面攻击的保护措施。例如，在macOS上，我们发现可以利用操作系统提供的API和检查实现高级别的安全性，而在Windows上，我们识别出缺乏适当的安全检查，这主要是由于操作系统的限制。在每种情况下，我们都展示了概念验证攻击，这些攻击允许其他应用程序绕过现有的安全检查，并通过不可见的模拟按键 stealthily 窃取用户的凭据、一次性密码和保险库密钥。因此，我们提出了一系列可以缓解我们攻击的对策。由于我们攻击的严重性，我们向被分析的密码管理器供应商披露了我们的发现和建议的对策，这已经促使某些供应商开始修复过程，并获得了错误赏金。最后，我们将分享我们的代码，以促进加强密码管理器的额外研究。</span></span></p><p cid="n1030" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1067-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1067-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1032" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">249、VDORAM: Towards a Random Access Machine with Both Public Verifiability and Distributed Obliviousness</span></span></p><p cid="n1033" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">可验证随机访问机（vRAM）作为一种基础模型，能够表达具有可证明安全保证的复杂计算，应用于安全电子投票、金融审计和隐私保护智能合约等领域。然而，现有的vRAM均未提供分布式 obliviousness，这在多个证明者希望防止彼此之间以及与验证者之间信息泄露的场景中是一个关键需求，因为现有解决方案难以解决MPC与ZKP之间的范式不匹配问题，这限制了实际多证明者ZKP前端的发展。这一差距的出现是因为MPC协议针对最小计算进行了优化，而ZKPs需要完整的计算轨迹用于证明。此外，调整RAM设计也面临挑战，因为vRAM并非为盲目执行的高成本而设计，且现有的DORAM缺乏公开可验证性。为应对这些挑战，我们引入了CompatCircuit，据我们所知，这是首个多证明者ZKP前端实现，旨在弥合这一差距。CompatCircuit将协作zkSNARKs与新型MPC协议相结合，将计算和验证统一为单个兼容的电路范式。基于CompatCircuit，我们提出了VDORAM，这是首个公开可验证的分布式 oblivious RAM。VDORAM平衡了在线MPC的高通信延迟与离线证明生成的复杂性，形成了一种能够兼顾这些竞争性需求的RAM设计。我们用约15,000行代码实现了CompatCircuit和VDORAM，通过微基准测试、比较分析和程序示例等大量实验证明了它们的实际可行性。</span></span></p><p cid="n1034" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s16-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s16-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1036" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">250、VeriLoRA: Fine-Tuning Large Language Models with Verifiable Security via Zero-Knowledge Proofs</span></span></p><p cid="n1037" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">微调大型语言模型（LLMs）对于使其适应特定任务至关重要，但这仍然计算密集，并且在不可信环境中引发了正确性和隐私方面的担忧。尽管像低秩适应（LoRA）这样的参数高效方法显著降低了资源需求，但在零知识约束下确保微调的安全性和可验证性仍然是一个未解决的挑战。为此，我们提出了VeriLoRA，这是第一个将LoRA微调与零知识证明（ZKPs）相结合的框架，实现了可证明的安全性和正确性。VeriLoRA采用先进的密码学技术——如查找参数、求和协议和多项式承诺——来验证基于Transformer架构中的算术和非算术操作。该框架为LoRA微调过程中的前向传播、反向传播和参数更新提供端到端的可验证性，同时保护模型参数和训练数据的隐私。基于GPU的实现，VeriLoRA在开源LLMs（如LLaMA）上的实验验证中展示了其实用性和效率，可扩展至130亿参数。通过将参数高效微调与ZKPs相结合，VeriLo弥合了一个关键差距，使LLMs能够在敏感或不可信环境中安全可信地部署。</span></span></p><p cid="n1038" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f2361-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f2361-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1040" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">251、VICTOR: Dataset Copyright Auditing in Video Recognition Systems</span></span></p><p cid="n1041" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">视频识别系统正日益应用于日常生活，如内容推荐和安全监控。为促进视频识别的发展，许多机构已发布了高质量的开源许可公共数据集，用于训练先进模型。同时，这些数据集也容易被滥用和侵权。数据集版权审核是识别此类未经授权使用的有效解决方案。然而，现有的数据集版权解决方案主要关注图像领域；视频数据的复杂性使得视频领域的数据集版权审核尚未得到探索。具体而言，视频数据引入了额外的时间维度，这对现有方法的有效性和隐蔽性构成了重大挑战。在本文中，我们提出了VICTOR，这是首个面向视频识别系统的数据集版权审核方法。我们开发了一种通用且隐蔽的样本修改策略，能够增强目标模型的输出差异。通过仅修改少量样本（例如1%），VICTOR放大了已发布修改样本对目标模型预测行为的影响。然后，模型对已发布修改样本和未发布原始样本的行为差异可作为数据集审核的关键依据。在多个模型和数据集上的广泛实验凸显了VICTOR的优越性。最后，我们证明了在面对针对训练视频或目标模型的多种干扰机制时，VICTOR具有鲁棒性。</span></span></p><p cid="n1042" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f746-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f746-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1044" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">252、ViGText: Deepfake Image Detection with Vision-Language Model Explanations and Graph Neural Networks</span></span></p><p cid="n1045" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">深度伪造技术的迅速崛起产生了逼真但虚假的数字内容，威胁着媒体的真实性。深度伪造技术操纵视频、图像和音频，传播错误信息，模糊真实与虚假的界限，凸显了对有效检测方法的需求。传统的深度伪造检测方法往往难以应对复杂、定制的深度伪造内容，特别是在泛化能力和对抗恶意攻击的鲁棒性方面。本文介绍了ViGText，一种创新方法，它将图像与基于视觉的大语言模型(VLLM)文本解释在基于图的框架中集成，以改进深度伪造检测。ViGText的创新之处在于它将详细解释与视觉数据相结合，提供了比通常缺乏特异性且无法揭示细微不一致性的字幕更具上下文感知能力的分析。ViGText系统地将图像分割为块，构建图像和文本图，并利用图神经网络(GNN)进行集成分析以识别深度伪造。通过在空间和频域进行多级特征提取，ViGText捕捉了增强其鲁棒性和准确性的细节，能够检测复杂的深度伪造内容。大量实验表明，ViGText显著提高了泛化能力，并在检测用户定制的深度伪造内容时取得了显著的性能提升。具体而言，在泛化评估中，平均F1分数从72.45%上升到98.32%，反映了该模型对未见过的、经过微调的稳定扩散模型变体的优越泛化能力。在鲁棒性方面，ViGText与其他深度伪造检测方法相比，在面对最先进的基础模型对抗攻击时，召回率提高了11.1%。ViGText在面对利用其图架构的针对性攻击时，将分类性能的降低限制在4%以内，同时略微增加了执行成本。ViGText将细粒度的视觉分析与文本解释相结合，为深度伪造检测建立了新的基准，并为保护媒体真实性和信息完整性提供了更可靠的框架。</span></span></p><p cid="n1046" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s303-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s303-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1048" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">253、vSim: Semantics-Aware Value Extraction for Efficient Binary Code Similarity Analysis</span></span></p><p cid="n1049" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">二进制代码相似性分析（BCSA）在许多安全任务中发挥着至关重要的作用，包括恶意软件分析、漏洞检测和软件供应链安全。尽管过去十年提出了许多BCSA技术，但很少有利用寄存器和内存值的语义进行比较的，尽管初步结果很有前景。现有的基于值的方法通常仅关注在编译设置中保持不变的值，从而忽略了更广泛的语义丰富信息。在本文中，我们确定了限制基于值的BCSA有效性的三个核心挑战：值提取的可扩展性不足、缺乏噪声过滤以及值比较效率低下。这些缺点既限制了语义覆盖范围，也影响了可扩展性。为了充分释放基于值的BCSA的潜力，我们提出了vSim，这是一个新颖的框架，能够系统性地捕获所有寄存器和内存操作的值，过滤掉语义无关的值（例如全局地址），并对剩余值进行归一化和传播，以实现健壮且可扩展的相似性分析。广泛的评估表明，vSim在准确性、鲁棒性和可扩展性方面 consistently优于最先进的BCSA系统。它在不同架构和工具链上具有良好的泛化能力，能够在多样化的数据集上产生可靠的结果。</span></span></p><p cid="n1050" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f213-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f213-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1052" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">254、VulSCA: A Community-Level SCA Approach for Accurate C/C++ Supply Chain Vulnerability Analysis</span></span></p><p cid="n1053" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着第三方库（TPLs）在C/C++开发中的广泛采用，软件供应链安全变得至关重要。现有的C/C++供应链漏洞分析方法存在显著局限性。一些方法仅专注于依赖识别，导致误报（FPs），而另一些方法强调漏洞检测却忽略依赖关系，需要耗时的完整仓库扫描，从而阻碍了对供应链漏洞的快速响应。为此，我们探讨了准确依赖构建和漏洞检测的适当粒度。我们提出了一种社区级的软件成分分析（SCA）方法，将项目的调用图建模为社会网络并应用社区检测。然后通过社区相似性建立项目与TPLs之间的依赖关系。对于漏洞检测，我们在依赖社区内执行基于克隆的检测以验证漏洞的存在，并引入两阶段可达性分析以确定这些漏洞是否可以传播到目标项目。我们实现了VulSCA，这是首个集成漏洞检测和可达性分析的C/C++ SCA框架。实验结果表明，在SCA方面，VulSCA的性能优于CENTRIS和OSSFP，F1-score提高了4-12%。在供应链漏洞检测方面，其F1-score比基于版本的方法高44-48%，比基于代码的方法高17-23%。在效率方面，VulSCA的整体开销低于所有基于代码的方法。此外，VulSCA在广泛使用的开源项目中识别出32个先前未被修复的供应链漏洞，这些漏洞已报告给相应的供应商。</span></span></p><p cid="n1054" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s613-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s613-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1056" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">255、Was My Data Used for Training? Membership Inference in Open-Source LLMs via Neural Activations</span></span></p><p cid="n1057" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着大型语言模型（LLMs）的快速发展，其应用已扩展到日常生活的各个方面。开源LLMs因其可访问性而广受欢迎，导致广泛下载和再分发。LLMs的强大能力源于对大规模且通常未公开的数据集的训练，这引发了关于是否包含版权或个人数据等敏感内容的问题，这被称为成员推断问题。现有方法主要依赖模型输出，而忽略了丰富的内部表示。内部数据的有限访问导致次优结果，揭示了开源白盒LLMs中成员推断的研究空白。在本文中，我们解决了检测开源LLMs训练数据的挑战。为支持这项研究，我们引入了三个动态基准：WikiTection、NewsTection和ArXivTection。随后，我们提出了一种通过分析LLMs的神经激活来进行训练数据检测的白盒方法。我们的关键见解是，LLMs所有层的神经元激活反映了输入数据在LLM内部的知识表示，能够有效区分LLM的训练数据和非训练数据。在这些基准上的广泛实验证明了我们方法的有效性。例如，在WikiTection基准上，我们的方法在五个LLMs（GPT2-xl、LLaMA2-7B、LLaMA3-8B、Mistral-7B和LLaMA2-13B）上均实现了约0.98的AUC。此外，我们对模型大小、输入长度和文本改写等因素进行了深入分析，进一步验证了我们方法的鲁棒性和适应性。</span></span></p><p cid="n1058" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f474-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f474-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1060" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">256、WBSLT: A Framework for White-Box Encryption Based on Substitution-Linear Transformation Ciphers</span></span></p><p cid="n1061" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">加密算法面临各种密钥提取攻击，促使在不同威胁模型下产生多种防御工作。其中，白盒威胁模型具有最强的对抗场景，攻击者可以完全访问和控制密码学实现及其执行环境。然而，先前的白盒加密设计主要保护单个密钥相关表，使得白盒和侧信道攻击能够恢复密钥。基于我们的观察，对这些表的边界进行模糊化可以使攻击无效。因此，我们提出了WBSLT，一种用于替换-线性变换（SLT）密码表格式白盒实现的新型设计框架。WBSLT通过线性和非线性变换保护嵌入密钥的表，并部分将每个组件的计算留给下一个组件，以减轻单个密钥相关表泄露。为进一步防御差分计算分析和差分故障分析，该框架集成了掩码、随机化和外部编码。理论分析表明其对各种攻击具有免疫性。实验结果验证了WBSLT在多个计算平台上的实用性，显示出高效的加密性能和合理的内存消耗。</span></span></p><p cid="n1062" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f2492-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f2492-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1064" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">257、WCDCAnalyzer: Scalable Security Analysis of Wi-Fi Certified Device Connectivity Protocols</span></span></p><p cid="n1065" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Wi-Fi联盟已开发了多种设备连接协议，如Wi-Fi Direct、Wi-Fi EasyConnect和Wi-Fi EasyMesh，这些协议在全球数十亿设备中发挥着关键作用。鉴于其广泛采用，确保这些协议的安全性和隐私性至关重要。然而，现有研究尚未全面审视这些协议设计的安全性和隐私性方面。为填补这一空白，我们推出了WCDCAnalyzer（Wi-Fi认证设备连接分析器），这是一个正式分析框架，旨在评估这些广泛使用的Wi-Fi认证设备连接协议的安全性和隐私性。在形式化验证Wi-Fi Direct协议时，一个重大挑战是由协议规模大、复杂性高导致的状态爆炸问题所引起的可扩展性问题，这会导致内存使用呈指数级增长。为应对这一挑战，我们开发了一种遵循组合推理范式的系统分解方法，并将其整合到WCDCAnalyzer中。这使得WCDCAnalyzer能够自动将给定协议分解为多个子协议，分别验证每个子协议，然后合并结果。我们的设计是基于严格基础的组合推理的实际应用，我们提供了详细算法，展示了如何将这种推理方法应用于密码协议验证。使用WCDCAnalyzer，我们分析了这些协议并发现了10个漏洞，包括身份验证绕过、隐私泄露和拒绝服务攻击。这些漏洞及相关实际攻击已在商业设备上得到验证，并获得了Wi-Fi联盟的认可。</span></span></p><p cid="n1066" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1049-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1049-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1068" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">258、What Do They Fix? LLM-Aided Categorization of Security Patches for Critical Memory Bugs</span></span></p><p cid="n1070" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">开源软件项目是现代软件生态系统的基础，Linux内核因其普遍性和复杂性而成为关键典范。尽管安全补丁持续集成到Linux主线内核中，但下游维护者常常延迟采用这些补丁，从而造成漏洞窗口。这种滞后的一个关键原因是难以识别安全关键补丁，特别是那些处理可利用漏洞的补丁，如越界（OOB）访问和使用后释放（UAF）错误。由于故意静默的bug修复、不完整或缺失的CVE分配、CVE发布延迟以及最近Linux内核CVE分配标准的变更，这一挑战进一步加剧。以往的工作如GraphSPD提出了二元分类器来区分安全补丁与非安全补丁。然而，这些方法不能提供漏洞类型的细粒度分类，这对于优先修复OOB和UAF等高影响错误至关重要。我们的工作旨在将这些粗略标记的安全补丁分类为细粒度类别，即OOB、UAF或非OOB-UAF类型。尽管细粒度补丁分类方法已经存在，但它们在覆盖范围和准确性方面都存在局限性。在这项工作中，我们确定了以前未被探索的机会，可以显著改进细粒度补丁分类。具体而言，通过利用提交标题/消息和差异的线索以及适当的代码上下文，我们开发了DUALLM，这是一个双方法流水线，集成了基于大型语言模型（LLM）和微调小型语言模型的两种方法。DUALLM实现了87.4%的准确率和0.875的F1分数，显著优于先前解决方案。值得注意的是，DUALLM成功地将5,140个最近的Linux内核补丁中的111个识别为处理OOB或UAF漏洞，其中90个真阳性通过手动验证确认（许多在补丁描述中没有明确指示）。此外，我们为两个已识别的错误（一个UAF和一个OOB）构建了概念验证，包括一个用于执行先前未知的控制流劫持的漏洞，进一步证明了分类的正确性。</span></span></p><p cid="n1071" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s328-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s328-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1073" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">259、When Cache Poisoning Meets LLM Systems: Semantic Cache Poisoning and Its Countermeasures</span></span></p><p cid="n1074" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLM）的出现催生了广泛应用，包括代码生成、聊天机器人和AI智能体。然而，部署这些应用在成本和效率方面面临重大挑战。应对这些挑战的一种重要优化是语义缓存，它基于语义相似性跨用户重用查询-响应对。这种机制在学术界和工业界都获得了广泛关注，并已被集成到Azure、AWS和阿里巴巴等云服务提供商的LLM服务基础设施中。本文首次证明语义缓存容易受到缓存投毒攻击，即攻击者注入精心设计的缓存条目，导致其他用户接收到攻击者定义的响应。我们在多种场景下演示了语义缓存投毒攻击，并确认其在三大主要公有云中的实用性。基于这些攻击，我们评估了现有的对抗性提示防御方法，发现它们对语义缓存投毒无效，促使我们提出了一种新的防御机制，相比现有方法显示出更好的保护效果，尽管完全缓解仍然具有挑战性。我们的研究表明，缓存投毒这一长期存在的安全问题在LLM系统中重新出现。虽然我们的分析聚焦于语义缓存，但潜在风险可能延伸至LLM系统中使用的其他类型的缓存机制。</span></span></p><p cid="n1075" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f200-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f200-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1077" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">260、When Focus Enhances Utility: Target Range LDP Frequency Estimation and Unknown Item Discovery</span></span></p><p cid="n1078" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">局部差分隐私（LDP）协议能够收集随机化的客户端消息用于数据分析，而无需可信的数据管理员。此类协议已被谷歌、苹果和微软等大型科技公司成功应用于实际场景。在本文中，我们提出了一种广义计数均值草图（GCMS）协议，该协议涵盖了多种现有的频率估计协议。我们的方法显著改善了通信、隐私和准确性之间的三向权衡。我们还引入了一种通用效用分析框架，能够优化参数设计。基于此，我们提出了一种最优计数均值草图（OCMS）框架，用于最小化收集具有目标频率项目的方差。此外，我们提出了一种用于收集未知领域数据的新协议，因为我们的频率估计协议仅对已知数据领域有效。利用基于稳定性的直方图技术与加密-打乱-分析（ESA）框架相结合，我们的方法采用辅助服务器构建直方图，而无需访问原始数据消息。该协议实现了与中心DP模型相当的准确性，同时提供了类本地隐私保证，并显著降低了计算成本。</span></span></p><p cid="n1079" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s1397-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s1397-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1081" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">261、When Mixnets Fail: Evaluating, Quantifying, and Mitigating the Impact of Adversarial Nodes in Mix Networks</span></span></p><p cid="n1082" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">混合网络（mixnets）通过将数据包独立地随机经过选定的跳节点（mixnodes）传输，为客户端提供针对强大网络对手的通信匿名性，从而破坏数据包的可链接性。尽管这种方法在Nym系统中实现，能够最大化对网络对手的混淆效果，但它允许攻击者通过控制部分mixnodes（节点总数的10%/5%）来完全消除通信量与其目的地超过特定阈值（4MB/30MB）的所有客户端的匿名性。为缓解此类漏洞，本研究开发了一系列新颖的路径选择技术，实现了对网络对手的抵抗力与对受损mixnodes的弹性之间的平衡。鉴于现有的匿名性度量不足以量化混合网络中的 adversarial 风险，我们额外引入了有效的基于实证和模拟的度量指标。通过理论、实证和基于模拟的评估，我们全面评估了所提出的方案，证明这些方法可将对受损节点的脆弱性降低高达80%，同时为网络对手带来的有限优势。我们的分析进一步揭示，最先进的匿名性度量指标与我们所提出的度量指标相比，会产生误导性结果，这些结果影响了Nym系统中的某些设计决策。</span></span></p><p cid="n1083" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f2384-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f2384-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1085" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">262、WhiteCloak: How to Hold Anonymous Malicious Clients Accountable in Secure Aggregation?</span></span></p><p cid="n1086" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着人工智能的进步和各行业数字化程度的不断提高，个人数据收集和分析的规模持续增长，导致对个人数据和身份隐私保护的需求日益增加。然而，现有的安全聚合方法（如ACORN (USENIX 2023)）在确保输入数据的隐私和合规性方面表现良好，却无法满足客户端匿名性的要求。简单地应用匿名凭证允许先前已识别的恶意客户端（例如使用不合规数据的客户端）通过更新其凭证重新进入聚合轮次，从而逃避责任。为解决这一问题，我们提出了WhiteCloak，这是首个在客户端匿名性下确保责任归属的安全聚合解决方案。WhiteCloak要求每个客户端i使用匿名凭证$\tilde{i}_{\tau}$参与第$\tau$轮。参与前，每个客户端必须提交一个零知识证明，验证自己未被列入黑名单，从而防止恶意客户端通过更改凭证逃避责任。WhiteCloak可以无缝集成到现有框架中。在SHAKESPEARE数据集的联邦学习实验中，WhiteCloak仅增加了1.77秒的额外处理时间和35.68KB的通信开销，分别占ACORN总开销的0.34%和0.1%。</span></span></p><p cid="n1087" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-s142-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-s142-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1089" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">263、WiFinger: Fingerprinting Noisy IoT Event Traffic Using Packet-level Sequence Matching</span></span></p><p cid="n1090" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">智能家居等物联网环境容易受到隐私推断攻击，攻击者可以通过分析加密网络流量模式来推断设备状态甚至人的活动。虽然大多数现有攻击利用机器学习技术来发现此类流量模式，但由于无线流量（尤其是Wi-Fi）的高噪声性和数据包丢失问题，它们在无线流量上的表现不佳。此外，这些方法通常针对区分分块的物联网事件流量样本，无法有效同时跟踪多个事件。在这项工作中，我们提出了WiFinger，一种针对噪声流量的细粒度多物联网事件指纹识别方法。WiFinger将流量模式分类任务转化为子序列匹配问题，并引入了新技术来处理高时间复杂度，同时保持高准确性。此外，它对训练样本量的依赖减少了未来指纹更新的工作量。实验表明，在实际威胁模型下，WiFinger的性能优于现有方法，平均召回率达到89%（相比之下，分别为49%和46%），且对于各种物联网事件的误报率几乎为零。</span></span></p><p cid="n1091" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f1083-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f1083-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1093" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">264、XR Devices Send WiFi Packets When They Should Not: Cross-Building Keylogging Attacks via Non-Cooperative Wireless Sensing</span></span></p><p cid="n1094" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着扩展现实(XR)技术不断融入各个领域，各种安全漏洞——如按键推断(键盘记录)——已成为日益增长的担忧。几种键盘记录攻击证明了利用语音和视觉等多种模态利用此漏洞的可行性。然而，这些攻击通常需要视线(LoS)和/或近距离(&lt;10米)的限制。我们提出了一种针对XR设备的新型键盘记录攻击，利用WiFi无线传感。与先前方法不同，我们的攻击不需要视线，并且在各种场景中均有效，包括远距离、跨建筑物设置(最远30米)。我们的攻击仅需一个廉价、口袋大小的接收装置即可收集受害者的WiFi数据包。与利用WiFi的先前键盘记录攻击相比，我们的方法首次消除了对独立发射器和接收器或虚假热点的需求。因此，与先前方法不同，我们的攻击即使在远距离也有效。核心思想在于利用WiFi芯片组中的安全漏洞。此漏洞允许攻击者向受害者设备发送一个虚假的未加密数据包，作为响应，受害者设备会不由自主地自动传输一个确认(ACK)数据包。通过利用此机制，我们可以持续强制头显的WiFi芯片组传输数据包，从而从受害者的头显中收集大量信道状态信息(CSI)数据。随后，我们开发了一种新颖的无监督信号处理算法，利用CSI数据进行姿态估计，定位受害者的手和手指，最终实现按键推断。我们在Meta Quest 2和Meta Quest 3头显上评估了我们的攻击，测试条件多样，包括距离从1米到30米，角度从-90°到+90°，多用户场景，以及穿墙场景，证明了其在广泛环境中的鲁棒性和有效性。我们的攻击在建筑物内实现了78.6%的top-25准确率，可推断长达15个字符的密码。</span></span></p><p cid="n1095" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f926-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f926-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p cid="n1097" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">265、ZKSL: Verifiable and Efficient Split Federated Learning via Asynchronous Zero-Knowledge Proofs</span></span></p><p cid="n1098" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在垂直联邦学习(VFL)中，先前的工作主要侧重于保护数据隐私，而忽视了参与者可能操纵本地模型执行以实施完整性攻击的风险。将零知识证明(ZKPs)整合到训练过程中可以确保各方计算的可验证性，同时不泄露私有数据。然而，由于以下原因，将深度模型训练直接编码为整体ZKP电路是不切实际的：(i)复杂的电路设计和频繁参数承诺带来的高开销，(ii)嵌入层(跨方信息接口)的证明生成成本高昂，以及(iii)同步证明生成会阻塞迭代训练轮次。为应对这些挑战，我们提出了ZKSL，这是一个高效且异步的VFL框架，在恶意威胁模型下实现可验证训练。ZKSL将深度神经网络划分为分层电路并并行生成其证明，通过&#34;隐私承诺PLONK&#34;(PC-PLONK)确保输入-输出一致性，这是一种轻量级扩展，支持低成本、逐次迭代的参数承诺。对于嵌入层，ZKSL采用概率验证技术，将证明复杂度从${O(Nnd)}$降低到${O(nd)}$。此外，ZKSL集成了异步计算-证明调度机制，将证明生成与训练迭代解耦，有效缓解了流水线停滞问题。在DeepFM和CNN模型上的实验结果表明，ZKSL将证明生成时间最多减少73%，同时保持99.4%的准确率，展示了其在实际联邦学习中的卓越可扩展性和实用性。</span></span></p><p cid="n1099" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">下载链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/wp-content/uploads/2026-f2008-paper.pdf" target="_blank">https://www.ndss-symposium.org/wp-content/uploads/2026-f2008-paper.pdf</a></span></span></p><hr style="box-sizing: content-box;"/><p style="display: none;"><mp-style-type data-value="3"></mp-style-type></p>



<p><a href="https://wechat2rss.xlab.app/link-proxy/?k=5ac174a8&amp;r=1&amp;u=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU0MzgzNTU0Mw%3D%3D%26mid%3D2247486060%26idx%3D3%26sn%3Db2d8e7d8dbdb8671d797ec81df76296f">跳转微信打开</a></p>
]]></content:encoded>
      <pubDate>Sun, 01 Mar 2026 14:04:00 +0800</pubDate>
    </item>
    <item>
      <title>2025 年终推荐书单</title>
      <link>https://mp.weixin.qq.com/s?__biz=MzU0MzgzNTU0Mw==&amp;mid=2247486048&amp;idx=1&amp;sn=a97e97b359138ee2bdea8c69bb6c2e10</link>
      <description>今年共读完 37 本书，其中文学类的书籍占比较多，选择个人最喜欢的 16 本书做推荐，刚好推荐的书都在微信读书上。&#xA;&#xA;这次就不写书评了，附上的图片上面都有二维码，直接点开就可以看到一些推荐值和书评了。&#xA;&#xA;如果要对 2025 年的读书做一个总结的话，那主要有以下几个感受：&#xA;&#xA;1.随着年龄的增长与生活阅历的丰富，自己越来越喜欢阅读文学作品，因为它能够抚慰人心，能够表达你表达不了的话，犹如哑巴突然开口说话一般惊喜；其次，它能够给你丰富的想象，对从事理工科研究工作的人，可以培养创新思维。&#xA;&#xA;2.网络安全书籍读的越来越少，因为很多同类书籍大都出版过，已经鲜有新主题方向的书可出版，导致此类新书就越来越少了；其次，个人认为网络安全研究越往深处走，就会回归到底层的一些计算机基础上，所以近两年看的计算机专业基础书籍反而更多；最后是时效性问题，书籍的出版对于内容很多时候它容易过时，而论文的出版则更为及时，所以现在我读论文的数量反而更多。&#xA;&#xA;3.给自己创造读书的空间很重要，比如买几个阅读器和书架，放在不同的地方，挑把坐的舒服的椅子，便于自己随手随地可以看书，同时可以培养孩子的阅读习惯。</description>
      <content:encoded><![CDATA[<p><span>漏洞战争</span> <span></span> <span style="display: inline-block;">广东</span></p>






  
  
  <p>今年共读完 37 本书，其中文学类的书籍占比较多，选择个人最喜欢的 16 本书做推荐，刚好推荐的书都在微信读书上。</p><p>这次就不写书评了，附上的图片上面都有二维码，直接点开就可以看到一些推荐值和书评了。</p><p>如果要对 2025 年的读书做一个总结的话，那主要有以下几个感受：</p><p>1.随着年龄的增长与生活阅历的丰富，自己越来越喜欢阅读文学作品，因为它能够抚慰人心，能够表达你表达不了的话，犹如哑巴突然开口说话一般惊喜；其次，它能够给你丰富的想象，对从事理工科研究工作的人，可以培养创新思维。</p><p>2.网络安全书籍读的越来越少，因为很多同类书籍大都出版过，已经鲜有新主题方向的书可出版，导致此类新书就越来越少了；其次，个人认为网络安全研究越往深处走，就会回归到底层的一些计算机基础上，所以近两年看的计算机专业基础书籍反而更多；最后是时效性问题，书籍的出版对于内容很多时候它容易过时，而论文的出版则更为及时，所以现在我读论文的数量反而更多。</p><p>3.给自己创造读书的空间很重要，比如买几个阅读器和书架，放在不同的地方，挑把坐的舒服的椅子，便于自己随手随地可以看书，同时可以培养孩子的阅读习惯。</p>
  <p><img src="https://wechat2rss.xlab.app/img-proxy/?k=f11b6082&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUoS67lwDq2IXv9EFdF8P1STh2ZU6wXbQZHeOiaQnCXVFFvA82dWDCJ7AXj9HbohicIRCnkBjGlnXibQ%2F0%3Fwx_fmt%3Djpeg"/></p><p><img src="https://wechat2rss.xlab.app/img-proxy/?k=9a2df137&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUoS67lwDq2IXv9EFdF8P1SWhHa7JiaL0EOmMy0nsjsHjCyzKQUDYzC1yeh1nDcSu0DibKczSpzdffg%2F0%3Fwx_fmt%3Djpeg"/></p><p><img src="https://wechat2rss.xlab.app/img-proxy/?k=32238130&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUoS67lwDq2IXv9EFdF8P1SFP71LVZEQt8HmKQGwL7GIMRqj9SWZTmu5ZQbqPcAWDgnibaUAZHSWicw%2F0%3Fwx_fmt%3Djpeg"/></p><p><img src="https://wechat2rss.xlab.app/img-proxy/?k=cf8413c2&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUoS67lwDq2IXv9EFdF8P1Sn23PD3Z0OeoHR03hKYmabVTWn9WuON5tGnaV1j1N4Q0X83Kuic5gumQ%2F0%3Fwx_fmt%3Djpeg"/></p><p><img src="https://wechat2rss.xlab.app/img-proxy/?k=8365735b&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUoS67lwDq2IXv9EFdF8P1SLJqoV5so4TsiblDTHBRdg3XYH06lib5kACNhac0AN2sl2lhWqPaFpz4w%2F0%3Fwx_fmt%3Djpeg"/></p><p><img src="https://wechat2rss.xlab.app/img-proxy/?k=505a1741&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUoS67lwDq2IXv9EFdF8P1SHFn2NLSb7dMBiaG7HT0Q7AIg2gXbexiabKdcic33MLvI397MWG8QPet5g%2F0%3Fwx_fmt%3Djpeg"/></p><p><img src="https://wechat2rss.xlab.app/img-proxy/?k=07679c79&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUoS67lwDq2IXv9EFdF8P1SYBjPJwN2eD6aGX3f3RkTActfLezLIGhUADuNib5jh1WcW6RXkdibj5AQ%2F0%3Fwx_fmt%3Djpeg"/></p><p><img src="https://wechat2rss.xlab.app/img-proxy/?k=1a74d68a&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUoS67lwDq2IXv9EFdF8P1SyjB8oE80oB19z3ia2nIu2B38NiaTZricpBwNOclKXhB2JYic5fciaQUlOWg%2F0%3Fwx_fmt%3Djpeg"/></p><p><img src="https://wechat2rss.xlab.app/img-proxy/?k=a9bca9eb&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUoS67lwDq2IXv9EFdF8P1SZb3zToenbibibcic4A2ZtiaOYRqEPcWEXrsicibh7RgfRq7PfZbdUn5SlMfQ%2F0%3Fwx_fmt%3Djpeg"/></p><p><img src="https://wechat2rss.xlab.app/img-proxy/?k=e3c2caed&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUoS67lwDq2IXv9EFdF8P1SjFtIYtfibR6tBUFibibmAtHvowfiaUhPWWU5K9g8uFmsIzHS9FXwo1Bmhg%2F0%3Fwx_fmt%3Djpeg"/></p><p><img src="https://wechat2rss.xlab.app/img-proxy/?k=13392c30&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUoS67lwDq2IXv9EFdF8P1SG0Ldb5jn3lZkobhnuibwnDVr7HWlDKtDGpjEnkhh8aiceXOty8TicXSqQ%2F0%3Fwx_fmt%3Djpeg"/></p><p><img src="https://wechat2rss.xlab.app/img-proxy/?k=2671b9ed&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUoS67lwDq2IXv9EFdF8P1SicpMjQHxkIDibUZ47NTAzBvRqUfUIDN5KFWX9lLjxmrIAzVo01RGicZuw%2F0%3Fwx_fmt%3Djpeg"/></p><p><img src="https://wechat2rss.xlab.app/img-proxy/?k=2d9147a5&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUoS67lwDq2IXv9EFdF8P1SZ58ye8Iu2kHkMRTicTbMfrUpibI6ibcG2Qy9LV8QBOT1FASStVmNfibdEw%2F0%3Fwx_fmt%3Djpeg"/></p><p><img src="https://wechat2rss.xlab.app/img-proxy/?k=def5fa95&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUoS67lwDq2IXv9EFdF8P1SF1BnrxdzYC1H5KkMb53hVplVdLoKeFiaZTic3ngS8BULr5pKp2l9hzjA%2F0%3Fwx_fmt%3Djpeg"/></p><p><img src="https://wechat2rss.xlab.app/img-proxy/?k=67d8c1a7&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUoS67lwDq2IXv9EFdF8P1SBal0Exyew7DJOK5W91QuicZKr5ibfqPk8RpmK2MvcOoZ8uaicalP4RN9w%2F0%3Fwx_fmt%3Djpeg"/></p><p><img src="https://wechat2rss.xlab.app/img-proxy/?k=17d771db&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUoS67lwDq2IXv9EFdF8P1S014G9LcOq37bCuDrPIIljfyImpO91ZjFP6U6DicicvVXrqSWL4PTCQJw%2F0%3Fwx_fmt%3Djpeg"/></p>



<p><a href="https://wechat2rss.xlab.app/link-proxy/?k=5bdf18b3&amp;r=1&amp;u=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU0MzgzNTU0Mw%3D%3D%26mid%3D2247486048%26idx%3D1%26sn%3Da97e97b359138ee2bdea8c69bb6c2e10">跳转微信打开</a></p>
]]></content:encoded>
      <pubDate>Fri, 02 Jan 2026 08:54:04 +0800</pubDate>
    </item>
    <item>
      <title>软件测试顶会ISSTA 2025 论文清单与摘要（补遗）</title>
      <link>https://mp.weixin.qq.com/s?__biz=MzU0MzgzNTU0Mw==&amp;mid=2247486003&amp;idx=1&amp;sn=82d1280ff69952f09d94eb5f9ff2d59a</link>
      <description>ISSTA 主会场 Full Paper，之前发的只是附属研讨会的短文</description>
      <content:encoded><![CDATA[<p>
<span>漏洞战争</span> <span>2025-09-20 21:58</span> <span style="display: inline-block;">广东</span>
</p>

<p>ISSTA 主会场 Full Paper，之前发的只是附属研讨会的短文</p>



<p>
<img src="https://wechat2rss.xlab.app/img-proxy/?k=e96d43b2&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdVHDOVlQ0Jn7HjKFFqODGbv5zzCpzBVDT1T4I2vHicCKRaewJut6yNUwaOFST1VIKERCxYDsXV2wGg%2F0%3Fwx_fmt%3Djpeg"/>
</p>


<p class="mp_profile_iframe_wrp" nodeleaf=""><mp-common-profile class="js_uneditable custom_select_card mp_profile_iframe" data-pluginname="mpprofile" data-nickname="漏洞战争" data-alias="vulwar" data-from="0" data-headimg="http://mmbiz.qpic.cn/mmbiz_png/icNlicgdbzSdWzbtNBGKasvuCIJ0vjJMt3QXRbMdakfbN6oq553ax43vZeJaD0QPnP4ktdfDS01vozNKsiapNz0SQ/0?wx_fmt=png" data-signature="谈人生，聊梦想，话安全，说风云" data-id="MzU0MzgzNTU0Mw==" data-is_biz_ban="0" data-service_type="1" data-verify_status="1"></mp-common-profile></p><h3 cid="n0" mdtype="heading" data-pm-slice="0 0 []"><span leaf="" style="color:rgba(0, 0, 0, 0.9);font-size:17px;font-family:&#34;mp-quote&#34;, &#34;PingFang SC&#34;, system-ui, -apple-system, BlinkMacSystemFont, &#34;Helvetica Neue&#34;, &#34;Hiragino Sans GB&#34;, &#34;Microsoft YaHei UI&#34;, &#34;Microsoft YaHei&#34;, Arial, sans-serif;line-height:1.6;letter-spacing:0.034em;font-style:normal;font-weight:normal;">前一篇发的其实是</span><span leaf="">ISSTA Companion 短文，之前没注意，下载好多篇看了之后，发现都是短文，质量远不及主会场的论文，今天重新采集主会场 Full Paper 列表发出来。</span></h3><h3 cid="n0" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; " data-pm-slice="0 0 []"><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">1、A Large-Scale Empirical Study on Fine-Tuning Large Language Models for Unit Testing</span></span></h3><p cid="n2" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">单元测试在软件开发中扮演着关键角色，能有效提升软件质量与可靠性。然而人工生成高效测试用例耗时费力，这推动了单元测试自动化研究的发展。近年来，大语言模型（LLMs）在测试生成、断言生成和测试演进等单元测试任务中展现出潜力，但现有研究范围有限且缺乏对LLMs效能的系统评估。为填补这一空白，我们开展了针对单元测试任务的大规模大语言模型微调实证研究。本研究涵盖三项单元测试任务、五个基准数据集、八项评估指标以及37种不同架构和规模的流行LLMs，累计消耗超过3,000个NVIDIA A100 GPU小时。我们聚焦三个核心研究问题：（1）LLMs相较于现有最优方法的性能表现；（2）不同因素对LLM性能的影响；（3）微调与提示工程的效果对比。研究发现：在所有三项单元测试任务中，LLMs在几乎全部指标上均优于现有最优方法，凸显了微调LLMs在单元测试任务中的潜力。进一步地，大规模仅解码器模型在所有任务中表现最佳，而编码器-解码器模型在相同参数规模下性能更优。此外，通过对比微调与提示工程的性能表现，我们发现提示工程方法在单元测试任务中具有显著潜力。我们继而探讨了测试生成任务中的关键问题，包括数据泄露问题、缺陷检测能力和指标对比。最后，我们进一步为近期基于LLM的单元测试任务实践提出了具体指导准则。总体而言，本研究证明了微调LLMs在单元测试任务中的广阔前景，并有效降低了实际场景中单元测试专家的人工投入成本。</span></span></p><p cid="n3" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728951" target="_blank">https://doi.org/10.1145/3728951</a></span></span></p><h3 cid="n4" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">2、A Low-Cost Feature Interaction Fault Localization Approach for Software Product Lines</span></span></h3><p cid="n5" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">在软件产品线（SPL）中，定位缺陷特征交互能帮助开发人员识别测试失败的根源，从而减轻其工作负担。由于潜在交互数量随特征数量呈指数级增长，该任务面临巨大挑战——尤其对于大型SPL而言，搜索空间极为庞大。现有方法通过基于可疑特征选择（例如出现在失败配置但未通过测试的特征）构建和检测潜在特征交互，部分解决了这一问题。然而这些方法往往忽略缺陷特征交互与测试失败之间的因果关系，导致搜索空间过大和故障定位成本高昂。为此，我们提出一种基于反事实推理的低成本故障定位方法（CRFL），通过缩减搜索空间和减少冗余计算来提升定位效率。具体而言，CRFL运用反事实推理推断可疑特征选择，并采用对称不确定性过滤无关特征交互。此外，该方法融合两项发现机制以避免重复生成和检测相同特征交互。我们在八个公开SPL系统上评估本方法性能，并针对BerkeleyDB和TankWar生成多个缺陷变异体以支持大规模真实SPL的对比实验。实验结果表明：对于小型SPL（6-9个特征），本方法将搜索空间缩减51%∼73%；对于大型SPL（13-99个特征），缩减幅度达71%∼88%。本方法平均运行时间比现有最优技术快约15.6倍。当与语句级定位技术结合时，CRFL能高效定位缺陷语句，这证明其可准确识别缺陷特征交互。</span></span></p><p cid="n6" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728917" target="_blank">https://doi.org/10.1145/3728917</a></span></span></p><h3 cid="n7" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">3、ALMOND: Learning an Assembly Language Model for 0-Shot Code Obfuscation Detection</span></span></h3><p cid="n8" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">代码混淆是一种通过增加软件理解和逆向工程难度来保护软件的技术。然而，该技术也可能被恶意利用，如实施代码抄袭或开发恶意程序。基于学习的技术在监督学习和标注训练集的帮助下已取得显著成功。但面对现实环境中涉及私有开发且未公开的混淆器时，这些监督学习方法在面对未见未知类别的混淆技术时，其泛化性和鲁棒性常引发担忧。</span></span></p><p cid="n9" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">本文提出ALMOND——一种用于检测二进制可执行文件中代码混淆的新型零样本方法。与先前监督学习方法不同，ALMOND无需标注的混淆样本进行训练，而是利用仅在未混淆汇编代码上预训练的语言模型来识别混淆引入的语言偏差。其核心创新是采用&#34;错误困惑度&#34;作为检测指标，该指标专注于模型未能预测的标记。连续错误困惑度进一步强化此方法，以捕捉混淆序列特有的连续预测错误特征。</span></span></p><p cid="n10" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">实验表明，ALMOND对未见混淆方法的检测准确率达96.3%，优于监督基线方法。在真实恶意软件样本上，其AUC值达到0.869，显著超越监督学习基线。我们的数据集、预训练模型及评估代码将在</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://github.com/palmtreemodel/ALMOND" target="_blank">https://github.com/palmtreemodel/ALMOND</a></span></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""> 公开。</span></span></p><p cid="n11" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728886" target="_blank">https://doi.org/10.1145/3728886</a></span></span></p><h3 cid="n12" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">4、Adding Spatial Memory Safety to EDK II through Checked C (Experience Paper)</span></span></h3><p cid="n13" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">嵌入式软件主要采用C语言编写，由于空间内存问题而易受内存破坏漏洞影响。尽管存在多种内存安全技术，但由于资源限制和缺乏标准化操作系统支持，这些技术通常不适用于嵌入式系统。Checked C作为一种向后兼容的内存安全C方言，通过使用指针注解进行运行时检查，以最小开销提升空间内存安全性，提供了潜在解决方案。本文首次呈现了将典型嵌入式代码库EDK2（开源UEFI实现）移植到Checked C的实践报告，重点阐明移植过程中的挑战，并为在类似嵌入式系统中应用Checked C提供见解。我们还开发了增强型自动注解工具e3c，将转换率提升25%，显著简化了向Checked C的转换过程。</span></span></p><p cid="n14" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728929" target="_blank">https://doi.org/10.1145/3728929</a></span></span></p><h3 cid="n15" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">5、AdverIntent-Agent: Adversarial Reasoning for Repair Based on Inferred Program Intent</span></span></h3><p cid="n16" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">自动程序修复（APR）技术已展现出显著成果，尤其是神经网络的应用。当前多数APR工具聚焦于测试套件规定的代码转换，而非对程序意图和高级错误规约的推理。若缺乏对程序意图的准确理解，这些工具易生成过度拟合不完整测试套件的补丁，无法体现开发者真实意图。然而，程序意图推理本身极具挑战性。本研究提出一种基于批判与对抗推理的方法——AdverIntent-Agent。其创新性在于将重心从生成多个APR补丁转向推断多种潜在程序意图。理想情况下，我们致力于推断出具有一定对抗性的多重意图，从而最大化至少一种意图与开发者原始意图高度匹配的概率。AdverIntent-Agent采用多智能体架构，包含推理智能体、测试智能体和修复智能体：推理智能体首先生成对抗性程序意图及对应错误语句；测试智能体随后为每个推断意图生成对抗测试用例，构建使用相同输入但预期输出不同的测试预言；最终修复智能体通过动态精准的LLM提示生成同时满足推断程序意图和生成测试的补丁。我们在Defects4J 2.0和HumanEval-Java基准上评估AdverIntent-Agent，分别成功修复77和105个错误。本研究通过让开发者以自然语言评估程序意图（而非审查代码补丁），显著降低了补丁审核所需的工作量。</span></span></p><p cid="n17" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728939" target="_blank">https://doi.org/10.1145/3728939</a></span></span></p><h3 cid="n18" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">6、An Investigation on Numerical Bugs in GPU Programs Towards Automated Bug Detection</span></span></h3><p cid="n19" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">通用图形处理器（GPU）计算已成为主流的并行计算范式，在科学计算和深度学习等多个领域带来显著的性能提升。然而，GPU程序易受数值错误影响，可能导致计算结果错误或系统崩溃。这类错误的检测、调试和修复极具挑战性：它们依赖于特定输入值或类型，缺乏可靠的错误检查机制和验证基准，且GPU独特的编程规范增加了定位根本原因的难度。修复过程还需要掌握GPU计算及数值库的领域知识。因此，深入理解GPU数值错误（GPU-NBs）的特征对开发有效解决方案至关重要。</span></span></p><p cid="n20" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">本文通过分析GitHub中397个真实错误样本，对GPU-NBs展开全面研究。我们归纳了常见根本原因、症状、触发错误的输入模式与测试验证方法，并总结了修复策略。同时，我们开发了初步检测工具GPU-NBDetect，可检测六类不同数值错误。该工具在四个数值库的186个数学函数中共计发现226个错误，其中60个已获开发者确认。本研究为GPU数值错误的检测与预防技术奠定了基础，并为构建高效调试与自动修复工具提供了重要参考。</span></span></p><p cid="n21" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728950" target="_blank">https://doi.org/10.1145/3728950</a></span></span></p><h3 cid="n22" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">7、Are Autonomous Web Agents Good Testers?</span></span></h3><p cid="n23" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">尽管自动化测试技术不断进步，但由于测试脚本脆弱性带来的高维护需求——应用程序结构的微小变更就可能导致脚本失效，手动测试仍然占据主导地位。大型语言模型（LLMs）的最新发展为自主网页代理（AWAs）提供了潜在替代方案，这些代理能够自主与应用程序进行交互。此类代理可作为自主测试代理（ATAs），通过使用类似人类测试人员所需的自然语言指令，有望减少对高维护性自动化脚本的依赖。本文研究了将AWAs应用于自然语言测试用例执行的可行性及其评估方法。</span></span></p><p cid="n24" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">我们的贡献包括：（1）构建包含三个离线Web应用程序的基准测试集及113个手动测试用例（含通过/失败案例），用于评估比较ATAs性能；（2）开发SeeAct-ATA和pinATA两个开源ATA实现，能够执行测试步骤、验证断言并给出判定结果；（3）通过基准测试进行对比实验，量化评估ATA的有效性。最后我们还对性能最佳的PinATA进行了定性评估以识别其局限性。</span></span></p><p cid="n25" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">研究结果表明：在执行测试用例时，我们简单的SeeAct-ATA实现相比更先进的PinATA实现性能较差（性能差距达50%）。尽管PinATA能获得约60%的正确判定率和高达94%的特异性指标，但我们发现要开发更具韧性和可靠性的ATAs仍需解决若干局限性，这为构建强健、低维护的测试自动化系统指明了方向。</span></span></p><p cid="n26" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728879" target="_blank">https://doi.org/10.1145/3728879</a></span></span></p><h3 cid="n27" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">8、AudioTest: Prioritizing Audio Test Cases</span></span></h3><p cid="n28" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">基于深度神经网络（DNN）的音频分类系统是影响日常生活各类应用（如语音助手）的核心组件。确保此类系统的准确性至关重要，因为分类错误可能导致严重的安全问题与用户信任危机。然而音频分类器的测试面临重大挑战：音频测试样本的人工标注成本极高。测试优先级排序已成为缓解标注成本问题的有效手段，该方法通过优先处理可能被误分类的测试样本，实现关键样本的早期标注，从而提升调试效率。但现有优先级排序方法在音频测试样本上存在局限：1）基于代码覆盖的方法在效果和效率上均逊于基于置信度的方法；2）基于置信度的方法仅依赖预测概率向量，忽略了音频数据的独特性；3）基于变异的方法缺乏针对音频设计的变异操作，难以适用于音频测试样本。为此，我们提出专为音频测试样本设计的新型优先级排序方法AudioTest。其核心思想是：与误分类样本空间距离越近的测试越可能被误分类。基于音频数据的特性，AudioTest生成四类特征：时域特征、频域特征、感知特征和输出特征。该方法将每项测试的四类特征拼接为特征向量，并采用精心设计的特征变换策略，使误分类样本在空间中的分布更紧凑。AudioTest借助训练好的模型，根据变换后的向量预测每项测试的误分类概率，并据此排序。我们在包含纯净与带噪数据集的96个实验对象上评估AudioTest，采用故障检测率（PFD）和平均故障检测百分比（APFD）两项经典指标。结果表明，AudioTest在PFD和APFD上均优于所有对比方法。在纯净数据集上，相比基线方法的平均提升幅度为12.63%至54.58%；在带噪数据集上，提升幅度为12.71%至40.48%。</span></span></p><p cid="n29" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728907" target="_blank">https://doi.org/10.1145/3728907</a></span></span></p><h3 cid="n30" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">9、Automated Attack Synthesis for Constant Product Market Makers</span></span></h3><p cid="n31" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">去中心化金融（DeFi）实现了传统金融中许多前所未有的新型应用，但同时也引入了新型安全漏洞。此类漏洞的一个典型代表是代币合约与遵循恒定乘积做市商（CPMM）模型的去中心化交易所（DEX）之间的可组合性缺陷。我们将这类缺陷称为CPMM可组合性漏洞，其根源在于代币合约的设计问题导致其与CPMM模型不兼容，进而危及CPMM生态系统中的其他代币。自2022年以来，此类漏洞已引发23次攻击事件，累计造成220万美元损失。智能合约审计公司BlockSec报告显示，仅2023年2月就发生了138次此类攻击。</span></span></p><p cid="n32" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">本文提出CPMMX工具，能够自动检测整个区块链上的CPMM可组合性漏洞。为实现这种可扩展性，我们首先形式化定义了CPMM可组合性漏洞，发现破坏两个安全不变量即可诱发此类漏洞。基于该发现，我们设计了采用&#34;先浅层后深度&#34;双步检测机制的CPMMX工具：首先通过浅层搜索识别破坏不变量的交易，继而通过深度搜索精炼这些交易以验证攻击者可获利性。我们在两个公共数据集和一个合成数据集上使用五种基线方法进行评估。实验表明，CPMMX的漏洞检测数量是基线方法的1.5至2.5倍，分析速度显著提升且F1分数更高。此外，我们将CPMMX应用于以太坊和币安网络最新区块的所有合约，新发现26个可获利漏洞，潜在攻击总收益达1.57万美元。</span></span></p><p cid="n33" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728872" target="_blank">https://doi.org/10.1145/3728872</a></span></span></p><h3 cid="n34" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">10、Automated Test Transfer across Android Apps using Large Language Models</span></span></h3><p cid="n35" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">移动应用在日常生活中的普及要求采用强大的测试策略来确保质量和效率，特别是通过基于使用的端到端移动应用用户界面（UI）测试。然而，手动创建和维护此类测试对开发者而言成本高昂。由于许多应用在多样化UI下具有相似功能，先前研究已证明在同领域不同应用间迁移UI测试的可能性，从而避免了手动编写测试的需求。但这些方法难以适应现实场景中的变化，当源应用和目标应用相似度不高或未能准确迁移测试预言时往往存在局限。本文提出创新技术LLMigrate，利用大语言模型（LLM）高效实现跨移动应用的基于使用的UI测试迁移。实验评估表明，LLMigrate在自动化测试迁移中可实现97.5%的成功率，将手动编写测试的工作量减少91.1%。相较于现有最佳技术，该方案在成功率上提升9.1%，在工作量减少上提高38.2%，为自动化测试迁移设立了新基准。</span></span></p><p cid="n36" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728975" target="_blank">https://doi.org/10.1145/3728975</a></span></span></p><h3 cid="n37" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">11、Beyond Static Pattern Matching? Rethinking Automatic Cryptographic API Misuse Detection in the Era of LLMs</span></span></h3><p cid="n38" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">尽管加密API误用的自动化检测已取得显著进展，但由于依赖手动定义模式，其在复杂目标上的精确度仍然有限。大语言模型（LLM）凭借其上下文感知能力为弥补这一缺陷提供了新途径，但其随机性及幻觉问题对精准安全分析应用构成挑战。本文首次系统研究LLM在加密API误用检测中的应用，并获得重要发现：直接应用LLM的不稳定性导致初始报告中超过半数误报。然而，通过将检测范围与现实场景对齐并采用创新的代码与分析验证技术，可显著提升基于LLM检测的可靠性，实现近90%的检测召回率，这一提升远超传统方法，并成功在成熟基准测试中发现未知漏洞。研究同时揭示了当前LLM存在的共性失效模式，包括密码学知识缺失和代码语义误判等盲点。基于这些发现，我们部署了LLM检测系统，在开源Java和Python代码库（含Apache等知名项目）中新发现63个漏洞（47个已确认，7个已完成修复）。</span></span></p><p cid="n39" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728875" target="_blank">https://doi.org/10.1145/3728875</a></span></span></p><h3 cid="n40" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">12、BinDSA: Efficient, Precise Binary-Level Pointer Analysis with Context-Sensitive Heap Reconstruction</span></span></h3><p cid="n41" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">指针分析是二进制代码逆向工程领域的基础组件。它可用于重建二进制程序的调用图，并能进一步应用于各种安全分析。然而，二进制代码中符号和类型信息的缺失给有效的指针分析带来了巨大挑战。现有研究在对二进制代码进行指针分析时通常采用近似方法，但这些方法往往效率低下且会产生大量误报目标。本文提出了一种专为二进制指针分析定制的新模型BinDSA，该模型将精确性和效率置于完备性之上。它具备字段敏感性和上下文敏感性，采用基于统一化的技术并重建上下文敏感的堆结构。通过联合恢复数据结构和指向关系，进一步提升了分析精度。评估结果表明，BinDSA的效率比当前最先进技术提升5倍，且在未显著牺牲完备性的情况下显著提高了精确度。我们还将BinDSA应用于CVE可达性分析和漏洞检测，证明了其在安全任务中的有效应用。</span></span></p><p cid="n42" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728928" target="_blank">https://doi.org/10.1145/3728928</a></span></span></p><h3 cid="n43" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">13、BinQuery: A Novel Framework for Natural Language-Based Binary Code Retrieval</span></span></h3><p cid="n44" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">二进制函数检索（BFR）在逆向工程中至关重要，用于识别二进制代码中的特定功能，尤其是与恶意行为或漏洞相关的功能。传统的BFR方法依赖启发式规则，往往缺乏处理大规模或多样化二进制分析任务所需的效率和适应性。为应对这些挑战，我们提出了BinQuery——一个基于自然语言的BFR（NL-based BFR）框架，通过自然语言查询以更高的灵活性和精确度检索相关二进制函数。BinQuery引入了创新技术来弥合二进制代码与自然语言之间的信息鸿沟，实现细粒度对齐以提升检索准确度，并利用大语言模型（LLM）优化查询和生成多样化描述。大量实验表明，BinQuery显著超越当前最先进方法，在可比基准测试中召回率@1提升42.55%，性能提高4倍。</span></span></p><p cid="n45" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728927" target="_blank">https://doi.org/10.1145/3728927</a></span></span></p><h3 cid="n46" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">14、Bridge the Islands: Pointer Analysis for Microservice Systems</span></span></h3><p cid="n47" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">微服务架构通过将应用程序分解为松散耦合的服务，为企业级软件带来了可扩展性与灵活性的革命。然而这种范式转变为指针分析——一种对支持各类客户端分析至关重要的基础静态分析技术——带来了独特挑战。现有基础分析方法主要针对单体式企业应用设计，难以处理复杂的服务间通信（如远程过程调用和基于消息的通信）以及依赖注入和Web端点配置等核心编程范式。本文提出Micans，这是首个专门针对微服务系统这些挑战设计的指针分析方案，能够构建跨服务的完整值流。我们在多个领域的真实基准测试上对Micans进行了全面评估，重点关注其在解析服务通信、构建调用图等关键程序信息以及支持污点分析等客户端分析方面的有效性。Micans持续显著优于现有最先进方法，证明了其处理复杂跨服务通信和多样化编程范式的能力。这些结果凸显了Micans作为强大基础分析方案的潜力，推动了静态分析能力以适应现代微服务复杂性的发展。</span></span></p><p cid="n48" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728896" target="_blank">https://doi.org/10.1145/3728896</a></span></span></p><h3 cid="n49" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">15、Bridging the Gaps between Graph Neural Networks and Data-Flow Analysis: The Closer, the Better</span></span></h3><p cid="n50" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">近年来，深度神经网络在编程任务中的应用取得了显著实践成果，这促使研究者开始探索这些模型执行传统程序分析技术的能力。数据流分析（DFA）作为经典且成熟的分析方法，为评估神经网络在此领域的能力提供了契机。基于DFA与图神经网络（GNN）的结构相似性，我们深入探究GNN在多大程度上能有效建模DFA算法。依托神经算法推理（NAR）中的算法对齐概念，我们识别出两大关键挑战：DFA中位向量的非干扰特性，以及算法不同阶段外部信息的复杂处理机制。针对这些不足，我们提出三种逐步与DFA算法对齐的GNN架构——DFA-GNN−、DFA-GNN和DFA-GNN+。实验评估重点关注模型的泛化能力，特别是在小规模样本训练、大规模输入测试场景下的表现。结果表明，具有更高算法对齐度的GNN（如DFA-GNN+）展现出卓越的泛化能力和样本效率，仅需极少训练数据即可精准处理10倍规模的输入。值得注意的是，仅通过输入-输出对训练的GNN模型，其性能可与采用完整执行轨迹监督（当前NAR研究常用方法）的模型相媲美。这一发现凸显了当GNN与目标算法实现算法对齐时，在推理任务中表现出的高效性与鲁棒性。</span></span></p><p cid="n51" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728906" target="_blank">https://doi.org/10.1145/3728906</a></span></span></p><h3 cid="n52" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">16、Can LLMs Replace Human Evaluators? An Empirical Study of LLM-as-a-Judge in Software Engineering</span></span></h3><p cid="n53" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">近年来，大型语言模型（LLM）已被应用于代码生成等多种软件工程（SE）任务，显著推进了软件工程任务的自动化进程。然而，评估这些由LLM生成的代码与文本质量仍具挑战性。当前广泛使用的Pass@k指标不仅需要大量单元测试和配置环境，导致人力成本高昂，且不适用于LLM生成文本的评估。而BLEU等传统指标仅衡量词汇而非语义相似性，也已受到质疑。为此，学界新兴趋势是采用LLM进行自动化评估，即&#34;LLM即评判员&#34;方法。这类方法被认为能比传统指标更好地模拟人类评估，且无需依赖高质量参考答案。但它们在软件工程任务中与人类评估的真实契合度尚未得到验证。</span></span></p><p cid="n54" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">本文通过实证研究探讨了用于评估软件工程任务的LLM即评判员方法，重点关注其与人类判断的一致性。我们选取了七种基于通用LLM的评判方法，以及两种专为评估任务微调的LLM。通过在代码翻译、代码生成和代码摘要这三个最新软件工程数据集上生成LLM响应并进行人工评分后，我们引导这些方法对每个响应进行评估。最终将自动评分结果与人工评估进行对比。研究表明：在代码翻译和代码生成任务中，基于输出的评判方法与人类评分的皮尔逊相关系数分别达到81.32和68.51，接近人类评估水平，显著优于传统最佳指标ChrF++的34.23和64.92。此类方法直接引导LLM输出判断结果，且呈现出更接近人类评分模式的平衡分布特征。最后我们提出洞见与启示，指出当前最先进的LLM即评判员方法在某些软件工程任务中具有替代人类评估的潜力。</span></span></p><p cid="n55" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728963" target="_blank">https://doi.org/10.1145/3728963</a></span></span></p><h3 cid="n56" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">17、Causality-Aided Evaluation and Explanation of Large Language Model-Based Code Generation</span></span></h3><p cid="n57" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">尽管代码生成已广泛应用于各种软件开发场景，但生成代码的质量仍无法得到保证。这在基于大语言模型（LLM）的代码生成时代尤为令人担忧——LLMs被视为复杂而强大的黑盒模型，通过高级自然语言规范（即提示词）来生成代码。然而，鉴于LLMs的复杂性和缺乏透明性，有效评估和解释其代码生成能力存在固有挑战。</span></span></p><p cid="n58" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">受因果分析及其软件工程应用领域最新进展的启发，本文提出一种因果驱动的方法来系统分析提示词与代码间的因果关系。该研究面临三个关键技术挑战：(1) 以规范形式表示文本提示词和代码；(2) 建立高层概念与代码特征间的因果关系；(3) 系统分析多样化的提示词变体。针对这些挑战，我们首先提出基于因果图的新型表示方法，对输入提示词中细粒度、人类可理解的概念进行建模。随后利用构建的因果图识别提示词与衍生代码间的因果关系。</span></span></p><p cid="n59" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">我们通过对四个主流LLMs模型应用12种以上提示词调整策略进行研究，展示了该框架的洞察能力。研究结果表明：我们的技术具有揭示LLM有效性机理、帮助终端用户理解预测结果的潜力。此外，实验证明该方法可通过合理校准提示词，为提升LLM生成代码质量提供可操作的改进建议。</span></span></p><p cid="n60" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728938" target="_blank">https://doi.org/10.1145/3728938</a></span></span></p><h3 cid="n61" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">18、ClassEval-T: Evaluating Large Language Models in Class-Level Code Translation</span></span></h3><p cid="n62" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">摘要近年来，大型语言模型（LLM）显著提升了自动化代码翻译的性能，在多项传统基准测试中其计算准确率可达80%以上。然而，这些基准中的代码样本多为简短、独立、语句/方法级别且算法导向的类型，与实际编程任务存在偏差。因此，LLM在处理日常开发中所编写代码的实际翻译能力仍不明确。</span></span></p><p cid="n63" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">为此，我们构建了类级别代码翻译基准ClassEval-T，首次系统评估了当前主流LLM在类级别代码翻译任务上的表现。该基准扩展自知名类级别Python代码生成基准ClassEval，涵盖数据库操作、游戏设计等实际编程主题，并包含字段、方法、库依赖等多样化上下文关联。我们耗费360人时完成了向Java和C++的手动迁移，提供完整代码样本及对应测试套件。随后，我们设计了整体翻译、最小依赖翻译和独立翻译三种类级别代码翻译策略，在ClassEval-T上评估了涵盖商业型、通用型和代码专用型的八个最新LLM（不同系列与参数量）。实验结果表明：与最广泛研究方法级别代码翻译的基准相比，LLM性能出现显著下降；不同模型间表现差异明显，证实ClassEval-T能有效衡量当前LLM能力。我们进一步探讨了不同翻译策略的适用场景，以及LLM在处理类样本时对依赖关系的感知能力。最后，本文对最佳性能LLM产生的1,243个失败案例进行了全面归因分析，为实践指导和未来研究提供启示。</span></span></p><p cid="n64" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728940" target="_blank">https://doi.org/10.1145/3728940</a></span></span></p><h3 cid="n65" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">19、Clause2Inv: A Generate-Combine-Check Framework for Loop Invariant Inference</span></span></h3><p cid="n66" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">循环不变式推断是程序验证中一个基础且具有挑战性的问题。近期研究采用&#34;生成-验证&#34;框架，通过迭代方式在生成步骤产生候选循环不变式，并在验证步骤进行确认。该框架的主要挑战在于每次迭代中产生高质量的候选不变式，以加速推断过程的收敛。我们通过实证发现：由于逻辑连接词的复杂性，现有方法可能难以直接生成完整不变式，但正确循环不变式的所有子句通常已出现在历史生成结果中。这一发现促使我们改进现有框架，提出了&#34;生成-组合-验证&#34;新框架，将循环不变式推断任务分解为子句生成和子句组合两个阶段。具体而言，我们基于新框架提出了一种新型循环不变式推断方法：采用基于大语言模型的子句生成器与反例驱动的子句组合器。子句生成器利用大语言模型生成大量子句；子句组合器则基于历史反例将生成子句组合成不变式。实验表明，该方法显著优于现有循环不变式推断方案：在线性不变式推断任务中解决316题中的312题，在非线性任务中解决50题中的44题，分别比现有基线方法多解决至少93题和16题。该框架具有良好扩展性，可通过将候选不变式拆分为子句的方式，灵活适配当前基于&#34;生成-验证&#34;框架的各类现有方法。评估显示经轻微适配后，我们的方法能同时提升现有方案的效果与效率：例如Code2Inv原本解决210个线性问题（平均耗时137.6秒），改进后可解决252个问题（平均耗时降至17.8秒）。</span></span></p><p cid="n67" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728920" target="_blank">https://doi.org/10.1145/3728920</a></span></span></p><h3 cid="n68" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">20、ConTested: Consistency-Aided Tested Code Generation with LLM</span></span></h3><p cid="n69" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">近年来，大语言模型（LLM）在代码生成领域取得显著进展，能够根据自然语言需求自动生成代码片段。尽管已达到最先进水平，但LLM生成的代码往往存在准确性与可靠性问题，开发者需耗费大量精力进行调试和评估。现有研究提出利用一致性原则：通过选择能通过更多测试（内部一致性）且在多轮生成中表现稳定（外部一致性）的代码。但由于测试用例同样由LLM生成，依赖错误测试的多数投票会导致不可靠结果。为此，我们提出一种轻量级交互框架，通过融入用户反馈有效引导一致性优化。实验表明，该方法仅需极少人工介入即可显著提升性能。我们在每轮迭代中引入代码与测试的&#34;排序-修正-修复&#34;协同进化机制，通过双向迭代提升二者质量，使代码与测试间的一致性投票更可靠。经大量实验验证，ConTested框架在GPT-3.5和GPT-4o等多个LLM上均表现优异：相对GPT-3.5提升32.9%，相对GPT-4o提升16.97%，较当前最先进的后处理技术MPSC提升11.1%。该改进仅需4轮用户交互，人力成本极低。用户研究进一步证实了ConTested的可行性与成本效益，表明其能在不过度增加负担的前提下有效提升代码生成质量。</span></span></p><p cid="n70" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728902" target="_blank">https://doi.org/10.1145/3728902</a></span></span></p><h3 cid="n71" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">21、Copy-and-Paste? Identifying EVM-Inequivalent Code Smells in Multi-chain Reuse Contracts</span></span></h3><p cid="n72" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">随着以太坊上Solidity合约的发展，越来越多的开发者开始在其他兼容区块链上复用这些合约。然而，开发者可能忽视区块链系统设计之间的差异（如Gas机制和共识协议），导致相同合约在不同区块链上无法实现与以太坊一致的执行效果。这种不一致性揭示了复用合约中的设计缺陷，暴露出阻碍代码可复用性的代码坏味，我们将这种不一致性定义为EVM不等价代码坏味。</span></span></p><p cid="n73" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">本文首次通过实证研究揭示EVM不等价代码坏味的成因与特征。为确保所识别的坏味真实反映开发者关切，我们收集并分析了1,379份安全审计报告和326篇Stack Overflow帖子，这些资料涉及币安智能链（BSC）和Polygon等EVM兼容区块链上的复用合约。采用开放式卡片分类法，我们定义了六类EVM不等价代码坏味。针对自动化检测需求，我们开发了名为EquivGuard的工具。该工具采用静态污点分析识别关键路径，并通过符号执行验证路径可达性。通过对六大区块链上905,948份合约的分析，我们发现EVM不等价代码坏味普遍存在，平均出现率达17.70%。虽然存在代码坏味的合约未必直接导致财务损失或攻击，但其高出现率及涉及的巨额资产管理规模，凸显了复用这些存在坏味的以太坊合约的潜在威胁。因此，建议开发者摒弃复制-粘贴的编程实践，并在复用以太坊合约前检测EVM不等价代码坏味。</span></span></p><p cid="n74" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728921" target="_blank">https://doi.org/10.1145/3728921</a></span></span></p><h3 cid="n75" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">22、CrossProbe: LLM-Empowered Cross-Project Bug Detection for Deep Learning Frameworks</span></span></h3><p cid="n76" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">深度学习（DL）模型可能给底层DL框架带来可靠性挑战。这些框架易存在缺陷，可能导致崩溃或错误结果，尤其在涉及复杂模型架构和高计算需求时。此类框架缺陷会破坏DL应用，影响用户体验并可能造成经济损失。传统测试DL框架的方法难以适应模型结构的庞大搜索空间、多样化的API以及混合编程与硬件环境的复杂性。尽管近期基于大语言模型（LLM）的技术改进了DL框架模糊测试，但其效果高度依赖于输入提示的质量与多样性，而现有提示通常基于单一框架数据构建。  </span></span></p><p cid="n77" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">本文提出一种创新方法，通过利用“镜像问题”（即不同框架中因共通功能存在的类似缺陷）来增强DL框架的测试生成。我们的方法基于以下发现：如PyTorch和TensorFlow等DL框架常因依赖项、开发者错误或边缘情况输入而存在共性缺陷。我们开发了CrossProbe工具，利用LLM从某一框架的现有问题中有效学习，并将获得的知识迁移至另一框架的测试用例生成中，从而发现镜像问题，实现跨框架缺陷检测。为克服框架间功能不兼容与实现差异导致的测试用例生成挑战，我们引入了三个处理流程：对齐、筛选和区分。这些流程通过建立API对数据库、过滤不适用案例及强化跨框架差异，降低迁移错误。实验表明，CrossProbe节省了36.3%的生成迭代次数，且相比现有最先进的基于LLM的测试技术，问题迁移成功率提升25.0%。通过迁移知识，CrossProbe检测到24个独特缺陷，其中19个为先前未知且均需依赖深度学习跨框架知识才能识别。</span></span></p><p cid="n78" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728984" target="_blank">https://doi.org/10.1145/3728984</a></span></span></p><h3 cid="n79" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">23、DataHook: An Efficient and Lightweight System Call Hooking Technique without Instruction Modification</span></span></h3><p cid="n80" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">系统调用是用户空间程序与操作系统内核交互的主要接口。通过挂钩系统调用，可以分析和修改用户空间程序的行为。本文提出DataHook，一种针对32位程序的高效轻量级系统调用挂钩技术。与现有系统调用挂钩技术相比，DataHook通过仅修改少量数据元素而不改变任何程序指令，以极低的挂钩开销实现挂钩。这一独特特性不仅避免了二进制重写带来的多线程冲突，还能支持程序应用更高效的用户空间操作系统子系统。然而现有系统调用挂钩技术难以同时满足这些目标：虽然系统调用用户分发（SUD）和ptrace等技术无需重写进程指令，但会引入显著挂钩开销；而低开销技术通常涉及多字节或多指令的二进制重写，这会带来新的问题。DataHook通过利用32位程序在执行系统调用时的特定行为，巧妙解决了这些问题。简言之，与64位程序不同，32位程序在进行系统调用时使用间接调用指令跳转至执行syscall/sysenter的函数。本文通过操纵间接调用过程中涉及的数据依赖关系来实现系统调用挂钩。这一特性普遍存在于基于glibc的Linux系统上的32位程序中（无论运行于x86或x86-64架构），因此DataHook可部署于这些系统。实验结果表明，DataHook将挂钩开销降至现有技术的1/5.4至1/1429.0。当将DataHook应用于服务器程序使其使用用户空间网络协议栈时，服务器性能提升约4.3倍。在Redis中的应用显示，DataHook仅导致4.0%的性能损失，而其他技术会造成8.0%至94.7%的性能损失。</span></span></p><p cid="n81" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728874" target="_blank">https://doi.org/10.1145/3728874</a></span></span></p><h3 cid="n82" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">24、DeCoMa: Detecting and Purifying Code Dataset Watermarks through Dual Channel Code Abstraction</span></span></h3><p cid="n83" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">水印技术是一种用于识别数据来源的方法，可帮助防止受保护数据集的滥用。现有代码水印方法借鉴后门研究思想，通过嵌入隐蔽触发器作为水印。尽管这些方法对稀释攻击和后门检测具有高度抵抗力，但其鲁棒性尚未得到充分评估。为填补这一空白，我们提出DeCoMa——一种检测与净化代码数据集水印的双通道方法。针对代码水印隐蔽性带来的高壁垒，DeCoMa利用代码的双通道约束将样本泛化并映射至标准化模板，继而通过识别标准化模板内配对元素的异常关联来提取隐藏水印。最后，DeCoMa通过移除所有含检测水印的样本实现数据净化，从而实现受保护代码的静默占用。我们开展大量实验评估DeCoMa的有效性与效率，涵盖14种代码水印类型和3类代表性智能代码任务（共14种场景）。实验结果表明，DeCoMa在14种水印检测场景中均实现100%的稳定召回率，显著优于基线方法。此外，DeCoMa能有效攻击嵌入率低至0.1%的代码水印，且在净化数据集上训练后仍保持可比模型性能。由于无需模型训练即可完成检测，DeCoMa的效率远超所有基线方法，加速比达31.5至130.9倍。该结果呼吁开发更先进的代码模型水印技术，而DeCoMa可为未来评估提供基线标准。</span></span></p><p cid="n84" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728952" target="_blank">https://doi.org/10.1145/3728952</a></span></span></p><h3 cid="n85" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">25、DecLLM: LLM-Augmented Recompilable Decompilation for Enabling Programmatic Use of Decompiled Code</span></span></h3><p cid="n86" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">反编译器在逆向工程（RE）中被广泛用于将已编译的可执行文件转换为人类可读的伪代码，并支持各种安全分析任务。现有的反编译器（如IDA Pro和Ghidra）侧重于提升反编译代码的可读性而非可重编译性，这限制了进一步的程序化应用——例如基于CodeQL的漏洞分析需要可编译的反编译代码版本。近期基于大语言模型（LLM）的改进方法虽然对人类逆向分析师有帮助，但遗憾的是仍遵循相同路径。</span></span></p><p cid="n87" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">本文首次探索如何利用现成的大语言模型实现可重编译的反编译——自动将反编译器输出修正为可编译版本。我们首先通过试点研究表明：现有基于规则和基于LLM的方法均难以实现此目标。基于这些发现，我们设计了DecLLM：一种基于迭代LLM修复的循环框架，利用静态重编译和动态运行时反馈作为验证机制，逐步修复反编译器输出。我们在主流C基准测试和真实二进制文件上使用GPT-3.5和GPT-4测试DecLLM，结果表明现成LLM可实现约70%的重编译成功率上限（即100个原本不可重编译的反编译输出中70个变为可重编译）。我们还通过基于CodeQL的漏洞分析验证了可重编译代码的实际应用价值，这种分析无法直接在二进制文件上执行。针对剩余30%的困难案例，我们深入分析其错误类型，为未来面向反编译的LLM设计改进提供见解。</span></span></p><p cid="n88" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728958" target="_blank">https://doi.org/10.1145/3728958</a></span></span></p><h3 cid="n89" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">26、DepState: Detecting Synchronization Failure Bugs in Distributed Database Management Systems</span></span></h3><p cid="n90" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">分布式数据库管理系统（DDBMS）对管理大规模分布式数据至关重要。与单节点数据库不同，DDBMS部署于集群环境，将数据分布至多个节点。其同步过程通过应对数据和集群更新来维持数据一致性。由于同步机制复杂度高，同步缺陷不可避免，可能导致数据不一致、事务错误或集群崩溃，严重损害DDBMS的可用性与可靠性。然而目前针对DDBMS同步过程的测试研究相对匮乏。本文提出DepState框架用于检测同步故障缺陷。该框架通过模拟数据分片和动态集群状态的复杂性，建立跨节点表间依赖关系，并系统性地引入受控的集群状态变化。我们在四大DDBMS系统（MySQL NDB Cluster、MySQL InnoDB Cluster、MariaDB Galera Cluster和TiDB Cluster）上应用DepState，发现25个新缺陷（其中13个已确认）。与最先进工具对比表明：DepState在24小时内多发现14个同步故障缺陷，且在同步相关函数的代码行覆盖率上分别比Jepsen、Mallory、SQLsmith、SQLancer和Mozi高出6.13%-66.51%、5.82%-57.28%、14.12%-83.30%、36.81%-83.88%和43.24%-54.28%。</span></span></p><p cid="n91" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728965" target="_blank">https://doi.org/10.1145/3728965</a></span></span></p><h3 cid="n92" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">27、Detecting Isolation Anomalies in Relational DBMSs</span></span></h3><p cid="n93" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">关系数据库管理系统（DBMS）通过事务确保数据一致性与完整性，并提供多种隔离级别以平衡一致性与性能。然而，关系型DBMS中的隔离异常可能破坏其宣称的隔离级别，导致严重后果（例如错误的查询结果和数据库状态）。现有隔离检查器仅能处理简单的键值式数据模型及相关的read(key)/write(key,value)操作，无法直接支持关系数据模型和复杂SQL操作。</span></span></p><p cid="n94" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">本文提出新型黑盒式关系型DBMS隔离检查器IsoRel，可支持关系数据模型与复杂SQL操作。为推断关系型DBMS中事务间的依赖关系，我们首先设计了一种与隔离机制无关的SQL语句插桩方案：通过在每张数据库表中使用两个辅助列，记录每条SQL语句访问的数据行。随后利用SQL语句的记录数据构建关系型事务的依赖图，并根据异常模式识别隔离异常。</span></span></p><p cid="n95" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">我们在五种广泛使用的关系型DBMS（MySQL、PostgreSQL、MariaDB、CockroachDB和TiDB）及其所有支持的隔离级别上评估IsoRel，共发现48种违反Adya所定义隔离级别的独特隔离异常。</span></span></p><p cid="n96" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728953" target="_blank">https://doi.org/10.1145/3728953</a></span></span></p><h3 cid="n97" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">28、Doctor: Optimizing Container Rebuild Efficiency by Instruction Re-orchestration</span></span></h3><p cid="n98" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">容器化技术彻底改变了软件部署方式，其中Docker凭借其易用性和一致的运行时环境成为行业引领者。随着Docker使用量的增长，优化Dockerfile性能（特别是减少重建时间）已成为维持高效CI/CD流水线的关键。然而，现有优化方法主要针对单次构建，未考虑修改和迭代过程中产生的重复重建成本，限制了长期效率收益。为弥补这一缺陷，我们提出Doctor方法——通过指令重排序提升Dockerfile构建效率，该方法攻克了四大核心挑战：识别指令依赖关系、预测未来修改、确保行为等效性以及管理优化计算复杂度。我们基于Dockerfile语法建立了完整的依赖关系分类体系，并通过历史修改分析优先处理频繁修改的指令。Doctor采用加权拓扑排序算法优化指令顺序，在保持功能性的同时最小化未来重建时间。对2,000个GitHub代码库的实验表明，Doctor成功优化了92.75%的Dockerfile，平均降低26.5%的重建时间，其中12.82%的文件实现超50%的降幅。值得注意的是，86.2%的案例保持了功能相似性。这些发现为Dockerfile管理提供了最佳实践，使开发者能通过科学的优化策略提升Docker效率。</span></span></p><p cid="n99" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://dl.acm.org/doi/10.1145/3728870" target="_blank">https://dl.acm.org/doi/10.1145/3728870</a></span></span></p><h3 cid="n100" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">29、Dynamically Fusing Python HPC Kernels</span></span></h3><p cid="n101" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">近年来，高性能计算领域呈现出两大趋势：一是越来越多地采用Kokkos等性能可移植框架，二是Python等解释型语言的普及。PyKokkos顺应这些趋势，允许开发者使用Python编写性能可移植的内核，显著提升了开发效率。然而，开发者仍面临并行代码组织的问题——将代码拆分为独立内核虽能简化测试与调试，但可能导致性能下降。为让开发者自由组织内核的同时确保性能，我们提出PyFuser：一个用于自动融合性能可移植PyKokkos内核的程序分析框架。该框架动态追踪内核调用，并在应用程序请求计算结果时延迟融合内核。通过提升数据复用率、改进编译器优化效果并减少内核启动开销，PyFuser生成的融合内核可实现加速，且无需修改现有PyKokkos代码。我们还引入了自动化代码转换技术，进一步优化PyFuser生成的融合内核。实验表明，在NVIDIA/AMD GPU及Intel/AMD CPU平台上，PyFuser相比未融合内核平均可实现3.8倍的加速比。</span></span></p><p cid="n102" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728959" target="_blank">https://doi.org/10.1145/3728959</a></span></span></p><h3 cid="n103" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">30、Effective REST APIs Testing with Error Message Analysis</span></span></h3><p cid="n104" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">REST API在现代企业系统构建中至关重要，但对其进行有效测试仍存在挑战，尤其是从规范中推断约束条件存在困难。现有测试方法通常依赖HTTP状态码的反馈来指导输入生成，但忽略了伴随错误消息中的宝贵信息，导致探索API输入空间的效果受限。本文提出EmRest——一种利用错误消息分析来增强REST API有效及异常测试输入生成的黑盒测试方法。针对被测操作，EmRest首先识别其每个输入参数所有可能的值分配策略，随后基于这些策略反复应用组合测试来采样测试输入，并通过统计分析收到的错误消息（400系列状态码）来推断并排除无效的值分配策略组合（即输入空间的约束）。此外，EmRest通过变异最终确定的有效值分配策略来生成异常测试输入，并对收到的错误消息（500系列状态码）进行分类以识别易出故障的操作，为其分配更多测试资源。在16个真实REST API上的实验结果表明，EmRest在50%的API中实现了比现有最优方法更高的操作覆盖率，并检测到226个其他方法未发现的独特错误。</span></span></p><p cid="n105" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728964" target="_blank">https://doi.org/10.1145/3728964</a></span></span></p><h3 cid="n106" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">31、Enhanced Prompting Framework for Code Summarization with Large Language Models</span></span></h3><p cid="n107" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">代码摘要技术对于提升软件开发效率至关重要，它能帮助开发者快速理解并维护软件项目。近期研究利用大型语言模型生成精准代码摘要已展现出优异性能，这主要得益于其强大的生成能力。采用连续提示技术的语言模型能够探索更广阔的问题空间，从而释放更大潜力。然而此类方法也面临特定挑战，尤其是在适配任务特定场景方面——而这正是离散提示的优势所在。此外，编程语言与自然语言之间的本质差异会增加语言模型的理解难度，影响复杂编程场景下摘要的准确性与相关性。这些问题可能导致输出结果与实际需求不匹配，凸显出需要进一步研究以增强语言模型在代码摘要中的有效性。  </span></span></p><p cid="n108" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">为突破这些局限，我们融合上述两种方法的优势，提出EP4CS框架——一种面向大语言模型代码摘要的增强型提示学习框架。首先设计Mapper模块，通过预训练&lt;代码，知识&gt;对促进提示向量根据语言模型输出进行优化更新；同时开发结构分析智能体（Struct-Agent），使语言模型能深入解析编程语言的语法结构以更精准理解复杂代码。实验结果表明：在相同参数规模下，本框架相较现有基线方法显著提升性能。基于StarCoderBase1B的Java测试中，EP4CS在BLEU、METEOR和ROUGE-L指标分别提升6.59%、7.06%与4.43%，同时展现出强劲的鲁棒性。在SentenceBERT语义评估维度更接近真实场景需求。人工评估与案例研究证实，EP4CS生成的摘要质量更高、相关性更强，全面优于基线方法。</span></span></p><p cid="n109" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728949" target="_blank">https://doi.org/10.1145/3728949</a></span></span></p><h3 cid="n110" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">32、Enhancing Smart Contract Security Analysis with Execution Property Graphs</span></span></h3><p cid="n111" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">智能合约漏洞已导致重大经济损失，随着其复杂性的日益增加，彻底防范黑客攻击变得愈发困难。这一趋势凸显了对高级取证分析和实时入侵检测的迫切需求，其中动态分析在剖析智能合约执行过程中发挥着关键作用。因此，亟需一种统一且通用的智能合约执行表示方法，并辅以高效的技术手段，以实现对各类新兴攻击的建模与识别。</span></span></p><p cid="n112" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">我们提出Clue——一个专为以太坊虚拟机设计的动态分析框架。其核心能力在于捕获合约执行过程中的关键运行时信息，并采用创新的基于图的表示方法：执行属性图。Clue的关键特性是其创新的图遍历技术，该技术擅长检测复杂攻击，包括（只读型）重入攻击和价格操纵攻击。评估结果表明，Clue以高真阳性率和低假阳性率展现出卓越性能，优于现有最先进工具。此外，Clue的高效性使其成为取证分析和实时入侵检测的双重利器。</span></span></p><p cid="n113" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728924" target="_blank">https://doi.org/10.1145/3728924</a></span></span></p><h3 cid="n114" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">33、Enhancing Vulnerability Detection via Inter-procedural Semantic Completion</span></span></h3><p cid="n115" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">受深度学习进展的启发，众多基于学习的漏洞检测方法应运而生，这些方法主要基于函数级操作以实现可扩展性。然而这种设计存在一个关键局限：许多漏洞跨越多个函数，导致函数级方法丢失被调用函数的语义信息，无法捕捉真实的漏洞模式。为解决这一问题，我们提出VulnSC框架，该创新框架通过补充过程间语义来增强基于学习的检测方法。VulnSC为数据集检索被调用函数的源代码，并利用大语言模型（LLMs）配合精心设计的提示词生成函数摘要。经过摘要增强的数据集被输入神经网络，以实现更精准的漏洞检测。VulnSC是首个将过程间语义整合到现有基于学习的漏洞检测方法中，同时保持可扩展性的通用框架。我们在两个广泛使用的数据集上对四种最先进的基于学习方法进行评估，实验结果表明VulnSC以极小的额外计算开销显著提升了检测性能。</span></span></p><p cid="n116" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728912" target="_blank">https://doi.org/10.1145/3728912</a></span></span></p><h3 cid="n117" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">34、Extended Reality Cybersickness Assessment via User Review Analysis</span></span></h3><p cid="n118" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">摘要近年来，扩展现实（XR）软件生态系统已成为下一代普适计算平台，其通过沉浸式交互体验为用户提供服务。然而XR生态系统存在晕眩症问题，会严重影响用户舒适度与安全，引发头痛、定向障碍等症状，这使得有效评估晕眩症成为亟待解决的重要课题。当前评估XR软件晕眩症的先进方法通常需在用户使用XR时监测其生理指标，这种方法严重依赖人工游戏测试，存在可扩展性受限的问题。XR应用商店中的用户评论能为开发者提供应用晕眩症评级及其成因的重要信息，但海量用户评论难以通过人工方式分析，且现有自动评论分析方法大多仅能提供粗粒度结果（如提取评论讨论的若干高层主题组）。大语言模型（LLM）的最新进展可能带来新机遇，但直接利用LLM评估XR晕眩症存在挑战：LLM对大量短文本处理效果不佳，且上下文窗口有限。为此，我们提出XRCare框架——通过细粒度用户评论分析实现XR应用晕眩症自动评估与根源推理的综合解决方案。该框架包含三阶段：（1）洞察池构建：汇集领域专家提供的晕眩症分析链及对应分析结果；（2）推理图谱构建：通过自演进层级图动态提取、分类和维护用户评论中引发晕眩症的成因；（3）多智能体演绎推理：利用多智能体系统模拟多样化用户群体，分析晕眩症强度等级并追溯成因。这种结构化方法使XRCare能系统化识别、分类和处理晕眩症实例。实验方面，我们构建了包含来自9,667款XR应用的685,111条用户评论的大规模数据集。评估表明，XRCare在最佳基线基础上将F1分数提升20.63%，平均超越所有基线32.27%，同时提供更精确细致的可解释性洞察。</span></span></p><p cid="n119" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728933" target="_blank">https://doi.org/10.1145/3728933</a></span></span></p><h3 cid="n120" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">35、FANDANGO: Evolving Language-Based Testing</span></span></h3><p cid="n121" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">基于语言的模糊测试器利用形式化输入规范（语言）为被测程序生成任意规模且多样化的有效输入集。现代基于语言的测试生成器结合语法与约束条件，以满足句法和语义层面的输入约束。该领域的领先输入生成工具ISLA采用符号约束求解技术处理输入约束。虽然使用求解器使ISLA成为精度最高的模糊测试器之一，但也导致其运行速度缓慢。</span></span></p><p cid="n122" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">本文探索以基于搜索的测试作为符号约束求解的替代方案。我们采用遗传算法，通过输入规范迭代生成候选输入，依据既定约束评估这些输入，通过句法有效的变异演化输入种群，保留适应度更优的个体直至满足语义输入约束。这种类似于自然遗传进化的演化过程，逐步产生能同时覆盖语义和句法的改进输入。此项改进显著提升了基于语言的测试效率：实验表明，相较于ISLA，我们基于搜索的FANDANGO原型在保持同等精度的前提下，速度提升一至三个数量级。</span></span></p><p cid="n123" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">基于搜索的方法不再将约束限制于约束求解器的（微型）语言范畴。FANDANGO允许约束条件使用完整的Python语言及其库。这种表达自由度为测试人员提供了前所未有的测试输入塑造灵活性，使其能够设定任意测试生成目标：&#34;请生成1000个有效测试输入，其中电压字段遵循高斯分布且始终不超过20毫伏&#34;。</span></span></p><p cid="n124" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://dl.acm.org/doi/10.1145/3728915" target="_blank">https://dl.acm.org/doi/10.1145/3728915</a></span></span></p><h3 cid="n125" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">36、Fairness Mediator: Neutralize Stereotype Associations to Mitigate Bias in Large Language Models</span></span></h3><p cid="n126" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">大型语言模型（LLM）虽在众多应用中展现出卓越性能，却会无意间吸收训练数据中的伪相关性，导致偏见概念与特定社会群体之间形成刻板印象关联。这些关联延续甚至放大了有害的社会偏见，引发了对公平性的重大关切——这正是软件工程领域的核心议题。为缓解此类偏见，现有研究尝试在推理过程中将模型嵌入投影至无偏见空间，但由于其与下游社会偏见的对齐程度较弱，这些方法效果有限。受到LLM中概念认知主要通过线性关联记忆机制（即MLP层中键值映射）实现的启发，我们提出偏见概念与社会群体同样以实体（键）和信息（值）对的形式编码，可通过操作这种编码机制促进更公平的关联。为此，我们提出公平中介器（FairMed）——一个高效且有效的偏见缓解框架，通过中和刻板印象关联来实现去偏。该框架包含两个核心组件：刻板关联探测器和对抗去偏中和器。探测器通过使用以偏见概念（键）为核心的提示词，捕获MLP层激活中编码的刻板关联，并检测社会群体（值）的发射概率；随后，对抗去偏中和器在推理过程中干预MLP激活，使不同社会群体间的关联概率趋于均衡。在九类受保护属性上的大规模实验表明，FairMed在效果上显著优于现有最优方法，平均偏见削减率最高达84.42%。</span></span></p><p cid="n127" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728881" target="_blank">https://doi.org/10.1145/3728881</a></span></span></p><h3 cid="n128" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">37、Finding 709 Defects in 258 Projects: An Experience Report on Applying CodeQL to Open-Source Embedded Software (Experience Paper)</span></span></h3><p cid="n129" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">嵌入式软件部署于全球数十亿设备中，包括医疗设备和自动驾驶汽车等安全关键系统。其缺陷可能造成严重后果。由于多数嵌入式软件产品整合了开源嵌入式软件（EMBOSS），采用适当机制规避缺陷对EMBOSS工程师至关重要。静态应用安全测试（SAST）工具作为常见安全实践手段，可帮助识别高频漏洞。现有SAST研究主要针对常规（非嵌入式）软件，缺乏对嵌入式软件领域的应用认知。嵌入式软件在语义结构、代码实践和构建配置方面与常规软件存在显著差异，这些因素都会影响SAST工具的实际效能。</span></span></p><p cid="n130" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">本文通过大规模实证研究，分析了258个主流EMBOSS项目的SAST应用现状。结合程序分析和开发者调研（N=25）发现：仅3%的项目采用超越基础编译器分析的高级SAST工具。开发者认为工具有效性不足和误报率高是主要制约因素。为此，我们应用最先进的CodeQL SAST工具进行实测，评估其易用性与实效性。在258个项目中，CodeQL检出709个真实缺陷（误报率34%），其中535个（75%）为潜在安全漏洞（涉及微软、亚马逊和阿帕奇基金会维护的重点项目）。EMBOSS工程师已确认376个缺陷（53%），主要通过合并我们提交的拉取请求；另促成2个CVE漏洞编号的分配。基于此，我们提议将检测流程集成至EMOSS持续集成（CI）管道，已有37个活跃仓库（占比71%）采纳该方案。研究表明：当代SAST工具具备低误报率与高缺陷检出效能，我们强烈建议EMBOSS工程师予以采用。</span></span></p><p cid="n131" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728923" target="_blank">https://doi.org/10.1145/3728923</a></span></span></p><h3 cid="n132" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">38、Fixing Outside the Box: Uncovering Tactics for Open-Source Security Issue Management</span></span></h3><p cid="n133" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">在快速演变的软件开发领域中，开源软件（OSS）安全漏洞的修复已变得至关重要。然而，学术界和工业界现有研究与工具主要依赖有限解决方案（如脆弱版本调整和采用补丁）来处理已识别的漏洞。而开源社区实际采用了更为灵活多样的应对策略，亟需通过整体性实证研究来探索这些多样化策略的普及程度、分布特征、偏好选择及实施效果。为此，本文对开源项目中的漏洞修复策略（RT）进行了系统分类研究，并评估了各类策略的优劣。本研究通过对GitHub上21,187个问题进行实证分析，揭示了开源社区修复策略的覆盖范围及有效性。我们构建了包含44种具体修复策略的层次化分类体系，并评估了其修复效果和实施成本。研究发现：社区高度依赖替代依赖库、漏洞规避等社区驱动策略（其中44%尚未被前沿工具支持），通过分析修复方案的采纳情况和拒绝原因，揭示了社区对特定修复方法的偏好。研究同时指出现代漏洞数据库存在严重缺陷——54%的CVE条目缺乏修复建议，而GitHub议题中93%的可操作解决方案可有效弥补这一缺口。</span></span></p><p cid="n134" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728977" target="_blank">https://doi.org/10.1145/3728977</a></span></span></p><h3 cid="n135" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">39、FreeWavm: Enhanced WebAssembly Runtime Fuzzing Guided by Parse Tree Mutation and Snapshot</span></span></h3><p cid="n136" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">WebAssembly作为一种低级、可移植的语言，已被广泛应用于浏览器和区块链等多个领域，成为推动互联网发展的革命性力量。然而，WebAssembly运行时中的缺陷和漏洞会在运行WebAssembly应用程序时导致意外结果。目前已有多种方案被提出用于检测WebAssembly运行时的漏洞，其中模糊测试因其显著效果成为最具前景和说服力的方法。尽管潜力巨大，但由于WebAssembly运行时语法复杂性——现有方法缺乏对独特模块化代码结构的深入理解，导致生成的测试输入难以触及运行时深层逻辑，限制了其揭示漏洞的有效性。</span></span></p><p cid="n137" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">为弥补这一不足，我们提出FreeWavm——通过激进突变WebAssembly代码结构来模糊测试运行时的新型框架。技术层面，我们将WebAssembly字节码转换为能捕捉代码结构复杂特征的解析树格式。为生成具有意义的测试输入，设计了结构感知突变模块：采用定制化节点优先级策略筛选解析树中的关键节点，并施加特定结构突变。为确保突变后测试输入的有效性，FreeWavm配备自动修复机制来修补突变后的解析树。此外，我们利用解析树快照促进输入进化与整体模糊测试流程。通过在多类WebAssembly运行时上进行广泛实验，实证结果表明FreeWavm能有效触发运行时中结构特异性崩溃，性能优于同类方案。该框架已发现69个未知漏洞，其中24个目前已获得CVE编号。</span></span></p><p cid="n138" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728877" target="_blank">https://doi.org/10.1145/3728877</a></span></span></p><h3 cid="n139" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">40、Freesia: Verifying Correctness of TEE Communication with Concurrent Separation Logic</span></span></h3><p cid="n140" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">可信执行环境（TEE）作为现代处理器中的安全扩展，为敏感代码和数据提供了安全的运行时环境。尽管TEE旨在保护应用程序及其私有数据，但其庞大的代码库常存在可能危及数据安全的漏洞。虽然已有形式化验证工作针对TEE标准及实现的功能与安全性展开，但对并发场景下TEE正确性的验证仍不充分。本文提出一种名为Freesia的增强方案，通过形式化验证的并发分离逻辑确保TEE的并发安全性。基于对GlobalPlatform TEE标准的深入分析，Freesia解决了TEE通信接口中的数据竞争问题，并确保客户端与TEE间共享内存的一致性保护。我们在开源TEE平台OP-TEE中实现了Freesia原型，并利用Iris并发分离逻辑框架对其并发正确性进行建模与验证。通过实际案例研究和性能评估，进一步证明了Freesia的有效性与高效性。</span></span></p><p cid="n141" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728967" target="_blank">https://doi.org/10.1145/3728967</a></span></span></p><h3 cid="n142" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">41、GUIPilot: A Consistency-Based Mobile GUI Testing Approach for Detecting Application-Specific Bugs</span></span></h3><p cid="n143" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">图形用户界面（GUI）测试对于确保移动应用可靠性至关重要。现有最先进的GUI测试方法虽能成功探索更多应用场景并发现应用崩溃等通用缺陷，但工业级GUI测试还需检测特定于应用的缺陷，例如屏幕布局、控件位置或GUI转场效果与设计稿之间的偏差。这些由应用设计师创建的设计稿明确了预期屏幕、控件及其对应行为。验证GUI设计与实现的一致性虽耗时费力，却在工业GUI测试中具有重要作用。  </span></span></p><p cid="n144" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">本研究提出一种检测移动应用设计与实现间不一致性的方法。移动设计通常包含两类设计稿：(1) 预期屏幕外观（如控件布局、颜色和形状）；(2) 预期屏幕行为（如带有文本描述的控件如何触发屏幕跳转）。给定设计稿及其对应应用实现，本方法可同时检测屏幕级和流程级不一致性。在屏幕检测方面，通过将屏幕抽象为控件容器（每个控件以位置、宽高和类型表示），定义控件偏序关系及替换、插入、删除操作的代价，将屏幕匹配问题转化为可优化的控件对齐问题。在流程检测方面，将指定GUI转场转化为屏幕操作序列（如点击、长按、文本输入），并提出视觉提示机制使视觉语言模型推断屏幕控件的具体操作，从而验证预期转场是否被正确实现。  </span></span></p><p cid="n145" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">在80个移动应用和160个设计稿上的实验表明：(1) 屏幕不一致性检测精度达99.8%，召回率达98.6%，分别较GVT等现有最优方法提升66.2%和56.6%；(2) 流程不一致性检测误差为零。此外，在交易类移动应用上的工业案例研究中，本方法成功检测出9个应用缺陷且均获原应用专家确认。代码已开源：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://github.com/code-philia/GUIPilot" target="_blank">https://github.com/code-philia/GUIPilot</a></span></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">。</span></span></p><p cid="n146" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728909" target="_blank">https://doi.org/10.1145/3728909</a></span></span></p><h3 cid="n147" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">42、Gamifying Testing in IntelliJ: A Replicability Study</span></span></h3><p cid="n148" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">游戏化是一种新兴技术，旨在提升传统枯燥任务（如软件测试）中的参与度和绩效。已有研究表明，通过提供成就和反馈机制，游戏化系统具有改善软件测试流程的潜力。然而，仍需在不同环境、编程语言和参与者群体中进一步验证这些益处。本文旨在复现并验证IntelliGame（一款IntelliJ IDEA游戏化插件）的效果，该插件旨在激励开发者编写和执行测试。研究目标是将早期研究中观察到的效益推广至新语境（即TypeScript编程语言和更大规模的参与者群体）。本次复现研究包含一项受控实验，招募174名参与者并分为两组：一组使用IntelliGame插件，另一组不使用任何游戏化插件。研究采用双组实验设计，比较两组在测试行为、覆盖率、变异分数及参与者反馈方面的差异。通过测试指标和参与者问卷收集数据，并进行统计分析以确定统计显著性。使用IntelliGame的参与者在测试实践中表现出比对照组更高的参与度和生产力，具体体现在创建更多测试用例、提高测试执行频率以及增强测试工具使用率。这些改进最终催生了更优质的代码实现，凸显了游戏化在提升功能成果和激励用户参与测试方面的有效性。本复现研究证实，通过IntelliGame实现的游戏化能对软件测试行为和开发者参与编码任务产生积极影响。这些发现表明，将游戏元素集成到测试环境中可成为改进软件测试实践的有效策略。</span></span></p><p cid="n149" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728983" target="_blank">https://doi.org/10.1145/3728983</a></span></span></p><h3 cid="n150" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">43、GoPV: Detecting Blocking Concurrency Bugs Related to Shared-Memory Synchronization in Go</span></span></h3><p cid="n151" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">Go是一种流行的并发编程语言，它采用消息传递和共享内存同步原语来实现不同线程（即goroutine）间的交互。然而，同步原语的误用极易导致阻塞型并发缺陷，包括死锁和goroutine泄漏。尽管与消息传递相关的阻塞型并发缺陷日益受到关注，但针对共享内存同步原语误用引发的阻塞型并发缺陷的研究却十分有限。本文提出GoPV——一个基于静态分析的并发缺陷检测工具，通过执行并发分析和（后）支配者分析来判定同步原语是否被误用，从而识别阻塞型并发缺陷。我们在8个基准测试程序和21个大型真实Go项目上对GoPV进行评估。实验结果表明，GoPV不仅成功检测出8个基准测试程序中所有与共享内存同步相关的阻塞型并发缺陷，还在2.78小时内从21个大型Go应用中发现了17个此类缺陷。</span></span></p><p cid="n152" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728979" target="_blank">https://doi.org/10.1145/3728979</a></span></span></p><h3 cid="n153" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">44、Hulk: Exploring Data-Sensitive Performance Anomalies in DBMSs via Data-Driven Analysis</span></span></h3><p cid="n154" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">性能对数据库管理系统（DBMS）至关重要，这类系统始终被设计用于高效处理不断变化的工作负载。然而，基于成本的优化器（CBO）及其交互机制的复杂性可能引发实现错误，导致数据敏感的性能异常。这些异常在某些数据集下可能导致与预期设计相比显著的性能下降。为诊断性能问题，DBMS开发者通常依赖直觉或与基线DBMS的执行时间进行对比，但这些方法忽略了数据集对性能的影响，导致仅能识别和解决部分性能问题。  </span></span></p><p cid="n155" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">本文提出Hulk系统，通过数据驱动分析自动探索这类数据敏感的性能异常。其核心思想是在数据集演化过程中识别性能异常：首先通过估算不同数据量下的合理响应时间范围来定位性能陡降点，随后通过寻找符合性能预期的合理执行计划来检测这些陡降点是否偏离预期性能。我们在六种广泛使用的DBMS（MySQL、MariaDB、Percona、TiDB、PostgreSQL和AntDB）上评估Hulk，共报告135个异常，其中129个被确认为新缺陷（含14个CVE漏洞），且94个属于数据敏感的性能异常。</span></span></p><p cid="n156" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728973" target="_blank">https://doi.org/10.1145/3728973</a></span></span></p><h3 cid="n157" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">45、ICEPRE: ICS Protocol Reverse Engineering via Data-Driven Concolic Execution</span></span></h3><p cid="n158" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">随着数字化转型的推进，工业控制系统（ICS）正变得日益开放和智能化。然而，ICS协议固有的脆弱性对设备和系统构成重大安全威胁。ICS协议的专有特性使得其安全分析和防护机制部署变得复杂。协议逆向工程旨在缺乏官方规范的情况下推断协议的语法、语义及状态机。传统协议逆向工程工具因缺乏可执行环境、推断策略不完善及网络流量质量低下而面临显著局限。本文提出ICEPRE——一种基于混合执行的新型数据驱动协议逆向工程方法，其独特地将网络轨迹与静态分析相结合。与传统依赖可执行环境的方法不同，ICEPRE通过静态追踪程序对特定输入消息的解析过程，采用创新的字段边界推断策略，通过分析协议解析器处理不同字段的方式推断协议语法。评估表明，ICEPRE在字段边界推断上显著优于现有工具：其F1分数达0.76、完美度分数0.67，而DynPRE、BinaryInferno、Nemeys和Netzob分别仅为（0.65, 0.35）、（0.42, 0.14）、（0.39, 0.09）和（0.27, 0.10）。这些结果印证了本方法卓越的整体性能。此外，ICEPRE在真实场景的专有协议测试中展现出优异表现，凸显了其在下游应用中的实用价值。</span></span></p><p cid="n159" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728982" target="_blank">https://doi.org/10.1145/3728982</a></span></span></p><h3 cid="n160" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">46、Identifying Multi-parameter Constraint Errors in Python Data Science Library API Documentation</span></span></h3><p cid="n161" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">现代人工智能与数据密集型软件系统高度依赖于数据科学和机器学习库，这些库提供核心算法实现和计算框架。这些库通过复杂API对外提供服务，其正确使用需遵循多个相互依赖参数间的约束条件。开发者通常需通过文档学习这些约束，任何偏差都可能导致意外行为。然而在API文档中保持多参数约束的正确性与一致性，仍是影响API兼容性和可靠性的重大挑战。为解决该问题，我们提出MPChecker工具，专门用于检测代码与文档间在多参数约束上的不一致性。该工具通过符号执行探索代码执行路径以识别代码级约束，并利用大语言模型（LLM）从文档中提取对应约束。我们提出定制化的模糊约束逻辑，以调和LLM输出的不确定性，并检测代码约束与文档约束间的逻辑不一致性。基于四个主流数据科学库构建的双数据集测试表明，MPChecker在126个不一致约束中成功识别117个，召回率达92.8%，有效验证了其检测能力。我们向库开发者提交了14个检测到的不一致问题，截至撰稿时已有11个获得确认。</span></span></p><p cid="n162" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728945" target="_blank">https://doi.org/10.1145/3728945</a></span></span></p><h3 cid="n163" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">47、Improving Deep Learning Framework Testing with Model-Level Metamorphic Testing</span></span></h3><p cid="n164" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">深度学习（DL）框架是DL软件系统的核心组件，其缺陷可能引发严重事故，因此需要有效的测试方法。现有研究通常采用DL模型或单一接口作为测试输入，通过分析执行结果来检测缺陷。然而浮点误差、固有随机性及测试输入的复杂性，使得执行结果分析面临巨大挑战，导致现有方法缺乏合适的测试预言。部分研究者采用蜕变测试应对该挑战，基于单一框架接口的输入数据和参数设置设计蜕变关系（MR），通过生成输出一致的等价测试输入来验证结果。这类方法虽具成效，仍存在三大局限：（1）现有MR忽视结构复杂性，限制测试输入多样性；（2）仅关注有限接口，制约泛化能力且需额外适配；（3）所检测缺陷多涉及单一接口结果一致性，难以发现多接口组合与运行时指标（如资源使用）相关的缺陷。为此，我们提出ModelMeta——一种面向DL框架的模型级蜕变测试方法，基于DL模型结构特性设计四种MR。该方法通过QR-DQN策略引导，利用多样化接口组合增强种子模型，生成输出一致的测试输入，并通过对训练损失/梯度、内存/GPU使用率及执行时间的细粒度分析来检测缺陷。我们在三大主流DL框架（MindSpore、PyTorch和ONNX）上使用涵盖图像分类至目标检测等十类实际任务的17个DL模型进行评估。结果表明：ModelMeta在测试覆盖率和生成测试输入多样性方面优于现有基线方法；共检测到31个新缺陷（其中27个获官方确认，11个已修复），包括7个现有方法无法检测的缺陷（5个资源使用错误和2个低效缺陷），证明了该方法的实用性。</span></span></p><p cid="n165" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728972" target="_blank">https://doi.org/10.1145/3728972</a></span></span></p><h3 cid="n166" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">48、Incremental Verification of Concurrent Programs through Refinement Constraint Adaptation</span></span></h3><p cid="n167" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">程序在其整个生命周期中持续演化。对每个版本从头开始进行验证通常不切实际，尤其是对于并发程序而言。设计高效的并发程序增量验证技术具有迫切需求。我们专注于面向并发程序验证的抽象精化技术。当程序被修改时，先前版本验证过程中生成的精化约束会被适配到新程序，以避免冗余分析。针对基于调度约束的抽象精化方法（当前最高效的并发程序验证精化方法之一），我们提出了基于内核源码的精化约束适配方案。本方法支持所有类型的程序修改，并能根据变更生成适配后的精化约束。在SV-COMP 2024基准测试集和Nidhugg基准测试上的评估表明，我们的方法取得了显著成效：实验中大多数先前版本验证生成的精化约束可成功适配至修改后的程序。与从头验证修改后程序相比，我们的增量验证方法对复杂程序可实现两个数量级的加速比。</span></span></p><p cid="n168" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728976" target="_blank">https://doi.org/10.1145/3728976</a></span></span></p><h3 cid="n169" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">49、Intention-Based GUI Test Migration for Mobile Apps using Large Language Models</span></span></h3><p cid="n170" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">图形用户界面（GUI）测试是移动应用质量保障的主要方法之一。人工构建高质量的GUI测试用例成本高昂且劳动密集，这推动了多种自动化方法的发展，这些方法旨在将测试用例从源应用迁移至目标应用。现有方法主要将该测试迁移任务视为控件匹配问题，在应用间交互逻辑保持一致时表现良好。但当不同应用对特定功能存在交互逻辑差异时（这是跨应用的常见场景），现有方法则面临挑战。为解决这一局限，本文提出了一种名为ITeM的新型测试迁移方法。与将问题建模为控件匹配任务的现有工作不同，ITeM通过采用具备大语言模型理解与推理能力的双阶段框架开辟了新路径：首先通过过渡感知机制生成测试意图，其次通过基于动态推理的机制实现这些意图。该方法能有效应对源应用与目标应用间交互逻辑的差异。在35个真实安卓应用上开展的280项测试迁移任务实验表明，ITeM相比最先进方法具有显著优越的有效性和效率。</span></span></p><p cid="n171" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728978" target="_blank">https://doi.org/10.1145/3728978</a></span></span></p><h3 cid="n172" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">50、KEENHash: Hashing Programs into Function-Aware Embeddings for Large-Scale Binary Code Similarity Analysis</span></span></h3><p cid="n173" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">二进制代码相似性分析（BCSA）是网络安全等众多领域的关键研究方向。其中，函数级差异比对工具在BCSA中应用最为广泛：它们通过逐函数匹配来评估二进制程序间的相似性。然而此类方法具有较高的时间复杂度，难以适应大规模场景（如1对n或n对n搜索）。为实现高效且精准的程序级BCSA，我们提出KEENHash——一种通过大语言模型（LLM）生成函数嵌入的新型哈希方法，将二进制代码转换为程序级表征。该方法结合K-Means聚类和特征哈希技术，将二进制程序压缩为紧凑的定长程序嵌入，从而实现了高效的大规模程序级BCSA，其性能超越现有最优方法。实验结果表明：在保持精度的前提下，KEENHash比最先进的函数匹配工具快至少215倍。在53亿次相似性比对的大规模场景中，KEENHash仅需395.83秒，而传统工具至少需要56天。我们在包含202,305个二进制程序的大规模数据集上进行程序克隆搜索测试，与4种前沿方法相比，KEENHash以至少23.16%的优势全面胜出，并在恶意软件检测的大规模BCSA安全场景中展现出显著优越性。</span></span></p><p cid="n174" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728911" target="_blank">https://doi.org/10.1145/3728911</a></span></span></p><h3 cid="n175" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">51、KRAKEN: Program-Adaptive Parallel Fuzzing</span></span></h3><p cid="n176" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">并行模糊测试通过利用多核计算机加速测试过程，已在工业级软件缺陷检测领域获得广泛应用。然而由于静态推断模糊测试运行时存在困难，针对不同特性的程序制定高效并行策略仍具挑战性。现有方案仍采用预定义策略应对不同程序，导致性能未达最优。</span></span></p><p cid="n177" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">本文提出KraKen——一种新型程序自适应并行模糊测试器，通过动态策略优化提升测试效率。其核心在于：通过代码覆盖率变化等运行时反馈可观测并行模糊测试的低效现象，从而调整策略以避免低效路径搜索，逐步逼近最优方案。基于此，我们将寻找最优策略的任务构建为优化问题，通过动态最大化特定目标函数，逐步适配出针对具体程序的最佳策略。</span></span></p><p cid="n178" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">我们在C/C++中实现了KraKen，并在19个真实世界程序上与6种最先进并行模糊测试器进行对比评估。实验结果表明，KraKen在给定时间内可实现54.7%的代码覆盖率提升，并多发现70.2%的程序错误。此外，KraKen已在37个热门开源项目中发现192个错误，其中119个被分配了CVE编号。</span></span></p><p cid="n179" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728882" target="_blank">https://doi.org/10.1145/3728882</a></span></span></p><h3 cid="n180" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">52、LLM Hallucinations in Practical Code Generation: Phenomena, Mechanism, and Mitigation</span></span></h3><p cid="n181" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">代码生成旨在根据输入需求自动生成代码，显著提升开发效率。基于大型语言模型（LLM）的最新方法已展现出突破性成果，彻底改变了代码生成任务。尽管性能前景可观，LLM生成的代码常存在幻觉现象，尤其在需要处理实际开发过程中复杂上下文依赖的代码生成场景中。虽然已有研究分析了LLM代码生成中的幻觉问题，但其研究范围局限于独立函数生成。本文通过实证研究，在更贴近实际且复杂度更高的仓库级代码生成场景中，系统探究LLM幻觉的现象、机理与缓解策略。首先，我们人工检测了六种主流LLM的代码生成结果，建立了LLM生成代码的幻觉分类体系；继而详细阐述了幻觉现象特征，并分析了不同模型间的幻觉分布规律；随后深入剖析幻觉成因，识别出四大潜在致幻因素；最后提出基于检索增强生成（RAG）的缓解方法，该方法在所有研究的LLM中均展现出持续有效的改善效果。</span></span></p><p cid="n182" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728894" target="_blank">https://doi.org/10.1145/3728894</a></span></span></p><h3 cid="n183" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">53、LLM4SZZ: Enhancing SZZ Algorithm with Context-Enhanced Assessment on Large Language Models</span></span></h3><p cid="n184" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">SZZ算法是识别缺陷引入提交（bug-inducing commits）的核心技术，为许多软件工程研究（如缺陷预测和静态代码分析）提供基础，从而提升软件质量并优化维护实践。自该算法提出以来，研究者已开发多种改进版本以增强其性能。大多数改进依赖静态技术或启发式假设，虽易于实现，但性能提升有限。近期出现了一种基于深度学习的SZZ算法，但其需复杂预处理且仅支持单一编程语言；虽提高了精确率，却降低了召回率。此外，现有改进大多忽略关键信息（如提交消息和补丁上下文），且仅适用于涉及代码删除行的缺陷修复提交。  </span></span></p><p cid="n185" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">大语言模型（LLMs）的出现为解决这些问题提供了新机遇。本研究系统分析了LLMs的优势与局限，提出LLM4SZZ框架，采用两种方法（基于排序的识别和上下文增强识别）处理不同类型的缺陷修复提交。我们根据LLM对缺陷的理解能力及其判断提交是否包含缺陷的能力来选择方法：上下文增强识别为LLM提供更丰富的上下文，要求其从候选提交中定位缺陷引入提交；基于排序的识别则让LLM从缺陷修复提交中筛选缺陷代码语句，并按其与根本原因的相关性排序。实验结果表明，LLM4SZZ在三个数据集上均优于所有基线模型，F1分数提升6.9%至16.0%，且未显著牺牲召回率。此外，LLM4SZZ能识别基线模型未能检测的缺陷引入提交，占比分别达三个数据集提交总量的7.8%、7.4%和2.5%。</span></span></p><p cid="n186" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728885" target="_blank">https://doi.org/10.1145/3728885</a></span></span></p><h3 cid="n187" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">54、LogBase: A Large-Scale Benchmark for Semantic Log Parsing</span></span></h3><p cid="n188" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">大规模软件系统生成的日志包含大量有用信息。作为自动化日志分析的第一步，日志解析技术已被广泛研究。通用日志解析方法主要关注从原始日志中识别静态模板，但忽略了动态日志参数中隐含的更重要的语义信息。随着智能运维（AIOps）的普及，传统日志解析方法已无法满足各类下游任务的需求。研究者开始探索新一代日志解析技术——语义日志解析，旨在同时识别日志模板和参数语义。然而，现有数据集中语义标注的缺失阻碍了语义日志解析器的训练与评估，制约了该领域的发展。  </span></span></p><p cid="n189" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">为填补这一空白并推动语义日志解析研究，我们构建了首个语义日志解析基准数据集LogBase。该数据集涵盖130个热门开源项目的日志，包含85,300条带语义标注的日志模板，在日志源多样性和模板丰富性上均超越现有数据集。为实现LogBase的构建，我们开发了语义日志解析数据集构建框架GenLog。该框架从GitHub热门开源仓库中挖掘日志模板-参数-上下文三元组，并采用思维链（CoT）技术驱动大语言模型（LLMs）生成高质量日志。同时，GenLog通过人工反馈优化生成数据质量并确保其可靠性。该框架具备高度自动化与成本效益，可助力研究者高效构建语义日志解析数据集。此外，我们还为LogBase设计了一套综合评估指标，涵盖通用日志解析器指标、语义日志解析器专项指标及基于LLM的解析器指标。  </span></span></p><p cid="n190" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">基于LogBase，我们对15种现有日志解析器进行了全面评估，揭示了它们在复杂场景下的真实性能。我们相信，这项工作将为研究者提供宝贵数据、可靠工具和深入见解，以支持并引导语义日志解析的未来研究。</span></span></p><p cid="n191" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728969" target="_blank">https://doi.org/10.1145/3728969</a></span></span></p><h3 cid="n192" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">55、MLLM-Based UI2Code Automation Guided by UI Layout Information</span></span></h3><p cid="n193" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">将用户界面转换为代码（UI2Code）是网站开发中的关键环节，该过程耗时且费力。实现UI2Code的自动化对提升开发效率至关重要。现有基于深度学习的方法严重依赖大量标注训练数据，且难以泛化到真实世界中未见过的网页设计。多模态大语言模型（MLLMs）的出现为解决该问题提供了可能，但其难以理解UI中的复杂布局并生成保留布局的精确代码。为此，我们提出LayoutCoder——一种基于MLLM的创新框架，可从真实网页图像生成UI代码，包含三个核心模块：（1）元素关系构建：通过识别和分组具有相似结构的组件来捕捉UI布局；（2）UI布局解析：生成UI布局树以指导后续代码生成；（3）布局引导的代码融合：生成保留布局的精确代码。为进行评估，我们构建了包含350个真实网站的新基准数据集Snap2Code（分为可见与不可见部分以缓解数据泄露问题），并采用流行数据集Design2Code。大量实验表明，LayoutCoder在所有数据集上平均BLEU分数提升10.14%，CLIP分数提升3.95%，显著优于现有最优方法。</span></span></p><p cid="n194" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728925" target="_blank">https://doi.org/10.1145/3728925</a></span></span></p><h3 cid="n195" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">56、MoDitector: Module-Directed Testing for Autonomous Driving Systems</span></span></h3><p cid="n196" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">测试自动驾驶系统（ADS）对于确保其安全性、可靠性和性能至关重要。尽管现有多种测试方法能够生成多样化的高难度场景以发现潜在漏洞，但这些方法通常将ADS视为黑盒，主要关注识别系统级故障（如碰撞或险兆事故），而无法定位导致故障的具体模块。这种对故障根本原因的认知缺失阻碍了有效的调试与后续系统修复。此外，现有方法在生成能够从系统层面充分测试ADS各独立模块（如感知、预测、规划与控制）的违规场景方面存在不足。为弥补这一缺陷，我们提出MoDitector——一种具备根本原因识别能力的ADS测试方法，该方法可生成专门针对目标ADS模块弱点设计的安全关键场景。与现有方法不同，MoDitector不仅能产生导致违规的场景，还能精确定位引发每个故障的具体责任模块。具体而言，我们通过引入模块专用预言机（Module-Specific Oracles）自动检测模块级错误，并识别导致系统级违规的根本原因模块。为有效生成模块专属故障，我们提出一种模块导向测试策略，该策略融合模块专用反馈与自适应场景生成技术来指导测试过程。我们在四个关键ADS模块和四个代表性测试场景中评估MoDitector。实验结果表明，MoDitector能高效生成可归因于特定目标模块的故障场景，总计生成216.7个预期场景，显著优于最佳基线方法（仅生成79.0个场景）。本研究通过聚焦系统内模块专属错误的识别与修正，突破了传统黑盒故障检测的局限，代表了ADS测试领域的重大创新。</span></span></p><p cid="n197" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728876" target="_blank">https://doi.org/10.1145/3728876</a></span></span></p><h3 cid="n198" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">57、Model Checking Guided Incremental Testing for Distributed Systems</span></span></h3><p cid="n199" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">近年来，模型检测引导测试（MCGT）方法被提出用于系统化测试分布式系统。该方法通过遍历从分布式系统形式化规范导出的完整已验证抽象状态空间来自动生成测试用例，并检查目标系统在测试过程中是否表现正确。尽管MCGT具有有效性，但使用该技术测试分布式系统通常成本高昂且可能耗时数周。当分布式系统发生演进（如引入新功能或修复缺陷）时，这种低效问题会进一步加剧。我们必须为演进后的系统重新运行完整测试流程以验证其正确性，这使得MCGT不仅资源密集且效率低下。</span></span></p><p cid="n200" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">为降低分布式系统演进过程中模型检测引导测试的开销，我们提出iMocket——一种新型的模型检测引导增量式测试方法。我们首先从形式化规范和系统实现中提取变更内容，随后识别抽象状态空间中受影响的状态，并专门针对这些状态生成增量测试用例，从而避免对未受影响状态的冗余测试。基于三个主流分布式系统的12个真实变更场景进行评估实验，结果表明：iMocket平均可减少74.83%的测试用例数量，并将测试时间降低22.54%至99.99%，显著证明了其在降低分布式系统测试成本方面的有效性。</span></span></p><p cid="n201" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728883" target="_blank">https://doi.org/10.1145/3728883</a></span></span></p><h3 cid="n202" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">58、More Effective JavaScript Breaking Change Detection via Dynamic Object Relation Graph</span></span></h3><p cid="n203" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">JavaScript库以其广泛使用、频繁的代码变更及对向后不兼容变更的高容忍度而著称。意识到这类破坏性变更可帮助开发者适应版本更新并规避负面影响。JavaScript社区已有多种专门或可用于检测破坏性变更的工具，但这些工具采用不同检测方式，且目前缺乏对这些方法的系统性综述。通过对流行JavaScript库的初步研究，我们发现现有方法（包括简单回归测试、基于模型的测试和类型差异分析）不仅会遗漏大量破坏性变更，还会产生大量误报。本文讨论了漏检与误报的产生原因。</span></span></p><p cid="n204" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">基于研究发现的启示，我们提出名为Diagnose的新方法：该方法通过API探索和基于强制执行的类型分析迭代构建对象关系图，随后对图谱进行精细化处理并在库的新版本中重构图谱以检测破坏性变更。通过在实证研究相同库集上的评估，Diagnose能检测出更多破坏性变更（60.2%）且误报更少，因此具备实际应用价值。</span></span></p><p cid="n205" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728980" target="_blank">https://doi.org/10.1145/3728980</a></span></span></p><h3 cid="n206" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">59、NADA: Neural Acceptance-Driven Approximate Specification Mining</span></span></h3><p cid="n207" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">仅从期望的软件行为（即正例）中挖掘高质量的有限状态自动机（FSA）十分困难，这源于搜索空间爆炸以及缺乏非期望软件行为（即反例）导致的过度泛化问题。为解决过度泛化问题，我们建议将该问题建模为从含噪声的正例与反例中搜索近似FSA，其中噪声源自用于拒绝过度泛化结果的合成反例。为在爆炸性搜索空间中获取有效的搜索偏置，我们将FSA接受度与神经网络推理相融合。核心贡献在于设计了一种神经网络，其参数分配对应于FSA，且其名为&#34;神经接受&#34;的推理过程能够模拟FSA接受行为。神经接受机制提供了一种高效量化FSA与噪声数据拟合程度的方法。我们提出NADA——一种神经接受驱动的搜索方法，通过接受正例与拒绝合成反例来指导近似FSA的搜索。NADA基于FSA离散搜索空间的连续松弛化改造及高效的梯度下降搜索算法实现。实验结果表明：相较于最先进方法，NADA显著提升了挖掘FSA的质量（平均提升41.63%的F1分数），且其搜索速度比挖掘次高质量FSA的方法快19.8倍。</span></span></p><p cid="n208" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728956" target="_blank">https://doi.org/10.1145/3728956</a></span></span></p><h3 cid="n209" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">60、No Bias Left Behind: Fairness Testing for Deep Recommender Systems Targeting General Disadvantaged Groups</span></span></h3><p cid="n210" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">推荐系统在现代社会中扮演着日益重要的角色，它们驱动着数字平台对新闻、音乐、职位列表等多种内容进行个性化推荐，深刻影响着日常生活的诸多方面。为提升个性化效果，这些系统常使用人口统计信息。然而，确保跨人口群体推荐质量的公平性仍具挑战性，尤其因为推荐系统易受用户反馈循环中&#34;富者愈富&#34;的马太效应影响。随着深度学习算法的普及，公平性问题的识别变得愈发复杂。研究者已开始探索利用优化算法识别最弱势用户群体的方法。尽管如此，次优弱势群体的研究仍显不足，这导致马太效应引发的偏见放大风险未被有效解决。本文主张同时识别最弱势与次优弱势群体的必要性，并提出基于自适应采样的FairAS方法实现该目标。通过对四个深度推荐系统和六个数据集的评估，FairAS在最弱势群体识别上相比当前最优公平性测试方法（FairRec）平均提升19.2%，同时将测试时间降低43.07%。此外，FairAS发现的额外次优弱势群体有助于提升系统公平性，在所有实验对象上相比FairRec平均实现70.27%的改进。</span></span></p><p cid="n211" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728948" target="_blank">https://doi.org/10.1145/3728948</a></span></span></p><h3 cid="n212" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">61、OmniGIRL: A Multilingual and Multimodal Benchmark for GitHub Issue Resolution</span></span></h3><p cid="n213" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">GitHub问题解决任务旨在自动处理代码仓库中报告的问题。随着大语言模型（LLM）的发展，该任务日益受到关注，多个基准测试被提出以评估LLM的问题解决能力。然而，现有基准存在三个主要局限：首先，当前基准仅关注单一编程语言，限制了跨语言仓库问题的评估；其次，它们通常覆盖领域范围狭窄，难以体现现实问题的多样性；第三，现有基准仅依赖问题描述中的文本信息，忽略了图像等多模态信息。本文提出OmniGIRL——一个多语言、多模态、多领域的GitHub问题解决基准，包含从四种编程语言（Python、JavaScript、TypeScript和Java）和八个不同领域的仓库中收集的959个任务实例。评估表明，当前LLM在OmniGIRL上表现有限，性能最佳的GPT-4o仅解决8.6%的问题。此外，我们发现现有LLM难以处理需要理解图像的问题，Claude-3.5-Sonnet在含图像信息的问题上仅解决10.5%。最后，我们分析了LLM在OmniGIRL上失败的原因，为未来改进提供见解。</span></span></p><p cid="n214" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728871" target="_blank">https://doi.org/10.1145/3728871</a></span></span></p><h3 cid="n215" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">62、OpDiffer: LLM-Assisted Opcode-Level Differential Testing of Ethereum Virtual Machine</span></span></h3><p cid="n216" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">随着以太坊的持续繁荣，以太坊虚拟机（EVM）已成为支撑数百万活跃智能合约的基石。直观而言，EVM中的安全问题可能导致智能合约间的行为不一致，甚至造成整个区块链网络的拒绝服务。然而据我们所知，目前仅有有限的研究聚焦于EVM安全性，且存在两大局限：1）测试输入多样性不足且缺乏无效语义；2）无法自动识别漏洞并定位根本原因。为弥补这一空白，我们提出OpDiffer——一种基于差分测试的EVM检测框架，通过结合大语言模型（LLM）与静态分析方法解决上述问题。我们开展了最大规模的评估实验，覆盖九种EVM实现，发现26个此前未知的漏洞（其中22个获开发者确认，3个获得CNVD编号）。相比最先进的基线方法，OpDiffer最高可分别提升71.06%、148.40%和655.56%的代码覆盖率。通过对实际部署的以太坊合约分析，我们预估7.21%的合约在特定环境配置下可能触发已发现的EVM漏洞，这将对以太坊生态系统产生严重的负面影响。</span></span></p><p cid="n217" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728946" target="_blank">https://doi.org/10.1145/3728946</a></span></span></p><h3 cid="n218" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">63、PatchScope: LLM-Enhanced Fine-Grained Stable Patch Classification for Linux Kernel</span></span></h3><p cid="n219" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">稳定的补丁分类在Linux内核漏洞管理中起着至关重要的作用，对长期支持（LTS）版本的稳定性和安全性具有重大意义。尽管现有工具能有效辅助判断补丁是否应合并至稳定版本，但无法确定哪些稳定补丁应被合并到哪些LTS版本中。该过程仍需发行版社区维护者根据各自版本需求进行人工筛选。  </span></span></p><p cid="n220" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">为解决这一问题，我们提出PatchScope，其旨在预测补丁的具体合并状态。PatchScope包含两个组件：补丁分析与补丁分类。补丁分析利用大语言模型（LLMs），通过提交信息与代码变更生成详细的补丁描述，从而深化模型对补丁的语义理解；补丁分类采用预训练语言模型提取补丁的语义特征，并利用两阶段分类器预测补丁的合并状态。通过动态加权损失函数优化模型，以处理数据不平衡问题并提升整体性能。  </span></span></p><p cid="n221" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">鉴于当前主要维护Linux内核5.10与6.6版本，我们基于这两个版本进行了对比实验。实验结果表明，PatchScope能有效预测补丁的合并状态。</span></span></p><p cid="n222" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728944" target="_blank">https://doi.org/10.1145/3728944</a></span></span></p><h3 cid="n223" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">64、Pepper: Preference-Aware Active Trapping for Ransomware</span></span></h3><p cid="n224" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">勒索软件通过加密受感染系统中的文件并索要高额解密赎金，对企业与个人构成严重威胁。然而现有方法未能捕捉不同勒索软件家族的加密偏好，缺乏高效系统的主动防御方案。本文提出Pepper——一种基于偏好感知的主动式勒索软件诱捕方法，涵盖诱饵文件生成、部署与监控环节。通过对大量勒索软件家族的分析，我们识别出两种普遍存在的加密偏好：文件类型偏好与加密路径偏好。在勒索软件偏好的路径中部署符合其加密偏好的诱饵文件，能够为高效早期诱捕提供可能。Pepper融合基于图神经网络的推荐模型与专家知识，揭示不同勒索软件家族的文件与路径加密偏好，指导诱饵文件的生成与部署。此外，系统设计诱饵文件监控模块持续追踪文件变化并及时响应异常。大规模实验表明，Pepper实现98.68%的勒索软件检测率，平均仅损失2.27个文件，且在检测未知勒索软件变种时表现出强鲁棒性，同时不会干扰正常用户操作。</span></span></p><p cid="n225" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728932" target="_blank">https://doi.org/10.1145/3728932</a></span></span></p><h3 cid="n226" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">65、Porting Software Libraries to OpenHarmony: Transitioning from TypeScript or JavaScript to ArkTS</span></span></h3><p cid="n227" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">OpenHarmony正崛起为移动应用领域的重要力量，有望与行业巨头比肩。其主力开发语言ArkTS基于TypeScript(TS)和JavaScript(JS)进行强化，通过严格类型系统提升性能。生态建设需要开发者将主流TS/JS库移植至OpenHarmony，官方虽提供详细移植指南，但要求开发者深度掌握ArkTS语法规范、遵循移植规则并实施人工代码改造，因此自动化移植工具对提升效率和完善软件生态至关重要。  </span></span></p><p cid="n228" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">作为新兴编程语言，ArkTS目前缺乏支持自动化库移植的分析工具。而大语言模型(LLMs)的兴起为自动化移植任务提供了新机遇。基于LLM实现TS/JS库到OpenHarmony的自动化移植面临两大挑战：(1)LLMs对ArkTS代码接触有限，难以掌握其与JS/TS的语法差异及多样化适配场景；(2)项目级代码适配需修正大量语法不匹配问题，不同不匹配项与互依代码间的交互作用更增加了LLM的处理复杂度。  </span></span></p><p cid="n229" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">为此，我们提出项目级自动代码适配方案ArkAdapter：针对挑战一，通过构建包含多场景专家经验的真实代码适配案例库，建立ArkTS语法理解知识库，借助小样本学习增强LLMs的适配能力；针对挑战二，基于依赖结构和语法不匹配代码粒度制定适配优先级策略，避免不同语法不匹配项及其关联代码的相互干扰。实验表明ArkAdapter在JS/TS库到ArkTS的移植中达到86.84%的高准确率。</span></span></p><p cid="n230" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728941" target="_blank">https://doi.org/10.1145/3728941</a></span></span></p><h3 cid="n231" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">66、Preventing Disruption of System Backup against Ransomware Attacks</span></span></h3><p cid="n232" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">摘要近年来，勒索软件对软件生态系统的威胁迅速增长。尽管已有深入研究，但新型勒索软件变种不断涌现，旨在规避现有基于加密的检测机制。本文提出Remembrall——通过监控并防止系统备份中断来防御勒索软件的新方案。该工具聚焦Windows系统卷影副本（VSC）的删除操作，捕获相关恶意事件并实时识别所有勒索软件痕迹。为确保全面防护，我们系统性地分类研究了应用层、操作系统层和硬件层中所有可能用于删除VSC的攻击行为。基于此分析，Remembrall通过检索系统事件信息实现精准识别，确保零漏报率。通过对最新勒索软件样本的评估，Remembrall在60个勒索软件家族检测中的F1分数比现有顶级反勒索软件工具提高4.31%-87.55%，并在实验中成功检测出8个零日勒索软件样本。</span></span></p><p cid="n233" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728880" target="_blank">https://doi.org/10.1145/3728880</a></span></span></p><h3 cid="n234" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">67、Productively Deploying Emerging Models on Emerging Platforms: A Top-Down Approach for Testing and Debugging</span></span></h3><p cid="n235" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">尽管现有的机器学习（ML）框架主要针对成熟平台（如在服务器级GPU上运行CUDA），但越来越多的需求希望在各种新兴场景中实现人工智能应用，例如在浏览器和移动端运行大语言模型（LLM）。然而，由于模型快速迭代以及新平台（如Metal和WebGPU）缺乏成熟的工具链和实践经验，在这些平台上部署新兴模型面临显著的软件工程挑战。传统的ML模型部署通常采用自下而上的方式：工程师先实现单个必需算子，再进行组合集成。但这种开发模式难以满足新兴ML应用的部署效率要求，其中测试与调试环节成为瓶颈。为此，我们提出TapML——一种自上而下的方法，旨在简化跨平台模型部署流程。传统自下而上方法需手动编写测试用例，而TapML通过算子级测试切分自动生成高质量的真实测试数据；此外，采用基于迁移的策略逐步将模型实现从成熟源平台转移至目标平台，最大限度缩小复合错误的调试范围。TapML已作为MLC-LLM项目的默认开发方法用于部署新兴ML模型。两年内，依托该方法成功在5个新兴平台上部署了涵盖27种模型架构的105个新兴模型。实践表明TapML在保证部署质量的同时显著提升了开发效率，并基于实际开发经验总结了全面案例研究，为新兴ML系统开发提供了最佳实践指南。</span></span></p><p cid="n236" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728957" target="_blank">https://doi.org/10.1145/3728957</a></span></span></p><h3 cid="n237" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">68、Program Analysis Combining Generalized Bit-Level and Word-Level Abstractions</span></span></h3><p cid="n238" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">抽象解释被广泛用于确定程序的数值属性。然而，当前抽象域主要关注数学语义，未能完全捕捉依赖机器整数语义且涉及大量位向量操作的实际程序的复杂性。本文提出了一种结合位级抽象和字级抽象的解决方案来捕捉机器整数语义。首先，我们通过补充所有必需操作作为标准抽象域，推广了Linux eBPF验证器中用于确定实际程序已知位与未知位的位级抽象。基于此抽象，我们设计了一个具备符号感知能力、同时保留上述位级和字级边界信息的抽象域。这两个层级的信息通过标准缩减积操作进行协作，以提高分析精度。我们在Crab分析器和内核外eBPF验证器PREVAL中实现了所提出的抽象域。实验证明其在分析SV-COMP基准程序、辅助硬件设计以及eBPF验证方面的有效性。</span></span></p><p cid="n239" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728905" target="_blank">https://doi.org/10.1145/3728905</a></span></span></p><h3 cid="n240" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">69、Program Feature-Based Benchmarking for Fuzz Testing</span></span></h3><p cid="n241" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">模糊测试是一种强大的软件测试技术，以其在识别软件漏洞方面的有效性而闻名。传统的模糊测试评估通常关注模糊测试工具在一组目标程序上的整体性能，但很少有基准测试考虑细粒度程序特征如何影响模糊测试效果。为弥补这一空白，我们提出了FeatureBench——一种新颖的基准测试框架，能通过可配置的细粒度程序特征生成测试程序，以增强模糊测试评估效果。通过系统回顾25项近期灰盒模糊测试研究，我们提取出7个可能影响测试性能的控制流与数据流相关程序特征。基于这些特征，我们生成了包含153个程序的基准测试集，并通过10个细粒度可配置参数进行控制。使用该基准测试集对11种模糊测试工具进行评估（每种工具均代表特定改进方向或是广泛使用的基准方案），结果表明：测试工具性能会随程序特征及其强度呈现显著差异，这凸显了将程序特性纳入模糊测试评估体系的重要性。</span></span></p><p cid="n242" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728899" target="_blank">https://doi.org/10.1145/3728899</a></span></span></p><h3 cid="n243" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">70、QTRAN: Extending Metamorphic-Oracle Based Logical Bug Detection Techniques for Multiple-DBMS Dialect Support</span></span></h3><p cid="n244" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">蜕变测试是一种广泛用于检测数据库管理系统（DBMS）中逻辑缺陷的方法，本文称为MOLT（基于蜕变关系的逻辑缺陷检测技术）。该技术通过构建SQL语句对（包括原始查询和变异查询），并评估执行结果是否符合预定义的蜕变关系来识别逻辑缺陷。然而，现有的MOLT严重依赖特定DBMS的语法生成有效SQL语句对，导致难以适配具有不同语法结构的各类DBMS。因此，当前仅支持少数主流DBMS（如PostgreSQL、MySQL和MariaDB），扩展至其他系统需大量人工投入。鉴于许多DBMS仍缺乏充分测试，亟需一种能够轻松扩展MOLT至异构DBMS的方法。  </span></span></p><p cid="n245" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">本文提出QTRAN——一种基于大语言模型（LLM）的新方法，可自动将现有MOLT扩展至多种DBMS。核心思路是利用LLM将现有MOLT中的SQL语句对翻译为目标DBMS的语法以进行蜕变测试。针对LLM对方言差异和蜕变机制理解有限的挑战，我们提出包含转换阶段和变异阶段的两阶段方法。QTRAN借鉴开发者创建MOLT的过程：通过理解目标DBMS语法生成原始查询，并利用定制化变异器执行突变。转换阶段通过识别潜在方言并利用SQL文档信息增强查询检索，使LLM能精准跨DBMS翻译原始查询；变异阶段则收集现有MOLT的SQL语句对微调预训练模型，专门适配变异任务，再使用定制化LLM对翻译后的原始查询进行变异，保留蜕变测试所需的定义关系。  </span></span></p><p cid="n246" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">我们将该方法实现为工具，并应用于扩展四种前沿MOLT至八种DBMS：MySQL、MariaDB、TiDB、PostgreSQL、SQLite、MonetDB、DuckDB和ClickHouse。评估结果表明，QTRAN转换的SQL语句对超过99%满足测试所需的蜕变关系，且在这些DBMS中检测到24个逻辑缺陷，其中16个被确认为独特的新缺陷。我们相信QTRAN的通用性将显著提升DBMS的可靠性。</span></span></p><p cid="n247" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728908" target="_blank">https://doi.org/10.1145/3728908</a></span></span></p><h3 cid="n248" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">71、Quantum Concolic Testing</span></span></h3><p cid="n249" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">本文首次提出了一个专为量子程序设计的混成测试框架。该框架针对量化量子态的量子控制语句提出了量子约束生成方法，并为量子变量提供了符号化方法。基于此框架，我们为量子程序的每条具体执行路径生成路径约束。这些约束条件指导新路径的探索，通过量子约束求解器确定结果以生成新颖的输入样本，从而提升分支覆盖率。本框架已在Python中实现并与Qiskit集成进行实践评估。实验结果表明，我们的混成测试框架不仅能提高分支覆盖率，还能生成高质量量子输入样本并检测程序缺陷，证明了其在量子编程和错误检测方面的有效性与高效性。在分支覆盖率方面，本框架对5量子位以下的量子程序实现了超过74.27%的覆盖效果。</span></span></p><p cid="n250" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728926" target="_blank">https://doi.org/10.1145/3728926</a></span></span></p><h3 cid="n251" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">72、REACCEPT: Automated Co-evolution of Production and Test Code Based on Dynamic Validation and Large Language Models</span></span></h3><p cid="n252" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">生产代码与测试代码的同步（称为PT协同演化）对软件质量至关重要。鉴于其涉及大量手动工作，研究人员尝试使用预定义启发式规则和机器学习模型实现PT协同演化的自动化。然而现有解决方案仍不完善：大多数方法仅能检测并标记过时测试用例，仍需开发者手动更新；同时现有方案准确率较低，尤其在真实软件项目中表现不佳。本文提出ReAccept——一种融合大型语言模型（LLM）、检索增强生成（RAG）和动态验证的新方法，以高精度实现全自动PT协同演化。ReAccept采用经验引导方法生成提示模板，用于识别和更新过程；在更新测试用例后，通过语法检查、语义验证和测试覆盖评估进行动态验证；若验证失败，则利用错误消息迭代优化补丁。为评估ReAccept的有效性，我们在包含537个Java项目的数据集上开展广泛实验，并与多种先进方法对比。结果表明，ReAccept在正确识别的过时测试代码上达到60.16%的更新准确率，较最优技术CEPROT提升90%。这些发现证明ReAccept能有效维护测试代码、提升软件质量并显著降低维护成本。</span></span></p><p cid="n253" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728930" target="_blank">https://doi.org/10.1145/3728930</a></span></span></p><h3 cid="n254" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">73、Recurring Vulnerability Detection: How Far Are We?</span></span></h3><p cid="n255" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">随着开源软件的快速发展，代码复用已成为加速开发进程的普遍实践。然而这也导致原始漏洞被继承，在复用项目中重现形成复现漏洞（RVs）。传统通用漏洞检测方法受限于可扩展性与适应性，基于学习的方法则常因训练数据集有限而对未见漏洞效果不佳。尽管已有特定复现漏洞检测（RVD）方法被提出，但其针对不同RV特征的有效性尚不明确。本文通过新构建的包含4,569个RVs的大规模数据集（较先前数据集扩展953%）开展实证研究，系统分析RV特征，评估最先进RVD方法的有效性，探究误报/漏报的根本原因并得出关键洞见。基于这些发现，我们设计出新型RVD工具AntMan：通过识别修改函数的显性与隐式调用关系，在函数内实施过程间污点分析和过程内依赖切片以生成综合签名，最终采用柔性匹配检测RVs。评估结果表明该方法具有卓越的有效性、通用性和实用价值。AntMan已检测到4,593个RVs（其中307个获开发者确认），在15个项目中识别出73个新的0-day漏洞，并获得5个CVE标识符。</span></span></p><p cid="n256" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728901" target="_blank">https://doi.org/10.1145/3728901</a></span></span></p><h3 cid="n257" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">74、Reinforcement Learning-Based Fuzz Testing for the Gazebo Robotic Simulator</span></span></h3><p cid="n258" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">作为机器人技术领域应用最广泛的模拟器，Gazebo在开发和测试机器人系统方面发挥着关键作用。鉴于其对机器人操作安全性和可靠性的重大影响，早期缺陷检测至关重要。然而，由于严格的输入结构和庞大的状态空间带来的挑战，直接对Gazebo应用现有模糊测试方法效果有限。本文提出GzFuzz——首个专为Gazebo设计的模糊测试框架。该框架通过语法感知的可行命令生成机制处理严格输入要求，并采用基于强化学习的命令生成器选择机制高效探索状态空间。通过将两种机制整合在统一框架下，GzFuzz能有效检测Gazebo中的缺陷。大量实验表明，GzFuzz在12小时内平均检测到9.6个独特缺陷，其代码覆盖率较现有模糊测试工具AFL++和Fuzzotron实现显著提升，增幅约达239%-363%。在不到六个月的时间内，GzFuzz共发现Gazebo中25个独特崩溃案例，其中24个已获修复或确认。我们的研究成果凸显了直接对Gazebo进行模糊测试的重要性，为此提出了一种新颖高效的方法论，为增强更广泛模拟器的测试能力提供了重要启示。</span></span></p><p cid="n259" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728942" target="_blank">https://doi.org/10.1145/3728942</a></span></span></p><h3 cid="n260" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">75、Rethinking Performance Analysis for Configurable Software Systems: A Case Study from a Fitness Landscape Perspective</span></span></h3><p cid="n261" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">现代软件系统通常具有高度可配置性，以满足不同利益相关者的多样化需求。理解配置项与期望性能属性之间的映射关系，对于提升底层系统的可控性和调优能力具有基础性作用，但由于其黑盒特性，这一直是知识体系中的盲区。尽管已有研究对这些系统进行性能分析，但它们将配置项作为孤立数据点进行分析，未能考虑其固有的空间关联性。这导致无法探查配置空间的许多重要特征，如局部最优区域。本研究提出一种创新视角——将配置空间建模为结构化的&#34;地形景观&#34;。为验证这一理念，我们采用GraphFLA这一基于图数据挖掘的适应度景观分析开源框架，通过对3个真实系统32个运行工作负载中8600万条基准配置进行分析，得出6项主要发现。这些发现共同构建了景观地形的整体图谱，对配置调优和性能建模均具有重要启示意义。</span></span></p><p cid="n262" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728954" target="_blank">https://doi.org/10.1145/3728954</a></span></span></p><h3 cid="n263" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">76、Robust Vulnerability Detection across Compilations: LLVM-IR vs. Assembly with Transformer Model</span></span></h3><p cid="n264" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">检测二进制文件中的漏洞是网络安全领域的一项挑战性任务，尤其在源代码不可用且编译过程及其参数未知的情况下更为困难。现有的基于深度学习的检测方法通常依赖于已知二进制文件的特定编译设置，这可能限制其在其他类型二进制文件上的性能表现。本研究对汇编表示与LLVM-IR进行了全面比较，以确定在编译参数未知时哪种表示更具鲁棒性和适用性。表示方式的选择显著影响检测准确性。本文的另一贡献是采用基于Transformer的模型CodeBERT作为分类工具，用于在编译过程未知的场景下检测漏洞。该研究将Transformer模型应用于LLVM-IR领域中的多类漏洞检测任务，重点关注二进制衍生表示。虽然近期研究已探索了Transformer在源代码和原始二进制指令流漏洞分析中的应用，但作为LLVM-IR层级分类器的系统性评估仍较为有限。先前研究通常依赖基于RNN的方法（此类方法被视为该任务的当前最优方案），但这些模型难以有效捕获长距离依赖关系。为解决这一局限性，我们将基于Transformer的分类方法扩展至二进制文件生成的LLVM-IR，并在此场景下提供全面评估。实验结果凸显了该方法在强化多样化二进制配置系统安全方面的潜力。</span></span></p><p cid="n265" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728903" target="_blank">https://doi.org/10.1145/3728903</a></span></span></p><h3 cid="n266" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">77、RouthSearch: Inferring PID Parameter Specification for Flight Control Program by Coordinate Search</span></span></h3><p cid="n267" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">飞行控制程序被广泛应用于无人机（UAV）中，用于动态管理和维持无人机的飞行行为。这些飞行控制程序包含一个PID控制模块，该模块接收三个用户可配置的PID参数：比例（P）、积分（I）和微分（D）。用户还可在飞行过程中调整这些PID参数以适应不同飞行任务的需求。然而，飞行控制程序对用户提供的PID参数缺乏充分的安全检查，导致无人机存在严重漏洞——输入验证缺陷。当用户错误配置PID参数时，会导致无人机进入危险状态，例如偏离预期路径、失控甚至坠毁。</span></span></p><p cid="n268" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">现有研究通常采用模糊测试等随机测试方法从用户输入中识别无效PID参数。但这些方法在三维PID参数搜索空间中效果有限，且每次无人机测试的动态执行成本极高，进一步影响了随机测试的性能。</span></span></p><p cid="n269" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">本研究通过将劳斯-赫尔维茨稳定性判据与坐标搜索相结合，提出名为RouthSearch的方法来解决PID参数错误配置问题。RouthSearch并非以临时方式识别错误配置的PID参数，而是基于原理确定三维PID参数的有效范围。我们首先利用劳斯-赫尔维茨判据识别理论上的PID参数边界，随后通过高效坐标搜索对边界进行精细化处理。RouthSearch确定的三维PID参数有效范围可在飞行过程中过滤用户的错误配置参数，并进一步帮助发现主流飞行控制程序中的逻辑缺陷。</span></span></p><p cid="n270" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">我们在PX4和ArduPilot两款主流飞行控制程序的八种飞行模式下对RouthSearch进行评估。结果显示：与真实值相比，RouthSearch确定三维PID参数有效范围的准确率达到92.0%。在错误配置参数总数方面，RouthSearch在48小时内发现3,853组PID错误配置，而当前最先进的PGFuzz仅发现449组，性能提升达8.58倍。此外，本方法还帮助检测出ArduPilot和PX4中的三个缺陷。</span></span></p><p cid="n271" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728904" target="_blank">https://doi.org/10.1145/3728904</a></span></span></p><h3 cid="n272" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">78、S-Eval: Towards Automated and Comprehensive Safety Evaluation for Large Language Models</span></span></h3><p cid="n273" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">生成式大语言模型（LLM）以其变革性和涌现能力彻底改变了自然语言处理领域。然而，最新研究表明，LLM可能生成违反社会规范的有害内容，这引发了关于部署此类先进模型的安全性与伦理影响的重大关切。因此，在部署前对LLM进行严格全面的安全评估既至关重要又势在必行。尽管存在这一需求，但由于LLM生成空间的广泛性，目前仍缺乏统一规范的风险分类体系来系统反映LLM内容安全性，以及高效探索潜在风险的自动化安全评估技术。</span></span></p><p cid="n274" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">为弥补这一显著空白，我们提出S-Eval——一个基于LLM的新型自动化安全评估框架，其配备新定义的全面风险分类体系。S-Eval包含两个核心组件：专家测试LLM Mt和新型安全评判LLM Mc。专家测试LLM Mt负责根据提出的风险管理体系（包含8个风险维度和102项细分风险）自动生成测试用例；安全评判LLM Mc则可提供可量化的可解释安全评估，以增强对LLM风险的认知。与现有工作相比，S-Eval具有三大显著优势：（i）高效性——通过Mt构建包含102类风险共22万个测试用例的多维度开放式基准，并借助Mc对21个具有影响力的LLM进行安全评估，全过程无需人工干预；（ii）有效性——大量验证表明S-Eval能实现更全面的评估和更好的风险感知，Mc不仅能精准量化LLM风险，还提供超越LLaMA-Guard-2等可比模型的可解释深度安全洞察；（iii）适应性——基于LLM的架构使S-Eval可灵活配置，适应LLM快速演进伴随的新安全威胁、测试生成方法和安全评判方法。我们进一步探究超参数和语言环境对模型安全的影响，为未来研究指明方向。目前S-Eval已在工业合作伙伴中部署，为服务数百万用户的多类LLM提供自动化安全评估，实证了其在真实场景中的有效性。</span></span></p><p cid="n275" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728971" target="_blank">https://doi.org/10.1145/3728971</a></span></span></p><h3 cid="n276" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">79、STRUT: Structured Seed Case Guided Unit Test Generation for C Programs using LLMs</span></span></h3><p cid="n277" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">单元测试在缺陷检测与保障软件正确性方面发挥着关键作用，其能帮助开发者在早期发现错误，从而减少软件缺陷。近年来，大型语言模型（LLMs）在自动化单元测试生成领域展现出巨大潜力，但应用LLMs生成单元测试仍面临诸多挑战：1）LLMs生成的测试用例执行通过率较低；2）测试用例覆盖度不足，难以检测代码中的潜在风险；3）现有研究方法主要集中于Java和Python等语言，而对现实世界中至关重要的C语言研究却十分匮乏。为应对这些挑战，我们提出了一种新颖的单元测试生成方法STRUT。该方法以结构化测试用例作为复杂编程语言与LLMs之间的桥梁，通过引导LLMs生成结构化测试用例而非直接生成测试代码，有效缓解了LLMs在生成具有复杂特性编程语言代码时的局限性。具体而言，STRUT首先分析目标方法的上下文并构建结构化种子测试用例，随后引导LLMs生成一组结构化测试用例，最终采用基于规则的方法将结构化测试用例转换为可执行测试代码。通过全面评估，STRUT实现了96.01%的执行通过率、77.67%的代码行覆盖率和63.60%的分支覆盖率，其性能显著优于基于LLMs的基线方法和符号执行工具SunwiseAUnit。这些结果表明STRUT通过融合LLMs优势并克服其固有局限性，具备生成高质量单元测试用例的卓越能力。</span></span></p><p cid="n278" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728970" target="_blank">https://doi.org/10.1145/3728970</a></span></span></p><h3 cid="n279" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">80、SWE-GPT: A Process-Centric Language Model for Automated Software Improvement</span></span></h3><p cid="n280" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">大型语言模型（LLM）在代码生成方面展现出卓越性能，显著提升了开发者的编码效率。基于LLM的智能体技术最新进展，推动了端到端自动化软件工程（ASE）的重大突破，特别是在软件维护（如修复缺陷）和演进（如添加新功能）领域。尽管取得这些令人鼓舞的进展，当前研究仍面临两大挑战：其一，最先进性能主要依赖GPT-4等闭源模型，极大限制了技术可及性及在多样化软件工程任务中的定制潜力，同时处理敏感代码库时也引发数据隐私担忧；其二，现有模型主要基于静态代码数据训练，缺乏对软件开发中动态交互、迭代问题解决过程及演进特性的深度理解，导致其在处理复杂项目结构和生成上下文相关解决方案时存在局限，影响实际应用效果。</span></span></p><p cid="n281" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">针对这些挑战，本研究从软件工程视角出发，认识到真实世界的软件维护与演进过程不仅包含静态代码数据，还涉及开发者的思维过程、外部工具使用以及不同职能人员间的交互。我们的目标是开发专为软件改进优化的开源大语言模型，在实现与闭源模型相当性能的同时，提供更强的可访问性和定制潜力。为此，我们推出Lingma SWE-GPT系列模型（包括70亿参数的Lingma SWE-GPT 7B和720亿参数的Lingma SWE-GPT 72B）。通过学习和模拟真实代码提交活动，该系列系统性地融入了软件开发过程中的动态交互与迭代问题解决机制（如仓库理解、故障定位和补丁生成），从而实现对软件改进过程的更全面认知。</span></span></p><p cid="n282" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">基于OpenAI最新提出的SWE-bench-Verified基准测试（包含500个真实GitHub问题），实验结果表明：Lingma SWE-GPT 72B成功解决30.20%的GitHub问题，在自动问题解决方面实现显著提升（较Llama 3.1 405B相对提升22.76%），接近闭源模型性能（GPT-4o解决率为31.80%）；值得注意的是，Lingma SWE-GPT 7B解决率达18.20%，超越Llama 3.1 70B的17.20%，彰显了较小模型在ASE任务中的应用潜力。</span></span></p><p cid="n283" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728981" target="_blank">https://doi.org/10.1145/3728981</a></span></span></p><h3 cid="n284" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">81、Safe4U: Identifying Unsound Safe Encapsulations of Unsafe Calls in Rust using LLMs</span></span></h3><p cid="n285" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">Rust是一种新兴的编程语言，通过严格的编译时检查确保安全性。标记为unsafe的函数表明其具有额外的安全要求（例如已初始化、非空等），社区中称之为契约。这些unsafe函数只能在显式的unsafe代码块中被调用，且契约必须由调用方保证。为了重用并减少unsafe代码，社区实践中推荐采用对unsafe调用的安全封装（EUC）。但若任何契约未得到保证，EUC就会出现缺陷（unsound），可能导致安全Rust中的未定义行为，从而破坏Rust的安全承诺。由于代码与自然语言跨语言理解的局限性，传统技术难以有效识别缺陷EUC。大型语言模型（LLM）虽展现出强大能力，但因契约复杂性及领域知识缺乏，其表现仍不尽如人意。为此，我们提出新型框架Safe4U，融合LLM、静态分析工具与领域知识来识别缺陷EUC。Safe4U首先利用静态分析工具获取相关上下文，随后将原始契约描述分解为多个细粒度分类契约，最终引入领域知识并调用LLM的推理能力验证每个细粒度契约。评估结果表明，Safe4U实现了整体性能提升，且细粒度结果对定位具体缺陷源具有建设性。在真实场景中，Safe4U从CVE报告的11个缺陷EUC中成功识别出9个，并在下载量最高的crates中检测到22个新的缺陷EUC，其中16个已获确认。</span></span></p><p cid="n286" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728890" target="_blank">https://doi.org/10.1145/3728890</a></span></span></p><h3 cid="n287" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">82、Smart-LLaMA-DPO: Reinforced Large Language Model for Explainable Smart Contract Vulnerability Detection</span></span></h3><p cid="n288" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">智能合约漏洞检测是快速发展的区块链领域中的关键挑战。现有漏洞检测方法面临两个主要问题：(1) 现有数据集缺乏全面性和足够质量，漏洞类型覆盖范围有限，且对偏好学习的高质量与低质量解释区分不足；(2) 大语言模型（LLM）往往难以准确解释智能合约安全中的特定概念。通过实证分析，我们发现即使经过持续预训练和监督微调，LLM在精确理解智能合约状态变更执行顺序方面仍存在局限，这可能导致在做出正确检测决策的同时产生错误的漏洞解释。这些局限导致检测性能不佳，进而引发潜在的严重财务损失。  </span></span></p><p cid="n289" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">为解决这些挑战，我们提出基于LLaMA-3.1-8B的先进检测方法Smart-LLaMA-DPO。首先，我们构建了涵盖四种漏洞类型及机器不可审计漏洞的综合数据集，包含用于监督微调（SFT）的标签、详细解释和精确漏洞位置，以及用于直接偏好优化（DPO）的配对高质量与低质量输出。其次，我们使用大规模智能合约代码进行持续预训练，以增强LLM对智能合约特定安全实践的理解。进一步，我们利用综合数据集实施监督微调。最后，我们应用DPO技术，通过人类反馈提升生成解释的质量。Smart-LLaMA-DPO采用特殊设计的损失函数，促使LLM增加偏好输出的概率同时降低非偏好输出的概率，从而提升其生成高质量解释的能力。  </span></span></p><p cid="n290" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">我们在四大漏洞类型（重入、时间戳依赖、整数溢出/下溢和delegatecall）及机器不可审计漏洞上评估Smart-LLaMA-DPO。我们的方法显著优于现有最优基线，F1分数平均提升10.43%，准确率平均提高7.87%。此外，LLM评估与人工评估均证明Smart-LLaMA-DPO生成的解释在正确性、全面性和清晰度方面具有卓越质量。</span></span></p><p cid="n291" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728878" target="_blank">https://doi.org/10.1145/3728878</a></span></span></p><h3 cid="n292" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">83、SoK: A Taxonomic Analysis of DeFi Rug Pulls: Types, Dataset, and Tool Assessment</span></span></h3><p cid="n293" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">拉地毯骗局是去中心化金融（DeFi）领域的关键威胁，造成重大财务损失并侵蚀生态系统信任。尽管研究取得进展，但零散的分类法、有限的数据集和不充分的工具评估仍阻碍着有效检测。通过对学术和行业资源的系统分析，我们建立了包含35种独特拉地毯类型的综合分类法，其中包括9种先前未记录的变体。分析揭示了显著的检测缺口：现有数据集仅覆盖20%的已知类型，这促使我们创建包含2,391个实例的增强数据集，将覆盖率提升至82.9%。对13种检测工具的评估显示其能力存在显著差异（25.7%至62.9%），其中9种类型完全无法检测。最关键的是，面对复杂攻击时工具性能显著下降：单向量攻击的检测率从55.6%骤降至复合场景下的31.3%。这些发现为开发更强大的去中心化系统智能合约漏洞安全测试方法提供了重要见解。</span></span></p><p cid="n294" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728900" target="_blank">https://doi.org/10.1145/3728900</a></span></span></p><h3 cid="n295" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">84、Static Program Reduction via Type-Directed Slicing</span></span></h3><p cid="n296" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">传统的程序切片工具能够针对目标变量构建一个计算相同结果的精简程序变体，即程序切片保留了原始程序的运行时语义。本文提出类型导向切片方法，该方法构建一个更小的程序，确保类型检查器在仅考虑目标程序位置时对切片程序产生相同的结果——即类型导向切片器从特定类型检查器的视角出发，保留了目标程序在编译时的语义。  </span></span></p><p cid="n297" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">类型导向切片是类型检查器设计者和维护者的有效调试辅助工具。当类型检查器在大型代码库上产生意外结果（如崩溃、误报警告、遗漏警告等）时，用户通常会在未提供测试用例的情况下向类型检查器维护者报告错误。当前最先进的程序缩减方案是动态方法：需要反复运行类型检查器以验证最小化结果。而类型导向切片器通过利用类型检查器类型规则固有的模块化特性，无需重新运行类型检查器即可静态解决该问题。我们针对Java开发的类型导向切片原型工具完全自动化，可处理不完整程序，且运行高效。该工具能为三个广泛使用的类型检查器（Java编译器自身、NullAway和Checker Framework）的28个历史缺陷中的25个（89%）生成保留类型检查器异常行为的小型测试用例；在这25个案例中，即使缺少目标程序的类路径，它仍能保持类型检查器的行为特征。此外，在免费层级的CI运行器上，该工具对每个基准测试（代码规模高达数百万行）的处理时间均在一分钟内完成。</span></span></p><p cid="n298" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728968" target="_blank">https://doi.org/10.1145/3728968</a></span></span></p><h3 cid="n299" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">85、Structure-Aware, Diagnosis-Guided ECU Firmware Fuzzing</span></span></h3><p cid="n300" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">电子控制单元（ECU）在现代车辆中扮演着关键角色，其功能范围涵盖基础控制功能至安全关键功能。模糊测试已成为确保ECU固件功能安全与车辆安全性的有效手段。然而现有模糊测试方法主要关注通过外部总线（如CAN）来自其他ECU的输入，却忽视了通过板载总线（如SPI）从内部外设接收的输入。由于输入空间探索受限，这些方法无法全面覆盖ECU固件的模糊测试。此外，现有方法通常缺乏对ECU固件内部状态的可见性，仅依赖有限反馈（如消息超时或硬件指示灯），制约了测试有效性。</span></span></p><p cid="n301" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">针对这些局限性，我们提出结构感知、诊断引导的EcuFuzz框架，以实现全面有效的ECU固件模糊测试。具体而言，EcuFuzz同步处理外部总线（CAN）与板载总线（SPI），利用CAN和SPI的协议结构有效变异CAN消息与SPI序列，并采用基于双核微控制器的外设模拟器处理实时SPI通信。此外，EcuFuzz创新性地引入车辆诊断协议作为反馈机制，通过采集ECU内部状态（包括错误相关变量、故障码及异常上下文）来指导测试进程。在对三家主流一级供应商的十款ECU兼容性评估中，本框架成功适配九款设备；对三款代表性ECU的有效性评估表明，该方法检测出九个未知安全关键故障，相关供应商已发布技术补丁。</span></span></p><p cid="n302" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728914" target="_blank">https://doi.org/10.1145/3728914</a></span></span></p><h3 cid="n303" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">86、Testing the Fault-Tolerance of Multi-sensor Fusion Perception in Autonomous Driving Systems</span></span></h3><p cid="n304" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">生产级自动驾驶系统（如谷歌Waymo与百度Apollo）通常依赖多传感器融合策略实现环境感知。该策略通过结合摄像头与激光雷达的各自优势提升感知鲁棒性，直接影响自动驾驶车辆的安全关键驾驶决策。然而在实际自动驾驶场景中，摄像头与激光雷达均易受各类故障影响，显著改变自动驾驶系统的决策与后续行为。开发阶段需全面测试多传感器融合的鲁棒性。现有测试方法仅关注系统未能识别的极端案例，尚未深入研究传感器故障如何影响自动驾驶系统的整体行为。为此，我们提出FADE——首个全面评估基于多传感器融合感知的自动驾驶系统容错能力的测试方法。我们系统化构建自动驾驶车辆摄像头与激光雷达的故障模型，并将这些故障注入基于多传感器融合的自动驾驶系统，以测试其在多种场景下的行为。为高效探索传感器故障模型的参数空间，我们设计了一种反馈引导的差分模糊测试器，用于揭示注入故障引发的自动驾驶系统安全违规。我们在代表性工业级自动驾驶系统百度Apollo上评估FADE，实验结果证明了该方法的实用价值并揭示重要发现。我们进一步使用百度Apollo 6.0 EDU自动驾驶车辆进行实体实验，在真实场景中验证了这些发现。</span></span></p><p cid="n305" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728910" target="_blank">https://doi.org/10.1145/3728910</a></span></span></p><h3 cid="n306" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">87、The First Prompt Counts the Most! An Evaluation of Large Language Models on Iterative Example-Based Code Generation</span></span></h3><p cid="n307" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">大型语言模型（LLM）在代码生成方面的能力已得到广泛研究，尤其是在根据自然语言描述实现目标功能方面。作为自然语言的替代方案，输入输出（I/O）示例提供了一种可访问、明确且灵活的功能描述方式。然而，其固有的多样性、不透明性和不完整性为理解和实现目标需求带来了更大挑战。因此，基于I/O示例生成代码（即基于示例的代码生成）提供了新视角，使我们能够额外评估LLM从有限信息推断目标功能以及处理新型需求的能力。但关于LLM在基于示例代码生成中的相关研究仍处于探索阶段。为填补这一空白，本文首次对基于示例的代码生成开展综合性研究。针对I/O示例不完整性导致的错误问题，我们采用迭代评估框架，并将基于示例的代码生成目标形式化为两个连续子目标：生成符合给定示例的代码，以及通过（迭代）给定示例成功实现目标功能的代码。我们使用包含172个多样化目标功能（源自HumanEval和CodeHunt）的新基准测试评估了六个前沿LLM。结果表明：当使用迭代I/O示例而非自然语言描述需求时，LLM的得分下降超过60%，说明基于示例的代码生成对当前LLM仍具挑战性。值得注意的是，绝大多数（甚至超过95%）成功实现的功能均在首轮迭代中完成，表明LLM难以有效利用迭代补充的需求。此外，我们发现将I/O示例与即使不精确且碎片化的自然语言描述结合可显著提升LLM性能，且初始I/O示例的选择也会影响得分，这为提示优化提供了可能。这些发现凸显了交互过程中早期提示的重要性，并为增强基于LLM的代码生成提供了关键见解与启示。</span></span></p><p cid="n308" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728947" target="_blank">https://doi.org/10.1145/3728947</a></span></span></p><h3 cid="n309" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">88、The Incredible Shrinking Context... in a Decompiler Near You</span></span></h3><p cid="n310" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">二进制代码反编译在以太坊虚拟机（EVM）智能合约领域已成为一项至关重要的应用。出于多种逆向工程或工具开发目的，几乎每年都会出现新的主流反编译器并广受欢迎。从技术角度看，该问题具有根本性挑战：其核心是从高度优化的延续传递风格（CPS）表示中恢复高级控制流。在架构层面，反编译器可通过静态分析或符号执行技术构建。  </span></span></p><p cid="n311" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">我们提出Shrnkr——一种基于静态分析的反编译器，继承了最先进的Elipmoc反编译器的优势。Shrnkr在所有关键维度上均实现了显著改进：可扩展性、完整性和精确度。其核心技术采用了一种新型静态分析上下文变体：收缩上下文敏感性。该技术通过深度裁剪静态分析上下文，主动&#34;遗忘&#34;控制流历史，从而为更精确的推理创造空间。  </span></span></p><p cid="n312" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">我们将Shrnkr与基于静态分析和符号执行的最先进反编译器进行对比。在标准基准测试集中，Shrnkr可扩展至99.5%以上的合约（Elipmoc约为95%），代码覆盖率（即触及并成功反编译的代码）较Heimdall-rs提升67%，关键不精确度指标较Elipmoc降低超65%。</span></span></p><p cid="n313" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728935" target="_blank">https://doi.org/10.1145/3728935</a></span></span></p><h3 cid="n314" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">89、Top Score on the Wrong Exam: On Benchmarking in Machine Learning for Vulnerability Detection</span></span></h3><p cid="n315" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">根据我们对漏洞检测机器学习（ML4VD）的调研，过去五年中发表的论文十有八九将ML4VD定义为函数级二元分类问题：给定一个函数，判断其是否包含安全漏洞？基于安全研究者的经验，在判定某函数是否导致程序存在攻击漏洞时，我们往往需要先理解该函数的调用上下文。本文通过分析主流ML4VD数据集中的漏洞函数与非漏洞函数，探究在缺乏上下文的情况下做出准确判断的实际可行性。若某函数因实际安全漏洞的修复而被修改，且被确认为导致程序漏洞的根源，则判定为漏洞函数；反之则为非漏洞函数。研究发现，几乎所有案例均表明脱离上下文无法做出准确判断：漏洞函数往往仅因存在诱发漏洞的调用上下文而具有危险性，而非漏洞函数在特定上下文中也可能转化为漏洞函数。  </span></span></p><p cid="n316" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">但为何现有ML4VD技术能在样本明显信息不足的情况下获得高评分？伪相关性现象：研究发现即使仅依据词频统计也能获得高评分，这表明当前数据集存在被利用以获取高评分而非真正检测安全漏洞的缺陷。本文结论指出，主流ML4VD问题定义存在根本性缺陷，并质疑该领域大量研究的内部有效性。建设性地，我们呼吁建立更有效的基准评估方法以衡量ML4VD的真实能力，提出替代性问题定义框架，并探讨其对机器学习与程序分析研究评估体系的更广泛启示。</span></span></p><p cid="n317" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728887" target="_blank">https://doi.org/10.1145/3728887</a></span></span></p><h3 cid="n318" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">90、Tracezip: Efficient Distributed Tracing via Trace Compression</span></span></h3><p cid="n319" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">分布式追踪是云服务系统监控与测试的基础构建模块。为降低计算与存储开销，当前普遍采用采样方式减少追踪数据采集。然而现有工作面临追踪完整性与系统开销之间的权衡：基于头部采样的方法在请求进入系统时 indiscriminately 选择追踪对象，可能遗漏关键事件；基于尾部采样的方法先全量采集请求，再选择性保留边缘案例追踪，但会带来追踪数据收集与录入的开销。本文另辟蹊径，提出Tracezip通过追踪压缩提升分布式追踪效率。核心洞见在于：追踪数据间存在显著冗余，导致相同数据在服务与后端之间重复传输。我们设计了一种名为跨度检索树（SRT）的新型数据结构，可在服务端持续封装此类冗余，将追踪跨度转换为轻量形式。在后端，通过检索先前跨度已传输的公共数据即可无缝重构完整追踪链。Tracezip包含一系列优化SRT结构的策略，以及通过差分更新机制高效同步服务与后端间SRT的方法。基于微服务基准测试、主流云服务系统和真实生产追踪数据的评估表明，Tracezip能以可忽略的开销显著提升追踪收集性能。我们已在OpenTelemetry Collector中实现Tracezip，使其与现有追踪API保持兼容。</span></span></p><p cid="n320" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728888" target="_blank">https://doi.org/10.1145/3728888</a></span></span></p><h3 cid="n321" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">91、Tratto: A Neuro-Symbolic Approach to Deriving Axiomatic Test Oracles</span></span></h3><p cid="n322" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">本文提出Tratto——一种神经符号方法，能够从源代码和文档中生成可作为公理化预言（布尔表达式）的断言。Tratto的符号模块利用编程语言的语法、被测单元及其上下文（所属类与可用API）来约束可成功生成有效预言词符的搜索空间。其神经模块采用经微调的Transformer模型，既决策是否输出预言，又从符号模块返回的词符集合中选择下一个词符来逐步构建预言。实验表明，Tratto以73%准确率、72%精确率和61% F1分数显著优于现有公理化预言生成方法，大幅超越本研究中最优符号方法与神经方法的最佳结果（分别为61%、62%和37%）。Tratto生成的公理化预言数量是当前符号方法的三倍，而生成的误报数量比采用少样本学习和思维链提示的GPT-4减少十倍。</span></span></p><p cid="n323" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728960" target="_blank">https://doi.org/10.1145/3728960</a></span></span></p><h3 cid="n324" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">92、Type-Alias Analysis: Enabling LLVM IR with Accurate Types</span></span></h3><p cid="n325" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">LLVM中间表示（IR）作为LLVM编译器基础设施的核心，提供了强大的类型系统和静态单赋值（SSA）形式，非常适合程序分析。但其单类型设计为每个IR变量严格指定单一类型，即使该变量可能合法对应多种类型。近期不透明指针的引入加剧了这一局限：IR中所有指针均以通用指针类型（ptr）统一表示，抹除了具体指针目标类型信息，导致许多基于类型的分析失效。</span></span></p><p cid="n326" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">为突破单类型设计的限制，我们提出类型别名分析——一种多类型设计方案，通过维护IR变量的类型别名集并在IR指令间推断类型。我们开发了原型工具TypeCopilot，专门针对C程序生成的启用不透明指针的LLVM IR恢复具体指针目标类型。TypeCopilot实现了98.57%的准确率和94.98%的覆盖率，使现有分析工具在采用不透明指针后仍能保持有效性。为促进进一步研究和安全应用，我们已开源TypeCopilot，为社区在现代LLVM IR上开展精确的类型感知安全分析提供实践基础。</span></span></p><p cid="n327" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728974" target="_blank">https://doi.org/10.1145/3728974</a></span></span></p><h3 cid="n328" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">93、Uncovering API-Scope Misalignment in the App-in-App Ecosystem</span></span></h3><p cid="n329" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">摘要“应用内应用”（app-in-app）模式是移动系统的新兴趋势，超级应用（简称superApps，如微信、百度、抖音）通过提供特权API，允许外部供应商在其平台上开发小程序（简称miniApps）。为便于管理，超级应用设计了特定的权限配置（称为scope）来授予API对特定功能和资源的访问权限。在API实现过程中严格遵守这些权限范围对维护安全至关重要，否则超级应用的权限管理可能被绕过——我们将这种漏洞称为API-权限范围失配。本研究首次对应用内应用生态中的API-权限范围失配问题进行系统性分析，揭示了根本原因和安全风险。更重要的是，我们开发了名为ScopeChecker的自动化工具，用于检测超级应用和小程序中的API-权限范围失配问题。该工具通过将Android权限机制集成到超级应用功能中，提取标准API-权限范围映射关系，并基于LLM的代码生成技术创建可执行的API代码片段作为测试用例。执行结果反映了API与权限范围的实际映射关系，通过与标准映射比对即可识别失配现象。随后，ScopeChecker通过将失配API与定制化的目标小程序方法导向抽象语法树（MAST）进行匹配，验证小程序中的失配情况。经人工确认，ScopeChecker在头部超级应用中检出38个存在权限失配的API，其性能优于当前最先进的小程序测试方法。值得注意的是，我们获得了超级应用开发商及CNVD的11次正面回应，其中9个漏洞获得确认并获奖励：包括1个高风险、7个中风险和1个低风险漏洞。为评估普遍性，ScopeChecker检测了42,000余个小程序，发现51%存在API-权限范围失配问题，平均每个小程序存在1.4个失配API。最后，我们通过分析真实攻击案例，阐述了由API-权限范围失配引发的四类安全威胁。</span></span></p><p cid="n330" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728962" target="_blank">https://doi.org/10.1145/3728962</a></span></span></p><h3 cid="n331" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">94、Understanding Model Weaknesses: A Path to Strengthening DNN-Based Android Malware Detection</span></span></h3><p cid="n332" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">Android恶意软件检测仍是网络安全研究中的关键挑战。近年来研究利用人工智能技术（特别是深度神经网络DNN）训练检测模型，但常用训练数据集中恶意软件家族间的显著不平衡往往会影响其有效性。这种不平衡导致模型在主流类别上过拟合，而在低代表性类别上表现不佳，增加了对罕见恶意软件家族的预测不确定性。为改善许多DNN模型的次优性能，我们提出MalTutor新型框架，通过优化训练流程增强模型鲁棒性。我们的核心洞见在于将不确定性从&#34;负担&#34;转化为&#34;资产&#34;，并将其策略性融入DNN训练方法。具体而言，我们首先评估DNN模型在不同训练周期中的预测不确定性，以此指导样本分类。结合课程学习策略，我们从低不确定性的易学习样本开始训练，逐步加入高不确定性的难学习样本。实验结果表明，MalTutor显著提升了在不平衡数据集上训练的模型性能：准确率提高31.0%，F1分数提升138.8%，特别是在检测各类恶意应用时的平均准确率提升133.9%。我们的发现为利用不确定性增强面向预测的软件工程任务中DNN模型鲁棒性提供了重要见解。</span></span></p><p cid="n333" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728884" target="_blank">https://doi.org/10.1145/3728884</a></span></span></p><h3 cid="n334" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">95、Understanding Practitioners’ Expectations on Clear Code Review Comments</span></span></h3><p cid="n335" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">代码审查评论（CRC）在现代代码审查过程中至关重要。它为审查者提供了识别潜在缺陷、提供建设性反馈及改进建议的机会。清晰简洁的代码审查评论能促进开发者之间的沟通，并对正确理解已发现问题和建议解决方案具有关键作用。尽管CRC清晰度的重要性已被广泛认可，但目前仍缺乏关于良好清晰度构成要素及评估标准的指导原则。本文通过综合研究来理解和评估CRC的清晰度：首先基于文献综述和实践者调研，推导出与CRC清晰度相关的一组属性——RIE属性（即相关性、信息量和表达质量）及其对应评估标准；随后对九种编程语言开源项目中的CRC清晰度进行实证分析，发现其中较大比例（28.8%）的评论至少存在某一属性上的清晰度缺陷；最后，我们通过提出ClearCRC框架探索自动评估CRC清晰度的可行性。实验结果表明，基于预训练语言模型的ClearCRC能有效评估CRC清晰度，其平衡准确率最高达73.04%，F-1分数最高达94.61%。</span></span></p><p cid="n336" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728931" target="_blank">https://doi.org/10.1145/3728931</a></span></span></p><h3 cid="n337" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">96、Unlocking Low Frequency Syscalls in Kernel Fuzzing with Dependency-Based RAG</span></span></h3><p cid="n338" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">大多数覆盖引导的内核模糊测试工具通过系统调用序列合成来测试操作系统内核。然而，在模糊测试过程中仍存在极少或未被覆盖的系统调用（称为低频系统调用，LFS），这意味着相关代码分支未被探索。这是由于LFS的复杂依赖性和突变不确定性，使得模糊测试工具难以生成相应的系统调用序列。由于许多内核模糊测试工具能够基于选择表机制从当前语料库中动态学习系统调用依赖关系，提供全面且高质量的种子有助于覆盖LFS。但构建此类种子严重依赖专家经验来解决系统调用依赖关系。  </span></span></p><p cid="n339" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">本文提出SyzGPT，首个通过大语言模型（LLM）自动为LFS生成有效种子的内核模糊测试框架。我们采用基于依赖关系的检索增强生成（DRAG）方法释放LLM的潜力，并设计了一系列步骤提升生成种子的有效性。首先，SyzGPT通过LLM从现有文档中自动提取系统调用依赖关系；其次，基于依赖关系从模糊测试语料库中检索程序，为LLM构建自适应上下文；最后，通过反馈周期性生成并修复种子以丰富LFS的模糊测试语料库。我们提出了一套针对内核领域种子生成的新评估指标。实验表明，SyzGPT能生成有效率达87.84%的种子，并可扩展到离线和微调LLM。与七种最先进的内核模糊测试工具相比，SyzGPT平均将代码覆盖率提升17.73%，LFS覆盖率提升58.00%，漏洞检测能力提高323.22%。此外，SyzGPT独立发现了26个未知内核漏洞（其中10个与LFS相关），11个已获确认。</span></span></p><p cid="n340" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728913" target="_blank">https://doi.org/10.1145/3728913</a></span></span></p><h3 cid="n341" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">97、Validating Network Protocol Parsers with Traceable RFC Document Interpretation</span></span></h3><p cid="n342" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">验证网络协议实现的正确性极具挑战性，主要存在预测基准缺失（oracle）和可追溯性两大难题。前者决定了何时应将协议实现判定为存在缺陷——尤其当错误未引发任何可观测症状时；后者则帮助开发者理解实现如何违反协议规范，从而促进错误修复。与现有研究很少同时考虑这两个问题不同，本文基于大语言模型（LLM）的最新进展，同时解决这两个问题并提供有效方案。我们的核心发现是：网络协议通常随结构化规范文档（即RFC文档）发布，这些文档可通过LLM系统性地转换为形式化的协议消息规范。此类规范虽可能因LLM幻觉存在误差，但可作为准预测基准来验证协议解析器，而验证结果又会逐步优化该基准。由于基准源自规范文档，我们在协议实现中发现的任何错误均可追溯至文档，从而解决可追溯性问题。我们使用九种网络协议及其C、Python和Go语言实现进行了广泛评估。结果表明：本方法优于现有最优技术，共检测出69个错误（其中36个已确认）。本项目还展示了基于自然语言规范实现全自动化软件验证的潜力——该过程因需理解规范文档并推导测试输入的预期输出，历来被认为主要依赖人工完成。</span></span></p><p cid="n343" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728955" target="_blank">https://doi.org/10.1145/3728955</a></span></span></p><h3 cid="n344" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">98、VerLog: Enhancing Release Note Generation for Android Apps using Large Language Models</span></span></h3><p cid="n345" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">发布说明是向用户和开发者传达软件更新细节的重要文档，但其生成过程仍耗时且易出错。本文提出VerLog，一种利用大语言模型（LLM）增强软件发布说明生成的新技术。VerLog通过自适应提示的少样本上下文学习，激发LLM的图推理能力，使其能准确解读并记录代码变更的语义信息。此外，VerLog融合了多粒度信息（包括细粒度代码修改和高层非代码工件）以指导生成过程，确保发布说明具备全面性、准确性和可读性。我们将VerLog应用于248个独特Android应用的42个版本，并进行了广泛评估。结果表明，无论是在高质量参考发布说明的受控实验中，还是野外评估中，VerLog在生成发布说明的完整性、准确性、可读性及整体质量上均显著优于现有基线方法（精确率、召回率和F1值最高提升18%–21%）。</span></span></p><p cid="n346" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728961" target="_blank">https://doi.org/10.1145/3728961</a></span></span></p><h3 cid="n347" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">99、Walls Have Ears: Demystifying Notification Listener Usage in Android Apps</span></span></h3><p cid="n348" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">Android系统中的通知监听服务（NLS）允许第三方应用监控和处理设备通知，虽能实现强大功能，但也带来安全与隐私风险。尽管访问NLS需特殊权限，其仍被恶意行为者反复利用。然而，目前缺乏对NLS使用模式及其安全影响的系统性研究。本文提出NLRadar——一种结合静态分析与大语言模型（LLM）的混合方法，用于检测Android应用中的NLS使用情况。我们将NLRadar应用于大规模应用（含恶意软件与常规应用），以揭示NLS使用模式并挖掘滥用行为。分析表明NLS存在严重滥用现象，包括应用不安全存储社交媒体消息、利用NLS进行破坏性竞争或窃取短信凭证，以及通过NLS传播推广信息甚至恶意链接等。研究还发现应用更新中存在未公开的NLS使用变更，且隐私政策披露不充分。这些发现表明，亟需加强对NLS使用的严格审查，并提升开发者对负责任NLS实践的认知。</span></span></p><p cid="n349" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728898" target="_blank">https://doi.org/10.1145/3728898</a></span></span></p><h3 cid="n350" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">100、Wemby’s Web: Hunting for Memory Corruption in WebAssembly</span></span></h3><p cid="n351" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">WebAssembly通过原生代码实现了Web应用中性能关键模块的高速执行。然而最新研究表明，WebAssembly模块中的内存破坏错误可能被用于攻击Web应用。本文首次对WebAssembly内存破坏问题展开系统性分析，揭示了一种新型威胁模型的普遍存在：攻击者可通过内存破坏实现受害者浏览器端的代码注入。通过对37,797个域名的大规模分析，我们发现有29,411个（77.81%）域名完全信任来自潜在攻击者控制源的数据。攻击者可利用内存错误操纵WebAssembly内存——这些被隐式信任的数据常被传入敏感函数（如eval）或通过innerHTML直接插入DOM。因此，攻击者可滥用这种信任实现JavaScript代码执行，即跨站脚本攻击（XSS）。</span></span></p><p cid="n352" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">针对该问题，我们提出首个整体分析WebAssembly网站的有效方案Wemby。通过模糊测试技术，Wemby能有效检测Web应用中远程暴露的内存破坏错误。我们实现了无需源码的WebAssembly插桩方案，提供细粒度的内存破坏检测能力。在实际应用中，Wemby成功发现了多个内存破坏漏洞（包括Zoom平台漏洞）。性能评估表明：Wemby相比现有WebAssembly模糊测试工具有显著提升，平均速度提高232倍，代码覆盖率增加46%。</span></span></p><p cid="n353" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728937" target="_blank">https://doi.org/10.1145/3728937</a></span></span></p><h3 cid="n354" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">101、What Happened in This Pipeline? Diffing Build Logs with CiDiff</span></span></h3><p cid="n355" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">持续集成（CI）被开发者广泛用于确保软件项目的质量与可靠性。然而，诊断CI回归是一个繁琐的过程，需要人工分析冗长的构建日志。本文探索了文本差异分析如何辅助CI回归调试。由于现成的差异比对算法效果欠佳，我们提出了一种专为构建日志设计的差异化算法CiDiff。我们在包含17,906个CI回归案例的新数据集上，通过准确率研究、量化分析和用户调研，将CiDiff与多种基线方法进行对比。结果表明：在中等规模案例中，我们的算法可将需要检查的代码行数减少约60%，与当前主流的LCS差异算法相比具有合理开销。最终，在70%的回归案例中大多数参与者倾向于选择我们的算法，而LCS差异算法仅获得5%的偏好选择。</span></span></p><p cid="n356" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728966" target="_blank">https://doi.org/10.1145/3728966</a></span></span></p><h3 cid="n357" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">102、Why Does My Transaction Fail? A First Look at Failed Transactions on the Solana Blockchain</span></span></h3><p cid="n358" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">Solana是一个新兴的区块链平台，以其高吞吐量和低交易成本著称，已成为去中心化金融（DeFi）、非同质化代币（NFT）及其他Web 3.0应用的首选基础设施。在Solana生态中，交易发起者通过提交多样化指令与各类智能合约交互，其中包括采用自动化做市商（AMM）机制的去中心化交易所（DEX），使用户无需中介即可直接在链上交易加密货币。尽管Solana具备高吞吐量和低成本优势，这些特性却使其面临机器人滥发交易以牟利的问题，导致交易失败和网络拥堵现象频发。  </span></span></p><p cid="n359" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">现有研究主要集中于Solana区块链的性能评估（特别是可扩展性与交易吞吐量）以及智能合约安全性改进，而对失败交易的特征及影响尚缺乏深入探索。为此，我们基于涵盖7200万个区块中超过15亿笔失败交易的精选数据集，对Solana失败交易展开大规模实证研究。具体而言，我们首先从交易发起者、触发失败的程序和时间模式三个维度刻画失败交易特征，并将其与成功交易的区块位置和交易成本进行对比；随后根据错误日志中的报错信息对失败交易分类，并探究特定程序与交易发起者如何关联这些错误。  </span></span></p><p cid="n360" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">我们发现：Solana交易失败率呈现日周期性波动，且与失败交易量呈强正相关，其中机器人交易失败率高达58.43%；失败交易错误日志中存在十类典型错误，因&#34;价格/利润未满足&#34;和&#34;无效状态&#34;导致的失败占比达67.18%；AMM在失败交易中主要遭遇&#34;无效状态&#34;错误，而DEX聚合器更易受&#34;价格/利润未满足&#34;错误影响；交易发起者中，机器人因高频交易和复杂合约交互面临更广泛的错误类型，普通用户则错误类型较为有限。基于研究结果，我们提出降低Solana交易失败率的实践建议，并展望未来研究方向。</span></span></p><p cid="n361" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728943" target="_blank">https://doi.org/10.1145/3728943</a></span></span></p><h3 cid="n362" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">103、WildSync: Automated Fuzzing Harness Synthesis via Wild API Usage Recovery</span></span></h3><p cid="n363" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">模糊测试是高效测试软件的最实用技术之一。当对软件库API进行模糊测试时，高质量的测试套件至关重要，它能使模糊器以精确的调用序列和函数参数执行API。尽管开发人员通常依赖人工编写测试套件，但自动化生成方法正受到日益广泛的关注。现有研究因依赖基于编译器的分析或运行时执行轨迹（需要人工设置配置），在可扩展性和有效性方面存在局限。我们对多个活跃测试库的研究表明，大量被开源项目实际使用的导出API函数尚未被现有测试套件或单元测试覆盖。这些API函数缺乏测试会增加漏洞未被发现的风险，进而可能引发安全问题。为改善现有模糊测试方法的覆盖不足问题，我们提出一种创新方法：通过从真实应用场景中提取未测试函数的使用模式，基于轻量级抽象语法树分析技术从外部源代码中提取API使用规范，并将这些使用模式集成到现有测试套件中以构建覆盖未测试函数的新套件。我们实现了名为WildSync的原型系统，能够为OSS-Fuzz上的C/C++库自动生成测试套件。实验表明，WildSync成功为OSS-Fuzz中24个活跃测试库及3个可后续集成的主流库生成469个新测试套件，覆盖函数数量增加超过1.3千个，代码行数增加超过1.6万行，同时发现了7个此前未检测到的漏洞。</span></span></p><p cid="n364" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728918" target="_blank">https://doi.org/10.1145/3728918</a></span></span></p><h3 cid="n365" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">104、You Name It, I Run It: An LLM Agent to Execute Tests of Arbitrary Projects</span></span></h3><p cid="n366" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">执行项目测试套件的能力在许多场景中至关重要，例如评估代码质量与覆盖率、验证开发者或自动化工具提交的代码变更、确保与依赖项的兼容性等。尽管其重要性显著，但在实践中执行项目测试套件常面临挑战，因为不同项目采用不同的编程语言、软件生态、构建系统、测试框架及其他工具。这些挑战使得创建一种适用于不同项目的可靠通用测试执行方法变得困难。本文提出ExecutionAgent，这是一种自动化技术，能够通过源代码为任意项目构建测试脚本并运行其测试用例。受人类开发者处理该任务方式的启发，我们的方法基于大型语言模型（LLM）构建自主代理，可自动执行命令并与主机系统交互。该代理通过元提示（meta-prompting）技术获取与目标项目相关的最新技术指南，并基于前序步骤的反馈迭代优化其执行流程。我们在评估中将ExecutionAgent应用于50个开源项目，这些项目涵盖14种编程语言及多种构建与测试工具。该方法成功执行了33/50项目的测试套件，且与基准测试套件执行结果的偏差仅为7.5%。相比现有最佳技术，该成果将成功率提升了6.6倍。该方法成本可控，单项目平均执行时间为74分钟，LLM调用成本仅为0.16美元。我们期望ExecutionAgent能成为开发者、自动化编程工具及研究人员的实用工具，助力跨多样项目的测试执行需求。</span></span></p><p cid="n367" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728922" target="_blank">https://doi.org/10.1145/3728922</a></span></span></p><h3 cid="n368" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">105、ZTaint-Havoc: From Havoc Mode to Zero-Execution Fuzzing-Driven Taint Inference</span></span></h3><p cid="n369" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="softbreak" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "></span><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">模糊测试是一种流行的软件漏洞发现技术，其核心问题在于识别能影响程序行为的关键字节。污点分析能以白盒方式追踪关键字节的数据流，但常存在稳定性问题且无法在大型现实程序中运行。模糊驱动污点推断（FTI）是一种简单的黑盒技术，通过监控程序执行实例的动态行为，以黑盒方式推断关键字节。然而该方法需要额外O(N)次程序执行，导致较大运行时开销。  </span></span></p><p cid="n370" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">我们观察到模糊测试中广泛使用的突变方案——havoc模式，可转化为零额外执行开销的轻量级FTI。本研究首先提出havoc模式的计算模型，形式化描述其突变过程。基于该模型，我们证明havoc模式能在生成和执行新测试用例的同时启动FTI，进而提出无需额外程序执行的ZTaint-Havoc新型FTI方案。ZTaint-Havoc在UniBench和FuzzBench上的插装开销仅分别为3.84%和12.58%。最后我们提出基于ZTaint-Havoc识别关键字节的高效突变算法。  </span></span></p><p cid="n371" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">通过综合评估havoc模式的计算模型，我们验证了将其转化为零额外执行开销的高效FTI的可行性。基于AFL++的havoc模式实现原型ZTaint-Havoc，并在FuzzBench和UniBench数据集上进行评估。大量实验结果表明：在24小时测试中，ZTaint-Havoc相较原生AFL++在FuzzBench和UniBench上的边覆盖率最高提升33.71%和51.12%，平均提升分别为2.97%和6.12%。</span></span></p><p cid="n372" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728916" target="_blank">https://doi.org/10.1145/3728916</a></span></span></p><h3 cid="n373" mdtype="heading" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">106、xFUZZ: A Flexible Framework for Fine-Grained, Runtime-Adaptive Fuzzing Strategy Composition</span></span></h3><p cid="n374" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">模糊测试是检测软件漏洞最高效的技术之一。现有方法在不同目标间存在性能不一致问题，且依赖于僵化的粗粒度模糊测试策略组合，限制了在运行时自适应融合不同模糊测试策略优势的灵活性。为解决这些挑战，我们提出了一个支持细粒度运行时自适应策略组合的灵活可扩展模糊测试框架。该框架将主流输入调度与变异调度策略集成为可独立切换的细粒度插件，使用户能在整个测试过程中自适应替换任意插件。此外，我们提出基于滑动窗口汤普森采样的自适应算法，在测试过程中动态选择最优的模糊测试策略组合。实验结果表明：该框架在独特漏洞发现数量上较最先进模糊测试工具提升10.07%，代码覆盖率提高4.94%。值得注意的是，其在测试套件37个漏洞中率先检测出21个，证明了其在多样化目标上的有效性。</span></span></p><p cid="n375" mdtype="paragraph" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span md-inline="plain" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf="">链接：</span></span><span md-inline="url" spellcheck="false" style=" box-sizing: border-box; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; ; "><span leaf=""><a href="https://doi.org/10.1145/3728873" target="_blank">https://doi.org/10.1145/3728873</a></span></span></p><p style="display: none;"><mp-style-type data-value="3"></mp-style-type></p>



<p><a href="2247486003">阅读原文</a></p>
<p><a href="https://wechat2rss.xlab.app/link-proxy/?k=fb645cec&amp;r=1&amp;u=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU0MzgzNTU0Mw%3D%3D%26mid%3D2247486003%26idx%3D1%26sn%3D82d1280ff69952f09d94eb5f9ff2d59a">跳转微信打开</a></p>
]]></content:encoded>
      <pubDate>Sat, 20 Sep 2025 21:58:00 +0800</pubDate>
    </item>
    <item>
      <title>软件测试顶会ISSTA 2025 论文清单与摘要</title>
      <link>https://mp.weixin.qq.com/s?__biz=MzU0MzgzNTU0Mw==&amp;mid=2247485998&amp;idx=1&amp;sn=fb74a06d40c9bdf21884abd89ce675f7</link>
      <description></description>
      <content:encoded><![CDATA[<p>
<span>漏洞战争</span> <span>2025-09-05 06:49</span> <span style="display: inline-block;">广东</span>
</p>




<p>
<img src="https://wechat2rss.xlab.app/img-proxy/?k=1c4a91ab&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdWEib5iaZFPic7LKzLS4ibgbz1Kn6LdBWicgHXoF0vS31aela3mldR4tZ5oSHCbLx31Td3GxOAFZWRFD6g%2F0%3Fwx_fmt%3Djpeg"/>
</p>


<h3 cid="n0" mdtype="heading" style="box-sizing: border-box;" data-pm-slice="0 0 []"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">1、A Cloud Native Tool for Testing Automation in Kubernetes</span></span></h3><p cid="n2" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在依赖微服务和基于Kubernetes容器编排的云原生环境中，高效测试至关重要。然而，Kubernetes基础设施的复杂性给测试人员带来了重大挑战。配置测试环境、管理并行测试执行以及确保资源隔离都需要深厚的Kubernetes专业知识，这使测试人员难以专注于验证应用逻辑。为解决此问题，我们推出K8STA（Kubernetes测试自动化工具），这是一款基于Golang的工具，旨在简化Kubernetes中的测试执行。通过利用自定义资源定义（CRD）、自定义资源（CR）和控制器等Kubernetes原生构件，K8STA实现了环境设置、测试执行和结果收集的自动化。它使测试人员能够高效运行测试用例，而无需承担复杂Kubernetes配置的管理负担。K8STA实现了无缝、可扩展且资源高效的工作流，确保测试人员可专注于应用程序质量而非基础设施管理。</span></span></p><p cid="n3" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731732" target="_blank">https://doi.org/10.1145/3713081.3731732</a></span></span></p><h3 cid="n4" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">2、A Preliminary Study of Large Language Models for Multilingual Vulnerability Detection</span></span></h3><p cid="n5" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于深度学习的方法，尤其是利用预训练语言模型（PLM）的技术，在自动化软件漏洞检测领域展现出巨大潜力。然而现有方法大多局限于特定编程语言，制约了其在多语言环境中的适用性。大型语言模型（LLM）的最新进展提供了语言无关能力和增强的语义理解，为突破这一局限提供了可能。虽然现有研究已探索LLM在漏洞检测中的应用，但其在多语言漏洞检测中的性能表现仍未可知。为此，我们开展初步研究，评估了PLM与前沿LLM在七种主流编程语言中的检测效能。研究发现PLM模型CodeT5P在多语言漏洞检测中表现最优，尤其在识别最关键漏洞方面表现突出。基于这些发现，我们进一步探讨了LLM在推进现实世界多语言漏洞检测方面的潜力。本研究标志着探索PLM与LLM用于跨语言漏洞检测的初步尝试，为未来研究和实际部署提供了关键见解。</span></span></p><p cid="n6" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731746" target="_blank">https://doi.org/10.1145/3713081.3731746</a></span></span></p><h3 cid="n7" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">3、ASTRAL: A Tool for the Automated Safety Testing of Large Language Models</span></span></h3><p cid="n8" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文介绍ASTRAL——一种自动化生成并执行测试输入（即提示）以评估大语言模型（LLM）安全性的工具。ASTRAL包含三个微服务模块：首先是测试生成器，其采用新颖的黑盒覆盖准则，跨多个安全类别与语言特征（如不同写作风格与说服技巧）创建平衡且多样化的不安全测试输入；该模块还融合了基于LLM的检索增强生成（RAG）、少样本提示策略及网络浏览技术，以生成与时俱进的测试输入。第二模块测试执行器负责在待测LLM上运行生成的测试输入。最终由测试评估器作为预言机分析执行输出，识别不安全响应，从而实现全自动化的LLM测试流程。</span></span></p><p cid="n9" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731733" target="_blank">https://doi.org/10.1145/3713081.3731733</a></span></span></p><h3 cid="n10" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">4、Best practice for supply chain in LLM-assisted medical applications</span></span></h3><p cid="n11" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型在医疗领域的应用对于提升诊断准确性、改善医患沟通以及提高医疗效率至关重要。其处理海量数据、生成精准信息及实现任务自动化的能力，使LLM应用成为变革性工具。近期研究与实际案例表明，提供安全可靠的LLM辅助应用至关重要。本文旨在揭示LLM医疗应用供应链中的最佳软件实践。</span></span></p><p cid="n12" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731748" target="_blank">https://doi.org/10.1145/3713081.3731748</a></span></span></p><h3 cid="n13" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">5、Bringing Invariant Analysis to modern IDEs: The DIG+ Extension for VS Code</span></span></h3><p cid="n14" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">程序不变量，即特定程序位置始终成立的属性，在形式化程序验证与分析中具有重要作用。基于动态和静态分析的传统不变量生成方法丰富而强大，支撑着广泛的应用场景。然而由于复杂的命令行界面和使用所需的技术专长，这些工具往往未能得到充分利用。</span></span></p><p cid="n15" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为弥合理论研究与实际应用之间的鸿沟，我们开发了DIG+系统。该系统通过采用现代IDE（如VS Code）中广泛使用的语言服务器协议设计，将DIG不变量生成器与CIVL符号执行工具相集成。这种集成使用户能够在其惯用的IDE环境中直接为C程序生成并验证不变量，显著提升了工具的可及性与易用性。我们期待DIG+能启发研究者为其研发工具开发类似的IDE集成方案，从而增强终端用户的使用意愿。</span></span></p><p cid="n16" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731737" target="_blank">https://doi.org/10.1145/3713081.3731737</a></span></span></p><h3 cid="n17" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">6、BugsInDLLs : A Database of Reproducible Bugs in Deep Learning Libraries to Enable Systematic Evaluation of Testing Techniques</span></span></h3><p cid="n18" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">如今，人工智能应用已无处不在。以PyTorch和Tensorflow为代表的深度学习(DL)库，为这些应用的AI组件提供了基础构建模块。与任何软件一样，这些库也可能存在缺陷。尽管已有大量针对该问题的缺陷检测技术被提出，但由于缺乏经过系统整理的可复现DL库缺陷数据集，这些技术的可信评估始终面临挑战。为此，我们推出BugsInDLLs——一个精心构建的可复现缺陷数据库以填补这一空白。该领域存在独特挑战，例如需要安装特定CUDA版本的驱动程序才能复现某些GPU相关缺陷。目前我们的数据集包含112个可复现环境，涵盖三大主流DL库：JAX、TensorFlow和PyTorch。</span></span></p><p cid="n19" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731739" target="_blank">https://doi.org/10.1145/3713081.3731739</a></span></span></p><h3 cid="n20" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">7、COOLer: A Language Support Extension for COOL in VS Code</span></span></h3><p cid="n21" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">COOL是一种面向对象的编程语言，广泛应用于本科生与研究生课程中的编译器设计教学。由于多数学生对该语言不熟悉，且代码编辑器和集成开发环境通常缺乏对COOL的支持，学生编写COOL代码及测试程序负担沉重，导致他们难以充分理解该语言及其编译器的诸多重要高级特性。本文提出COOLer——一个为流行VS Code IDE提供COOL语言支持的扩展工具。COOLer具备三大功能：(i) 通过词法分析与语法解析实现COOL语言的语法高亮；(ii) 提供语义感知的自动补全功能，帮助学生减少输入量并降低记忆陌生COOL语法规则的负担；(iii) 将底层COOL解释器/编译器的相关反馈（如错误信息和类型信息）直接集成至VS Code编辑器，助力调试过程。我们相信COOLer能让学生更享受编写COOL程序的过程，从而更有效地学习和理解高级编译器概念。</span></span></p><p cid="n22" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731729" target="_blank">https://doi.org/10.1145/3713081.3731729</a></span></span></p><h3 cid="n23" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">8、Code2API: A Tool for Generating Reusable APIs from Stack Overflow Code Snippets</span></span></h3><p cid="n24" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">如今，开发者常借助Stack Overflow解决日常编程问题，但这些代码片段多为无法直接测试验证的局部代码。测试此类代码片段的一种有效方式是将它们转化为可供开发者直接调用的API（应用程序接口）。然而，由于需要执行多项差异化操作（例如概括合适的方法名称、推断参数列表和返回语句），人工完成这种转换（称为API化任务）往往成本高昂且易出错。为帮助开发者快速复用Stack Overflow代码片段，本文提出Code2API——一款基于大语言模型（LLMs）的谷歌浏览器扩展程序，可自动实现Stack Overflow代码片段的API化。Code2API通过精心设计的提示词引导LLMs生成可复用API，采用思维链推理和少样本上下文学习技术，使LLMs能够以类开发者思维方式理解并解决API化任务。评估结果表明，Code2API显著优于基于规则的方法，且优势明显。本工具全文已作为研究论文发表于FSE&#39;24会议[11]。演示视频：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://youtu.be/RI-ZpBnNNwQ" target="_blank">https://youtu.be/RI-ZpBnNNwQ</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。演示网站：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.6084/m9.figshare.24426961.v1" target="_blank">https://doi.org/10.6084/m9.figshare.24426961.v1</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。复现资料：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/qq804020866/Code2API" target="_blank">https://github.com/qq804020866/Code2API</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n25" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731741" target="_blank">https://doi.org/10.1145/3713081.3731741</a></span></span></p><h3 cid="n26" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">9、From Large Language Models to Adversarial Malware: How far are we</span></span></h3><p cid="n27" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLM）在自然语言处理、网络威胁检测和自动化渗透测试等领域取得显著进展，正日益应用于实际场景。然而，该技术的快速发展也导致其可能被恶意利用，为网络空间安全带来新挑战。网络钓鱼攻击和虚假信息传播等领域已出现相关安全事件。但LLM在生成对抗性恶意软件方面的进展及潜在影响仍待深入探索。本研究系统分析了LLM生成对抗性恶意软件的规避能力：通过将思维链整合至马尔可夫过程，设计基于提示的状态转移函数与奖励机制，在包含2000余个真实恶意软件样本的数据集上评估其对主流静态检测方法的规避效能。实验结果显示，针对VirusTotal平台12款商业杀毒引擎的平均规避率达89.92%。研究表明，仅具备基础自然语言能力和有限技术知识的个体即可生成规避静态检测的恶意软件，这揭示了当前网络空间防御与检测系统在对抗性恶意软件应对方面存在的潜在脆弱性。</span></span></p><p cid="n28" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3732928" target="_blank">https://doi.org/10.1145/3713081.3732928</a></span></span></p><h3 cid="n29" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">10、FuseApplyBench: Multilingual Benchmark for Trustworthy Code Edit Applying Task</span></span></h3><p cid="n30" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着语言模型（LM）与大型语言模型（LLM）的兴起，其在代码编辑（CE）领域的潜力日益受到关注。当前主流方法是让LLM生成代码修改草案，再由较小规模的LM通过后续代码编辑应用（CEA）进行优化。然而CEA过程易出错，且现有基准测试未能系统评估LLM处理这类问题的性能。我们推出FuseApplyBench基准测试框架，专门评估LLM在CEA任务中应对三大主要错误类型的表现。基于该框架的流程，我们收集数据集进行微调以提升代码修改的可靠性（称为FuseApply）。我们在FuseApplyBench上测试了FuseApply、四种广泛使用的开源LLM以及Kortix-FastApply。结果表明FuseApply显著提升了可信度与准确性指标，而其他模型表现相对较弱，这为推进LLM在代码编辑领域的发展指明了改进空间。</span></span></p><p cid="n31" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3732929" target="_blank">https://doi.org/10.1145/3713081.3732929</a></span></span></p><h3 cid="n32" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">11、GoPV: A Static Analyzer for Finding Blocking Concurrency Bugs Due to Misuse of Shared-Memory Synchronization in Go</span></span></h3><p cid="n33" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">GoPV是一款专为检测Go语言中因共享内存同步原语误用而导致的阻塞式并发错误所设计的静态分析工具。该工具基于调用图与控制流图进行并发分析及（后）支配者分析，以识别Go程序中潜在的并发缺陷。实验结果表明，GoPV在八个基准测试程序中成功检测出所有与共享内存同步相关的阻塞式并发错误。此外，该工具在2.78小时内于21个大型Go应用中发现了17个此类缺陷，充分证明了其高效性与实用性。</span></span></p><p cid="n34" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731734" target="_blank">https://doi.org/10.1145/3713081.3731734</a></span></span></p><h3 cid="n35" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">12、Hybrid Fuzzing of Infrastructure as Code Programs (Short Paper)</span></span></h3><p cid="n36" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基础设施即代码（IaC）已成为现代云和系统部署的基石，实现了自动化且可重复的基础设施配置。然而，由于其复杂性和动态特性，确保IaC程序的正确性仍然具有挑战性。特别是，IaC程序可能根据其所管理资源的状态表现出不同行为。由于这些资源部署在外部提供商上，考虑其可能状态十分困难，这使得测试阶段尤为棘手。本文提出HIT——一种创新的IaC程序单元测试框架，能利用相关资源状态有效测试IaC代码。HIT结合了模糊测试和符号执行这两种对IaC代码而言有效但此前未被探索的技术。实验证实，HIT相比现有最先进方法实现了更高的代码覆盖率。</span></span></p><p cid="n37" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731721" target="_blank">https://doi.org/10.1145/3713081.3731721</a></span></span></p><h3 cid="n38" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">13、InfraFix: Technology-Agnostic Repair of Infrastructure as Code</span></span></h3><p cid="n39" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基础设施即代码（IaC）实现了可扩展的自动化IT基础设施管理，但容易产生可能导致安全漏洞、服务中断和数据丢失的错误。尽管现有研究主要关注IaC问题检测，但由于缺乏合适的规范，自动化程序修复（APR）领域仍待深入探索。本研究提出InfraFix——首个与技术栈无关的IaC脚本修复框架。与现有方法不同，InfraFix支持基于多样化信息源引导APR技术。此外，我们创新性地提出了修复场景生成方法，实现了IaC领域APR技术的大规模评估。通过采用基于SMT的修复模块和利用系统调用的状态推断模块，我们在254,288个修复场景中验证了InfraFix的有效性，成功率高达95.7%。本研究通过InfraFix为研究人员提供了探索新型状态推断与修复技术的实验平台，并借助我们的修复场景生成方法实现大规模评估，为推进IaC领域的APR研究奠定了坚实基础。</span></span></p><p cid="n40" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731735" target="_blank">https://doi.org/10.1145/3713081.3731735</a></span></span></p><h3 cid="n41" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">14、Kitten: A Simple Yet Effective Baseline for Evaluating LLM-Based Compiler Testing Techniques</span></span></h3><p cid="n42" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">编译器测试对于提升编译器正确性至关重要且不可或缺。随着大语言模型（LLM）技术的快速发展，基于LLM的编译器测试技术（如Fuzz4All）已展现出巨大潜力：既能有效发现各类编译器中的真实缺陷，又降低了设计程序生成器所需的工程开销。鉴于LLM技术的持续演进以及新型LLM方法的不断涌现，建立稳健的基准测试体系对于严格评估并推动这一前景广阔的研究方向具有重要意义。</span></span></p><p cid="n43" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为此，我们推出Kitten——一种基于变异且与语言无关的程序生成器。Kitten采用种子程序语料库（类似于LLM的训练集），并利用目标语言的语法规范（相当于LLM学习的知识）。其变异操作符能够生成多样化的测试程序，这种特性类似于LLM推理生成新代码的能力。</span></span></p><p cid="n44" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">评估结果表明：使用现有编译器测试套件作为种子程序时，Kitten在代码覆盖率和缺陷检测能力方面均优于Fuzz4All。在24小时测试周期内，Kitten对GCC、LLVM和Rustc的覆盖率分别比Fuzz4All高出48.3%、9.9%和33.8%，同时在三次运行中平均分别发现19.3、20.3和15.7个缺陷。在为期九个月的Kitten开发测试过程中，我们在GCC、LLVM、Rustc、Solc、JerryScript、scalac和slang编译器中累计发现328个缺陷，其中310个已获确认或修复。我们坚信Kitten能作为有效的基准测试工具，帮助识别现有LLM方法的局限性，进而推动这一重要研究领域的发展。</span></span></p><p cid="n45" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731731" target="_blank">https://doi.org/10.1145/3713081.3731731</a></span></span></p><h3 cid="n46" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">15、Large Language Model Supply Chain: Open Problems From the Security Perspective</span></span></h3><p cid="n47" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型(LLM)正在改变软件开发范式，并已获得学术界和工业界的极大关注。研究人员与开发者共同探索如何利用LLM强大的问题解决能力处理特定领域任务。随着基于LLM的应用(如ChatGPT)广泛普及，已有多个研究致力于保障LLM系统的安全性。全面理解LLM系统构建全过程(即LLM供应链)至关重要，但相关研究仍十分有限。更重要的是，LLM供应链中潜藏的安全问题可能严重影响LLM的可靠使用，这方面尚未得到充分探索。现有研究主要聚焦于从模型层面保证LLM质量，却忽视了整个LLM供应链的安全保障。本研究首次系统探讨LLM供应链各组件及组件间集成可能存在的安全风险，总结出12类安全风险并提供建设性指导以构建更安全的LLM系统。我们期待这项工作能推动构建安全的LLM生态系统，促进通用人工智能的发展进程。</span></span></p><p cid="n48" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731747" target="_blank">https://doi.org/10.1145/3713081.3731747</a></span></span></p><h3 cid="n49" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">16、LiPSBOMaker: A Prototype of Multi-Stage Linux Distribution Package SBOM Generator</span></span></h3><p cid="n50" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">现代软件开发常依赖第三方库和框架以提升效率并降低成本，这催生了软件供应链的形成，并使其潜在风险日益凸显。为增强软件供应链的可追溯性与透明度并降低相关风险，软件物料清单（SBOM）概念应运而生。尽管在编程语言生态系统中已有大量关于SBOM的研究，但针对Linux发行版的研究仍相对有限。鉴于Linux发行版的基础性作用与固有复杂性，为其生成高质量的SBOM既至关重要又充满挑战。为此，本文开展了两阶段研究：1）分析Linux发行版软件包特性，提出多阶段SBOM模型；2）基于该模型设计并实现了面向Linux发行版软件包的SBOM生成工具。评估结果表明，本方法优于当前最先进的SBOM生成工具。</span></span></p><p cid="n51" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731738" target="_blank">https://doi.org/10.1145/3713081.3731738</a></span></span></p><h3 cid="n52" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">17、MQueez: Specification-Driven Fuzzing for MQTT Broker (Registered Report)</span></span></h3><p cid="n53" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，MQTT协议因其轻量级特性成为物联网通信的首选方案。然而，负责消息路由的核心组件——MQTT代理服务器——存在内存破坏漏洞，构成重大安全风险。尽管已有模糊测试工具被提出用于发现代理服务器的内存破坏问题，但其有效性受限于两大根本性缺陷：其一，现有模糊器难以在生成有效测试用例时满足MQTT协议的复杂约束条件；其二，该协议在不同数据包间存在大量字段变异，导致传统黑盒模糊器无法优先处理高风险字段，只能进行盲目变异。</span></span></p><p cid="n54" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为解决这些挑战，我们提出交互约束模型（ICM），能够精细表征MQTT协议约束。通过遍历ICM生成符合约束的测试用例，确保交互行为合规性，覆盖复杂场景并最大限度减少异常连接中断。此外，我们设计了一种启发式变异能量分配策略，通过实时解析响应动态调整能量分配，将资源集中于更易产生缺陷的字段。最终实现原型系统MQueez——一个支持MQTT协议建模的高效代理服务器模糊测试框架。</span></span></p><p cid="n55" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们在六款广泛使用的MQTT代理服务器上评估MQueez，并与最先进的模糊测试工具进行对比。结果表明：MQueez生成的测试用例中合规交互比例提升30.88%，成功发现5个新漏洞，复现超过150%其他模糊器无法检测的已知缺陷。</span></span></p><p cid="n56" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731724" target="_blank">https://doi.org/10.1145/3713081.3731724</a></span></span></p><h3 cid="n57" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">18、On Benchmarking Code LLMs for Android Malware Analysis</span></span></h3><p cid="n58" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLM）在各类代码智能任务中展现出强大能力，然而其在安卓恶意软件分析领域的有效性仍待深入探索。反编译后的安卓恶意代码具有独特的分析挑战：恶意逻辑通常隐藏在大量函数中，且函数命名往往缺乏有效语义信息。本文提出Cama基准框架，旨在系统化评估代码大语言模型在安卓恶意软件分析中的效能。该框架通过结构化输出规范支持关键分析任务，包括恶意函数识别与恶意软件目的摘要，并在此基础上整合了三个领域特定的评估指标——一致性、忠实度与语义相关性，从而实现严谨的稳定性评估、效能验证及跨模型性能对比。我们构建了包含近年收集的13个家族118个安卓恶意软件样本的基准数据集，涵盖超过750万个独立函数，并利用Cama对四种主流开源代码大语言模型进行评估。实验揭示了代码大语言模型解析反编译代码的内在机制，量化了其对函数重命名的敏感性，既凸显了该类模型在恶意软件分析中的潜力，也明确了其当前局限性。</span></span></p><p cid="n59" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731745" target="_blank">https://doi.org/10.1145/3713081.3731745</a></span></span></p><h3 cid="n60" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">19、On the Applicability of Benford’s Law to Detect Saturation in Fuzzing (Registered Report)</span></span></h3><p cid="n61" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">了解模糊测试活动何时达到饱和对实践者至关重要，这有助于在给定资源内避免不必要的冗长测试活动，同时又不遗漏错误。然而，现有确定饱和点的方法依赖于覆盖率测量，而这些方法往往容易出错且不可靠。本文提出了一种基于本福德定律的新颖方法来检测模糊测试中的饱和状态，该定律描述了自然产生数字的特征。具体而言，我们假设当模糊测试器达到饱和时，测试过程中重复出现的数字（如变异字节数）应呈现由本福德定律规定的特定数值模式，从而使模糊测试过程减少偏差（因而更趋自然）。关键观察在于：灰盒模糊测试器在达到饱和时会像随机黑盒测试一样减少偏差，因为此时将没有种子需要优先处理。我们旨在使用最先进的模糊测试工具AFL++对29个真实世界程序进行假设验证，并通过实验证明本福德定律可用于检测模糊测试饱和状态。</span></span></p><p cid="n62" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731723" target="_blank">https://doi.org/10.1145/3713081.3731723</a></span></span></p><h3 cid="n63" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">20、On the Brittleness of Legacy Web UI Testing: A Pragmatic Perspective</span></span></h3><p cid="n64" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">自动化Web界面测试旨在解决手动测试劳动密集且耗时的问题。尽管其重要性显著，但诸多障碍阻碍了端到端Web界面测试的持续自动化：脆弱的遗留测试用例、次优的自动化框架，以及不适用于有效界面测试的Web应用设计。虽然大量研究探讨这些挑战，但多数从实践视角忽视了脆弱性的根本成因。本论文首先通过考察真实Web应用的测试脆弱性重新评估这些成因，并以此为基础扩展现有框架以减少不实用自动化框架导致的测试不稳定性。我们还通过以自然语言作为中介实现测试用例与Web应用的解耦，从而革新传统Web界面测试模式。最后提出一个实践导向的基准测试框架，引导研究方向转向更贴近实际的Web应用场景。通过这些研究，我们力图揭示当前面临的挑战，并推动在界面测试领域树立更注重实效的研究视角。</span></span></p><p cid="n65" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731742" target="_blank">https://doi.org/10.1145/3713081.3731742</a></span></span></p><h3 cid="n66" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">21、Patch the Leak: Strengthening CodeLLMs Against Privacy Extraction Threats</span></span></h3><p cid="n67" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">代码大语言模型（CodeLLMs）倾向于记忆训练数据，并在特定提示下重构个人信息（PI）。尽管基础大语言模型已应用隐私匿名化方法去除个人信息，但先前使用最先进的PI提取攻击（如CODEBREAKER和CodexLeaks）对多个开源及商业CodeLLMs的实验表明，此类信息无法被完全消除。此外，我们发现商业模型的泄漏率显著低于开源模型（约低20%），推测这与更强的模型对齐能力相关。针对目前缺乏有效防御PI提取手段的问题，我们将PI泄漏视为一种错位形式，提出受对抗学习启发的创新框架PI-ALIGN。该框架将CodeLLMs与CODEBREAKER攻击框架配对作为对抗双模型，并利用优化的GRPO（群体相对策略优化）过程在微调阶段重新对齐模型。通过让模型与CODEBREAKER进行对抗训练，该方法有望增强模型抵御PI提取攻击的鲁棒性。我们还设计了系统性的实验评估框架以验证PI-ALIGN的有效性，旨在为防御CodeLLMs的PI提取攻击提供新思路。</span></span></p><p cid="n68" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3732931" target="_blank">https://doi.org/10.1145/3713081.3732931</a></span></span></p><h3 cid="n69" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">22、PatchScope – A Modular Tool for Annotating and Analyzing Contributions</span></span></h3><p cid="n70" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">PatchScope是一种通过自动代码注释分析软件贡献的模块化框架，其洞察力超越传统度量标准。该框架核心采用灵活的自动代码注释器，基于可定制规则对源代码行进行标注，将变更分类为文档、测试或代码更新等类别。利用这些注释，PatchScope生成包含可操作见解的报告，供团队评估和专业能力识别。该工具可应用于注释自动化、缺陷定位、补丁数据集分析和项目监控，是为研究人员、项目经理和开发者设计的通用工具，优先考虑灵活性和易用性。</span></span></p><p cid="n71" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731727" target="_blank">https://doi.org/10.1145/3713081.3731727</a></span></span></p><h3 cid="n72" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">23、Personalized Fuzzing: A Case Study with the FANDANGO Fuzzer on a GNSS Module (Short Paper)</span></span></h3><p cid="n73" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">模糊测试是一种广泛应用于发现软件系统漏洞的技术，但传统模糊测试工具往往难以针对复杂输入格式生成有效且具有意义的测试用例。基于语法的模糊测试工具通过确保语法正确性来解决这一问题，但它们通常缺乏对生成输入的细粒度控制以触发特定行为。本文展示了FANDANGO这一先进基于语法的模糊测试工具的灵活性与有效性，该工具结合约束求解技术，既能生成100%有效的输入，又能引导生成过程朝向目标边缘用例。以全球导航卫星系统（GNSS）模块为案例研究，我们展示了FANDANGO如何通过约束条件指定来探索模块行为。实验结果表明FANDANGO能够生成针对性测试用例以暴露潜在缺陷。本研究进一步验证了约束引导的语法模糊测试在安全测试与可靠性分析中的实际适用性。</span></span></p><p cid="n74" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731722" target="_blank">https://doi.org/10.1145/3713081.3731722</a></span></span></p><h3 cid="n75" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">24、ReGraph: A Tool for Binary Similarity Identification</span></span></h3><p cid="n76" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">二进制代码相似性检测（BCSD）不仅在漏洞识别等安全任务中至关重要，对于代码复制检测同样具有重要意义，然而由于二进制剥离和多样化的编译环境，这项技术仍面临巨大挑战。现有方法往往采用日益复杂的神经网络以提升准确率，但计算时间随复杂度同步增长。即便使用高性能GPU，处理大规模软件仍耗时严重。为解决这些问题，我们提出了名为ReGraph的框架，能够高效跨架构和优化级别比较二进制代码函数。通过公开数据集评估表明，ReGraph具有显著的速度优势——比基于自然语言处理（NLP）的方法快700倍，同时在准确率方面与最先进模型保持相当水准。</span></span></p><p cid="n77" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731728" target="_blank">https://doi.org/10.1145/3713081.3731728</a></span></span></p><h3 cid="n78" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">25、Reversing Programs for Error Reachability Analysis</span></span></h3><p cid="n79" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">可达性分析是软件验证中的一个核心问题，用于判断程序中的错误位置是否可以从初始状态到达。虽然标准技术通常采用前向分析方式，但在某些情况下，从错误位置向后进行可达性分析可能更为高效。本研究提出了一种C程序逆向分析技术，使得现有的前向可达性分析方法能够有效逆向遍历原始程序。该技术将实现为独立工具，可轻松集成至现有验证工具的工作流程中。</span></span></p><p cid="n80" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731743" target="_blank">https://doi.org/10.1145/3713081.3731743</a></span></span></p><h3 cid="n81" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">26、Revisiting the Combination of Static Analysis Error Traces and Dynamic Symbolic Execution: A Potential Approach for True Positive Confirmation (Registered Report)</span></span></h3><p cid="n82" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">静态分析是一种成熟的程序缺陷检测与软件安全保障方法。然而，由于消除误报需要耗费大量时间，开发人员往往不愿在生产环境中使用静态分析工具。目前缺乏有效技术来验证静态分析器的报告。本文复现并扩展了Busse等人的研究，他们设计并评估了一种利用动态符号执行（DSE）自动化确认静态分析潜在缺陷报告以消除误报的技术。我们的复现研究表明，静态分析报告生成的追踪信息仍具有指导DSE确认缺陷的价值。经过细微改进后，我们发现该技术性能显著提升，并进一步研究了误报和不准确信息对性能的影响。我们还通过采用包含非平凡注入缺陷且兼容静态分析与DSE的软件验证基准集（SV-benchmarks）扩展了该任务的基准测试。我们的目标是展示并理解结合静态分析与符号执行技术，在加速真阳性确认和误报消除方面的潜力。</span></span></p><p cid="n83" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731720" target="_blank">https://doi.org/10.1145/3713081.3731720</a></span></span></p><h3 cid="n84" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">27、Shepherd: High-Precision Coverage Inference for Response-guided Blackbox Fuzzing (Registered Report)</span></span></h3><p cid="n85" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，模糊测试作为早期漏洞检测的主要手段备受关注。尽管基于覆盖率的灰盒模糊测试利用内部覆盖信息实现了高探索效率，但在某些无法对程序进行插桩的受限环境（如固件或智能手机应用程序）中，部署该框架仍存在困难。相比之下，黑盒模糊测试无需运行时信息，因而具有更广泛的适用性，但由于无法测量覆盖率，其效率较低。针对这一问题，业界日益需要能在黑盒环境中近似估算覆盖率以优化模糊测试的方法。现有研究提出通过分析程序响应与其二进制文件中嵌入字符串的关联性来估算覆盖率，但该方法面临匹配算法模糊性以及单个字符串被多个基本块共享导致的非唯一性问题，从而频繁产生误估。本研究提出新型覆盖率推断方法Shepherd，通过结合高精度字符串匹配与上下文分析来解决这些问题。实验结果表明，与现有方法相比，Shepherd显著提升了估计准确性。</span></span></p><p cid="n86" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731719" target="_blank">https://doi.org/10.1145/3713081.3731719</a></span></span></p><h3 cid="n87" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">28、TBFV4J: An Automated Testing-Based Formal Verification Tool for Java</span></span></h3><p cid="n88" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为了检验程序是否满足其规格说明，基于规格的测试仅能揭示错误而无法严格证明程序中不存在缺陷。尽管形式化验证能够针对程序相对于相应规格说明的功能正确性提供严格证明，但该方法通常需要大量人工专业知识来推导循环不变量以完成自动化验证。基于测试的形式化验证（TBFV）通过整合基于规格的测试与形式化验证，实现了无需推导循环不变量即可自动化验证程序是否符合规格说明的方法。本文实现了TBFV4J工具，该工具支持对Java程序进行TBFV验证——用户只需输入包含Java代码的功能场景，工具即可自动执行测试与验证。</span></span></p><p cid="n89" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731740" target="_blank">https://doi.org/10.1145/3713081.3731740</a></span></span></p><h3 cid="n90" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">29、Teaching Software Testing and Debugging with the Serious Game Sojourner under Sabotage</span></span></h3><p cid="n91" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">软件测试与调试常被视为枯燥的任务，这使得教学效果难以提升。我们推出《蓄意破坏中的旅者》——一款基于浏览器的严肃游戏，通过互动性强、叙事驱动的挑战提升学习效果。玩家扮演飞船船员，运用单元测试与调试技术修复遭蓄意破坏的组件。该游戏依托真实测试框架JUnit提供实践体验，有效提升学生的参与度、测试覆盖率及调试技能。</span></span></p><p cid="n92" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731730" target="_blank">https://doi.org/10.1145/3713081.3731730</a></span></span></p><h3 cid="n93" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">30、TestFlow: Advancing Mobile UI Testing through Multi-Step Reinforcement Learning</span></span></h3><p cid="n94" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">GUI智能体在移动用户界面测试中展现出广阔的应用前景。然而面对复杂测试任务时，由于采用逐步操作的贪婪策略，现有UI智能体常因错误累积和长程依赖缺失而失效。为突破这些局限，我们提出TestFlow——一种融合监督微调与任务感知强化学习框架的新型多模态UI测试模型。该方案采用两阶段训练管道，专门针对长程指令遵循和复杂任务完成进行优化。我们还开发了定制化奖励函数，通过整合过程奖励与结果奖励来提升多步骤任务的完成率。实验结果表明，TestFlow显著超越基线方法，在跨页面测试场景中分别实现33.69%的WTSR和55.37%的SSR指标。这些改进凸显了TestFlow在应对现代移动应用测试挑战方面的实用价值，特别是在需要高适应性与可靠性的工业级应用场景中。</span></span></p><p cid="n95" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3732930" target="_blank">https://doi.org/10.1145/3713081.3732930</a></span></span></p><h3 cid="n96" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">31、Towards Fuzzing Zero-Knowledge Proof Circuits (Short Paper)</span></span></h3><p cid="n97" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">零知识证明（ZKPs）已从理论密码学概念发展为强大工具，可在无需信任假设的前提下实现隐私保护与可验证应用。尽管该领域取得重大进展，但通过ZKP电路实现和使用ZKPs仍存在挑战，导致实践中出现大量影响ZKP电路的缺陷，而模糊测试作为检测ZKP电路缺陷的方法仍基本处于探索空白。我们探讨了将模糊测试应用于ZKP电路的特殊挑战，分析了预言机问题及其潜在解决方案，并提出了输入生成与测试框架构建技术。通过为zk-regex（现代ZKP应用核心库）实现模糊测试器，我们证实该方法在此领域的有效性。案例研究中发现的13个新缺陷已获开发者确认。</span></span></p><p cid="n98" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731718" target="_blank">https://doi.org/10.1145/3713081.3731718</a></span></span></p><h3 cid="n99" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">32、Towards Source Mapping for Zero-Knowledge Smart Contracts: Design and Preliminary Evaluation</span></span></h3><p cid="n100" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">由于zkSolc等编译器缺乏源映射功能，调试和审计零知识兼容智能合约仍面临重大挑战。本研究提出了一种初步的源映射框架，在zkSolc编译流水线中建立了Solidity源代码、LLVM中间表示与zkEVM字节码之间的可追溯关联。我们的方法解决了零知识编译过程中非线性变换和证明友好优化带来的可追溯性难题。</span></span></p><p cid="n101" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为提升映射可靠性，我们引入了基于静态分析和结构验证的轻量级一致性检查。通过对50个基准合约和500个真实zkSync合约数据集的评估，该框架对标准Solidity结构的映射准确率达到约97.2%。在行内汇编和深层继承层次等复杂场景中会出现预期局限性。实测编译开销保持在约8.6%的适度水平。</span></span></p><p cid="n102" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">初步结果表明，零知识编译流水线支持源映射具有可行性，并能有效改善调试、审计和开发工作流程。本研究希望为后续研究和工具开发奠定基础，从而提升zk-Rollup环境下的开发者体验。</span></span></p><p cid="n103" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3732932" target="_blank">https://doi.org/10.1145/3713081.3732932</a></span></span></p><h3 cid="n104" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">33、Trailblazer: Practical End-to-end Web API Fuzzing (Registered Report)</span></span></h3><p cid="n105" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">自动测试Web API面临两大关键挑战：(a)确定API请求发送目标；(b)构建有效请求负载。当存在机器可解析的API规范（如OpenAPI规范）时，这两个挑战有时能得到解决。但多数Web应用缺乏此类规范，导致自动化测试困难。</span></span></p><p cid="n106" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们通过推出Trailblazer应对这两大挑战——这是一个实用的端到端工作流，无论是否存在API规范均可测试Web API。Trailblazer的运行机制包括：(1)捕获Web应用客户端在正常交互过程中发起的API请求；(2)利用收集的数据识别端点并推断请求负载结构；(3)生成新的测试负载。据我们所知，Trailblazer是首个在Web API测试中结合基于生成和基于变异的模糊测试技术的方法。</span></span></p><p cid="n107" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">通过对热门开源内容管理系统进行评估，我们发现Trailblazer实现的代码覆盖率与使用官方OpenAPI规范所获覆盖率相当。该系统在测试过程中发现了七个独特的新漏洞，其中两个已被修复，四个获得官方确认。</span></span></p><p cid="n108" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731717" target="_blank">https://doi.org/10.1145/3713081.3731717</a></span></span></p><h3 cid="n109" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">34、When Performance Failure Occurs in Low-Latency Storage Systems: Observation, Prediction, and Solutions</span></span></h3><p cid="n110" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">硬件技术的飞速发展使得软件成为I/O性能的新瓶颈。在低延迟存储系统中，即使采用最先进的硬件，性能故障仍不可避免。本文研究了低延迟硬件环境下此类性能故障对软件栈的影响，提出了一种利用预测技术来预判并缓解硬件故障所致性能下降的创新方法。我们的方法在第九十五和九十九百分位处展现出显著改进，揭示了在实际应用中实现重大优化的潜力。通过细致观察与分析，我们旨在为提升低延迟存储系统中系统软件性能的鲁棒性与可靠性，提供理论洞见和实用解决方案。</span></span></p><p cid="n111" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731744" target="_blank">https://doi.org/10.1145/3713081.3731744</a></span></span></p><h3 cid="n112" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">35、XAVIER: Grammar-Based Testing for XML Injection Attacks</span></span></h3><p cid="n113" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Web服务是在线交互的核心，支撑着银行交易与购物等关键任务，但其重要性也使其成为攻击的主要目标。攻击者试图通过注入恶意代码来操纵数据，可能危及系统安全。当前防御此类攻击的方法采用攻击语法、符号执行或机器学习等技术来检测漏洞，或手动嵌入恶意负载，但这些方法可能遗漏待测服务的部分功能。本文提出XAVIER框架，专门用于检测XML注入漏洞。该框架通过利用Web服务的WSDL规范，构造反映服务功能的XML消息，从而全面检测Web服务中的XMLi漏洞。实验结果表明，XAVIER的性能与业界领先工具SOAPUI PRO相当甚至更优。相较于SOAPUI PRO，XAVIER具备开源和可扩展特性，为未来该领域研究提供了平台支持。</span></span></p><p cid="n114" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3713081.3731736" target="_blank">https://doi.org/10.1145/3713081.3731736</a></span></span></p><p style="display: none;"><mp-style-type data-value="3"></mp-style-type></p>



<p><a href="2247485998">阅读原文</a></p>
<p><a href="https://wechat2rss.xlab.app/link-proxy/?k=a5508f64&amp;r=1&amp;u=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU0MzgzNTU0Mw%3D%3D%26mid%3D2247485998%26idx%3D1%26sn%3Dfb74a06d40c9bdf21884abd89ce675f7">跳转微信打开</a></p>
]]></content:encoded>
      <pubDate>Fri, 05 Sep 2025 06:49:00 +0800</pubDate>
    </item>
    <item>
      <title>上下文工程：打造下一代 AI Agent 的 7 条血泪经验 | Manus 创始人亲述</title>
      <link>https://mp.weixin.qq.com/s?__biz=MzU0MzgzNTU0Mw==&amp;mid=2247485992&amp;idx=1&amp;sn=ddf4730c8d67a2dbe9d18561f479fa06</link>
      <description></description>
      <content:encoded><![CDATA[<p>
原创 <span>漏洞战争</span> <span>2025-07-19 10:38</span> <span style="display: inline-block;">广东</span>
</p>

<p></p>



<p>
<img src="https://wechat2rss.xlab.app/img-proxy/?k=1165dba9&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdV827z1byUu7Roq69GYFauibMHNdHMPia6WRqROKbvdTkWibL6tb4LCW9XLSTye8442rDFX5CpEE09ibg%2F0%3Fwx_fmt%3Djpeg"/>
</p>


<p>昨天 manus创造人在博客上发表文章谈如何构造上下文工程，原文：<a href="https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus，注意国内可能无法访问。" target="_blank">https://manus.im/blog/Context-Engineering-for-AI-Agents-Lessons-from-Building-Manus，注意国内可能无法访问。</a></p><p>总结起来共7条经验：</p><p><span style="font-weight: bold;font-size: 20px;">01  我们为什么放弃「端到端微调」</span></p><p>7 年前，做 NLP 只有一条路：拿 BERT 微调。迭代一周期的单位是 周，PMF 根本追不上。</p><p>GPT-3 之后，一切都变了——上下文学习让模型在 prompt 里就能学会新任务。</p><p>Manus 的决定：不做模型，做船；不做柱子，做帆。</p><p>把宝押在「上下文工程」上，1 小时就能上线改进，永远跟着模型一起涨潮。</p><p><span style="font-size: 20px;font-weight: bold;">02  围绕 KV-Cache 进行设计</span></p><p>KV-Cache 命中率=效率+成本。</p><p>具有相同前缀的上下文可以利用 KV 缓存，从而显著降低首 token 延迟（TTFT）和推理成本。</p><p>💰以Claude Sonnet 为例，未命中 cache 的 token 要贵 10 倍（3 /MTok vs 0.3/MTok）。</p><p>1️⃣ Prompt 前缀保持稳定：哪怕只改 1 个 token，后面缓存都可能失效。</p><p>2️⃣ 追加式上下文：永远不回头改历史；JSON key 顺序要固定。</p><p>3️⃣ 手动打 Cache 断点：系统 prompt 结束后立即插入断点，防止过期。</p><p><span style="font-weight: bold;font-size: 20px;">03 通过掩码限制工具调用，而非删除工具</span></p><p>工具一多，Agent 就变傻。</p><p>❌ 动态增删工具 → KV-Cache 全碎、模型懵逼。</p><p>✅ 用 token logits 掩码不合适的工具：Auto：可调用也可不调用</p><p>Required：必须调用，但函数任选</p><p>Specified：只许调用指定函数</p><p>💡 小技巧：给同类工具加统一前缀（ browser_* 、 shell_* ），mask 时直接按前缀过滤。</p><p><span style="font-weight: bold;font-size: 20px;">04  文件系统 = 无限外脑</span></p><p>128 K上下文窗口真用来跑任务可能还是不够用。</p><p>✅Manus 的做法：把文件系统当外部记忆可逆压缩：网页正文可丢弃，URL 必须留；PDF 内容可省略，路径必须留。Agent 自己读写 todo.md、scratchpad.txt，实现真正的「自我反思」。</p><p>🧠 脑洞：如果 State Space Model 也能玩好文件记忆，也许能接棒 Transformer 成为下一代 Neural Turing Machine。</p><p><span style="font-weight: bold;font-size: 20px;">05  用「复述」操纵注意力</span></p><p>manus解决复杂任务平均需要50 步，模型容易「走丢」。</p><p>✅Manus 的「土办法」：每做完一步，把 todo.md 拿出来改一行，<span style="background-color: transparent;letter-spacing: 0.034em;caret-color: var(--weui-BRAND);">这相当于把全局目标持续复读到最新上下文，天然抵抗中途丢失「lost in the middle」。</span></p><p><span style="font-weight: bold;font-size: 20px;">06  把错误留在现场</span></p><p>Agent 一定会犯错。</p><p>❌ 把报错信息偷偷吃掉 → 模型永远无法学习。</p><p>✅ 让错误留在上下文里，模型下次看到 stack trace 就会自动降低踩坑概率。错误恢复能力才是 agentic behavior 的试金石，可惜大多数 benchmark 都不测这一项。</p><p><span style="font-weight: bold;font-size: 20px;">07  警惕「少样本陷阱」</span></p><p>❌Few-shot 用多了，模型直接「抄作业」——节奏一模一样，遇到新情况直接翻车。</p><p>✅主动加入受控噪声：换句式、调顺序、轻微格式差异。让上下文足够「多元」，避免把 Agent 训练成复读机。</p><p style="display: none;"><mp-style-type data-value="10000"></mp-style-type></p>



<p><a href="2247485992">阅读原文</a></p>
<p><a href="https://wechat2rss.xlab.app/link-proxy/?k=b808b5d6&amp;r=1&amp;u=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU0MzgzNTU0Mw%3D%3D%26mid%3D2247485992%26idx%3D1%26sn%3Dddf4730c8d67a2dbe9d18561f479fa06">跳转微信打开</a></p>
]]></content:encoded>
      <pubDate>Sat, 19 Jul 2025 10:38:00 +0800</pubDate>
    </item>
    <item>
      <title>Trae Agent 是如何理解仓库级代码，如何解决复杂问题？</title>
      <link>https://mp.weixin.qq.com/s?__biz=MzU0MzgzNTU0Mw==&amp;mid=2247485986&amp;idx=1&amp;sn=b6bb227004a8f62ce7e6e3c406e96525</link>
      <description></description>
      <content:encoded><![CDATA[<p>
原创 <span>漏洞战争</span> <span>2025-07-12 09:05</span> <span style="display: inline-block;">广东</span>
</p>

<p></p>



<p>
<img src="https://wechat2rss.xlab.app/img-proxy/?k=514f2af5&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdWTspsibRg812sG2q54LQJk7H7knkev0CrWsC64qCXdF0cb4ZhiaDBjGzekJmwauPaRBTNED9aEPhJA%2F0%3Fwx_fmt%3Djpeg"/>
</p>


<p><span leaf="">早上5点就起来读书了，看完《论语别裁》里仁篇，还学了下波动方程和傅立叶变换，大早上学习效率就是高。</span></p><p><span leaf="">这几天也关注到头条的Trae Agent开源了，因此读了下源码，重点想知道它是如何分析全仓库代码的，毕竟全代码当prompt输入也不现实，LLM有长度限制，就算没限制也会看了后面，忘了前面。还有一个问题是如何解决复杂问题，怎么拆分复杂任务，又如何确保多个子任务的完成，如何边观察边修正错误的。</span></p><p><span leaf="">Trae Agent代码不多，其实重点就在工具调用，关键就是Bashtool与</span><span leaf="">SequentialThinkingTool。</span></p><ul style="list-style-type: disc;" class="list-paddingleft-1"><li style="font-size:18px;"><p><span leaf=""><span textstyle="" style="font-size: 18px;font-weight: bold;">如何理解仓库级代码？</span></span></p></li></ul><p><span leaf="">先来看第一个问题。这主要还是通过LLM调用bash工具来搜索代码，定位问题相关代码来理解的。不过没看到有安全限制，默认直接执行，要是LLM抽风，来个`rm -rf /` 就有得玩了。</span></p><p><span leaf="">通过bash工具来搜索代码过于粗糙了，因为会把符号定义与使用都搜索出来，而很多时候我们更需要的是获取符号的定义代码，因此会造成输出信息的干扰。这种方式简单且通用，就是搜索结果作二次筛选。</span></p><p><span leaf="">其实有更好的其它方案，有兴趣的可以去了解下LSP(Language Server Protocol）。</span></p><ul style="list-style-type: disc;" class="list-paddingleft-1"><li><p><span leaf=""><span textstyle="" style="font-size: 18px;font-weight: bold;">如何解决复杂问题？</span></span></p></li></ul><p><span leaf="">重点就于</span><span leaf="" data-pm-slice="1 1 [&#34;para&#34;,null]">SequentialThinkingTool，它能实现更长链的思考，特别适合复杂问题的解决。传统的思维链虽能拆分任务，但对于复杂问题，需要很多步骤来解决的，经常是走个2，3步就收工，很难长链思考与执行，而且还无法观测与修正，除非你用多agent协同解决。</span></p><p><span data-pm-slice="0 0 []"><span leaf="">sequential_thinking 是一个</span></span><strong><span leaf="">可反复调用的结构化思考脚手架。</span></strong><span leaf=""><br/></span><span><span leaf="">- 每一次调用 = 一条“思维记录”(thought)。</span></span><span leaf=""><br/></span><span><span leaf="">- 参数：当前 thought 内容、第几条、总条数、是否还需要下一条。</span></span><span leaf=""><br/></span><span><span leaf="">与一次性输出整条 CoT 不同，它把思考过程切成</span></span><strong><span leaf="">可观察、可回溯、可干预的小段</span></strong><span><span leaf="">，从而更容易在 10-20 步内保持逻辑一致</span></span><span style="color: rgba(0, 0, 0, 0.9);font-family: -apple-system, BlinkMacSystemFont, &#34;Segoe UI&#34;, system-ui, -apple-system, &#34;Segoe UI&#34;, Roboto, Ubuntu, Cantarell, &#34;Noto Sans&#34;, sans-serif, Arial, &#34;PingFang SC&#34;, &#34;Source Han Sans SC&#34;, &#34;Microsoft YaHei UI&#34;, &#34;Microsoft YaHei&#34;, &#34;Noto Sans CJK SC&#34;, sans-serif;font-size: 16px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: left;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: pre-wrap;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;display: inline !important;float: none;"><span leaf="">。</span></span></p><p><span leaf="">假设code_analyze_agent允许调用该工具</span><span leaf="" data-pm-slice="1 1 [&#34;para&#34;,null]">SequentialThinkingTool来分析代码，解决项目bug并修复</span><span leaf="">，那其交互流程可能如下：</span></p><p class="code-snippet__fix code-snippet__js"><ul class="code-snippet__line-index code-snippet__js"><li></li></ul><pre class="code-snippet__js" data-lang="css"><code><span leaf="">用户</span></code><br/><code><span leaf="">└─► code_analyze_agent：issue 描述</span></code><br/><code><span leaf="">└─► sequential_thinking(<span class="code-snippet__number">1</span>/<span class="code-snippet__number">5</span>)</span></code><br/><code><span leaf="">└─► bash: find . -name <span class="code-snippet__string">&#34;*.py&#34;</span> | xargs grep <span class="code-snippet__string">&#34;KeyError&#34;</span></span></code><br/><code><span leaf="">└─► <span class="code-snippet__built_in">sequential_thinking</span>(<span class="code-snippet__number">2</span>/<span class="code-snippet__number">5</span>)</span></code><br/><code><span leaf="">└─► bash: python repro.py → 得到 Traceback</span></code><br/><code><span leaf="">└─► <span class="code-snippet__built_in">sequential_thinking</span>(<span class="code-snippet__number">3</span>/<span class="code-snippet__number">5</span>)</span></code><br/><code><span leaf="">└─► 得出“root cause 是 dict.pop 的默认值缺失”</span></code><br/><code><span leaf="">└─► <span class="code-snippet__built_in">sequential_thinking</span>(<span class="code-snippet__number">4</span>/<span class="code-snippet__number">5</span>)</span></code><br/><code><span leaf="">└─► str_replace_based_edit_tool：修改 src/foo.py</span></code><br/><code><span leaf="">└─► <span class="code-snippet__built_in">sequential_thinking</span>(<span class="code-snippet__number">5</span>/<span class="code-snippet__number">5</span>)</span></code><br/><code><span leaf="">└─► bash: pytest tests/ → 全部通过</span></code><br/><code><span leaf="">└─► <span class="code-snippet__built_in">task_done</span>() → 向用户提交报告</span></code><br/></pre></p><p><span leaf=""><span textstyle="" style="font-weight: bold;">详细示例对话</span></span></p><p><span leaf="">Agent 系统提示（来自 Trae-Agent</span><span data-v-b75321b8="" data-index="3" data-site-name="博客园" style="font: inherit;scrollbar-color: transparent transparent;margin: 0px 4px;padding: 1px 8px;border: 0px;vertical-align: baseline;box-sizing: border-box;top: -1px;cursor: pointer;user-select: none;max-width: 100px;min-width: 18px;height: 24px;display: inline-flex;align-items: center;justify-content: center;border-radius: 24px;color: var(--Labels-Secondary);background-color: var(--Fills-F2);"></span><span leaf="">）</span></p><p class="code-snippet__fix code-snippet__js"><ul class="code-snippet__line-index code-snippet__js"><li></li></ul><pre class="code-snippet__js" data-lang="javascript"><code><span leaf=""><span class="code-snippet__title">You</span> can call sequential_thinking <span class="code-snippet__keyword">as</span> much <span class="code-snippet__keyword">as</span> you need.  </span></code><br/><code><span leaf=""><span class="code-snippet__title">Set</span> totalThoughts ≥ <span class="code-snippet__number">5.</span> <span class="code-snippet__title">You</span> may run bash commands between thoughts.</span></code><br/></pre></p><p><span leaf="">Step 1 – 理解问题</span></p><p class="code-snippet__fix code-snippet__js"><ul class="code-snippet__line-index code-snippet__js"><li></li></ul><pre class="code-snippet__js" data-lang="javascript"><code><span leaf=""><span class="code-snippet__title">sequential_thinking</span>(</span></code><br/><code><span leaf="">  thought=<span class="code-snippet__string">&#34;用户说：‘运行 flask app 时报 KeyError: &#34;</span>missing_config_key<span class="code-snippet__string">&#34;’。我需要先弄清楚缺的是哪个 key。&#34;</span>,</span></code><br/><code><span leaf="">  thoughtNumber=<span class="code-snippet__number">1</span>,</span></code><br/><code><span leaf="">  totalThoughts=<span class="code-snippet__number">6</span>,</span></code><br/><code><span leaf="">  nextThoughtNeeded=<span class="code-snippet__literal">true</span></span></code><br/><code><span leaf="">)</span></code><br/></pre></p><p><span leaf="">Step 2 – 收集证据</span></p><p class="code-snippet__fix code-snippet__js"><ul class="code-snippet__line-index code-snippet__js"><li></li></ul><pre class="code-snippet__js" data-lang="shell"><code><span leaf="">bash: grep -R &#34;missing_config_key&#34; .</span></code><br/><code><span leaf=""><span class="code-snippet__meta">#</span> 输出：config/default.py:21:  raise KeyError(<span class="code-snippet__string">&#34;missing_config_key&#34;</span>)</span></code><br/></pre></p><p><span leaf="">Step 3 – 复现</span></p><p class="code-snippet__fix code-snippet__js"><ul class="code-snippet__line-index code-snippet__js"><li></li></ul><pre class="code-snippet__js" data-lang="bash"><code><span leaf="">bash: python -m pytest tests/test_config.py::test_default -v</span></code><br/><code><span leaf=""><span class="code-snippet__comment"># 输出：FAILED KeyError: &#34;missing_config_key&#34;</span></span></code><br/></pre></p><p><span leaf="">Step 4 – 诊断</span></p><p class="code-snippet__fix code-snippet__js"><ul class="code-snippet__line-index code-snippet__js"><li></li></ul><pre class="code-snippet__js" data-lang="javascript"><code><span leaf=""><span class="code-snippet__title">sequential_thinking</span>(</span></code><br/><code><span leaf="">  thought=<span class="code-snippet__string">&#34;问题根源：代码尝试从 os.environ.pop(&#39;MISSING_CONFIG_KEY&#39;) 读取但无默认值。我应该给它一个缺省值。&#34;</span>,</span></code><br/><code><span leaf="">  thoughtNumber=<span class="code-snippet__number">4</span>,</span></code><br/><code><span leaf="">  totalThoughts=<span class="code-snippet__number">6</span>,</span></code><br/><code><span leaf="">  nextThoughtNeeded=<span class="code-snippet__literal">true</span></span></code><br/><code><span leaf="">)</span></code><br/></pre></p><p><span leaf="">Step 5 – 修改</span></p><p class="code-snippet__fix code-snippet__js"><ul class="code-snippet__line-index code-snippet__js"><li></li></ul><pre class="code-snippet__js" data-lang="javascript"><code><span leaf=""><span class="code-snippet__title">str_replace_based_edit_tool</span>(</span></code><br/><code><span leaf="">  file=<span class="code-snippet__string">&#34;config/default.py&#34;</span>,</span></code><br/><code><span leaf="">  old_str=<span class="code-snippet__string">&#34;value = os.environ.pop(&#39;MISSING_CONFIG_KEY&#39;)&#34;</span>,</span></code><br/><code><span leaf="">  new_str=<span class="code-snippet__string">&#34;value = os.environ.pop(&#39;MISSING_CONFIG_KEY&#39;, &#39;dev-default&#39;)&#34;</span></span></code><br/><code><span leaf="">)</span></code><br/></pre></p><p><span leaf="">Step 6 – 验证</span></p><p class="code-snippet__fix code-snippet__js"><ul class="code-snippet__line-index code-snippet__js"><li></li></ul><pre class="code-snippet__js" data-lang="bash"><code><span leaf="">bash: pytest tests/test_config.py -q</span></code><br/><code><span leaf=""><span class="code-snippet__comment"># 输出：1 passed</span></span></code><br/><code><span leaf="">sequential_thinking(</span></code><br/><code><span leaf="">  thought=<span class="code-snippet__string">&#34;测试通过，边缘情况也已覆盖；可以结束任务。&#34;</span>,</span></code><br/><code><span leaf="">  thoughtNumber=6,</span></code><br/><code><span leaf="">  totalThoughts=6,</span></code><br/><code><span leaf="">  nextThoughtNeeded=<span class="code-snippet__literal">false</span></span></code><br/><code><span leaf="">)</span></code><br/><code><span leaf="">task_done()</span></code><br/></pre></p><p><span leaf="" data-pm-slice="1 1 [&#34;para&#34;,null]"><span textstyle="" style="font-weight: bold;">序列思考与思维链的对比</span></span></p><table style="margin: 0px;padding: 0px;border: none;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-variant-numeric: inherit;font-variant-east-asian: inherit;font-variant-alternates: inherit;font-variant-position: inherit;font-variant-emoji: inherit;font-weight: 400;font-stretch: inherit;font-size: 14px;line-height: inherit;font-family: &#34;PingFang SC&#34;, -apple-system, BlinkMacSystemFont, &#34;Segoe UI&#34;, Roboto, Ubuntu, &#34;Helvetica Neue&#34;, Helvetica, Arial, &#34;Hiragino Sans GB&#34;, &#34;Microsoft YaHei UI&#34;, &#34;Microsoft YaHei&#34;, &#34;Source Han Sans CN&#34;, sans-serif;font-optical-sizing: inherit;font-size-adjust: inherit;font-kerning: inherit;font-feature-settings: inherit;font-variation-settings: inherit;vertical-align: baseline;border-collapse: collapse;border-spacing: 0px;min-width: 100%;width: max-content;max-width: max-content;table-layout: auto;color: rgba(255, 255, 255, 0.9);letter-spacing: normal;orphans: 2;text-align: start;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: nowrap;background-color: rgb(29, 29, 29);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;"><thead><tr style="margin: 0px;padding: 0px;border: 0px;font: inherit;vertical-align: baseline;"><th style="margin: 0px;padding: 10px 12px;border-top: none;border-left: none;font-weight: bold;vertical-align: middle;background-color: var(--yb-md-th-bg-color);color: var(--yb-md-th-color);text-align: center;max-width: 448px;white-space: normal;box-sizing: border-box;"><p><span leaf="">能力</span></p></th><th style="margin: 0px;padding: 10px 12px;border-top: none;font-weight: bold;vertical-align: middle;background-color: var(--yb-md-th-bg-color);color: var(--yb-md-th-color);text-align: center;max-width: 448px;white-space: normal;box-sizing: border-box;"><p><span leaf="">CoT（思维链）</span></p></th><th style="margin: 0px;padding: 10px 12px;border-top: none;border-right: none;font-weight: bold;vertical-align: middle;background-color: var(--yb-md-th-bg-color);color: var(--yb-md-th-color);text-align: center;max-width: 448px;white-space: normal;box-sizing: border-box;"><p><span leaf="">Sequential Thinking</span></p></th></tr></thead><tbody><tr style="margin: 0px;padding: 0px;border: 0px;font: inherit;vertical-align: baseline;"><td style="margin: 0px;padding: 10px 12px;border-left: none;font: var(--yb-font-body-medium);vertical-align: middle;background-color: var(--yb-md-td-bg-color-odd);color: var(--yb-md-text-color);text-align: center;max-width: 448px;white-space: normal;box-sizing: border-box;"><strong style="margin: 0px;padding: 0px;border: 0px;font-style: inherit;font-variant: inherit;font-weight: 600;font-stretch: inherit;font-size: inherit;line-height: inherit;font-family: inherit;font-optical-sizing: inherit;font-size-adjust: inherit;font-kerning: inherit;font-feature-settings: inherit;font-variation-settings: inherit;vertical-align: baseline;"><span leaf="">步骤修正</span></strong></td><td style="margin: 0px;padding: 10px 12px;border: 1px solid var(--yb-md-table-border-color);font: var(--yb-font-body-medium);vertical-align: middle;background-color: var(--yb-md-td-bg-color-odd);color: var(--yb-md-text-color);text-align: center;max-width: 448px;white-space: normal;box-sizing: border-box;"><p style="text-align: left;"><span leaf="">❌ 需全流程重生成</span></p></td><td style="margin: 0px;padding: 10px 12px;border-right: none;font: var(--yb-font-body-medium);vertical-align: middle;background-color: var(--yb-md-td-bg-color-odd);color: var(--yb-md-text-color);text-align: center;max-width: 448px;white-space: normal;box-sizing: border-box;"><p style="text-align: left;"><span leaf="">✅ 局部修正（</span><code style="font-family: inherit;margin: 0px;padding: 0px;border: 0px;font-style: inherit;font-variant: inherit;font-weight: inherit;font-stretch: inherit;font-size: 14px;line-height: inherit;font-optical-sizing: inherit;font-size-adjust: inherit;font-kerning: inherit;font-feature-settings: inherit;font-variation-settings: inherit;vertical-align: baseline;white-space: break-spaces;word-break: break-word;"><span leaf="">is_revision</span></code><span leaf="">）</span></p></td></tr><tr style="margin: 0px;padding: 0px;border: 0px;font: inherit;vertical-align: baseline;"><td style="margin: 0px;padding: 10px 12px;border-left: none;font: var(--yb-font-body-medium);vertical-align: middle;background-color: var(--yb-md-td-bg-color-odd);color: var(--yb-md-text-color);text-align: center;max-width: 448px;white-space: normal;box-sizing: border-box;"><strong style="margin: 0px;padding: 0px;border: 0px;font-style: inherit;font-variant: inherit;font-weight: 600;font-stretch: inherit;font-size: inherit;line-height: inherit;font-family: inherit;font-optical-sizing: inherit;font-size-adjust: inherit;font-kerning: inherit;font-feature-settings: inherit;font-variation-settings: inherit;vertical-align: baseline;"><span leaf="">多路径探索</span></strong></td><td style="margin: 0px;padding: 10px 12px;border: 1px solid var(--yb-md-table-border-color);font: var(--yb-font-body-medium);vertical-align: middle;background-color: var(--yb-md-td-bg-color-odd);color: var(--yb-md-text-color);text-align: center;max-width: 448px;white-space: normal;box-sizing: border-box;"><p style="text-align: left;"><span leaf="">❌ 单一路径</span></p></td><td style="margin: 0px;padding: 10px 12px;border-right: none;font: var(--yb-font-body-medium);vertical-align: middle;background-color: var(--yb-md-td-bg-color-odd);color: var(--yb-md-text-color);text-align: center;max-width: 448px;white-space: normal;box-sizing: border-box;"><p style="text-align: left;"><span leaf="">✅ 多分支（</span><code style="font-family: inherit;margin: 0px;padding: 0px;border: 0px;font-style: inherit;font-variant: inherit;font-weight: inherit;font-stretch: inherit;font-size: 14px;line-height: inherit;font-optical-sizing: inherit;font-size-adjust: inherit;font-kerning: inherit;font-feature-settings: inherit;font-variation-settings: inherit;vertical-align: baseline;white-space: break-spaces;word-break: break-word;"><span leaf="">branch_id</span></code><span leaf="">）</span></p></td></tr><tr style="margin: 0px;padding: 0px;border: 0px;font: inherit;vertical-align: baseline;"><td style="margin: 0px;padding: 10px 12px;border-left: none;font: var(--yb-font-body-medium);vertical-align: middle;background-color: var(--yb-md-td-bg-color-odd);color: var(--yb-md-text-color);text-align: center;max-width: 448px;white-space: normal;box-sizing: border-box;"><strong style="margin: 0px;padding: 0px;border: 0px;font-style: inherit;font-variant: inherit;font-weight: 600;font-stretch: inherit;font-size: inherit;line-height: inherit;font-family: inherit;font-optical-sizing: inherit;font-size-adjust: inherit;font-kerning: inherit;font-feature-settings: inherit;font-variation-settings: inherit;vertical-align: baseline;"><span leaf="">跨会话连续性</span></strong></td><td style="margin: 0px;padding: 10px 12px;border: 1px solid var(--yb-md-table-border-color);font: var(--yb-font-body-medium);vertical-align: middle;background-color: var(--yb-md-td-bg-color-odd);color: var(--yb-md-text-color);text-align: center;max-width: 448px;white-space: normal;box-sizing: border-box;"><p style="text-align: left;"><span leaf="">❌ 仅限单次对话</span></p></td><td style="margin: 0px;padding: 10px 12px;border-right: none;font: var(--yb-font-body-medium);vertical-align: middle;background-color: var(--yb-md-td-bg-color-odd);color: var(--yb-md-text-color);text-align: center;max-width: 448px;white-space: normal;box-sizing: border-box;"><p style="text-align: left;"><span leaf="">✅ 持久化存储历史思考</span></p></td></tr><tr style="margin: 0px;padding: 0px;border: 0px;font: inherit;vertical-align: baseline;"><td style="margin: 0px;padding: 10px 12px;border-bottom: none;border-left: none;font: var(--yb-font-body-medium);vertical-align: middle;background-color: var(--yb-md-td-bg-color-odd);color: var(--yb-md-text-color);text-align: center;max-width: 448px;white-space: normal;box-sizing: border-box;"><strong style="margin: 0px;padding: 0px;border: 0px;font-style: inherit;font-variant: inherit;font-weight: 600;font-stretch: inherit;font-size: inherit;line-height: inherit;font-family: inherit;font-optical-sizing: inherit;font-size-adjust: inherit;font-kerning: inherit;font-feature-settings: inherit;font-variation-settings: inherit;vertical-align: baseline;"><span leaf="">外部工具集成</span></strong></td><td style="margin: 0px;padding: 10px 12px;border-bottom: none;font: var(--yb-font-body-medium);vertical-align: middle;background-color: var(--yb-md-td-bg-color-odd);color: var(--yb-md-text-color);text-align: center;max-width: 448px;white-space: normal;box-sizing: border-box;"><p style="text-align: left;"><span leaf="">⚠️ 有限</span></p></td><td style="margin: 0px;padding: 10px 12px;border-right: none;border-bottom: none;font: var(--yb-font-body-medium);vertical-align: middle;background-color: var(--yb-md-td-bg-color-odd);color: var(--yb-md-text-color);text-align: center;max-width: 448px;white-space: normal;box-sizing: border-box;"><p style="text-align: left;"><span leaf="">✅ 无缝调用（如代码分析器）</span></p></td></tr></tbody></table><p><span style="color: rgba(0, 0, 0, 0.9);font-family: -apple-system, BlinkMacSystemFont, &#34;Segoe UI&#34;, system-ui, -apple-system, &#34;Segoe UI&#34;, Roboto, Ubuntu, Cantarell, &#34;Noto Sans&#34;, sans-serif, Arial, &#34;PingFang SC&#34;, &#34;Source Han Sans SC&#34;, &#34;Microsoft YaHei UI&#34;, &#34;Microsoft YaHei&#34;, &#34;Noto Sans CJK SC&#34;, sans-serif;font-size: 16px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: pre-wrap;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;display: inline !important;float: none;" data-pm-slice="0 0 []"><span leaf=""><span textstyle="" style="font-weight: bold;">一句话总结</span></span></span><span leaf=""><br/></span><span style="color: rgba(0, 0, 0, 0.9);font-family: -apple-system, BlinkMacSystemFont, &#34;Segoe UI&#34;, system-ui, -apple-system, &#34;Segoe UI&#34;, Roboto, Ubuntu, Cantarell, &#34;Noto Sans&#34;, sans-serif, Arial, &#34;PingFang SC&#34;, &#34;Source Han Sans SC&#34;, &#34;Microsoft YaHei UI&#34;, &#34;Microsoft YaHei&#34;, &#34;Noto Sans CJK SC&#34;, sans-serif;font-size: 16px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: pre-wrap;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;display: inline !important;float: none;"><span leaf="">sequential_thinking 把 LLM 的“黑盒长链思考”拆成了</span></span><strong style="font-family: -apple-system, BlinkMacSystemFont, &#34;Segoe UI&#34;, system-ui, -apple-system, &#34;Segoe UI&#34;, Roboto, Ubuntu, Cantarell, &#34;Noto Sans&#34;, sans-serif, Arial, &#34;PingFang SC&#34;, &#34;Source Han Sans SC&#34;, &#34;Microsoft YaHei UI&#34;, &#34;Microsoft YaHei&#34;, &#34;Noto Sans CJK SC&#34;, sans-serif;scrollbar-color: transparent transparent;margin: 0px;padding: 0px;border: 0px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-variant-numeric: inherit;font-variant-east-asian: inherit;font-variant-alternates: inherit;font-variant-position: inherit;font-variant-emoji: inherit;font-weight: 600;font-stretch: inherit;font-size: 16px;line-height: inherit;font-optical-sizing: inherit;font-size-adjust: inherit;font-kerning: inherit;font-feature-settings: inherit;font-variation-settings: inherit;vertical-align: baseline;color: rgba(0, 0, 0, 0.9);letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: pre-wrap;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;"><span leaf="">可观测、可调试、可脚本化</span></strong><span style="color: rgba(0, 0, 0, 0.9);font-family: -apple-system, BlinkMacSystemFont, &#34;Segoe UI&#34;, system-ui, -apple-system, &#34;Segoe UI&#34;, Roboto, Ubuntu, Cantarell, &#34;Noto Sans&#34;, sans-serif, Arial, &#34;PingFang SC&#34;, &#34;Source Han Sans SC&#34;, &#34;Microsoft YaHei UI&#34;, &#34;Microsoft YaHei&#34;, &#34;Noto Sans CJK SC&#34;, sans-serif;font-size: 16px;font-style: normal;font-variant-ligatures: normal;font-variant-caps: normal;font-weight: 400;letter-spacing: normal;orphans: 2;text-align: start;text-indent: 0px;text-transform: none;widows: 2;word-spacing: 0px;-webkit-text-stroke-width: 0px;white-space: pre-wrap;background-color: rgb(255, 255, 255);text-decoration-thickness: initial;text-decoration-style: initial;text-decoration-color: initial;display: inline !important;float: none;"><span leaf="">的若干小步；code_analyze_agent 通过“思考→工具→结果→再思考”的循环，像人类工程师一样步步为营地解决复杂问题。</span></span></p><p style="text-align: center;" nodeleaf=""><img class="rich_pages wxw-img" data-imgfileid="100000515" data-ratio="0.3649122807017544" data-s="300,640" type="block" data-type="png" data-w="1710" src="https://wechat2rss.xlab.app/img-proxy/?k=84c3571f&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_png%2FicNlicgdbzSdUsr3zlDy5jvuhf6dz33SqB8w9ao4Xt0eGRD7LY9kyckjfOFI1zt8kgMr8eZsYl4JWB19eN2CowlQ%2F640%3Fwx_fmt%3Dpng"/></p><p style="display: none;"><mp-style-type data-value="3"></mp-style-type></p>



<p><a href="2247485986">阅读原文</a></p>
<p><a href="https://wechat2rss.xlab.app/link-proxy/?k=20c84f00&amp;r=1&amp;u=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU0MzgzNTU0Mw%3D%3D%26mid%3D2247485986%26idx%3D1%26sn%3Db6bb227004a8f62ce7e6e3c406e96525">跳转微信打开</a></p>
]]></content:encoded>
      <pubDate>Sat, 12 Jul 2025 09:05:00 +0800</pubDate>
    </item>
    <item>
      <title>软件工程顶会——ICSE 2025 论文清单与摘要（上）</title>
      <link>https://mp.weixin.qq.com/s?__biz=MzU0MzgzNTU0Mw==&amp;mid=2247485981&amp;idx=1&amp;sn=f049b3766fbc37a1dce9141cd6377cd4</link>
      <description>很多论文在computer.org上尚未免费开放，不过在arxiv上大多都搜索到，我查找10多篇自己感兴趣的论</description>
      <content:encoded><![CDATA[<p>
<span>漏洞战争</span> <span>2025-06-22 16:31</span> <span style="display: inline-block;">广东</span>
</p>

<p>很多论文在computer.org上尚未免费开放，不过在arxiv上大多都搜索到，我查找10多篇自己感兴趣的论</p>
<p></p>



<p>
<img src="https://wechat2rss.xlab.app/img-proxy/?k=e17c876c&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdWS5eiaBgCG4u08ENFAiaZkicFAoIXzmh18AJZicm3n7RkN5wibicyIJuAIUfffMSibfe5ibxKzyhpV31j7eg%2F0%3Fwx_fmt%3Djpeg"/>
</p>


<h3 cid="n0" mdtype="heading" style="box-sizing: border-box;" data-pm-slice="0 0 []"><span leaf=""><span textstyle="" style="background-color: #a5c8ff;">很多论文在computer.org上尚未免费开放，不过在arxiv上大多都搜索到，我查找10多篇自己感兴趣的论文，只有2篇没找到，因此大家可以直接google论文标题来下载。</span></span></h3><h3 cid="n0" mdtype="heading" style="box-sizing: border-box;" data-pm-slice="0 0 []"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><h3 cid="n0" mdtype="heading" style="box-sizing: border-box;" data-pm-slice="0 0 []"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><h3 cid="n0" mdtype="heading" style="box-sizing: border-box;" data-pm-slice="0 0 []"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">1、&#34;Get Me In The Groove&#34;: A Mixed Methods Study on Supporting ADHD Professional Programmers</span></span></span></h3><p cid="n2" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">理解程序员多样化的协作方式有助于构建包容性工作环境，使所有软件工程师都能充分发挥潜力。据统计，约10.6%的程序员患有注意力缺陷多动障碍（ADHD），这种症状以注意力与工作记忆的差异性为特征。现有研究仅初步探索了ADHD对软件开发的影响，发现支持不足可能损害团队生产力与职业发展，导致软件行业难以获益于ADHD相关的优势能力。为深入探究这些影响，我们开展了两阶段混合方法研究：首先定性分析ADHD程序员社区最大公开论坛r/ADHD_Programmers的99条主题帖（含1,658条发帖与评论），构建出ADHD程序员如何运用个人策略与组织调适来应对软件开发特定挑战的映射框架；随后对239名ADHD与254名非ADHD职业程序员展开大规模调查，验证定性结论在全球开发者群体中的普适性。结果显示，ADHD程序员遭遇各类挑战的频率是神经典型程序员的1.8至4.4倍，尤其在时间管理与系统设计方面表现显著。本研究为构建包容高效的软件工作场所工具与政策提供了依据，并推动学界进一步关注ADHD程序员的职业体验研究。</span></span></p><p cid="n3" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a778/251mHI7YZy0" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a778/251mHI7YZy0</a></span></span></p><h3 cid="n4" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">2、3DGen: AI-Assisted Generation of Provably Correct Binary Format Parsers</span></span></span></h3><p cid="n5" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">对攻击者可控输入的解析不当是软件安全漏洞的主要来源，尤其在程序员将RFC文档中的非正式格式描述转录为底层内存不安全语言中的高效解析逻辑时。多位研究者提出过可从数据格式生成高效代码的形式化规范语言，但将非正式需求提炼为形式化规范具有挑战性，且新形式化语言的学习使用门槛较高。本研究提出3DGen框架，利用AI智能体将混合非正式输入（包括自然语言文档如RFC和示例输入）转换为名为3D的格式规范语言。为帮助人类理解并信任生成的规范，3DGen采用符号化方法合成可通过外部验证的测试输入，其符号化测试生成还能区分多个合理解决方案。通过迭代优化过程，3DGen最终生成符合测试集的3D规范，并输出可验证正确性的高效安全C语言解析代码。我们在20种互联网标准格式上评估3DGen，证明AI智能体具备生成非平凡规模形式化验证C代码的潜力。其中关键是通过领域特定语言将AI输出限制在可自动化符号化分析的范围内。</span></span></p><p cid="n6" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a710/251mH0zpk2c" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a710/251mH0zpk2c</a></span></span></p><h3 cid="n7" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">3、A Catalog of Micro Frontends Anti-patterns</span></span></span></h3><p cid="n8" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">微前端（MFE）架构因提升开发独立性与模块化而广受欢迎。尽管应用广泛，该领域仍存在大量未解问题，尤其在问题识别与最佳实践总结方面。本文基于成熟的微服务（MS）反模式及采用MFE的软件开发团队实际面临的问题分析，提出了包含12种MFE反模式的分类目录。我们通过识别MS反模式与MFE项目中重复出现问题的共性，将MS反模式映射并适配至MFE语境，构建了目录的初始版本。为验证所发现问题及解决方案，我们对行业从业者开展调研，收集改进反模式的宝贵反馈，并请参与者确认是否在实践中遭遇过这些问题，同时以10级李克特量表评估其危害性。调研结果表明，参与者在实际MFE架构中遭遇过所有提出的反模式，仅有一种反模式的出现率低于50%。受访者认为该目录可作为新老开发者的实用指南，有望提升MFE开发质量。根据反馈意见，我们完善了反模式目录的版本。此外，我们开发了专门用于展示反模式的Web应用，旨在积极促进MFE社区协作与参与。该目录是识别和规避MFE开发潜在陷阱的重要资源，能帮助不同经验水平的开发者构建更健壮、可维护且设计优良的MFE应用。</span></span></p><p cid="n9" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a616/251mFYWHNpC" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a616/251mFYWHNpC</a></span></span></p><h3 cid="n10" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">4、A Differential Testing Framework to Identify Critical AV Failures Leveraging Arbitrary Inputs</span></span></span></h3><p cid="n11" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">自动驾驶车辆（AV）的普及使其故障日益凸显。旨在识别导致这些故障的输入测试工作面临长尾分布输入的挑战——其曲线下区域主要由罕见场景主导。我们提出假设：利用新兴开放数据集可加速长尾输入的探索。然而仅获取多样化输入不足以暴露故障，有效测试还需预言机制来区分正确与错误行为。现有数据集缺乏此类预言机制，而其开发难度众所周知。为此，我们提出DiffTest4AV差分测试框架，专门应对AV系统测试的三大独特挑战：1) 对任意输入可能存在多个可接受输出；2) 长尾包含海量待探索输入；3) AV持续执行循环要求故障持续存在才能影响系统。该框架集成统计分析识别有意义行为变异，依据差异严重性评估重要性，并采用序列分析检测指示潜在系统级故障的持续错误。基于商用道路部署系统comma.ai OpenPilot的5个版本和3个可用图像数据集的实验表明，该框架能有效检测高严重性、高置信度的长期测试故障。</span></span></p><p cid="n12" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a700/251mGSQPCJq" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a700/251mGSQPCJq</a></span></span></p><h3 cid="n13" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">5、A First Look at Conventional Commits Classification</span></span></span></h3><p cid="n14" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">现代分布式软件开发依赖提交（commit）来控制系统版本。提交分类在工业界和学术界均具有重要作用。当前广泛使用的提交分类框架由Swanson于1976年提出，包含三个基础类别：完善性（perfective）、修正性（corrective）和适应性（adaptive）。随着软件开发复杂度的提升，工业界正转向更细粒度的提交分类方式，即采用约定式提交规范（Conventional Commits Specification, CCS）进行精细化管理。新框架要求开发者将提交划分为十种不同类别，例如&#34;feat&#34;（功能）、&#34;fix&#34;（修复）和&#34;docs&#34;（文档）。然而现有研究主要集中于三分类体系，使得细粒度提交类别的定义与应用成为知识空白。本文通过应用现状与问题报告了针对该机制的初步研究，并探索了解决方案。我们发现GitHub上越来越多的项目正在采用CCS规范。通过对GitHub上194个相关议题和Stack Overflow上100个CCS应用问题的定性分析，我们归纳出开发者使用CCS时面临的四大挑战，其中最常见的是CCS类型混淆问题。为解决这些挑战，我们基于现有变体对CCS类型给出明确定义，并设计了一种自动分类提交到CCS类型的方法，评估结果表明该方法性能优异。本研究有助于深化对当前细粒度提交分类的理解，并有望显著缓解实际应用中的挑战。</span></span></p><p cid="n15" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a127/215aWxIcs3m" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a127/215aWxIcs3m</a></span></span></p><h3 cid="n16" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">6、A Large-Scale Study of Model Integration in ML-Enabled Software Systems</span></span></span></h3><p cid="n17" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">机器学习（ML）的兴起及其与软件系统的融合已彻底改变了开发实践。传统软件工程专注于通过特定流程与架构手工编写代码制品，而ML赋能系统则需要额外数据科学方法与工具来创建ML制品——尤其是ML模型与训练数据。然而将模型集成至系统并管理众多异构制品绝非易事。ML赋能系统往往包含多个ML模型，这些模型不仅彼此交互，还与传统代码以复杂方式互动。尽管学界已对构建此类系统的挑战与实践展开研究，但除孤立案例外，人们对真实世界ML赋能系统的特性仍知之甚少。改进这类系统的工程流程与架构，亟需增强对其的实证认知。我们针对2,928个开源ML赋能系统展开大规模研究，通过分类与分析揭示了系统特征、模型与代码复用实践以及ML模型集成架构特点。研究发现：这些系统仍以传统源代码为主体，通过代码复制或预训练模型实现的ML模型复用十分普遍。我们还识别出不同的ML集成模式及关联实现实践。期待本研究成果能优化ML模型集成方法，推动数据科学与软件工程更紧密融合。</span></span></p><p cid="n18" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a722/251mH8mwBq0" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a722/251mH8mwBq0</a></span></span></p><h3 cid="n19" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">7、A Little Goes a Long Way: Tuning Configuration Selection for Continuous Kernel Fuzzing</span></span></span></h3><p cid="n20" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Linux内核具有活跃的开发社区且被广泛使用。它支撑着从高性能计算到物联网等各类数十亿台设备，这在一定程度上得益于其精密的配置系统——该系统能根据用户提供的数千个配置选项自动调整源代码。模糊测试在发现内核漏洞方面成效显著，已成为最主要的漏洞报告手段之一。由于内核每日需接收数百个补丁，模糊测试工具需持续运行，定期停止以集成最新变更后重新构建内核，再重启测试流程。但我们研究发现，当前内核模糊测试工具采用预定义的配置方案，会导致内核二进制文件遗漏大多数新补丁，使得持续模糊测试的优势荡然无存。遗憾的是，现有最先进的配置测试技术往往难以满足持续模糊测试的需求，要么遗漏必要选项，要么因需处理过多配置文件而难以操作。我们将持续测试的核心需求提炼为六大关键属性，系统化分析配置选择策略的可行方案，并提出可落地的优化建议。通过分析发现，持续模糊测试工具可在不影响性能的前提下提升配置多样性。我们通过改造最流行的Linux内核模糊测试工具syzkaller的配置选择策略进行实证评估：改进后的配置方案使新发现漏洞数量提升至原有方案的2倍以上（35个 vs 13个），独立漏洞发现量更是达到12倍增幅（24个 vs 2个），其中还包括一个获得CVE编号的安全漏洞。</span></span></p><p cid="n21" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a521/215aWUHqo9i" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a521/215aWUHqo9i</a></span></span></p><h3 cid="n22" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">8、A Multi-Agent Approach for REST API Testing with Semantic Graphs and LLM-Driven Inputs</span></span></span></h3><p cid="n23" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着现代网络服务日益依赖REST API，对其进行全面测试变得至关重要。此外，REST API文档语言（如OpenAPI规范）的出现催生了许多黑盒REST API测试工具。然而，这些工具往往孤立地关注单个测试元素（如API、参数、值），导致覆盖率较低且缺陷检测效果欠佳。为突破这些局限，我们提出AutoRestTest——首个采用依赖嵌入多智能体方法进行REST API测试的黑盒工具，该方法将多智能体强化学习（MARL）与语义属性依赖图（SPDG）及大语言模型（LLMs）相结合。我们将REST API测试视为可分解问题，由四个智能体（API、依赖、参数和值智能体）协同优化API探索：LLMs处理领域特定值生成，SPDG模型通过API操作间相似度评分简化依赖搜索空间，MARL则动态优化智能体行为。通过对12个真实REST服务的评估表明，AutoRestTest在代码覆盖率、操作覆盖率和缺陷检测方面优于包括RESTGPT（利用LLMs生成真实测试输入）在内的四大主流黑盒测试工具。值得注意的是，AutoRestTest是唯一能触发Spotify服务内部服务器错误的工具。消融实验证实，SPDG、LLM和智能体学习机制均为AutoRestTest的整体有效性作出贡献。</span></span></p><p cid="n24" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://arxiv.org/abs/2411.07098" target="_blank">https://arxiv.org/abs/2411.07098</a></span></span></p><h3 cid="n25" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">9、A Multiple Representation Transformer with Optimized Abstract Syntax Tree for Efficient Code Clone Detection</span></span></span></h3><p cid="n26" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">过去十年间，深度学习在代码克隆检测中的应用取得了显著成果。然而现有方法存在两大局限：(a) 传统抽象语法树(AST)等代码表征方法信息利用率低，导致信息冗余并引发性能下降；(b) 评估阶段克隆检测效率低下，实际使用时产生过高时间成本。本文提出基于优化抽象语法树的多表征转换器(MRT-OAST)，在保持竞争力的同时实现高效代码表征。具体而言，MRT-OAST通过策略性剪枝与增强处理AST，同时采用前序与后序遍历生成两种差异化表征。为加速评估流程，本方案采用纯孪生网络架构，通过余弦相似度度量代码相似性。该方法在保留结构信息前提下，成功将Java与C/C++的AST序列长度压缩至原长的40%与39%。在代码克隆检测任务中，我们的模型在OJClone与Google Code Jam数据集上超越现有最优方法。在BigCloneBench评估中，相较当前最优轻量模型提速5倍，较基于BERT的模型提速563倍，F1分数仅下降0.3%与0.9%。</span></span></p><p cid="n27" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a587/251mFD6rzPO" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a587/251mFD6rzPO</a></span></span></p><h3 cid="n28" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">10、A Study of Undefined Behavior Across Foreign Function Boundaries in Rust Libraries</span></span></span></h3><p cid="n29" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">开发者依赖Rust编程语言的静态安全保证来编写安全且高性能的应用程序。然而，Rust常需与其他语言互操作，这些语言允许的设计模式可能与Rust不断发展的别名模型产生冲突。Miri是目前唯一能针对这些模型验证应用程序的动态分析工具，但它不支持检测外部函数中的错误，这表明整个Rust生态可能存在关键的正确性缺口。我们对调用外部函数的Rust库进行了大规模评估，以确定Miri的动态分析在此情境下是否仍然有效。通过联合使用Miri和LLVM解释器执行调用外部函数的应用程序，我们在37个库中发现了46例未定义或非预期行为。其中三个漏洞出现在我们观测期间日均下载量超过1万次的库中，还有一个存在于Rust项目官方维护的库内。多数漏洞违反了Rust的别名模型，但最新的Tree Borrows模型相比早期的Stacked Borrows模型显著放宽了限制。Rust社区必须为多语言应用开发新的生产级工具，以确保开发者能够检测此类错误。</span></span></p><p cid="n30" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a704/251mGWkQmIw" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a704/251mGWkQmIw</a></span></span></p><h3 cid="n31" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">11、A Tale of Two DL Cities: When Library Tests Meet Compiler</span></span></span></h3><p cid="n32" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">深度学习（DL）编译器通常通过加载模型并利用中间表示进行优化。现有DL编译器测试技术主要聚焦于模型优化阶段，却鲜少探索模型加载阶段的缺陷检测。有效测试模型加载阶段需要覆盖不同DL库中各类算子的多样化使用方式，这与DL库测试的核心目标高度一致——这表明DL库测试中蕴含的知识对测试DL编译器的模型加载阶段具有重要价值。基于此，我们提出OPERA方法，将DL库测试中的知识迁移至模型加载阶段测试。OPERA从DL库测试（包括官方文档测试用例和最新模糊测试生成用例）中构建多样化测试集，共整合了三类DL库测试源进行迁移。此外，该方法采用基于多样性的测试优先级策略，优先迁移和执行更可能触发多样性缺陷的测试用例。我们在三大DL编译器（TVM、TensorRT和OpenVINO）的八个前端进行评估，OPERA累计检测出170个未知缺陷，其中90个已获开发者确认/修复，验证了这种迁移思路的有效性。相较于通用优先级策略，OPERA的测试优先级策略使迁移测试的效率平均提升11.9%~47.4%。</span></span></p><p cid="n33" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a305/215aWI2R6CY" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a305/215aWI2R6CY</a></span></span></p><h3 cid="n34" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">12、A Test Oracle for Reinforcement Learning Software based on Lyapunov Stability Control Theory</span></span></span></h3><p cid="n35" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">强化学习</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">（Reinforcement Learning, RL）受到广泛关注。随着RL软件日益复杂并渗透至关键应用领域，保障其质量与正确性变得尤为重要。软件质量/正确性保障的核心环节之一是测试。然而，由于RL软件输出正确性难以定义，其测试面临传统软件所不具备的独特挑战，即</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">RL测试预言问题</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。现有RL软件测试方法通常依赖人工预言——召集专家人工判定输出正确性。这种方法高度受限于专家的可用性与质量（包括经验、主观状态等），且无法完全自动化。  </span></span></p><p cid="n36" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出一种基于</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">李雅普诺夫稳定性控制理论</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">的RL软件测试预言设计新方法。通过将李雅普诺夫稳定性概念融入RL训练过程，我们假设：正确实现的RL软件应输出符合该理论约束的智能体。基于此启发式规则，我们设计了基于李雅普诺夫稳定性控制理论的测试预言</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">LPEAZ_(ϑ,θ)</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。我们在典型RL算法与缺陷上进行了大量实验评估，结果表明：该预言在多数指标上优于人工预言。具体而言，</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">LPEAZ_(ϑ=100%,θ=75%)</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在准确率、精确率、召回率、F1值、真阳性率、真阴性率、假阳性率、假阴性率及ROC曲线AUC上分别超出人工预言53.6%、50%、18.4%、34.8%、18.4%、127.8%、60.5%、38.9%和31.7%；</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">LPEAZ_(ϑ=100%,θ=50%)</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">则在这些指标上分别超出48.2%、47.4%、10.5%、29.1%、10.5%、127.8%、60.5%、22.2%和26.0%。</span></span></p><p cid="n37" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a611/251mFVaOkes" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a611/251mFVaOkes</a></span></span></p><h3 cid="n38" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">13、ADAMAS: Adaptive Domain-Aware Performance Anomaly Detection in Cloud Service Systems</span></span></span></h3><p cid="n39" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">云服务可靠性工程中的常见做法是收集监控指标，随后通过综合分析识别性能问题。然而现有方法往往难以检测不同服务间多样化且动态演变的异常。此外，异常的技术表征与业务解读之间存在显著鸿沟——检测到的异常可能对系统性能或用户体验并无实质影响。为解决这些挑战，我们提出ADAMAS框架，这是一种基于AutoML的自适应异常检测方案，旨在实现生产云系统中的实用化异常检测。为提升跨服务异常检测能力，我们设计了新型无监督评估函数以自动搜索最优模型结构与参数。ADAMAS还包含轻量级人机协同设计，能高效融合专家知识以适应动态演变的异常模式，弥合预测异常与实际业务异常之间的差距。通过持续监测误报率，该系统可主动重新配置最优模型，形成持续改进的闭环。在1个公共数据集和2个工业数据集上的大量实验表明，ADAMAS以0.891的F1分数优于所有基线模型。消融研究也验证了评估函数设计与专家知识融合机制的有效性。</span></span></p><p cid="n40" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a621/251mG21JPX2" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a621/251mG21JPX2</a></span></span></p><h3 cid="n41" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">14、Accessibility Issues in Ad-Driven Web Applications</span></span></span></h3><p cid="n42" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">网站可访问性对包容性和法规遵从至关重要。尽管第三方广告是免费网络服务的重要收入来源，却带来了显著的可访问性挑战。将网站空间租赁给DoubleClick等广告投放技术后，开发者会失去对广告内容可访问性的控制。即使在高度可访问的网站上，第三方广告也可能破坏对《网页内容可访问性指南》(WCAG)的遵循。我们首次对43万个网站元素（含近10万个广告元素）开展大规模研究，以了解网站广告的可访问性现状。通过分析不可访问广告的普遍性及其对网站整体可访问性的影响，我们发现67%的网站因广告导致可访问性违规增加，常见违规类型包括焦点可见性(WCAG 2.4.7)和输入响应(WCAG 3.2.2)。Taboola、DoubleClick和RevContent等主流广告技术常投放不符合WCAG标准的广告。即便符合WCAG的广告中，仍有27%的广告图片替代文本存在信息误导，可能欺骗用户。对误导性广告样本的手动检测显示，94%的网站通过悬停等交互行为收集用户可识别数据。由于残障用户常依赖屏幕阅读器等需要触发悬停事件才能访问内容的工具，他们不得不以牺牲隐私为代价浏览网站广告。基于研究发现，我们进一步剖析违规根源，并为网站开发者和广告技术提供商提供符合WCAG标准的广告集成设计指南。</span></span></p><p cid="n43" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a708/251mGYZc71S" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a708/251mGYZc71S</a></span></span></p><h3 cid="n44" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">15、Accounting for Missing Events in Statistical Information Leakage Analysis</span></span></span></h3><p cid="n45" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">通过公开渠道泄露秘密信息是软件系统中严重的隐私缺陷。每次观测泄露的信息越多，攻击者获取秘密所需的时间就越短。由于现代软件规模庞大且结构复杂，加之部分经验事实无法通过源代码形式化分析获得，研究者开始利用程序执行样本开展统计方法研究。然而现有统计方法需要较高的样本覆盖率——理想情况下，样本需足够大以涵盖秘密Z</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">××</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Z可观测值的所有可能组合，才能准确反映Z</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">⟨⟨</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Z秘密与可观测值Z</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">⟩⟩</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Z的联合分布。否则会导致信息泄露被严重低估，这种误判可能使开发者对存在漏洞的程序产生错误的安全信心。</span></span></p><p cid="n46" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出一种改进的信息泄露估计方法，当样本覆盖率不足时，采用应用统计学技术提升联合分布估计精度。核心思想是将该问题转化为存在未采样类别的多项分布估计问题，通过重构联合分布实现突破。我们提出两种实现方案，并在基准测试集上验证了各自的有效性。同时设计新型联合分布优化启发式规则，通过动态调整提升估计准确性。与现有信息泄露统计估计方法相比，本方法能安全地高估互信息量，仅需有限次程序执行即可获得更精确的估计结果。</span></span></p><p cid="n47" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a217/215aWCUWmWI" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a217/215aWCUWmWI</a></span></span></p><h3 cid="n48" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">16、Aligning the Objective of LLM-based Program Repair</span></span></span></h3><p cid="n49" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLM）在自动程序修复（APR）领域已取得显著成果。然而，纯解码器架构的LLM（如GPT-4）采用的&#34;下一词元预测&#34;训练目标，与当前基于掩码填充修复方法所需的&#34;跨度预测&#34;目标存在偏差，导致模型难以充分利用预训练知识进行程序修复。此外，尽管部分LLM能借助测试用例等关联构件定位并修复特定函数中的缺陷，现有方法仍依赖语句级故障定位技术来提供待修复的代码片段列表。这种限制阻碍了LLM探索给定位置之外的可能补丁。本文提出一种适配LLM程序修复能力的新方法，其核心观点是：只需将输出与模型训练目标对齐，并允许其直接优化完整程序（而非预先定位缺陷语句），即可显著提升LLM的APR性能。基于该思路，我们设计了简洁的提示框架D4C。实验表明，D4C在Defects4J基准中成功修复180个缺陷，每个补丁仅需采样10次，其性能超越依赖完美故障定位的现有最优方法10%，同时将补丁采样次数降低90%。研究发现：（1）目标对齐对释放LLM预训练潜力具有关键作用；（2）用直接调试替代传统的&#34;先定位缺陷片段后修复&#34;流程，能更有效发挥LLM的APR能力。本研究为LLM在程序修复中的应用提供了新范式。</span></span></p><p cid="n50" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a706/251mGXCBEgE" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a706/251mGXCBEgE</a></span></span></p><h3 cid="n51" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">17、An Empirical Study of Proxy Smart Contracts at the Ethereum Ecosystem Scale</span></span></span></h3><p cid="n52" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">代理设计模式将智能合约中的数据与代码分离至代理合约与逻辑合约中：数据存储于代理合约，而代码则源自逻辑合约。该模式支持灵活的智能合约开发，具备可升级性、可扩展性及代码复用能力。尽管这一模式应用广泛且至关重要，目前仍缺乏系统性研究来揭示代理模式的普及程度、使用场景及开发陷阱。我们首次对以太坊代理合约展开全面研究，通过开发首个字节码级代理检测框架PROXYEX（准确率超99%），构建了包含2,031,422个以太坊代理合约的数据集，并实施首次大规模实证分析。通过统计代理数量与交易流量，我们解析了其在以太坊生态的现状；归纳出四大应用模式（可升级性、可扩展性、代码共享、代码隐藏）；同时识别出三类典型问题（代理-逻辑存储冲突、逻辑-逻辑存储冲突、未初始化合约），并通过历史交易回放构建了对应检测工具。研究表明：可升级性并非DApp采用代理的唯一动因，大量代理合约存在存储冲突与未初始化等问题。本成果深化了对代理模式的理解，为未来智能合约在代理的开发实践、使用规范、质量保障及缺陷检测等方面的研究提供了指引。</span></span></p><p cid="n53" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a620/251mG1r7AaI" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a620/251mG1r7AaI</a></span></span></p><h3 cid="n54" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">18、An Empirical Study on Automatically Detecting AI-Generated Source Code: How Far Are We?</span></span></span></h3><p cid="n55" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">人工智能（AI）技术，尤其是大语言模型（LLMs），已开始受到研究人员和软件开发者的青睐，用于生成源代码。然而，研究表明，LLMs生成的代码存在质量问题，并可能引发版权/许可侵权。因此，检测一段源代码是否由人类编写或由AI生成变得十分必要。本研究首先通过实证分析评估现有AI检测工具在识别AI生成代码方面的有效性。结果表明，这些工具性能普遍较差，且缺乏实际部署所需的泛化能力。随后，为提升AI生成代码的检测性能，我们提出了一系列方法，包括对大语言模型进行微调、基于机器学习的分类（使用静态代码指标或通过抽象语法树生成的代码嵌入向量）。我们的最佳模型显著优于当前最先进的AI代码检测工具（GPTSniffer），F1分数达到82.55。此外，我们还针对最佳模型进行了消融实验，以探究不同源代码特征对其性能的影响。</span></span></p><p cid="n56" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a601/251mFNe2Gqs" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a601/251mFNe2Gqs</a></span></span></p><h3 cid="n57" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">19、An Empirical Study on Commit Message Generation using LLMs via In-Context Learning</span></span></span></h3><p cid="n58" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">提交信息以自然语言简洁描述代码变更，对软件维护至关重要。现有多种自动生成提交信息的方法存在关键缺陷，如训练耗时且泛化能力差。为解决这些问题，我们提出借助大语言模型（LLM）和上下文学习（ICL）技术。我们的直觉基于以下事实：LLM的训练语料库包含大量代码变更及其对应提交信息，这使得LLM能够掌握提交相关知识，而ICL可挖掘LLM中隐含的知识，使其无需调优即可执行下游任务。然而，LLM通过ICL生成提交信息的实际效果尚不明确。本文通过实证研究探讨LLM基于ICL生成提交信息的能力。具体而言，我们首先探究不同设置对基于ICL的提交信息生成性能的影响，随后在主流多语言数据集和新建数据集（用于缓解潜在数据泄露问题）上，将基于ICL的方法与最先进方案进行对比。实验结果表明，基于ICL的方法在主观评估中显著优于现有方案，并展现出更强的泛化能力。我们进一步分析LLM表现欠佳的根本原因，提出多项改进建议，为未来利用LLM生成提交信息的研究指明方向。</span></span></p><p cid="n59" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a628/251mG77nMAM" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a628/251mG77nMAM</a></span></span></p><h3 cid="n60" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">20、An Empirical Study on Package-Level Deprecation in Python Ecosystem</span></span></span></h3><p cid="n61" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">开源软件（OSS）在现代软件开发中发挥着至关重要的作用。利用OSS代码能显著加速开发进程、减少冗余并提升可靠性。Python作为一种被广泛采用的编程语言，以其丰富多样的第三方包生态系统而闻名。然而，Python生态中存在大量维护不善的OSS包，这可能导致功能性和安全性隐患。因此，建立一套废弃机制来协助包开发者与用户有效管理包资源至关重要。  </span></span></p><p cid="n62" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为促进包级废弃机制的建立，本文采用混合方法开展实证研究，包括数据分析与问卷调查。我们调研了Python生态中当前包级废弃的声明、接收与处理实践，评估了为停止维护的包发布废弃声明的益处，并探究了开发者与用户面临的挑战及其对未来废弃实践的期望。研究发现：75.4%的停滞包开发者因各种原因无意发布废弃声明，而89.5%的用户希望收到废弃通知，凸显双方认知鸿沟；多数情况下废弃发生时缺乏替代方案，亟需探索既能实现无缝包交接又降低维护成本的可行方法。本研究旨在深化对Python开源领域现有包级废弃模式的理解，为未来社区制定更完善的废弃实践提供支持。</span></span></p><p cid="n63" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a572/215aWXBXgSk" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a572/215aWXBXgSk</a></span></span></p><h3 cid="n64" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">21、An Empirical Study on Reproducible Packaging in Open-Source Ecosystems</span></span></span></h3><p cid="n65" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">软件构建的完整性是软件供应链安全的基础。虽然Thompson早在1984年就首次提出针对构建基础设施攻击的可能性，但在过去40年中，构建完整性问题鲜少受到关注，这直接导致了近期对SolarWinds、event-stream和xz等项目的攻击事件。当前最知名的构建系统防御方案是可复现构建，但由于技术和社会因素的双重复杂性，该方案常被视为难以实现。本文创新性地分析了六大主流软件生态（npm、Maven、PyPI、Go、RubyGems和Cargo）中可复用组件包的构建可复现性。我们对每个生态系统中4000个具代表性样本的量化研究揭示了严峻现状：不同生态系统间的构建可复现率差异悬殊，部分生态所有包均可复现，而另一些生态几乎每个包都存在复现问题。但深入研究发现，通过相对简单的基础设施配置调整和构建工具补丁，我们能在所有研究生态中实现极高的构建可复现率。研究表明：若各生态采纳我们的建议，几乎所有已发布软件包的构建过程都可在无需开发者个体干预的情况下实现独立验证，此举将有效防范未来重大软件供应链攻击。</span></span></p><p cid="n66" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a673/251mGAOJFni" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a673/251mGAOJFni</a></span></span></p><h3 cid="n67" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">22、An Exploratory Study of ML Sketches and Visual Code Assistants</span></span></span></h3><p cid="n68" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文探讨了可视化代码助手在集成开发环境（IDE）中的整合应用。在软件工程中，白板草图通常是编码前的第一步，也是开发人员重要的协作工具。既往研究已探索了软件工程草图的模式及其实际应用方式，但如何直接利用这些草图生成代码的方法仍存在局限。具备视觉能力的大语言模型的出现为弥合这一差距提供了契机，这也正是本研究的核心。本文构建了可视化代码助手的首个原型，旨在收集用户对IDE内草图转代码工具的反馈。我们通过19位数据科学家（其中多数人日常工作包含草图绘制）开展实验，分析他们在开发机器学习工作流时草图中的常见模式以探究开发者的心智模型。分析表明，图表是最常用的组织元素（52.6%），常辅以列表（42.1%）和编号条目（36.8%）。我们的工具通过查询大语言模型将其草图转化为Python笔记本。采用LLM-as-judge评估框架对生成代码质量进行评分，发现即使简短草图也能有效生成实用的代码框架。研究还发现草图绘制时间与生成代码质量呈正相关。最后通过深度访谈评估工具实用性、探索潜在用例并理解开发者需求。如参与者所述，这类助手在教育、原型设计和协作场景中具有应用潜力。研究结果表明，整合视觉信息的新一代代码助手不仅能提升代码生成质量，还能更好地利用开发者现有的草图实践，展现出广阔前景。</span></span></p><p cid="n69" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a661/251mGsL9ErK" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a661/251mGsL9ErK</a></span></span></p><h3 cid="n70" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">23、An Exploratory Study on the Engineering of Security Features</span></span></span></h3><p cid="n71" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">软件安全对大多数软件系统至关重要。开发者必须系统地选择、规划、设计、实施，尤其是持续维护和演进安全功能——即用于抵御攻击或保护个人数据（如加密或访问控制）的功能模块——以确保软件安全性。尽管安全功能通常以库形式提供，但集成这些功能需要编写和维护额外的安全关键代码。虽然已有关于此类库使用的研究，但令人惊讶的是，我们对开发者如何设计安全功能、如何选择需实现的安全功能及哪些需要定制实现，以及其对维护的影响知之甚少。因此，当前我们依赖的假设主要基于常识或个别案例。然而，要为开发者提供有效解决方案，研究人员需要坚实的实证数据来理解实践者的需求及其对安全的认知——这正是当前缺乏的数据。为填补这一空白，我们开展了包含26位资深行业参与者的探索性研究，探究软件系统安全功能在实际中的选择与实现方式、其代码级特征以及实践者面临的挑战。基于收集的实证数据，我们揭示了工程实践现状，并验证了四个常见假设。</span></span></p><p cid="n72" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a721/251mH7zZcaY" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a721/251mH7zZcaY</a></span></span></p><h3 cid="n73" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffd7d5;">24、An Extensive Empirical Study of Nondeterministic Behavior in Static Analysis Tools</span></span></span></h3><p cid="n74" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近期研究探讨了软件中非确定性行为的重要性及其成因。静态分析工具虽存在诸多诱发非确定性行为的风险因素，但尚未有研究系统分析此类工具中的非确定性现象。为填补这一空白，我们针对12款流行开源静态分析工具（覆盖5类项目）开展大规模实证研究，旨在揭示其历史及现存非确定性行为。我们首先通过定性研究评估目标工具中非确定性行为的发现与修复情况，在7个工具代码库中发现了相关记录。根据根本原因对问题和提交记录进行分类后，发现大多数非确定性源于并发问题、错误分析逻辑或对无序数据结构的有序假设，这些成因存在共性模式。随后我们开展定量分析：采用两种策略结合多样化输入程序与配置，检测未知非确定性行为，在12款工具中的8款（含定性分析未发现的3款）中均发现该现象。研究表明，非确定性常在不同配置下对多种输入程序显现。我们已将所有发现反馈给开发者，并获5款工具团队确认。最后，我们详细记录了修复FlowDroid非确定性行为的案例研究。</span></span></p><p cid="n75" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a662/251mGtwh42s" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a662/251mGtwh42s</a></span></span></p><h3 cid="n76" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">25、An LLM-Based Agent-Oriented Approach for Automated Code Design Issue Localization</span></span></span></h3><p cid="n77" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">保持软件设计质量对于系统的长期可维护性和演进至关重要。然而随着代码规模增长，模块化不足、过度复杂等设计问题往往随之浮现。开发者通常依赖程序分析技术等外部工具来识别此类问题。本研究利用大语言模型（LLM）开发了一种自动化分析与定位设计问题的方法。大语言模型虽在编码任务中表现优异，但直接用于设计问题定位仍面临挑战：大规模代码库会超出常规LLM上下文窗口限制，而程序分析工具输出的非文本模态数据（如图形或交互式可视化）也无法兼容LLM的自然语言输入。针对这些挑战，我们提出LOCALIZEAGENT——一个创新的多智能体框架，通过以下专业化智能体的协同工作实现高效设计问题定位：（1）分析代码以识别潜在设计问题；（2）将程序分析输出转化为具备抽象意识的LLM友好型自然语言摘要；（3）生成针对特定重构类型的上下文感知提示；（4）利用LLM定位问题并依据相关性排序。在多样化真实代码库上的评估表明，本方法较基线方案有显著提升：在信息隐藏、复杂性和模块化问题的精确匹配准确率上，LOCALIZEAGENT分别实现了138%、166%和206%的相对改进。</span></span></p><p cid="n78" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a637/251mGdaDuy4" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a637/251mGdaDuy4</a></span></span></p><h3 cid="n79" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">26、Analyzing the Feasibility of Adopting Google&#39;s Nonce-Based CSP Solutions on Websites</span></span></span></h3><p cid="n80" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">内容安全策略（CSP）是缓解内容注入攻击（如跨站脚本攻击XSS）的主流安全机制。然而，尽管学术界和工业界付出了诸多努力，CSP策略（简称CSP）在网站中的部署率仍然较低，且已部署的策略常存在安全隐患或错误。这种低覆盖率与不安全部署问题主要源于CSP机制的复杂性。谷歌近期提出了四种基于随机数的CSP解决方案，相比传统的基于白名单的CSP方案更简洁且安全。谷歌已成功将这些方案部署在超过160项服务中，覆盖其62%的外发流量。这类基于随机数的CSP方案策略简单，却能实现细粒度的网络资源控制，若能广泛应用于其他网站，将有效改善当前CSP部署率低且不安全的现状。  </span></span></p><p cid="n81" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文评估了在Tranco排名前1万的网站中采用谷歌基于随机数的CSP方案的可行性。我们构建了自动化爬虫工具访问网站、模拟用户交互，并通过插入四种CSP策略收集触发的策略违规报告。通过分析违规数据，我们探究了基于随机数的CSP方案的适用性、实施障碍及其在网站中的稳定性。研究发现：大多数网站在本研究访问的所有页面均可采用该方案；对于无法全面适配的网站，通常约40%的页面存在实施困难。总体而言，研究结果极具启发性，对推动CSP在众多网站中的正确部署具有积极意义。</span></span></p><p cid="n82" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a730/251mHdhFofm" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a730/251mHdhFofm</a></span></span></p><h3 cid="n83" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">27、Answering User Questions about Machine Learning Models through Standardized Model Cards</span></span></span></h3><p cid="n84" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">由于Hugging Face（HF）等模型中心的兴起，复用预训练机器学习模型正变得日益流行。然而，与复用软件类似，复用机器学习模型时也可能出现诸多问题。许多情况下，用户会选择在HF社区论坛等讨论平台提问。本文研究如何降低社区解答这些问题的工作负担，并提高问题获得快速回复的概率。我们分析了HF模型社区11,278条包含用户关于机器学习模型提问的讨论，重点关注处理问题所耗费的精力、讨论的高层主题，以及基于模型卡模板实现回答标准化的潜力。研究发现，回复用户问题所需精力并不多，但40.1%的问题仍处于未获回应的开放状态。主题分析表明，讨论更多集中于模型开发的技术细节和故...</span></span></p><p cid="n85" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a603/251mFOMyiEo" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a603/251mFOMyiEo</a></span></span></p><h3 cid="n86" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">28、Are LLMs Correctly Integrated into Software Systems?</span></span></span></h3><p cid="n87" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在大语言模型（LLM）与检索增强生成（RAG）技术的支持下，各类应用场景获得了高效解决方案。然而开发者面临接口规范缺失、软件上下文需求多样、系统管理复杂等挑战，导致LLM与RAG的集成存在困难。本文通过对100个支持RAG的LLM开源应用进行系统研究，归纳出18种缺陷模式。研究表明，77%的应用存在超过三类集成缺陷，导致软件功能、效率及安全性受损。基于研究发现，我们提出了贯穿软件生命周期的系统性缺陷修复指南，并构建开源缺陷库Hydrangea。</span></span></p><p cid="n88" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a741/251mHkourfy" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a741/251mHkourfy</a></span></span></p><h3 cid="n89" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">29、Are We Learning the Right Features? A Framework for Evaluating DL-Based Software Vulnerability Detection Solutions</span></span></span></h3><p cid="n90" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近期研究表明，基于深度学习的软件漏洞检测技术所报告的结果存在不可复现性问题，无论是跨不同数据集还是面对未见样本。本文旨在为该领域的研究建立规范化评估基础。我们通过分析现有工作和漏洞数据集，提取与漏洞相关的代码语法/语义特征及虚假关联特征，提出了一种统一表征方法来捕获这两类特征，并据此检测代码中真实漏洞特征与虚假特征的存在。为此，我们设计了两类代码扰动：特征保留扰动（FPP）确保漏洞特征在代码样本中持续存在，特征消除扰动（FEP）则彻底移除相应特征。这些扰动用于量化虚假特征和漏洞特征对检测模型预测的影响。通过对五种最先进的基于深度学习的漏洞检测器进行大规模实证研究，我们发现：对于真实漏洞特征，平均仅约2%的FPP会导致五种检测器的预测结果发生非预期变化；然而平均约84%的FEP会产生漏洞预测结果持续存在的非预期效应。针对虚假特征，基于图的检测器在FPP下的召回率最大降幅达29%。我们深入分析了这些现象的内在原因，提出了改进基于DNN的漏洞检测器的策略，并将基于扰动的评估框架作为公共资源发布，以支持未来独立的漏洞检测器评估工作。</span></span></p><p cid="n91" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a731/251mHdZWOxq" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a731/251mHdZWOxq</a></span></span></p><h3 cid="n92" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">30、AssetHarvester: A Static Analysis Tool for Detecting Secret-Asset Pairs in Software Artifacts</span></span></span></h3><p cid="n93" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">GitGuardian对公开GitHub仓库中的敏感信息泄露进行了监测，其报告显示2023年开发人员泄露了超过1200万条秘密信息（数据库及其他凭证），较2021年激增113%。尽管现有秘密检测工具可用，但由于误报率高达25%-99%，开发者往往忽视工具发出的警告。然而，每条秘密信息所保护的资产价值各异，这些资产可通过标识符（DNS名称及公/私IP地址）访问。秘密信息关联的资产信息能帮助开发者过滤误报，并确定源代码中需优先清除的秘密。但现有检测工具均未提供此类资产信息，导致开发者仅凭秘密值难以有效筛选，或不得不为每条报告的秘密手动查找对应资产。</span></span></p><p cid="n94" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本研究旨在通过新型静态分析工具提供秘密信息所保护的资产信息，协助软件从业者优先处理需清除的秘密。我们提出AssetHarvester——一种检测仓库中秘密-资产对的静态分析工具。鉴于资产位置可能与秘密定义处相距甚远，我们研究了秘密-资产的共现模式并归纳出四类模式。为识别这四类秘密-资产对，我们采用三种方法（模式匹配、数据流分析和快速近似启发式）。通过从188个公开GitHub仓库提取的1,791组四类数据库秘密-资产对构建基准测试集，评估显示AssetHarvester在检测秘密-资产对时达到97%的精确率、90%的召回率及94%的F1分数。</span></span></p><p cid="n95" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">研究发现，AssetHarvester采用的数据流分析方法能以0%误报率检测秘密-资产对，并提升秘密检测工具的召回率。此外，通过资产检测，AssetHarvester将数据库秘密检测的精确率较现有工具提高43%，有效缓解开发者的警报疲劳。</span></span></p><p cid="n96" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a604/251mFQgwkNi" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a604/251mFQgwkNi</a></span></span></p><h3 cid="n97" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">31、Automated Accessibility Analysis of Dynamic Content Changes on Mobile Apps</span></span></span></h3><p cid="n98" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着移动应用在日常生活中扮演着越来越重要的角色，确保其对残障用户的可访问性也日益凸显。然而，应用开发者常常忽视辅助技术用户（如屏幕阅读器使用者）面临的可访问性挑战。屏幕阅读器用户通常按顺序浏览内容，每次仅聚焦于单一元素，无法感知应用其他区域的动态变化。虽然界面内容的动态变化对视力正常的用户显而易见，却会给屏幕阅读器用户造成显著的可访问性障碍。现有可访问性测试工具无法识别动态内容变化给视障用户带来的挑战。本研究首先针对安卓应用的动态变化及其对屏幕阅读器用户的可访问性障碍开展形成性用户调研，继而提出自动化框架TimeStump——该框架基于形成性研究的发现来检测动态变化相关的可访问性问题。最后，我们通过对真实应用的实证评估，检验TimeStump在检测此类可访问性问题时的效能与效率。</span></span></p><p cid="n99" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a482/215aWSskWpG" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a482/215aWSskWpG</a></span></span></p><h3 cid="n100" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">32、Automated Generation of Accessibility Test Reports from Recorded User Transcripts</span></span></span></h3><p cid="n101" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在软件开发过程中，可访问性测试是至关重要的一环，它能确保包括残障人士在内的所有用户都能有效使用网页和移动应用。虽然已有自动化工具可检测软件中的可访问性问题，但其效果均无法与用户测试相媲美——后者通过让具有不同残障背景的测试者评估应用程序，从而发现可访问性和可用性问题。然而用户测试并未受到软件开发者的青睐，因其需要与用户进行长时间访谈，并需后期处理大量录音资料以提取待修复问题。本文探讨了GPT-4.0等大型语言模型（LLM）如何缓解这一困境并优化用户测试流程，这类模型在上下文理解和语义文本生成方面已展现出显著优势。我们提出的Reca11解决方案通过自动生成的用户测试视频转录文本，提取测试者提及的可访问性与可用性问题。通过系统化的提示工程，我们确定了最佳输入配置、指令、上下文及示例组合。我们在三个应用程序的36场用户测试会话中评估了Reca11的效能，并基于研究结果分析了LLM在该应用场景的优势与局限性。</span></span></p><p cid="n102" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a534/215aWVpqdji" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a534/215aWVpqdji</a></span></span></p><h3 cid="n103" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">33、Automated Test Generation For Smart Contracts via On-Chain Test Case Augmentation and Migration</span></span></span></h3><p cid="n104" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">预部署测试已成为确保智能合约功能正确性的关键环节。然而由于智能合约是集成多种功能的带状态程序，开发者需耗费大量精力手动编写覆盖所有潜在使用场景的测试用例，导致实际测试不足并增加风险。尽管已有若干智能合约测试技术被提出，但它们主要聚焦于检测重入等常见低级漏洞，而非生成能减少人工测试工作量的、具有表达力且功能相关的测试用例。为弥补这一空白，我们提出SolMigrator——一种自动生成表达性强且具代表性的智能合约测试用例技术。据我们所知，这是首个基于迁移的智能合约测试生成技术，通过提取链上合约真实使用场景的测试用例，将其迁移至测试具有相似功能的新开发智能合约。给定待测目标合约和链上相似源合约，SolMigrator首先基于链上交易回放与依赖分析，将源合约的链上使用场景转化为可离线执行的测试用例；随后通过细粒度静态分析，将这些增强型测试用例从源合约迁移至目标合约。我们构建了SolMigrator原型，并在ERC20与ERC721这两类最流行的真实智能合约上开展评估。结果表明：SolMigrator能有效提取现有链上合约的测试用例，并以平均96.3%的精确率和93.6%的准确率实现跨合约迁移；这些迁移后的测试用例能有效覆盖目标合约的常见核心功能。这充分证明：现有智能合约的真实使用场景可转化为其他新开发合约的有效测试用例。</span></span></p><p cid="n105" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a633/251mGaCfjY4" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a633/251mGaCfjY4</a></span></span></p><h3 cid="n106" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">34、Automated, Unsupervised, and Auto-parameterized Inference of Data Patterns and Anomaly Detection</span></span></span></h3><p cid="n107" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着以数据为中心和机器学习（ML）系统的兴起，数据质量对保障软件系统整体质量的作用日益关键。数据准备作为实现高质量数据的重要环节，向来以高度耗时著称。尽管已有研究针对最具影响的问题之一——数据模式违规——提出了解决方案，但这些方法通常需要针对特定数据进行参数化配置，或依赖精心标注的样本进行监督学习，既要求深厚的领域知识和数据理解能力，又需投入大量人工。本文提出RIOLU：基于未清洗数据的正则表达式自动参数化推理器。该技术完全自动化，无需人工参数配置与标注样本，能在多个领域数据集中生成精确模式，以97.2%的F1分数超越现有最优基线。在包含异常值的五组数据集实验中，RIOLU可自动估算数据列错误率、提取正常模式并预测未标注数据中的异常，其性能（F1分数最高提升800.4%）显著优于现有基线，甚至在准确率（F1提高12.3%）与效率（推理时间减少10%）上超越ChatGPT。经用户引导的RIOLU变体可进一步提升精度，F1分数最高增益达37.4%。工业场景的评估进一步验证了该技术的实用价值。</span></span></p><p cid="n108" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a615/251mFYlwlna" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a615/251mFYlwlna</a></span></span></p><h3 cid="n109" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">35、Automating a Complete Software Test Process Using LLMs: An Automotive Case Study</span></span></span></h3><p cid="n110" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">车载API测试旨在验证车辆内部系统与外部应用间的交互是否符合预期，确保用户能够访问并控制各类车辆功能与数据。然而，该任务天然具备复杂性，需要协调API系统、通信协议乃至车辆模拟系统以开发有效测试用例。在实际工业场景中，各类文档与系统规范间的不一致、模糊性及相互依赖性带来了严峻挑战。本文提出一套面向车载API自动化测试的系统，通过明确定义并分解测试流程，使大语言模型（LLMs）能够专注于特定任务，从而确保测试流程稳定可控。基于超100个API的实验表明，本系统能有效实现车辆API测试自动化。结果同时证实，大语言模型可高效处理需人工判断的常规任务，适用于同类工业场景的完整自动化。</span></span></p><p cid="n111" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a747/251mHofMhTW" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a747/251mHofMhTW</a></span></span></p><h3 cid="n112" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">36、BDefects4NN: A Backdoor Defect Database for Controlled Localization Studies in Neural Networks</span></span></span></h3><p cid="n113" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">预训练大型深度学习模型已成为下游中间件用户的核心组件，彻底改变了传统本地从零训练的学习范式。为降低开发成本，开发者常将第三方预训练深度神经网络（DNN）集成至智能软件系统。然而使用不可信DNN存在重大安全隐患——黑盒训练过程可能导致模型被植入蓄意的后门缺陷。这些缺陷可通过隐藏触发器激活，使攻击者恶意操控模型，危及智能软件的整体可靠性。为确保关键软件系统安全采用DNN，建立后门缺陷数据库以支持定位研究至关重要。本文通过推出首个神经元级标注的后门缺陷数据库BDefects4NN填补该研究空白，该库支持对缺陷根源进行可控定位研究。我们定义三类缺陷注入规则，在四种主流网络架构和三个常用数据集上实施四种典型后门攻击，最终构建包含1,654个模型、涵盖四种缺陷数量与不同感染神经元的数据库。基于BDefects4NN，我们系统评估六种故障定位准则和两种缺陷修复技术，发现现有方法对后门缺陷效果有限。此外，针对自动驾驶车道检测和大语言模型（LLM）等实际场景的专项研究表明，后门缺陷存在现实威胁，当前精确缺陷定位能力仍存在局限。本研究旨在提高学界对后门缺陷威胁的认知，推动故障定位方法的未来发展。</span></span></p><p cid="n114" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a606/251mFRB7BE4" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a606/251mFRB7BE4</a></span></span></p><h3 cid="n115" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">37、BSan: A Powerful Identifier-Based Hardware-Independent Memory Error Detector for COTS Binaries</span></span></span></h3><p cid="n116" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出BSan，一种针对二进制代码的实用纯软件内存错误检测器。不同于当前最先进的二进制级检测器依赖基于影子内存的方法或特定硬件特性而存在若干固有缺陷，BSan采用基于标识符的设计，使其能够检测现有工具遗漏的深层内存错误。此外，BSan不依赖任何特定硬件功能。为降低标识符传播带来的高性能开销，BSan创新性地结合静态分析与动态插桩技术，在提升性能的同时避免了静态二进制重写可靠性差的缺陷，这一混合策略使其区别于现有仅通过静态重写提升性能的检测器。综合评估表明，BSan能比前沿二进制级检测器发现更多内存错误，同时其性能与内存开销与现有工具相当。</span></span></p><p cid="n117" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a242/215aWEjequk" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a242/215aWEjequk</a></span></span></p><h3 cid="n118" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">38、Between Lines of Code: Unraveling the Distinct Patterns of Machine and Human Programmers</span></span></span></h3><p cid="n119" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型在代码生成领域掀起了一波前所未有的浪潮。尽管取得了重大进展，这些模型却模糊了机器编写与人类编写源代码之间的界限，引发了软件产物的完整性和真实性问题。先前如DetectGPT等方法虽能有效识别机器生成文本，但未能发掘并利用机器生成代码的独特模式，因此在代码检测场景中表现欠佳。本文系统研究了机器与人类编写代码的特征规律，通过对词汇多样性、简洁性、自然度等代码属性的严格分析，揭示了不同来源代码的固有模式。我们特别发现代码的语法分割结构是判别其来源的关键因素。基于这些发现，我们提出名为DetectCodeGPT的新型机器生成代码检测方法，通过捕捉代码特有的风格化模式改进了DetectGPT。与传统依赖外部大语言模型进行扰动的方法不同，DetectCodeGPT采用策略性插入空格和换行符的方式扰动代码语料，在确保高效的同时提升检测效能。实验结果表明，本方法在机器生成代码检测任务上显著优于现有最先进技术。</span></span></p><p cid="n120" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a051/215aWoRvPCE" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a051/215aWoRvPCE</a></span></span></p><h3 cid="n121" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">39、Boosting Code-line-level Defect Prediction with Spectrum Information and Causality Analysis</span></span></span></h3><p cid="n122" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">代码行级缺陷预测（CLDP）是一种通过综合度量识别缺陷代码行以优化软件质量保障活动的有效技术。现有CLDP方法大多仅考虑代码文本信息或依赖文件级标签信息，未能充分利用CLDP场景中的核心要素，尤其忽视了历史代码行级标签的关键价值。由于代码行数量庞大且包含的标记稀疏，有效利用历史行级标签信息仍面临重大挑战。针对这一问题，我们提出了一种基于频谱信息与因果分析的代码行级缺陷预测新方法SOUND。该方法融合两大创新点：（1）引入频谱信息视角，利用历史缺陷行标签量化标记对行级缺陷的贡献度；（2）应用因果分析系统化构建标记与缺陷间的因果关系网络。通过对19个软件项目142个版本的全面实验，结果表明：在IFA、Recall@Top20%LOC和Effort@Top20%Recall三项指标下，SOUND在缺陷行排序能力上显著优于现有最先进基线方法。特别值得注意的是，在IFA指标上，本方法在多数案例中取得0分，意味着预测结果排序首行即为真实缺陷行，极大提升了方法的实用价值。</span></span></p><p cid="n123" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a776/251mHGVkul2" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a776/251mHGVkul2</a></span></span></p><h3 cid="n124" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">40、Boosting Path-Sensitive Value Flow Analysis via Removal of Redundant Summaries</span></span></span></h3><p cid="n125" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于数据依赖追踪值流的值流分析是一种广泛使用的技术，可用于检测各类软件缺陷。然而当需要高精度（即路径敏感性）时，由于函数摘要实例化过程会消耗大量时间和内存，可扩展性问题往往加剧。我们发现问题的根源在于：现有方法会盲目计算函数的全部摘要，而不考虑这些摘要是否与待检测缺陷相关，从而产生大量冗余计算。针对该问题，我们提出了首个能有效识别并消除冗余摘要的方法，在不影响健全性或效率的前提下，缩减被调用函数收集的摘要规模。在大型程序上的评估表明，我们的识别算法能将最先进值流分析的时间与内存开销分别降低45%和27%。该算法展现出显著的高效性——在仅产生极小额外开销的情况下，可识别近80%的冗余摘要。在最大的mysqld项目中，识别算法以仅17.31秒的额外开销换取了8107秒（2.25小时）的时间缩减，实现节省时间与额外开销之比（即性能收益）达468.48倍。总体而言，我们的方法平均可获得632.1倍的性能收益。</span></span></p><p cid="n126" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a732/251mHeB8gzS" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a732/251mHeB8gzS</a></span></span></p><h3 cid="n127" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">41、Boosting Static Resource Leak Detection via LLM-based Resource-Oriented Intention Inference</span></span></span></h3><p cid="n128" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">资源泄漏（由资源获取后未释放引发）常导致性能问题和系统崩溃。现有静态检测技术依赖预定义的资源获取/释放API与空值检查条件的机械匹配来发现未释放资源，存在两大缺陷：（1）预定义API不完整导致的漏报；（2）资源可达性验证识别不完整导致的误报。为突破这些局限，我们提出InferROI——一种利用大语言模型（LLM）卓越代码理解能力直接推断代码中资源导向意图（获取、释放及可达性验证）的新方法。InferROI首先提示LLM推断给定代码片段涉及的意图，再结合两阶段静态分析流程，基于推断意图检查控制流路径以检测资源泄漏。我们在资源导向意图推断和资源泄漏检测两个维度评估了InferROI的有效性。在DroidLeaks和JLeaks数据集上的实验表明，InferROI实现了优异的漏洞检测率（59.3%与62.5%）和误报率（18.6%与19.5%）。相比三种工业级静态检测器，InferROI在DroidLeaks和JLeaks上分别多检出14~45和149~485个漏洞。应用于真实开源项目时，InferROI发现了29个未知资源泄漏漏洞（经作者验证），其中7个获开发者确认。消融实验进一步证实了LLM推断与静态分析结合的重要性。人工标注显示InferROI在意图推断上达到74.6%准确率和81.8%召回率，覆盖数据集中60%以上的资源类型。</span></span></p><p cid="n129" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a668/251mGxj1kBO" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a668/251mGxj1kBO</a></span></span></p><h3 cid="n130" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">42、COCA: Generative Root Cause Analysis for Distributed Systems with Code Knowledge</span></span></span></h3><p cid="n131" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">运行时故障在现代分布式系统中屡见不鲜。当此类问题发生时，用户常通过Github或JIRA等平台提交报告并寻求帮助。自动识别故障根因对保障系统高可靠性与高可用性至关重要。然而主流自动根因分析（RCA）方法高度依赖完整的运行时监控数据，而问题平台中这类数据往往残缺不全。近期研究尝试利用大语言模型（LLMs）分析问题报告，但其效果受限于用户提供信息的不完整性与模糊性。为获得更准确全面的RCA结果，本项工作的核心思想是从代码中提取额外诊断线索以补充数据受限的问题报告。具体而言，我们提出COCA——一种面向问题报告的代码知识增强型根因分析方法。该方法基于问题报告数据智能提取相关代码片段并重构执行路径，为后续RCA提供完整的执行上下文。随后，COCA构建融合历史问题报告与代码特征知识的提示模板，使LLMs能够生成详尽的根因摘要并定位责任组件。我们在五个真实分布式系统数据集上的评估表明，COCA显著优于现有方法，根因定位准确率提升28.3%，根因摘要质量提高22.0%。此外，COCA在不同LLMs上表现出的性能一致性验证了其强大的泛化能力。</span></span></p><p cid="n132" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a770/251mHDfoATe" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a770/251mHDfoATe</a></span></span></p><h3 cid="n133" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">43、Calibration and Correctness of Language Models for Code</span></span></h3><p cid="n134" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">机器学习模型被广泛应用，但也常存在错误。用户若能可靠判断特定模型的输出是否可信，便可理性决定是否采用该结果。例如，为输出关联置信度指标——若该指标与正确概率高度相关，则称模型具有良好校准性。良好校准的置信度指标能为决策提供依据，帮助开发者判断生成代码需要何种程度的审查。目前校准研究主要集中于非生成式场景（如分类任务），尤其在软件工程领域。然而生成代码常存在错误：开发者必须决定直接使用、经不同强度审查后使用或弃用模型生成的代码，因此生成式场景的校准至关重要。本文贡献包括：提出代码生成模型的校准评估框架；通过多任务、正确性标准、数据集和方法验证发现，现有生成式代码模型普遍缺乏开箱即用的校准性；展示如何通过Platt缩放等标准方法改进校准。由于Platt缩放依赖预先获取的正确性数据，我们评估了其在软件工程中的适用性与泛化性，探讨其适用场景与局限。本研究成果将提升当前语言模型生成代码的决策校准水平，并为未来改进软件工程生成式模型校准方法提供研究框架。</span></span></p><p cid="n135" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a495/215aWTgzWr6" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a495/215aWTgzWr6</a></span></span></p><h3 cid="n136" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">44、Can an LLM find its way around a Spreadsheet?</span></span></span></h3><p cid="n137" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">电子表格在商业和科学领域中被广泛使用，而其中最令人头疼的挑战之一便是在分析与评估前进行数据清洗。数据清洗问题具有临时性和随意性的特点，例如拼写错误、格式不一致、缺失值以及缺乏标准化等，这往往需要高度专业化的处理流程。我们探讨了大型语言模型（LLM）能否自如地处理电子表格数据，并研究了如何支持终端用户实现其自由形式的数据处理请求。正如RAG（检索增强生成）通过检索上下文来回答用户查询，我们展示了如何从代码库中检索元素以构建数据预处理流程。通过全面的实验，我们验证了系统的质量，并展示了系统如何通过将新代码和流程保存回代码库以供未来检索，从而持续扩充其词汇库。</span></span></p><p cid="n138" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a638/251mGdNO8uY" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a638/251mGdNO8uY</a></span></span></p><h3 cid="n139" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">45、ChatGPT Inaccuracy Mitigation during Technical Report Understanding: Are We There Yet?</span></span></span></h3><p cid="n140" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">幻觉现象——即生成无关或错误回答的倾向——是基于生成式AI的工具（如ChatGPT）中普遍存在的问题。尽管已有研究探讨ChatGPT在文本回答中的幻觉问题，但其在同时包含文本与技术术语的技术性内容中的表现尚不明确。我们调研了47名软件工程师，并从两个开源项目的缺陷报告中构建了包含412组问答对的基准数据集。研究发现，基于检索增强生成（RAG）的ChatGPT（即使用基准问题报告调优的版本）在回答问题时仅有36.4%的正确率，原因有二：1）对代码片段（如堆栈跟踪）中复杂技术内容的理解局限；2）整合技术术语与文本所描述上下文的能力不足。我们提出CHIME（ChatGPT不准确性缓解引擎），其核心原理是：若能优化技术报告的预处理并引导ChatGPT的查询验证过程，即可解决上述局限。CHIME采用上下文无关文法（CFG）解析技术报告中的堆栈跟踪，继而通过蜕变测试与查询转换来验证并修正ChatGPT的回答。在我们的基准测试中，CHIME将ChatGPT回答的修正率提升了30.3%。用户研究表明，经CHIME优化的回答被认为比原始ChatGPT生成内容更具实用性。</span></span></p><p cid="n141" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a682/251mGHiFFyE" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a682/251mGHiFFyE</a></span></span></p><h3 cid="n142" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">46、ChatGPT-Based Test Generation for Refactoring Engines Enhanced by Feature Analysis on Examples</span></span></span></h3><p cid="n143" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">软件重构被广泛用于提升软件质量。然而，手动执行重构过程不仅繁琐耗时，还容易出错。因此，工业界对自动化或半自动化的重构工具支持需求迫切，主流集成开发环境（IDE）大多提供了强大的重构功能支持。但复杂的重构引擎容易出现缺陷，进而导致不完善甚至错误的重构操作。为此，本文提出一种基于ChatGPT的重构引擎测试方法。我们首先人工分析重构引擎相关的缺陷报告与测试用例，构建了一个包含可能触发重构引擎缺陷的细粒度特征库。该方法根据预定义的提示模板和从特征库随机选取的特征自动生成提示词，要求ChatGPT生成符合指定特征的测试程序。生成的测试程序随后被送入多个重构引擎进行差分测试。据我们所知，这是首个利用历史缺陷特征指导测试程序生成的重构引擎测试方法，也是该领域首次采用大语言模型生成测试程序的研究。对四种主流重构引擎的初步评估表明，该方法能有效检测缺陷，除发现28例不同引擎间的重构行为不一致外，共识别出115个未知缺陷。其中78个缺陷已得到被测引擎（IntelliJ IDEA、Eclipse、VScode-Java和NetBeans）原开发团队的手工确认。</span></span></p><p cid="n144" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a746/251mHnEjeJq" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a746/251mHnEjeJq</a></span></span></p><h3 cid="n145" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">47、Chord: Towards a Unified Detection of Blockchain Transaction Parallelism Bugs</span></span></span></h3><p cid="n146" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">区块链系统已实现多种交易并行机制以提升系统吞吐量并降低延迟，但这些机制不可避免地引入了漏洞。此类漏洞可能导致资产损失、双花攻击、共识失败及DDoS等严重后果。遗憾的是，现有研究对其症状与根源的分析极为匮乏，导致缺乏有效检测手段。本研究对四大商业区块链的历史交易并行漏洞进行全面分析，发现多数漏洞源于对冲突交易的处理不当，且表现形式隐蔽。然而区块链的异构性使得统一触发冲突处理极具挑战性，有效识别这些漏洞同样困难。基于分析发现，我们提出检测框架Chord：通过统一冲突交易模型生成多样化冲突交易；动态调整交易提交策略并在执行过程中插入主动回滚操作以实现深度测试；结合本地-远程差异验证与TPS验证双检测机制捕捉漏洞。实验表明，Chord成功检测出54个交易并行漏洞，其触发冲突场景的能力显著优于现有方法——可使TPS降低49.7%、延迟增加388.0%，充分验证了该框架在暴露深层漏洞方面的有效性。</span></span></p><p cid="n147" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a742/251mHl8bRbW" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a742/251mHl8bRbW</a></span></span></p><h3 cid="n148" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">48、Closing the Gap: A User Study on the Real-world Usefulness of AI-powered Vulnerability Detection &amp; Repair in the IDE</span></span></span></h3><p cid="n149" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">安全漏洞给用户和组织带来了巨大损失。尽早发现并修复这些漏洞对避免漏洞利用和降低开发成本至关重要。近期研究表明深度学习模型能有效检测安全漏洞。但现有研究鲜少探讨如何将这些模型从基准测试迁移到实际应用，以及它们是否具有实用价值。本文首次针对专业软件开发人员在其自有真实项目中使用漏洞检测修复工具开展实证研究。我们实现了DEEPVULGUARD——一款集成开发环境插件工具，基于最先进的检测修复模型，在历史漏洞基准测试中表现优异。该工具通过聊天界面实现以下功能：扫描代码漏洞（包括识别漏洞类型和代码脆弱区域）、提供修复建议、生成警报与修复方案的自然语言解释。我们招募了17位微软专业开发人员，观察其使用该工具分析自有代码的过程，并通过访谈评估工具的实用性、响应速度、可信度、相关性和工作流适配性，同时收集了用户感知与功能需求的详细定性反馈。研究参与者共扫描24个项目、6900个文件、超170万行源代码，生成170条警报和50条修复建议。研究发现：尽管当前最先进的AI检测修复工具展现出潜力，但由于高误报率与修复方案适用性不足，尚无法投入实际应用。用户反馈揭示了从不完整上下文到缺乏代码库定制等可改进的痛点。此外，我们探讨了置信度评分、解释说明和聊天交互等AI特性在漏洞检测修复中的应用可能。基于这些发现，我们为AI检测修复模型的评估与部署提出了实用建议。代码与数据（含DeepVulGuard）详见：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.6084/m9.figshare.26367139" target="_blank">https://doi.org/10.6084/m9.figshare.26367139</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n150" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a663/251mGuc069W" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a663/251mGuc069W</a></span></span></p><h3 cid="n151" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">49、ClozeMaster: Fuzzing Rust Compiler by Harnessing LLMs for Infilling Masked Real Programs</span></span></span></h3><p cid="n152" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着Rust语言因其对内存安全和线程安全的高度重视而在关键系统开发中日益普及，确保Rust编译器的可靠性变得至关重要。然而，鉴于Rust复杂的语法和严格的要求，为其生成有效的测试程序面临巨大挑战。随着大语言模型（LLMs）的兴起，软件测试领域已有大量研究探索利用LLMs生成测试用例。但直接使用LLMs生成Rust程序往往会产生大量无效测试案例。现有研究表明，能触发历史编译器缺陷的测试案例有助于提升软件测试效果。我们对Rust编译器缺陷问题的调查也验证了这一观点。基于现有研究和实证发现，我们提出了一种名为clozeMask的基于括号的掩码填充策略：从历史问题报告中提取测试代码，识别并掩码具有特定结构的代码片段，再利用LLM填充掩码部分以合成新测试程序。该方法既发挥了LLMs的生成能力，又保留了触发Rust编译器缺陷的特性，可全面测试编译器行为特别是探索边界情况。我们将该方法实现为原型工具CLOZEMASTER，该工具已为rustc和mrustc编译器发现27个已确认缺陷（其中10个已被开发者修复）。实验结果表明，CLOZEMASTER在代码覆盖率和测试有效性方面均优于现有模糊测试工具。</span></span></p><p cid="n153" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a712/251mH1NLq1y" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a712/251mH1NLq1y</a></span></span></p><h3 cid="n154" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">50、Code Cloning in Solidity Smart Contracts: Prevalence, Evolution, and Impact on Development</span></span></span></h3><p cid="n155" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，Solidity智能合约的开发应用呈现快速增长趋势。代码克隆作为一种常见编程实践，已有大量研究表明其可能对软件维护与质量产生负面影响。然而针对Solidity智能合约中代码克隆的特性及其影响，目前尚缺乏系统性研究。为填补这一空白，本文深入探究了Solidity智能合约中代码克隆的普遍性、演化规律与缺陷关联性，并进一步揭示了克隆产生的潜在原因。通过对26,294份智能合约（包含97,877个函数）的评估分析，我们发现代码克隆在智能合约中普遍存在。平均而言，32.01%的克隆代码会协同演化，这提示开发者需要谨慎管理以避免一致性问题。值得注意的是，与传统软件开发不同，智能合约中的代码克隆极少涉及缺陷修复。最后，我们归纳出影响克隆产生的三大关键因素。本研究可为开发者理解和管理Solidity智能合约中的代码克隆提供重要参考。</span></span></p><p cid="n156" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a660/251mGs7pOeI" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a660/251mGs7pOeI</a></span></span></p><h3 cid="n157" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">51、Code Comment Inconsistency Detection and Rectification Using a Large Language Model</span></span></span></h3><p cid="n158" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">源代码中广泛使用注释。若注释与其标注的代码段保持一致，将有助于代码理解；反之，代码注释不一致（CCI）不仅妨碍代码理解，更会对软件开发、测试与维护产生负面影响。现有研究主要聚焦于不一致性检测，但性能参差不齐。显然仅靠检测无法解决问题，仅为解决之道铺路。完整解决方案需检测不一致性，更重要的是通过修正注释实现修复，而此类工作尚属稀缺。本文提出C4RLLaMA——基于开源CodeLLaMA微调的大语言模型，不仅能通过修正注释内容修复不一致性，其检测性能更超越现有最优方法。多数据集实验证实，C4RLLaMA在事后与即时CCI检测中均表现更优。更重要的是，C4RLLaMA在多项指标上大幅超越当前唯一已知的CCI修复方法。为深入评估修复效果，我们开展人工评测，结果显示C4RLLaMA在即时与事后场景下的注释修正正确率分别达65.0%与55.9%，表明其具备实际应用潜力。</span></span></p><p cid="n159" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a432/215aWPzNfB6" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a432/215aWPzNfB6</a></span></span></p><h3 cid="n160" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">52、Code Today, Deadline Tomorrow: Procrastination Among Software Developers</span></span></span></h3><p cid="n161" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">拖延，即延迟或推迟某项任务的行为，是一种众所周知的普遍现象。尽管学术界已对其展开研究，但关于软件开发人员为何拖延的认知仍十分有限。拖延如何影响他们的工作？开发者又该如何应对拖延？本文首次针对开发者群体的拖延现象展开研究。我们采访了来自不同行业的15名开发者，通过定性编码方法，归纳出参与者感知到的拖延积极与消极影响及其诱发因素，并采用成员核查法验证了研究发现。研究结果揭示了拖延对开发效率的14种负面影响，但参与者同时报告了8种积极影响（其中4种提升工作满意度）。我们还发现诱发拖延的因素可分为三类：任务相关因素、个人因素及外部因素。最后，本文结合参与者反馈与其他领域研究，提出19种缓解拖延影响的技巧，包括提升自我觉察与任务专注度、辅助任务规划、建立团队支持路径等应对策略。基于这些发现，我们探讨了针对开发者的干预措施及工具设计建议。本研究证明，开发者群体的拖延现象具有独特的影响因素与作用机制。</span></span></p><p cid="n162" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a735/251mHgxubJe" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a735/251mHgxubJe</a></span></span></p><h3 cid="n163" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">53、CodeImprove: Program Adaptation for Deep Code Models</span></span></span></h3><p cid="n164" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">利用深度学习（DL）的代码分析工具解决软件工程任务正日益普及。代码模型常因多种原因（如代码数据偏移）出现性能下降，而重新训练虽能解决此类问题，但频繁的模型更新在标注和部署方面成本高昂。本文探索了一种替代方案：调整程序输入以适应代码模型。该方案通过两步实现：1）输入验证——重点识别超出模型处理能力的范围外输入程序；2）输入适配——将范围外输入调整为范围内输入。程序输入的验证具有挑战性，因为现有技术主要针对图像数据等连续输入，而代码数据作为离散输入具有独特特征且深度学习模型处理方式不同，导致现有方法失效。范围外程序的适配同样困难，因其搜索空间庞大。为此，本文提出CodeImprove，该系统能区分范围外与正常输入，并通过程序转换将范围外输入还原为范围内输入。具体而言，我们提出有效性评分指标来识别范围外输入，并利用遗传算法进行语义保持的程序转换。实验结果表明，CodeImprove在两个软件工程任务的三个代码模型上最高可提升8.78%的准确率，相对改进达51.28%。此外，我们的输入验证方法在检测范围外输入方面表现优异（AUC得分0.924）。</span></span></p><p cid="n165" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a676/251mGCUJWWQ" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a676/251mGCUJWWQ</a></span></span></p><h3 cid="n166" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">54、Combining Fine-tuning and LLM-based Agents for Intuitive Smart Contract Auditing with Justifications</span></span></span></h3><p cid="n167" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">智能合约是构建在以太坊等区块链之上的去中心化应用。近期研究表明，大型语言模型（LLM）在智能合约审计领域具有潜力，但现有技术显示，即便是GPT-4模型也仅能达到30%的精确度（要求判断与依据同时正确）。这很可能因为现成的LLM主要基于通用文本/代码语料库进行预训练，而未针对Solidity智能合约审计这一特定领域进行微调。本文提出iAudit框架，该通用框架结合微调技术与基于LLM的智能体，实现带解释说明的直观智能合约审计。具体而言，iAudit的灵感来源于专业审计人员的操作模式：他们首先感知潜在问题，继而通过代码细粒度分析定位漏洞成因。为此，iAudit采用两阶段微调策略：先微调检测模型（Detector）作出判断，再微调推理模型（Reasoner）生成漏洞成因。然而，仅靠微调难以精准识别最优漏洞成因。因此，我们引入基于LLM的排序器（Ranker）与校验器（Critic）两个智能体，基于微调后的推理模型输出，通过迭代筛选与辩论机制确定最合适的漏洞成因。为评估iAudit，我们收集了包含1,734个正样本与1,810个负样本的平衡数据集进行微调，并将其与传统微调模型（CodeBERT、GraphCodeBERT、CodeT5和UnixCoder）以及基于提示学习的LLM（GPT4、GPT-3.5和CodeLlama-13b/34b）进行对比。在包含263个真实智能合约漏洞的数据集上，iAudit的F1值达到91.21%，准确率为91.11%。其生成的漏洞成因与真实成因的一致性达到约38%。</span></span></p><p cid="n168" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a330/215aWJuPWRq" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a330/215aWJuPWRq</a></span></span></p><h3 cid="n169" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">55、Coni: Detecting Database Connector Bugs via State-Aware Test Case Generation</span></span></span></h3><p cid="n170" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">数据库连接器被广泛应用于各类程序中，以实现灵活便捷的数据库交互。连接器中潜在的缺陷可能导致应用程序出现多种异常行为，例如返回错误结果或遭遇意外连接中断。然而现有数据库管理系统模糊测试方案主要聚焦于SQL语句生成，且仅使用少量连接器接口，无法直接适用于数据库连接器测试。由于缺乏领域知识，自动化测试用例生成技术同样难以构造能探索连接器复杂交互行为的有效用例。测试数据库连接器的核心挑战在于生成具有语义正确性、能触发多种连接器状态转换的测试用例。为此，我们提出Coni框架，通过状态感知的测试用例生成来检测数据库连接器逻辑漏洞。首先通过分析标准规范定义连接器状态模型，基于该模型生成包含多状态转换的接口调用序列。随后根据参数信息和运行时收集的上下文信息生成合适参数值，最终在目标连接器和参考连接器上执行测试用例，结果不一致则表明存在潜在缺陷。我们在5款主流JDBC连接器（MySQL Connector/J、MariaDB Connector/J、AWS JDBC Driver for MySQL、PGJDBC及PG JDBC NG）上评估Coni，共发现44个未知漏洞，其中34个已获确认。</span></span></p><p cid="n171" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a026/215aWngae64" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a026/215aWngae64</a></span></span></p><h3 cid="n172" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">56、ConsCS: Effective and Efficient Verification of Circom Circuits</span></span></span></h3><p cid="n173" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Circom是一种用于编写算术电路的流行编程语言，可生成zk-SNARKs等零知识证明（ZKP）。ZKP在zkRollups等协议中受到极大关注。Circom电路会被编译为Rank-1约束系统（R1CS）电路，并基于此生成zk-SNARK证明。然而，R1CS电路面临的主要挑战之一是约束不足问题——由于约束不充分，可能导致错误计算通过验证，进而引发安全漏洞。本文提出新型框架ConsCS以实现Circom电路的自动化验证，其贡献包含三方面：1）提出创新的电路推理规则，在缩减电路规模的同时，比现有工作提取更全面的信息；2）引入新型二进制属性图（BPG）作为高效推理引擎，其效果与效率均超越现有工具；3）利用细粒度领域特定信息指导SMT求解器处理非线性约束，将现有工作的SMT查询成功率从2.68%提升至48.84%。实验表明，ConsCS将现有工作的解决率从50-60%提升至80%以上。</span></span></p><p cid="n174" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a737/251mHhOXS9i" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a737/251mHhOXS9i</a></span></span></p><h3 cid="n175" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">57、Constrained LTL Specification Learning from Examples</span></span></span></h3><p cid="n176" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">时态逻辑规约在软件分析任务中具有重要作用，广泛应用于模型检测、自动合成、程序理解及运行时监测等领域。给定一组由轨迹表示的正负示例，LTL学习的目标是合成一个线性时态逻辑（LTL）规约，使其对正例返回真值而对负例返回假值。本文提出了一种新型约束式LTL学习问题：除正负示例外，用户还可指定待学习LTL公式所需满足的一个或多个属性约束。我们证明这些附加约束能力能显著扩展LTL学习的应用范围，并支持高效生成满足特定需求（如最小化）的LTL公式。通过将问题编码为一阶关系逻辑并归约为最大可满足性（MaxSAT）问题，我们提出了约束式LTL学习的解决方案。实验评估表明，基于该方法的实现工具ATLAS不仅能解决新型学习问题，其性能更优于或媲美当前最先进的LTL学习工具。</span></span></p><p cid="n177" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a697/251mGQTUvjW" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a697/251mGQTUvjW</a></span></span></p><h3 cid="n178" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">58、Context Conquers Parameters: Outperforming Proprietary LLM in Commit Message Generation</span></span></span></h3><p cid="n179" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">提交信息通过自然语言描述代码提交中的修改内容，这对软件维护和演进至关重要。随着大语言模型（LLM）的发展，研究者开始利用其生成高质量的提交信息，例如全能提交信息生成器（OMG）。该方法采用GPT-4生成最先进的提交信息。然而，在编码任务中使用GPT-4等专有大语言模型存在隐私和可持续性隐患，可能阻碍其在工业界的应用。鉴于开源大语言模型在编译器验证等开发者任务中已展现出竞争力，本研究探讨其能否生成与OMG相媲美的提交信息。实验表明，开源大语言模型生成的提交信息质量可与OMG匹敌。通过一系列上下文优化，我们进一步提出OMEGA方案——采用4比特量化的80亿参数开源大语言模型。OMEGA生成的提交信息达到业界最优水平，在实际开发者偏好评估中超越了GPT-4的表现。</span></span></p><p cid="n180" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a585/251mFBMpvfa" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a585/251mFBMpvfa</a></span></span></p><h3 cid="n181" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">59、Cooperative Software Verification via Dynamic Program Splitting</span></span></span></h3><p cid="n182" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">协同软件验证通过将验证任务分配给多个验证工具以提高效率和效果。其基本思路是让不同验证器分别处理程序的不同部分，最终合并验证结果。尽管这一理念直观可行，但协同验证通常面临两大阻碍：(1) 程序分解往往是静态的，未能考虑各验证器的优势与短板；(2) 分解后的程序片段常以特定专有格式表示，导致难以在协同验证中使用现成验证器。本文提出名为动态程序切分(DPS)的创新协同验证方案。切分机制将程序分解为若干（更小的）子程序，从而直接支持现成工具的使用。DPS采用动态按需切分策略：验证过程始于将验证任务（程序及正确性规范）分配给验证器V1。当V1判定当前任务难以验证时，即对任务（即程序）进行切分并重启子任务验证。该过程持续至出现以下情形：(1) 发现违规行为；(2) 所有子任务完成；(3) 达到用户定义的终止条件。第三种情况下，剩余未完成的子任务将合并为单个任务移交至下一验证器V2，对未验证程序部分重复相同流程。这种机制通过验证器的验证难度动态引导分解过程，充分发挥各验证器的互补优势。我们实现了动态程序切分方案，并在年度软件验证竞赛SV-COMP的基准测试集上进行评估。结果表明：采用DPS的协同验证能够解决所有组成验证器均无法独立完成的验证任务，且未产生显著性能开销。</span></span></p><p cid="n183" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a629/251mG7REoNi" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a629/251mG7REoNi</a></span></span></p><h3 cid="n184" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">60、Critical Variable State-Aware Directed Greybox Fuzzing</span></span></span></h3><p cid="n185" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">定向模糊测试是一种高效的软件测试方法，它能引导模糊测试活动朝向用户定义的目标兴趣点，从而发现与这些目标点相关的漏洞。然而，即使生成的测试用例覆盖了目标点附近的代码，复杂的漏洞仍可能未被触发。由于仅关注覆盖新边的测试用例，与目标相关的程序状态往往被忽视，导致目标点测试不充分，难以捕获复杂漏洞。本文提出了一种名为CSFuzz的新型定向模糊测试方案，该方案关注与目标点关联的程序状态。首先，CSFuzz通过静态分析从程序中提取与目标点相关的关键变量；其次，通过监控这些关键变量的运行时值，并基于变量值范围的自适应划分来推断与目标点关联的程序状态，从而将触发目标点附近新状态的有趣种子存入状态语料库；最后，CSFuzz采用动态调度技术引导模糊测试活动选择不同语料库并优先处理特定种子，确保对目标点进行更充分的测试。我们实现了CSFuzz原型，并在2个基准测试集和广泛使用的真实软件上进行评估。实验结果表明，CSFuzz在漏洞检测能力上优于当前最先进的模糊测试工具，最高提速达219%。此外，CSFuzz已发现4个新漏洞，其中2个获得CVE编号。</span></span></p><p cid="n186" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a755/251mHtx3MSk" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a755/251mHtx3MSk</a></span></span></p><h3 cid="n187" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">61、DPFuzzer: Discovering Safety Critical Vulnerabilities for Drone Path Planners</span></span></span></h3><p cid="n188" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">最先进的无人机路径规划器使无人机能够在无GPS信号、未知且障碍物密集的环境中自主穿行。然而，我们的研究表明，路径规划器在特定场景下无法正确操控无人机，从而导致碰撞等事故。为降低此类风险，无人机路径规划器在部署前应针对多样化场景进行充分测试。现有无人机测试研究仅聚焦于飞行控制程序，且缺乏为测试路径规划器生成多样化障碍场景的能力。本文提出DPFuzzer——一种自动化测试无人机路径规划器的框架。该框架基于进化算法（EA），旨在通过生成能触发漏洞的多样化关键场景来发现路径规划器的安全隐患。为更好地指导关键场景生成，我们提出&#34;环境风险因子&#34;（ERF）这一度量指标，用以抽象化场景的潜在安全威胁。我们在前沿无人机路径规划器上评估DPFuzzer，实验结果表明该框架能有效发现多样化漏洞。此外，我们验证了这些漏洞可在现实世界的商用无人机上被实际利用。</span></span></p><p cid="n189" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a588/251mFDMaBXi" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a588/251mFDMaBXi</a></span></span></p><h3 cid="n190" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">62、Datalog-Based Language-Agnostic Change Impact Analysis for Microservices</span></span></span></h3><p cid="n191" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">业界推崇的左移原则要求我们尽早对软件应用进行测试。具体而言，当微服务应用的代码变更提交至代码仓库时，我们必须高效识别出所有受变更影响的公共微服务接口，以便尽快测试这些受影响接口。然而，由于多语言问题，在微服务中开发高效的变更影响分析极具挑战性：微服务应用通常采用多种编程语言实现，并涉及多样化的框架与配置文件。为此，本文提出Microscope——一种与语言无关的变更影响分析方法，其通过关系型Datalog规则统一表示代码、配置文件、框架及代码变更，进而利用高效的Datalog求解器识别受影响接口。基于领先软件厂商蚂蚁集团实际应用的实验表明：Microscope能成功识别112次代码提交所影响的接口，在可接受的时间开销内同时保证高效性与准确性，可在代码变更后减少97%的待测接口并节省73%的测试时间。</span></span></p><p cid="n192" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a652/251mGmL1wVa" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a652/251mGmL1wVa</a></span></span></p><h3 cid="n193" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">63、Decictor: Towards Evaluating the Robustness of Decision-Making in Autonomous Driving Systems</span></span></span></h3><p cid="n194" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">自动驾驶系统（ADS）测试在开发过程中至关重要，当前研究主要聚焦于安全性。然而，非安全关键性能的评估——尤其是ADS为自动驾驶车辆（AV）做出最优决策并生成最优路径的能力——对于确保智能性和降低风险同样不可或缺。目前鲜有工作致力于评估ADS路径规划决策（PPD）的鲁棒性，即当环境发生微小变化时，ADS能否保持最优PPD。核心挑战在于缺乏评估PPD最优性的明确预言机制，以及难以搜索导致非最优PPD的场景。为填补这一空白，本文重点评估ADS的PPD鲁棒性，首次提出非最优决策场景（NoDS）生成方法Decictor——当ADS无法为AV规划最优路径时触发。该方法包含三大组件：非侵入式变异、一致性检验和反馈机制。针对预言机制缺失的挑战，非侵入式变异通过保守修改确保变异场景保留原始最优路径；随后通过对比原始与变异场景中的行驶路径，一致性检验可判定是否存在非最优PPD。针对环境空间庞大的挑战，我们设计融合AV运动时空维度的反馈指标，这些指标对高效引导NoDS生成至关重要。Decictor通过生成新场景并识别其中的NoDS实现目标。我们在开源工业级ADS百度Apollo上进行评估，实验结果验证了Decictor检测非最优PPD的有效性：其共生成63.9个NoDS，而最优基线方法仅检测到35.4个。</span></span></p><p cid="n195" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a651/251mGm7hGI8" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a651/251mGm7hGI8</a></span></span></p><h3 cid="n196" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">64、Decoding Secret Memorization in Code LLMs Through Token-Level Characterization</span></span></span></h3><p cid="n197" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">代码大语言模型（LLMs）在生成、理解和操作编程代码方面展现出卓越能力。然而，其训练过程会无意间记忆敏感信息，导致严重的隐私风险。现有关于LLMs记忆效应的研究主要依赖提示工程技术，但这些方法存在幻觉现象普遍、目标敏感信息提取效率低下等局限性。本文提出一种基于令牌概率的新方法，用于区分代码LLMs生成的真实秘密与虚假秘密。我们识别出真实秘密区别于幻觉秘密的四个关键特征，为区分真伪秘密提供了理论依据。为突破现有研究的局限，我们提出DESEC——一种两阶段方法，利用从特征中提取的令牌级信息指导解码过程。DESEC首先通过代理代码LLM构建离线令牌评分模型，随后运用该评分模型通过重新分配令牌似然值来引导解码过程。基于多样化数据集对四种前沿代码LLM开展的实验表明，相较于现有基线方法，DESEC在提升合理率与提取更多真实秘密方面具有显著优势。我们的研究证实了这种令牌级方法在全面评估代码LLMs隐私泄露风险方面的有效性。</span></span></p><p cid="n198" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a765/251mHAcUWwo" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a765/251mHAcUWwo</a></span></span></p><h3 cid="n199" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">65、Decoding the Issue Resolution Process in Practice via Issue Report Analysis: A Case Study of Firefox</span></span></span></h3><p cid="n200" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">有效管理和解决软件问题对于维护和发展软件系统至关重要。开发团队通常依赖问题跟踪器和问题报告来追踪和管理问题解决过程中的各项工作，包括问题复现、分析、解决方案设计、实施、验证及部署。尽管软件工程界普遍认为问题解决流程是一系列顺序活动，但开发者实际执行该流程的方式及其在问题报告中的讨论细节仍不明确。本文通过分析Mozilla Firefox的问题报告，旨在深化对实践中问题解决流程的理解。我们对356份Firefox问题报告中的讨论内容进行了定性与定量分析，以识别开发者处理各类软件问题时经历的阶段序列。通过分析这些序列，我们揭示了Firefox的整体解决流程，并归纳出代表该流程实例的47种模式。我们从模式复杂度、问题报告类型、问题分类及解决时长等多个维度对流程和模式进行分析，从而获得关于Mozilla问题解决流程的多方面洞见。最后，我们探讨了这些发现及其对不同利益相关方的启示，以帮助他们更好地评估和改进问题解决流程。</span></span></p><p cid="n201" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a777/251mHHwelfq" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a777/251mHHwelfq</a></span></span></p><h3 cid="n202" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">66、Deep Learning-based Code Reviews: A Paradigm Shift or a Double-Edged Sword?</span></span></span></h3><p cid="n203" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">已有多种技术被提出用于（部分）自动化代码审查。早期的支持手段包括为特定代码变更推荐最合适的审查者或对审查任务进行优先级排序。随着深度学习在软件工程中的应用，自动化水平达到了新高度——现有方法能像人类审查者一样用自然语言对源代码提供反馈。此外，近期研究记录了开源项目采用大型语言模型（LLM）作为协同审查者的实践。尽管该领域研究非常活跃，但自动生成代码审查对审查流程的实际影响仍鲜为人知。虽然存在多个值得探究的方面（例如开发者间的知识传递是否受影响？），本研究重点关注以下三点：(i) 审查质量，即审查者发现代码问题的能力；(ii) 审查成本，即代码审查耗时；(iii) 审查者信心，即其对所提供反馈的确信程度。我们开展了包含29名专业开发者的对照实验，要求他们在有无自动生成审查建议支持下分别审查不同程序。实验过程中记录了超过50小时的审查活动数据。研究表明：审查者普遍认可LLM自动识别的大部分问题，且自动化审查作为起点会显著改变其行为模式——审查者倾向于聚焦LLM指出的代码位置，而非主动搜寻其他部分的潜在问题。相比完全人工流程，基于自动化审查起点的审查者能发现更多低严重性问题，但高严重性问题的发现数量并未提升。最后，自动化支持既未节省时间成本，也未增强审查者信心。</span></span></p><p cid="n204" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a597/251mFKpbMiI" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a597/251mFKpbMiI</a></span></span></p><h3 cid="n205" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">67、Definition and Detection of Centralization Defects in Smart Contracts</span></span></span></h3><p cid="n206" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，智能合约的中心化缺陷引发的安全事件已造成巨额经济损失。中心化缺陷指智能合约在设计或开发阶段引入单点故障的任何错误、缺陷或疏漏。此类缺陷使得特定账户或用户能够干扰智能合约的正常运行，可能导致功能异常甚至项目彻底瘫痪。尽管该问题至关重要，当前多数智能合约分析仍忽视中心化缺陷，主要聚焦于其他类型缺陷。为填补这一空白，本文通过人工分析597篇Stack Exchange帖子和117份审计报告，归纳出六类智能合约中心化缺陷。针对每类缺陷，我们提供详细描述和代码示例以阐明其特征及潜在影响。此外，我们开发了名为CDRipper（中心化缺陷提取器）的检测工具，该工具通过构建权限依赖图（PDG）并从智能合约源代码中提取函数的权限依赖关系，进而识别函数中的敏感操作，最终基于预定义模式检测中心化缺陷。我们对244,424个真实智能合约展开大规模实验，并基于人工标注数据集评估结果。研究发现82,446份合约至少存在六类中心化缺陷之一，该工具整体准确率达93.7%。</span></span></p><p cid="n207" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a595/251mFJ0TIL6" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a595/251mFJ0TIL6</a></span></span></p><h3 cid="n208" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">68、Demystifying and Detecting Cryptographic Defects in Ethereum Smart Contracts</span></span></span></h3><p cid="n209" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">以太坊官方提供了一套系统级加密API，旨在为智能合约赋予密码学能力。这些API已被应用于超过10%的以太坊交易中，激励开发者实现各类链上密码学任务（如数字签名）。但由于开发者未必具备密码学专业知识，其临时性且可能存在缺陷的实现方式可能破坏密码学的理论保障，进而引发实际安全问题。为应对这一威胁，我们开展了首项针对智能合约密码学缺陷的解析与检测研究。通过分析2,406份真实安全报告，我们定义了九类智能合约密码学缺陷，并提供详细描述与实用检测模式。基于此分类体系，我们提出CrySol工具——一种基于模糊测试的智能合约密码学缺陷自动化检测方案。该工具结合交易回放与动态污点分析技术提取细粒度密码学语义，并采用密码学专用策略指导测试用例生成过程。此外，我们构建了包含25,745个真实密码学相关智能合约的大规模数据集进行评估。实验结果表明CrySol总体精确率达95.4%，召回率为91.2%。值得注意的是，CrySol检测发现25,745个合约中有5,847个（22.7%）至少存在一种密码学缺陷，凸显了此类缺陷的普遍性。</span></span></p><p cid="n210" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a114/215aWwYv26Y" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a114/215aWwYv26Y</a></span></span></p><h3 cid="n211" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">69、DesignRepair: Dual-Stream Design Guideline-Aware Frontend Repair with Large Language Models</span></span></span></h3><p cid="n212" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLM）的兴起通过Vercel的V0等工具简化了前端界面创建，但也暴露出设计质量（如可访问性和可用性）方面的挑战。现有解决方案常因关注范围有限、普适性不足或数据依赖性等问题，难以应对这些复杂挑战。此外，当前尚无研究系统评估LLM生成的UI设计质量。本研究提出DesignRepair——一个基于设计规范的双流系统，通过代码层面与页面渲染层面的双重检测来修复UI设计质量问题，并以成熟且广泛应用的Material Design作为指导知识库。具体而言，我们首先构建了包含谷歌Material设计原则的综合性知识库，将其编码为底层组件知识库与高层系统设计知识库。随后，DesignRepair利用LLM提取关键组件，并通过Playwright工具进行精准页面分析，将结果与知识库进行比对。最后，我们采用检索增强生成技术结合GPT-4等前沿LLM，通过分治策略全面优化前端代码。大量实验验证了该方法的有效性，其显著提升了设计规范符合度、可访问性及用户体验指标。</span></span></p><p cid="n213" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a646/251mGiYhglO" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a646/251mGiYhglO</a></span></span></p><h3 cid="n214" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">70、Dissecting Global Search: A Simple yet Effective Method to Boost Individual Discrimination Testing and Repair</span></span></span></h3><p cid="n215" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">深度学习（DL）在涉及社会重大决策的应用中取得了显著成功，但常常表现出不公平行为，引发社会担忧。其中，个体歧视——即考察仅在性别、种族、年龄等敏感属性上存在差异而其他特征完全相同的实例对之间的不平等——具有极强的社会影响力。现有方法在模型部署前检测个体歧视方面做出了重要且值得称赞的努力，但其效率和效果仍存在局限，尤其在评估相对更公平的模型时。目前尚不清楚现有测试框架中的哪个环节（全局阶段或局部阶段）是限制性能的主要瓶颈。针对上述问题，我们首先发现：相较于优化局部阶段，增强全局阶段能持续提升整体测试效果。基于此，我们提出遗传随机公平性测试（GRFT），一种高效且精准的方法。在全局阶段，采用遗传算法引导搜索更具全局性的歧视实例；在局部阶段，通过轻量级随机搜索探查这些实例的邻域，避免耗时计算。此外，基于适应度评分，我们还提出了一种简洁而有效的修复方法。为全面评估，我们开展了大规模实验，涵盖6种测试方法、5个数据集、261个模型（包括5个原始训练模型、64个修复模型和192个面向设备端部署的量化模型）以及16种敏感属性组合，结果证明了GRFT及所提修复方法的优越性能。</span></span></p><p cid="n216" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a771/251mHDPJfxu" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a771/251mHDPJfxu</a></span></span></p><h3 cid="n217" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">71、Distilled Lifelong Self-Adaptation for Configurable Systems</span></span></span></h3><p cid="n218" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">现代可配置系统为构建未来智能软件系统提供了巨大机遇。其核心挑战在于如何有效实现运行系统的自我调优配置，从而在时变工作负载下优化性能指标（如运行时间和吞吐量）。现有方法因忽视历史知识的利用，或静态调用过往经验而未评估信息有效性，至今未能解决这一难题。本文提出DLiSA框架应对这一挑战，该框架具备两大特性：其一支持终身学习规划，使规划过程贯穿系统全生命周期，动态利用累积知识实现快速调优；其二通过蒸馏知识播种加速新工作负载的规划过程，动态提纯历史知识，仅在必要时注入有效配置，避免误导信息干扰。大量实验表明，DLiSA显著优于现有最优方法，生成优质调优配置的性能提升最高达229%，资源加速比达2.22倍。所有数据及源码详见项目仓库：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/ideas-labo/dlisa" target="_blank">https://github.com/ideas-labo/dlisa</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n219" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a631/251mG9jDf1K" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a631/251mG9jDf1K</a></span></span></p><h3 cid="n220" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">72、Diversity Drives Fairness: Ensemble of Higher Order Mutants for Intersectional Fairness of Machine Learning Software</span></span></span></h3><p cid="n221" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">交叉公平性是机器学习（ML）软件的关键要求，它要求跨多个受保护属性定义的子群体实现公平性。本文提出FairHOME——一种新颖的集成方法，通过输入的高阶变异在推理阶段增强ML软件的交叉公平性。受社会科学理论强调多样性优势的启发，FairHOME为每个输入实例生成代表不同子群体的变异体，从而拓宽视角范围以促进更公平的决策过程。与传统集成方法（组合不同模型的预测结果）不同，FairHOME组合同一ML模型对原始输入及其变异体的预测结果来形成最终决策。值得注意的是，FairHOME甚至适用于已部署的ML软件，因为它无需训练新模型。我们使用广泛采用的指标，在24个决策任务中对FairHOME与七种最先进的公平性改进方法进行了全面评估。FairHOME在所有考量指标上均持续优于现有方法，平均将交叉公平性提升47.5%，较当前最佳方法高出9.6个百分点。</span></span></p><p cid="n222" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a659/251mGrwemcg" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a659/251mGrwemcg</a></span></span></p><h3 cid="n223" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">73、Dockerfile Flakiness: Characterization and Repair</span></span></span></h3><p cid="n224" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Dockerfile的不可靠性——由外部依赖和动态环境变化引发的不可预测的临时构建失败——会破坏部署可靠性并增加调试负担。与传统Dockerfile问题不同，这种不可靠性在未修改Dockerfile本身的情况下就会发生，使得问题解决更为复杂。本研究首次对Dockerfile不可靠性进行全面分析，通过对8,132个Docker化项目进行为期九个月的追踪，发现约10%的项目存在不可靠行为。我们提出了一种分类法，将常见不可靠性原因归纳为依赖项错误和服务器连接问题等类别。现有工具由于依赖预定义规则且泛化能力有限，难以有效应对这些挑战。为此，我们提出了FLAKIDOCK——一个结合静态/动态分析、相似性检索以及基于大语言模型（LLMs）迭代反馈机制的新型修复框架。实验表明，FLAKIDOCK的修复准确率达到73.55%，显著优于现有最优工具和基线方法。</span></span></p><p cid="n225" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a774/251mHFJwMwg" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a774/251mHFJwMwg</a></span></span></p><h3 cid="n226" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">74、Does GenAI Make Usability Testing Obsolete?</span></span></span></h3><p cid="n227" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">确保可用性对移动应用的成功至关重要。可用性问题会损害用户体验，并对应用质量的感知产生负面影响。本文提出UX-LLM，这是一种由大型视觉语言模型驱动的新型工具，可预测iOS应用中的可用性问题。为评估UX-LLM的性能，我们预测了两个中等复杂度开源应用的可用性问题，并邀请两位可用性专家对预测结果进行评估。我们还对这两个应用进行了传统可用性测试和专家评审，并将结果与UX-LLM的预测结果进行比较。UX-LLM的精确度介于0.61至0.66之间，召回率在0.35至0.38之间，表明其能够识别有效的可用性问题，但未能捕捉大多数问题。最后，我们与一个开发视障人士公交应用的毕业设计团队进行了焦点小组讨论。该小组对UX-LLM持积极态度，因为它发现了应用中未知的可用性问题，但也对其融入开发流程提出了改进建议。结果表明，UX-LLM虽无法完全取代传统可用性评估方法，但由于其能够检查源代码，可作为资源有限的小型团队的有益补充，尤其适用于识别较少出现的用户路径中的问题。</span></span></p><p cid="n228" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a675/251mGC4Nm92" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a675/251mGC4Nm92</a></span></span></p><h3 cid="n229" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">75、EP-Detector: Automatic Detection of Error-prone Operation Anomalies in Android Applications</span></span></span></h3><p cid="n230" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">安卓应用已深度融入并广泛应用于我们的日常生活，用户对操作便捷性和鲁棒性等体验优化的需求与日俱增。然而开发者仍过度聚焦传统功能与性能优化，忽视了实际场景中用户体验的关键作用。例如设计缺陷的页面元素可能引发用户误操作，导致非预期结果，这类现象被称为易误操作异常（EPA）。本研究首次系统揭示了EPA问题的本质：通过主体、客体与环境三维度剖析其根源，采用多阶段属性捕获与精准相似度计算进行归因，最终将成因细分为行为混淆性、布局失当性及资源过载性三类。基于此，我们研发了动态GUI测试工具EP-Detector，其搭载基于控件探索的目标导航与自动化测试预言机制，能全面精准地识别易误页面元素并模拟交互事件。为量化现实场景中EPA的普遍性与危害程度，我们对53款主流安卓应用展开实验。实证结果不仅验证了EP-Detector具备90.3%的准确率与88.7%的召回率，更揭示出现有应用平均每两个页面控件就存在至少1个EPA，其中28.3%可能导致安全或功能性问题。EP-Detector已开源：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/WordDealer/EP-Detector" target="_blank">https://github.com/WordDealer/EP-Detector</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n231" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a355/215aWKXnZm0" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a355/215aWKXnZm0</a></span></span></p><h3 cid="n232" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">76、Early Detection of Performance Regressions by Bridging Local Performance Data and Architectural Models</span></span></span></h3><p cid="n233" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在软件开发过程中，开发者常需进行大量修改以修复问题或实现新功能。然而某些变更可能无意间对系统整体性能造成负面影响。为确保新版本软件性能不发生退化（即避免性能回退），现行实践依赖系统级性能测试（如负载测试）或组件级性能测试（如微基准测试）来检测性能回退。但全系统性能测试往往成本高昂且耗时，难以适应现代DevOps实践中常见的快速发布周期。此外，系统级性能测试必须待系统完全构建部署后才能执行。另一方面，组件级测试仅关注独立组件，忽略了系统整体性能及工作负载的影响。本文提出一种创新方法，通过桥接组件测试生成的局部性能数据与系统级架构模型，实现性能回退的早期检测。我们的方法利用局部性能数据识别组件级偏差，进而将偏差传播至架构模型，最终通过该模型预测系统整体性能回退。通过对两个代表性开源基准系统的评估，我们证明该方法能有效检测不同强度局部偏差及各类系统负载下的端到端性能回退。更重要的是，相较于现有方案必须等待系统完整构建部署，我们的方法可在开发阶段早期实现检测。该方法具有轻量化特性，在测试资源有限时可作为传统系统性能测试的有效补充。</span></span></p><p cid="n234" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a317/215aWIMQ7Hq" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a317/215aWIMQ7Hq</a></span></span></p><h3 cid="n235" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">77、EffBT: An Efficient Behavior Tree Reactive Synthesis and Execution Framework</span></span></span></h3><p cid="n236" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">行为树（BTs）最初源于非玩家角色（NPC）的控制，因其模块化、反应性等优势特性，已被机器人学和软件工程领域广泛采纳。如何自动合成行为树成为关键需求，随之而来的挑战是确保生成的BT在语义上正确、结构良好且执行高效。为此，本文提出一种新型反应式BT合成方法EffBT，能够从GR(1)形式化规约自动生成正确高效的控制逻辑。其核心思想是基于GR(1)可实现性检验算法推导的中间策略，构建具备形式保证的行为树。此外，我们首次引入剪枝策略并利用\textit{Parallel}节点优化BT执行效率。理论证明了EffBT方法的可靠性，实验结果表明该方法在多种场景和数据集上均具有显著有效性。</span></span></p><p cid="n237" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a761/251mHxBpbvG" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a761/251mHxBpbvG</a></span></span></p><h3 cid="n238" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">78、Efficient Domain Augmentation for Autonomous Driving Testing Using Diffusion Models</span></span></span></h3><p cid="n239" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于仿真的测试被广泛用于评估自动驾驶系统（ADS）的可靠性，但其有效性受限于此类仿真器所能提供的运行设计域（ODD）条件。为突破这一局限，本研究探索将生成式人工智能技术与基于物理的仿真器相结合，以增强ADS系统级测试。我们评估了基于扩散模型的三种生成策略（指令编辑、图像修复及带优化的图像修复）在生成代表新ODD的驾驶场景增强仿真图像时的效能与计算开销。通过采用基于语义分割的新型自动无效输入检测器，我们确保神经网络生成图像在语义保持和真实感方面的质量。随后开展的系统级测试评估了ADS对新合成ODD的泛化能力。实验表明：扩散模型能有效提升系统级测试的ODD覆盖率；我们的自动语义验证器误报率低至3%，保障了生成图像用于测试的正确性与质量；该方法成功在真实道路测试前识别出新的ADS系统故障。</span></span></p><p cid="n240" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a743/251mHlJWvuw" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a743/251mHlJWvuw</a></span></span></p><h3 cid="n241" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">79、Enhancing Code Generation via Bidirectional Comment-Level Mutual Grounding</span></span></span></h3><p cid="n242" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLM）在代码生成领域展现出前所未有的能力。然而，LLM生成的代码仍普遍存在各类功能错误，尤其是面对模型未曾接触过的复杂编程任务时。近期研究表明，开发者往往难以检查和修正LLM生成的错误代码，这不仅降低了工作效率，也削弱了他们对LLM代码生成能力的信任。受交流中的互信基础理论启发，我们提出一种交互式方法——以代码注释为媒介，在开发者与LLM之间建立共同理解。该方法通过交替进行代码生成、行内注释生成以及基于可编辑注释的情境化用户反馈，实现迭代式认知对齐，使生成代码更符合开发者意图。我们在两个主流基准测试上验证了该方法，结果显示其显著提升了多个前沿LLM的表现（例如Code-davinci-002在HumanEval上的通过率提升17.1%）。此外，我们开展了12人参与的对比实验，基线方案为：(1) 与GitHub Copilot交互，(2) 采用多轮程序合成范式。使用本方法时，参与者完成任务速度提升16.7%，任务成功率提高10.5%。两项实验均证明：通过交互式优化代码注释建立协作互信，能有效提升代码生成准确性并增强开发者信心。</span></span></p><p cid="n243" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a702/251mGV7CFfq" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a702/251mGV7CFfq</a></span></span></p><h3 cid="n244" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">80、Enhancing Fault Localization in Industrial Software Systems via Contrastive Learning</span></span></span></h3><p cid="n245" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">工程师通常将日志作为大规模软件和系统测试中故障定位的主要资源，这一过程以耗时、昂贵且劳动密集而著称。尽管自动化故障定位方法已取得显著进展，但由于现有大多数故障定位技术所依赖的细粒度日志特征难以获取，其实际应用仍受限制。为此，我们提出FALCON——一种新型基于日志的故障定位框架。FALCON将复杂的语义日志信息组织为图形化表示，并采用对比学习捕捉通过日志与失败日志之间的差异，从而识别关键的故障相关特征。该框架还特别设计了基于传递性分析的自适应图增强机制，以降低无关日志信息对对比学习的干扰。通过对34种基于频谱和4种基于学习的故障定位方法进行广泛评估，FALCON展现出卓越性能，在比较中全面超越所有方法。此外，FALCON在某全球企业测试系统中为期一个月的实际部署期间，成功定位了90个故障中的71个，文件级Top-1准确率验证了其实际应用价值。</span></span></p><p cid="n246" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a101/215aWwktALS" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a101/215aWwktALS</a></span></span></p><h3 cid="n247" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">81、Enhancing The Open Network: Definition and Automated Detection of Smart Contract Defects</span></span></span></h3><p cid="n248" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">开放网络（TON）旨在支持Telegram数亿级庞大用户群体，自2022年推出以来备受关注。FunC是TON生态中最主流的智能合约编程语言，其语法设计与其他智能合约语言存在显著差异。尽管关注度持续攀升，针对TON智能合约实际缺陷的研究仍处于起步阶段。本文通过分析TON官方博客与审计报告，系统归纳了八类典型智能合约缺陷，并为每类缺陷提供精确定义与代码示例。进一步提出静态分析框架TONScanner：该框架复用FunC编译器前端代码，将合约源码转换为有向无环图形式的中间表示（IR），基于此构建控制流图（CFG）并转换为静态单赋值形式（SSA）以简化分析。TONScanner还集成了数据依赖分析、调用图构建、污点分析及专为TON区块链独特数据结构设计的Cell构造分析模块，最终实现八类缺陷的精准检测。通过对1,640份合约的实证分析，共检出14,995个缺陷实例。经随机抽样与人工验证，TONScanner整体准确率达97.49%。研究结果表明当前TON合约普遍存在缺陷，开发者易犯典型错误。TONScanner能有效识别这些缺陷，为修复工作提供有力支持。</span></span></p><p cid="n249" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a656/251mGpt43Vm" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a656/251mGpt43Vm</a></span></span></p><h3 cid="n250" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">82、Evaluating Garbage Collection Performance Across Managed Language Runtimes</span></span></span></h3><p cid="n251" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">现代托管语言运行时（如Java、Go和C#）依赖垃圾回收（GC）机制自动分配和释放内存对象。GC实现的效率会显著影响基于运行时的应用程序整体性能。为提升GC性能，学术界与工业界已提出多种方法评估单个运行时中的GC实现。然而这些方法仅针对特定托管语言（如Java），无法用于比较不同运行时的GC实现。本文提出GEAR方法，可自动为不同托管语言运行时构建一致的GC工作负载，进而实现跨运行时GC实现的评估。具体而言，我们设计了一组与运行时无关的内存操作原语（MOP），能刻画影响GC的内存使用信息。GEAR可进一步将MOP程序自动转换为目标运行时的特定程序，作为跨运行时的一致性GC工作负载。为构建具有真实GC工作负载的MOP程序，我们改造了常用运行时Java虚拟机（JVM），收集Java应用执行期间的内存操作轨迹，并将其转换为MOP程序。在三大主流运行时（Java、Go和C#）上的实验表明，GEAR能为不同运行时生成一致的GC工作负载。我们进一步对这三个运行时展开全面研究，揭示了其GC性能的有趣发现，为改进GC实现提供了实用指导。</span></span></p><p cid="n252" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a754/251mHsQcmeA" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a754/251mHsQcmeA</a></span></span></p><h3 cid="n253" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">83、Execution Trace Reconstruction Using Diffusion-Based Generative Models</span></span></span></h3><p cid="n254" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">执行追踪对于理解系统和软件行为至关重要，然而丢失的追踪事件会严重损害数据完整性与分析结果。现有的追踪重建方案往往未能充分利用可用数据，尤其在复杂高维场景中表现不足。近年来生成式人工智能（特别是扩散模型）在图像、音频及自然语言生成领域树立了新标杆。本研究首次系统评估了扩散模型在重建不完整追踪事件序列中的表现。通过基于Phoronix测试套件生成的九种数据集，我们针对不同序列长度和缺失率进行了严格测试。结果表明，SSSDS4模型在多种填补场景下均展现出卓越性能，其准确性、完美重构率和ROUGE-L评分均优于同类方法。这些发现证实了基于扩散的模型能精准重建缺失事件，从而有效维护数据完整性并增强系统监控与分析能力。</span></span></p><p cid="n255" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a600/251mFMB9DBC" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a600/251mFMB9DBC</a></span></span></p><h3 cid="n256" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">84、Exploring the Robustness of the Effect of EVO on Intention Valuation through Replication</span></span></span></h3><p cid="n257" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">高质量软件的开发依赖于精确且全面的需求，这些需求需符合利益相关者的目标。目标建模技术应运而生，旨在填补这一空白——通过捕捉和分析利益相关者的需求，并支持其进行权衡决策；然而，利益相关者往往难以理解目标建模的分析过程。近期研究发现，当受试者接受基础的目标建模培训并使用名为EVO的彩色可视化工具时，他们能更快地做出目标建模决策，且不降低决策质量。本文评估了EVO实证证据的稳健性，并对EVO初始设计者采用的颜色方案提出质疑。我们开展了原EVO研究的伪精确复现实验（样本量n=60），变更了实验地点与研究人群。即使在需求工程与目标建模先验知识更薄弱的异质样本中，使用EVO的个体回答目标建模问题的速度仍显著快于对照组，这拓展了原结论的外部效度。但我们也发现部分证据表明既定配色方案缺乏直观性，据此为目标建模领域提出改进建议。</span></span></p><p cid="n258" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a680/251mGFBE5qM" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a680/251mGFBE5qM</a></span></span></p><h3 cid="n259" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">85、Exposing the Hidden Layer: Software Repositories in the Service of SEO Manipulation</span></span></span></h3><p cid="n260" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">与传统恶意软件包不同，本文揭示了一种新型攻击媒介——&#34;通过软件仓库进行黑帽搜索引擎优化（RepSEO）&#34;。在该攻击模式中，攻击者精心构造软件包以操纵搜索引擎结果，利用软件仓库的公信力为非法网站引流。本研究系统分析了RepSEO的地下生态体系，识别出账户供应商、广告主和发布者等关键角色。我们开发了高效检测工具，并将其应用于npm、Docker Hub和NuGet软件仓库长达十年的大规模数据集，惊人地发现了3,801,682个恶意软件包，揭示了该攻击的广泛性。研究还深入剖析了这类攻击的供应链策略，包括使用自托管邮件服务注册账户、采用跳转技术隐藏落地页，以及激进攻击者采用的快速部署手段。此外，我们探究了攻击背后的盈利动机，识别出调查问卷类广告主和恶意软件分发类广告主两种主要类型。我们向npm、NuGet、Docker Hub报告了RepSEO软件包及谷歌相关供应链漏洞，并获其确认。截至本文提交时，各软件仓库已开始清除恶意软件包。我们同时公开了代码与数据以促进后续研究。</span></span></p><p cid="n261" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a684/251mGIzRKQE" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a684/251mGIzRKQE</a></span></span></p><h3 cid="n262" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">86、FAMOS: Fault diagnosis for Microservice Systems through Effective Multi-modal Data Fusion</span></span></span></h3><p cid="n263" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">准确诊断导致故障的根源是维护微服务系统可靠性的关键。主流的故障诊断方法采用数据驱动范式，主要依赖三类运行时数据模态：追踪链、日志和指标。近年来，利用多模态数据进行微服务系统故障诊断已成为明确趋势，因为不同类型的故障及其对应失效往往在不同模态数据中呈现显著特征。要充分利用多模态数据实现精准诊断，需解决两大挑战：1）如何最小化单模态数据特征提取时的信息损失；2）如何正确捕捉并利用跨模态数据间的关联关系。为此，我们提出FAMOS——一种通过高效多模态数据融合实现的微服务系统故障诊断方法。该方法一方面采用独立特征提取器保留各模态数据的本征特征，另一方面创新性地引入高斯注意力机制精确关联不同模态数据，再通过交叉注意力机制捕捉模态间关联。我们在开源微服务系统和真实工业级微服务系统中注入全面丰富的故障构建了两个数据集进行评估。实验结果表明，FAMOS在F1分数上相较现有最优方法取得20.33%的显著提升，验证了其故障诊断的有效性。</span></span></p><p cid="n264" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a610/251mFUueuIM" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a610/251mFUueuIM</a></span></span></p><h3 cid="n265" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">87、FairChecker: Detecting Fund-stealing Bugs in DeFi Protocols via Fairness Validation</span></span></span></h3><p cid="n266" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">去中心化金融（DeFi）是区块链领域的新兴范式，旨在通过应用区块链技术革新传统金融体系。DeFi协议管理的数字资产价值巨大，使其成为极具吸引力的攻击目标。尽管投入了人力资源并应用自动化工具，频繁发生的攻击仍导致DeFi参与者蒙受重大资金损失。现有工具主要依赖与传统软件分析类似的预言机机制，难以检测DeFi领域特有的功能性问题。由于区块链本质上是分布式账本系统，任何DeFi协议的基础都在于准确维护代表用户资金的关键状态变量。若这些变量未能正确更新或设计不当，攻击者便可利用这些漏洞窃取资产。通过对主流DeFi协议的研究，我们发现：为确保交易不会挪用他人资金，DeFi系统中与用户资产或债务金额相关的数值变化方向（增加或减少）必须遵循特定的公平性原则。我们提出&#34;公平性漏洞&#34;概念，即攻击者能够零成本获利的缺陷，并开发了一种跨过程、跨合约的静态分析技术，利用符号执行和SMT求解器自动检测DeFi智能合约中的公平性漏洞。我们将该公平性检测方法实现为工具FairChecker，在包含34个公平性漏洞的113个真实DeFi协议基准测试中进行评估。实验表明，该工具能检测出32个漏洞，召回率达94.1%，精确度为46.4%，验证了其有效性。</span></span></p><p cid="n267" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a671/251mGzmte0M" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a671/251mGzmte0M</a></span></span></p><h3 cid="n268" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">88、FairQuant: Certifying and Quantifying Fairness of Deep Neural Networks</span></span></span></h3><p cid="n269" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们提出了一种对深度神经网络（DNN）个体公平性进行形式化认证与量化的方法。个体公平性要求任何两个仅在法律保护属性（如性别或种族）上存在差异的个体必须获得同等对待。现有技术虽能提供此类保证，但随着DNN规模和输入维度的增加，往往面临可扩展性或准确性的不足。我们的方法通过将抽象技术应用于基于符号区间的DNN分析，并依据公平性属性进行迭代优化，从而突破了这一局限。此外，该方法将基于符号区间的分析从传统的定性认证提升至定量认证——通过计算可证明获得公平分类结果的个体比例，而非仅判定DNN是否公平。我们实现了该方法，并在四个主流公平性研究数据集训练的深度神经网络上进行了评估。实验结果表明，我们的方法不仅比现有技术更精确，而且速度提升了数个数量级。</span></span></p><p cid="n270" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a191/215aWBsFVAc" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a191/215aWBsFVAc</a></span></span></p><h3 cid="n271" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">89、FairSense: Long-Term Fairness Analysis of ML-Enabled Systems</span></span></span></h3><p cid="n272" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，机器学习（ML）模型的算法公平性引发了广泛关注。为识别和缓解模型中的公平性问题，研究者已提出众多测试、验证及偏差消减技术。现有方法以模型为中心，旨在静态环境下检测公平性问题。然而，多数ML系统运行于动态环境中——系统做出的预测决策会影响环境，进而改变未来的决策行为。这种自我强化的反馈循环可能导致长期公平性失效，即使短期结果看似公平。本文提出名为FairSense的模拟框架，用于检测和分析ML系统中的长期不公平现象。给定公平性要求后，FairSense通过蒙特卡洛模拟枚举各系统配置的演化轨迹，继而对可能配置空间进行敏感性分析，以理解设计选项与环境因素对系统长期公平性的影响。我们通过三个真实案例（贷款发放、阿片类药物风险评分和预测性警务）验证了FairSense的潜在效用。</span></span></p><p cid="n273" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a696/251mGQhSfTi" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a696/251mGQhSfTi</a></span></span></p><h3 cid="n274" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">90、Fairness Testing through Extreme Value Theory</span></span></span></h3><p cid="n275" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">数据驱动型软件正日益成为自动化决策支持系统的关键组件。由于此类软件从历史数据中学习决策逻辑，它可能编码或放大歧视性行为。现有算法公平性研究主要聚焦于提升&#34;平均情况&#34;下的公平性，而谱系极端端的公平性——往往标志着社会态度的持久深刻转变——却鲜少受到关注。基于极值理论(EVT)统计方法，我们提出名为极端反事实歧视(ECD)的新公平性标准，该标准仅根据个体所属保护群体来评估结果中最恶劣的劣势程度。借助基于搜索的软件工程和生成式AI技术，我们开发了一种随机算法，即使输入数据集缺乏足够相关样本，也能从机器学习结果分布的尾部抽取具有统计显著性的样本点。我们在四种机器学习模型(深度神经网络、逻辑回归和随机森林)上针对算法公平性文献中的10项社会相关任务开展了多组实验。首先评估生成式AI方法，发现其在95%情况下能生成足够样本以推断有效的EVT分布。值得注意的是，当前主流偏见缓解方法在35%案例中虽降低平均歧视，却显著加剧最恶劣情况下的歧视。我们还发现即便是考虑分布尾部的MiniMax-Fairness缓解算法，仍有30%案例会加剧极端歧视。我们提出的新型ECD缓解器在90%案例中改善了分布尾部的公平性，且未削弱平均情况下的公平表现。期望EVT框架能成为评估平均与最恶劣情况下歧视问题的强有力工具。</span></span></p><p cid="n276" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a607/251mFSeRrR6" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a607/251mFSeRrR6</a></span></span></p><h3 cid="n277" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">91、Faster Configuration Performance Bug Testing with Neural Dual-level Prioritization</span></span></span></h3><p cid="n278" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着软件系统日益复杂和可配置化，性能问题往往源于配置设计。这导致某些配置选项会意外降低性能，偏离开发者最初的设计预期。此类偏差即配置性能缺陷（CPBug），危害严重且可能深藏于源码中。然而高效测试CPBug存在双重困难：既难以设定测试预言，又因配置测量成本高昂且组合空间庞大而难以穷尽。现有测试工具在预算有限时，或因运行耗时过长，或因测试预言不准确，往往难以有效检测CPBug。本文提出通过神经化优先级策略，在配置选项与取值区间两个层面进行自动化预言估计，从而实现显著加速的CPBug测试。所提工具NDP作为通用框架，可与不同启发式生成器协同工作：其核心在于运用两个神经语言模型——前者用于估计CPBug类型作为测试预言，而更关键的是后者通过推断选项关联缺陷的概率，指导配置选项及取值范围的优先级排序。在多版本主流系统上的实验表明，NDP能更准确地预测87%案例的CPBug类型，并以最高88.88倍的测试效率优势，较现有最优工具发现更多CPBug。</span></span></p><p cid="n279" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a738/251mHipA7VC" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a738/251mHipA7VC</a></span></span></p><h3 cid="n280" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">92、Feature-Driven End-To-End Test Generation</span></span></span></h3><p cid="n281" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">端到端（E2E）测试对保障Web应用质量至关重要。然而，人工创建测试耗时费力，现有测试生成技术产生的测试用例往往缺乏连贯性。本文提出AUTOE2E——一种利用大语言模型（LLM）为Web应用自动生成具有语义意义的特征驱动型端到端测试用例的创新方法。该系统能智能推断Web应用中的潜在功能特征，并将其转化为可执行的测试场景。此外，我们通过推出E2EBENCH基准测试填补了研究领域的重要空白，该基准可用于自动评估端到端测试套件的功能覆盖度。在E2EBENCH上的实验表明，AUTOE2E平均功能覆盖率达79%，较最佳基线方法提升558%，凸显了其在生成高质量、全面性测试用例方面的卓越效能。</span></span></p><p cid="n282" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a678/251mGE6xELC" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a678/251mGE6xELC</a></span></span></p><h3 cid="n283" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">93、Fidelity of Cloud Emulators: The Imitation Game of Testing Cloud-based Software</span></span></span></h3><p cid="n284" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">现代软件项目越来越多地采用云服务作为重要组件。这种基于云的编程实践通过利用云的优势（如高可用性和弹性）极大简化了软件开发。然而，由于云后端的不可见性以及持续集成和部署中调用云服务产生的经济成本，这给软件测试与分析带来了新的挑战。为此，云模拟器被开发用于在线测试和部署前的离线开发与测试。本文从基于云的软件测试角度对云模拟器进行了系统性分析，旨在（1）理解云模拟在软件质量保障与部署安全性方面引入的差异，（2）弥合模拟服务与真实云服务间不可避免的差距。分析结果令人担忧：在来自Azure和亚马逊云服务（AWS）五大服务的255个API中，我们发现37%（94个）API存在模拟服务与真实服务的行为差异。这些差异会导致测试结果不一致，威胁部署安全，引发误报并造成调试难题。根本原因多种多样，包括偶然的实现缺陷和本质性的模拟挑战。我们探讨了潜在解决方案，并开发了一种实用缓解技术以应对软件测试中云模拟器的差异问题。</span></span></p><p cid="n285" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a614/251mFXIUTGo" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a614/251mFXIUTGo</a></span></span></p><h3 cid="n286" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">94、FixDrive: Automatically Repairing Autonomous Vehicle Driving Behaviour for $0.08 per Violation</span></span></span></h3><p cid="n287" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">自动驾驶汽车（AV）技术发展迅猛，目前已实现L4级车辆的实际道路运营。然而，现有自动驾驶系统在适应性和性能方面仍逊于人类驾驶员，常表现为过度保守行为或偶发交通违规。现行解决方案（如运行时强制修正）通过实时修复规划轨迹来缓解问题，但这类方法缺乏透明度且应作为最终手段。理想的修复方案应具备事件泛化能力和用户可解释性。为此，我们提出FixDrive框架：通过分析险情事件或违规行为的驾驶记录，生成可降低同类事件复发概率的驾驶策略修复方案。这些修复方案以μDrive语言（一种基于事件触发机制的高阶领域专用语言）进行封装。基于前沿自动驾驶系统Apollo实现的FixDrive能识别并可视化驾驶记录中的关键节点，随后利用多模态大语言模型（MLLM）的零样本学习能力生成μDrive程序。经多基准场景测试表明，生成的修复方案能有效提升自动驾驶系统在交通法规遵守、碰撞规避和目的地到达率等方面的表现。此外，单次违规修复仅需15分钟离线分析及0.08美元成本，具有现实可行性。</span></span></p><p cid="n288" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a752/251mHrxAhig" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a752/251mHrxAhig</a></span></span></p><h3 cid="n289" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">95、Fixing Large Language Models&#39; Specification Misunderstanding for Better Code Generation</span></span></span></h3><p cid="n290" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">代码生成是指根据给定的编程规范自动生成源代码，这一领域尤其随着大语言模型（LLM）的发展而受到广泛关注。由于代码生成固有的复杂性，LLM生成的代码可能与规范存在偏差。尽管已有研究提出思维激发提示技术以提升LLM的代码生成能力，但对复杂编程问题形成正确理解仍具挑战性，导致性能表现不尽如人意。此外，部分基于反馈的提示技术尝试利用测试执行产生的错误信息修复错误代码，但当生成代码与真实情况严重偏离时，这类粗粒度信息难以有效提升性能。  </span></span></p><p cid="n291" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出一种名为μFiX的新型提示技术，通过设计精细化的思维激发提示与基于反馈的提示，并首次探索二者的协同效应，从而提升LLM的代码生成性能。该技术首先利用测试用例分析获取规范理解，并在思维激发阶段启动自改进流程以识别并修正错误理解；随后在基于反馈的提示阶段，μFiX通过缩小显式提供的理解（来自第一阶段）与LLM隐式用于代码生成的实际理解之间的差距，持续优化规范理解。实验表明，通过μFiX改进理解可显著提升LLM的代码生成性能。我们在两种先进LLM（ChatGPT和DeepSeek-Coder）上使用六个广泛使用的基准数据集，与15种基线方法进行对比评估，验证了μFiX的有效性。例如，μFiX在所有测试对象中Pass@1指标平均提升35.62%，显著优于现有最佳基线方法。</span></span></p><p cid="n292" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a645/251mGiigD6g" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a645/251mGiigD6g</a></span></span></p><h3 cid="n293" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">96、Fork State-Aware Differential Fuzzing for Blockchain Consensus Implementations</span></span></span></h3><p cid="n294" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">区块链网络允许不同开发者对同一共识算法的多种客户端实现在同一系统中共存。确保这些异构客户端实现正确性至关重要，因为即使实现中存在细微的语义差异也可能导致安全性故障。尽管现有模糊测试框架已发现区块链中的实现缺陷，但在测试包含冲突区块序列（称为分叉）时仍面临诸多挑战。依赖传统代码覆盖率反馈的现有工具无法充分评估区块链实现中的分叉处理过程，这种反馈机制缺乏处理多样化复杂分叉场景所需的精细度。本文提出Forky——一种分叉状态感知的差异化模糊测试框架，通过其创新的分叉感知变异和分叉多样化反馈机制，专门检测关键分叉处理过程中的实现差异。我们在最具影响力的两大区块链项目（分别代表工作量证明PoW和权益证明PoS两大主流共识算法家族）比特币和以太坊上对Forky进行了测试。</span></span></p><p cid="n295" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a622/251mG2WNd60" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a622/251mG2WNd60</a></span></span></p><h3 cid="n296" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">97、Formally Verified Binary-level Pointer Analysis</span></span></span></h3><p cid="n297" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">二进制层面的指针分析在软件二进制文件的符号执行、测试、验证及反编译中具有重要应用价值。在上述多种应用场景中，确保分析结果的可信性至关重要，即必须形式化地证明指针指称具有过近似性。本文提出了一种可形式化验证正确性的二进制级指针分析方法。本方法的显著特性在于：首先从通用角度考量指针分析抽象域应满足的验证条件，这使得在保持分析正确性的前提下，能够灵活实例化不同精度的抽象域。在可扩展性与精确性的权衡中，该方法既支持具备&#34;有意义&#34;精度（足以确保基础合理性属性，例如函数执行期间栈帧相关部分不会被覆写）的分析，也允许当指针计算因编译过程过度混淆而无法进行可靠边界分析时，采用粗粒度分析策略。我们通过高、中、低三种精度的抽象域进行实验验证，评估结果表明：该方法能够以上下文敏感的跨过程方式，在商业现成二进制文件中可靠地推导内存写入指称。</span></span></p><p cid="n298" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a767/251mHBq8DZu" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a767/251mHBq8DZu</a></span></span></p><h3 cid="n299" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">98、Formally Verified Cloud-Scale Authorization</span></span></span></h3><p cid="n300" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">所有关键系统都必须不断演进，以满足日益增长且多样化的用户需求。但在规模持续扩大的情况下支持这种演进具有挑战性：维护者必须确保每次变更仅实现预期目标，而不会无意中改变现有用户的行为。本文阐述了我们如何通过形式化验证方法，为每秒调用10亿次的亚马逊云服务（AWS）授权引擎解决这一难题。历经四年时间，我们使用专为验证设计的编程语言Dafny构建了功能与旧引擎完全一致的新授权引擎。如今我们能够在对正确性和向后兼容性保持最高级别保证的前提下，自信地部署功能增强和性能优化。2024年新引擎上线后运行平稳，客户即刻获得三倍的性能提升。我们构建新引擎的方法并非对现有验证工具的简单套用，本文揭示了三个关键发现：首先，相较于直接验证现有Java引擎的正确性，我们发现使用原生支持验证的Dafny语言重写引擎再编译为Java更为高效；其次，为确保性能、可调试性并获得利益相关方信任，我们需要生成可读性强、符合Java语言习惯的代码，这本质上是对Dafny源码的直译；最后，为保障规范与实际行为一致，我们在开发过程中进行了大量差分测试和影子测试，最终在部署前对比了千万亿级的生产环境样本。本案例证明了形式化验证如何有效推动关键遗留系统的大规模演进。</span></span></p><p cid="n301" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a703/251mGVH6wvu" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a703/251mGVH6wvu</a></span></span></p><h3 cid="n302" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">99、From Bugs to Benefits: Improving User Stories by Leveraging Crowd Knowledge with CrUISE-AC</span></span></span></h3><p cid="n303" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">软件缺陷的修复成本在后期呈指数级增长。不完整或模糊的需求是缺陷的最大来源之一，因为利益相关者可能无法准确传达需求或未能分享其领域专业知识。加之开发人员经验不足，团队极易构建出错误或不完整的功能。为预防此类问题，需求工程必须探索利益相关者访谈之外的知识来源。同应用领域内公开可访问的缺陷跟踪系统包含了实际用户记录的宝贵信息，包括已识别的系统弱点、边界案例及潜在错误来源。本研究旨在（1）识别此类问题，（2）利用这些问题改进敏捷需求工件&#34;用户故事&#34;。我们提出CrUISE-AC（基于众包与用户信息的验收标准建议引擎），这是一种全自动方法：通过自然语言处理技术和大型语言模型集成分析缺陷报告，为给定用户故事生成非平凡补充验收标准。CrUISE-AC在两大商业领域由五位独立专家评估，结果表明缺陷跟踪系统蕴含需求工程相关高价值信息。评估显示80-82%生成的验收标准为用户故事增加了相关需求。当前局限在于依赖可获取的缺陷报告输入，且未验证生成标准是否与其他用户故事标准无冲突或重叠。</span></span></p><p cid="n304" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a753/251mHsea6NW" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a753/251mHsea6NW</a></span></span></p><h3 cid="n305" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">100、Fuzzing MLIR Compilers with Custom Mutation Synthesis</span></span></span></h3><p cid="n306" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">深度学习与领域专用硬件加速中的编译技术正日益采用可扩展的编译器框架（如多级中间表示MLIR）以提升开发效率。MLIR允许编译器开发者以方言形式轻松定义自定义中间表示，但这些定制IR的多样性和快速演进使得为每种方言手动编写专用测试生成器变得不切实际。为此，我们设计了新型测试生成器SYNTHFUZZ，融合基于语法的模糊测试与定制化变异合成技术。其核心创新在于：（1）自动从现有测试用例中推断参数化的上下文相关定制变异；（2）根据目标上下文实例化变异内容，并通过k-祖先及前后缀匹配降低无效编辑的插入概率，从而无需为每种方言手动定义变异算子。我们将SYNTHFUZZ与三种基线方案对比：无定制变异的语法模糊测试工具Grammarinator、MLIR核心方言专用生成器MLIRSmith，以及支持张量形状参数化的ML模型测试生成器NeuRI。在四个不同MLIR项目上的综合测试表明，手动编写专用测试生成器需耗费数周，而SYNTHFUZZ平均将方言对覆盖率提升1.75倍，分支覆盖率提高1.22倍。此外，上下文相关定制变异使有效测试比例最高提升1.11倍，证实其能正确实例化参数化变异；变异参数化使违反MLIR基础约束的测试减少0.57倍，从而延长对方言特定代码的模糊测试时长。</span></span></p><p cid="n307" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a457/215aWR0DHji" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a457/215aWR0DHji</a></span></span></p><h3 cid="n308" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">101、GARL: Genetic Algorithm-Augmented Reinforcement Learning to Detect Violations in Marker-Based Autonomous Landing Systems</span></span></span></h3><p cid="n309" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">无人机（UAV）的自动着陆技术对于监测、勘测及包裹投递等自主无人机服务至关重要。该技术涵盖着陆目标检测、障碍物感知、无碰撞路径规划以及飞行控制等环节，以确保安全降落。一旦失败可能造成重大损失，因此需通过严格的仿真测试保障安全性。传统离线测试方法受限于静态环境和预设轨迹，可能遗漏由行人或动物等动态物体引发的违规案例；而在线测试方法则需耗费大量训练时间，在预算有限时难以实施。针对这些问题，我们提出GARL框架——结合遗传算法（GA）与强化学习（RL），在可行预算内高效生成多样化且真实的着陆系统故障案例。GARL利用GA离线探索多种环境配置，降低RL在线测试在模拟复杂着陆场景时的复杂度。实验表明，本方法在违规率上最高提升18.35%，多样性指标提升58%。我们通过真实无人机测试验证了大部分发现的违规类型，开创性地融合了自主系统的离线与在线测试策略。该方法为在线测试开辟了新研究方向，代码及补充材料详见</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/lfeng0722/drone_testing/" target="_blank">https://github.com/lfeng0722/drone_testing/</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n310" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a613/251mFWqS10c" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a613/251mFWqS10c</a></span></span></p><h3 cid="n311" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">102、GVI: Guided Vulnerability Imagination for Boosting Deep Vulnerability Detectors</span></span></span></h3><p cid="n312" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">利用深度学习实现自动化软件漏洞检测一直是软件安全领域长期关注的研究方向。当前深度漏洞检测器主要采用监督学习方式训练，其性能高度依赖于大规模高质量漏洞数据集。然而由于漏洞数据本身特性——漏洞样本数量远少于非漏洞样本，训练数据集普遍存在类别不平衡问题，严重影响检测器效果。通过人工生成漏洞样本来增强数据集是解决类别不平衡的有效途径，但现有漏洞生成技术或因生成样本与现实漏洞差异过大，或因依赖大量漏洞样本来训练生成模型，均存在明显局限性。本文提出GVI方法，通过生成漏洞样本来提升深度漏洞检测器性能。受人类&#34;想象学习&#34;机制启发，GVI创新性地利用大语言模型基于种子漏洞想象生成具有信息增益的新漏洞样本。具体而言，我们设计了一种受思维链启发的提示模板，指导大语言模型首先分析种子漏洞提取相关属性特征，继而基于这些特征生成新漏洞集。在Devign、ReVeal和BigVul三个漏洞数据集上，针对Devign、ReVeal和LineVul三种深度漏洞检测器的大量实验表明，GVI生成的漏洞样本不仅具有更高准确性，还能更有效地提升漏洞检测器性能。</span></span></p><p cid="n313" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a750/251mHqiWAaQ" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a750/251mHqiWAaQ</a></span></span></p><h3 cid="n314" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">103、GenC2Rust: Towards Generating Generic Rust Code from C</span></span></span></h3><p cid="n315" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Rust语言以其强大的安全保证与高性能特性展现出令人振奋的组合优势，正推动着众多新系统的实现。然而大量现有C代码若采用Rust的安全机制将显著受益，但将其手动重写为Rust代码所需的工作量往往令人望而却步。现有研究已探索辅助开发者将遗留C代码转换为Rust的工具，但由于C语言抽象与Rust惯用抽象之间的不匹配，自动运用Rust语言特性面临挑战，导致生成的代码不符合Rust惯用规范，仍需大量人工重构。例如现有工具常无法将C语言中void指针的多态用法映射为Rust的泛型指针。本文提出翻译工具GenC2Rust，可将非泛型C代码转换为泛型Rust代码：该工具通过静态分析C程序中void指针的使用情况推导类型约束，进而将参数化多态的void指针重新类型化为泛型指针。我们在42个规模各异、跨越多领域的C程序上评估GenC2Rust，验证其可扩展性与正确性。实验发现该工具已成功将4,565个void指针转换为泛型使用，同时本文还探讨了翻译过程中遇到的限制因素。</span></span></p><p cid="n316" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a664/251mGuO2lAA" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a664/251mGuO2lAA</a></span></span></p><h3 cid="n317" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">104、Gpass: a Goal-adaptive Neural Theorem Prover based on Coq for Automated Formal Verification</span></span></span></h3><p cid="n318" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">形式化验证是保障软件质量的关键手段。遗憾的是，人工编写验证脚本既费力又耗时。为此，研究者提出了自动化定理证明方法，但这些方法仍存在若干局限：包括对冗长证明步骤处理不足、难以协调Coq程序的各个组件与证明目标的需求约束、以及效率低下等问题。为突破这些限制，我们提出Gpass——一个基于深度学习技术、能自适应目标的神经定理证明器。首先，我们为Gpass设计了独特的序列编码器，通过多重滑动窗口完整扫描历史证明策略，并为当前证明步骤提供相关信息。其次，Gpass引入目标自适应的特征整合模块，使推理过程与证明目标的需求保持一致。最后，我们基于损失值和损失斜率设计参数选择方法，获取具有多样分布的参数集，从而促进不同证明策略的探索。实验结果表明，Gpass在大型基准测试CoqGym上表现优异，相比最接近的现有工作多证明了11.03%-96.37%的定理。我们发现Gpass与CoqHammer的正交性印证了二者的互补能力，二者协同可共同证明3774个定理，达到当前最优性能。此外，我们提出的效率优化方法使Gpass仅用六分之一参数集即可超越Diva的性能表现。</span></span></p><p cid="n319" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a653/251mGnotM08" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a653/251mGnotM08</a></span></span></p><h3 cid="n320" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">105、HIFI: Explaining and Mitigating Algorithmic Bias through the Lens of Game-Theoretic Interactions</span></span></span></h3><p cid="n321" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">机器学习（ML）算法正日益广泛应用于社会关键领域的决策过程，但它们往往从训练数据中继承并放大偏见，导致不公正且违背伦理的结果。这一问题凸显了对偏见检测、解释与消除方法的迫切需求，以确保机器学习系统的公平性。现有研究多从统计学角度分析算法偏见的根源，但据我们所知，尚未有工作探讨ML模型如何编码最终导致歧视性决策的敏感信息。本研究从博弈论视角出发解释并消除算法偏见：我们通过Harsanyi交互作用数学解码了多种公平性指标隐含定义的敏感信息核心成分，并据此提出了一种消除偏见的训练中处理方法HIFI。通过11种前沿方法、5个真实数据集、4种公平性标准与5项ML性能指标的全面评估（同时考虑多重保护属性的交叉公平性），实验表明HIFI在公平性提升与公平-性能权衡方面优于现有训练中处理方法，且在减少个体公平性违规方面同样成效显著。</span></span></p><p cid="n322" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a757/251mHuQf44M" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a757/251mHuQf44M</a></span></span></p><h3 cid="n323" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">106、HedgeCode: A Multi-Task Hedging Contrastive Learning Framework for Code Search</span></span></span></h3><p cid="n324" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">代码搜索是软件工程中的一项关键活动，其核心目标是根据自然语言查询识别并检索正确的代码片段。基于深度学习技术的方法在此任务中日益普及，它们提升了代码及其自然语言描述的初始表示质量。尽管取得了这些进展，如何确保代码与描述在表示空间中的一致性仍存在研究空白。此外，现有方法尚未充分挖掘代码片段与其描述之间的潜在关联性，这导致在区分相似代码片段间的细粒度语义差异时面临挑战。  </span></span></p><p cid="n325" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为解决上述问题，我们提出了一种多任务对冲对比学习框架HedgeCode，用于代码搜索任务。该框架包含两个主要训练阶段：第一阶段称为表示对齐阶段，提出了一种对冲对比学习方法，通过检测代码与自然语言文本间的细微差异，基于相关性识别实现两者表示空间的对齐；第二阶段为多任务联合学习阶段，将前一阶段训练好的模型作为编码器，结合监督式与自监督对比学习任务进行联合优化。通过在CodeSearchNet基准测试中的优异表现，我们验证了该框架能有效解决当前代码搜索任务中的上述局限性。</span></span></p><p cid="n326" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a089/215aWvGs9qM" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a089/215aWvGs9qM</a></span></span></p><h3 cid="n327" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">107、Hetrify: Efficient Verification of Heterogeneous Programs on RISC-V</span></span></span></h3><p cid="n328" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">当代软件的异构性（包含闭源库、嵌入式汇编片段以及多编程语言编写的模块等组件）带来了显著的验证挑战。目前尚无成熟可用的方法能有效解决此类问题。为此，我们提出一种能有效验证异构程序的通用验证方法。该方法理论上支持对任何可编译为二进制代码的异构程序进行验证，不受特定编程语言的限制。其技术路径是：首先将整个程序或不可验证部分编译为二进制格式，在保证语义等价的前提下，将这些二进制代码转换为可验证的C代码，进而利用现有C程序验证工具完成验证。基于RISC-V架构，我们开发了Hetrify工具来实现该验证方法，并通过严格的数学证明确保转换后的C程序与原始程序保持操作语义等价。为验证方法的有效性，我们对130个程序（包括100个汇编程序和30个缺失关键函数源代码的大型异构程序）进行了验证实验，结果证实了该方法的可行性。</span></span></p><p cid="n329" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a618/251mG0dChzy" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a618/251mG0dChzy</a></span></span></p><h3 cid="n330" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">108、Hints Help Finding and Fixing Bugs Differently in Python and Text-based Program Representations</span></span></span></h3><p cid="n331" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着GitHub Copilot等AI编程助手的快速发展，编程已不再局限于传统编程语言——终端用户可以通过自然文本表达并解决编程任务。尽管这种新型编程模式已经出现，用户在算法理解和程序调试方面仍面临困难。一种具有前景的支持方式是提供提示，帮助用户在构建和提升编程能力的过程中发现并修复错误。虽然提示可能确有助益，但何种提示类型更为有效，以及这种效果如何受程序呈现形式（传统源代码或文本描述）和用户算法任务理解能力的影响，目前尚不明确。为探究提示在这一领域的作用，我们开展了一项涉及753名参与者的大规模众包研究，考察三种提示类型（测试用例、概念性提示和详细提示）在两种程序呈现形式（Python代码与文本描述）下对两类用户群体（清晰理解算法任务者与存在困惑者）的影响。研究发现，程序呈现形式（Python代码与文本）对用户发现和修复错误的准确率具有显著影响。令人惊讶的是，当用户看到自然文本描述的程序时，其纠错准确率更高。提示总体上能提升准确率，但不同提示的效果因程序呈现形式和用户对算法任务的理解程度而异。这些发现对设计下一代编程工具具有启示意义，例如可根据用户技能水平和理解程度适配编程模式并提供个性化提示支持。</span></span></p><p cid="n332" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a729/251mHcIbwZi" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a729/251mHcIbwZi</a></span></span></p><h3 cid="n333" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">109、How Scientists Use Jupyter Notebooks: Goals, Quality Attributes, and Opportunities</span></span></span></h3><p cid="n334" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">计算笔记本本意为优先满足科学家的需求，但学界对科学家如何与笔记本交互、哪些需求驱动科学家的软件开发过程、以及科学家采用何种策略满足需求仍知之甚少。我们通过观察性研究记录了20名科学家使用Jupyter笔记本完成日常任务的过程，发现科学家会根据目标优先考虑不同的质量属性。定性分析揭示了：(1)科学家使用Jupyter笔记本追求的目标集合；(2)科学家编写软件时重视的质量属性集合；(3)科学家用于提升质量的策略体系。此外，我们还识别出科学家将AI工具融入笔记本工作的具体方式。基于观察结果，我们提出改进计算笔记本及未来科学家编程系统的设计建议，关键机遇在于帮助科学家创建和管理软件中的状态、依赖项与抽象机制，从而更高效地复用定义清晰的组件。</span></span></p><p cid="n335" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a768/251mHC1k61W" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a768/251mHC1k61W</a></span></span></p><h3 cid="n336" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="background-color: #ffacaa;">110、HumanEvo: An Evolution-aware Benchmark for More Realistic Evaluation of Repository-level Code Generation</span></span></span></h3><p cid="n337" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为评估大语言模型（LLMs）在复杂现实软件开发场景中的仓库级代码生成能力，研究者已开发出多种评估方法。这些方法通常利用项目最新版本的上下文代码来辅助LLMs准确生成目标函数。然而此类评估方法忽视了软件项目随时间动态演化的特性（我们称之为&#34;演化无感知&#34;设定），从而导致对LLMs性能的评估失真。本文通过实证研究，深入探究LLMs在反映软件开发演化本质的设定下的代码生成表现。为此，我们首先构建了演化感知的仓库级代码生成数据集HumanEvo，并配套自动化执行评估工具；其次根据依赖级别对HumanEvo进行人工分类，以更全面地分析模型生成不同依赖级别函数时的表现；最后在HumanEvo上对7个具有代表性的多样化LLMs开展广泛实验，验证所提基准的有效性。通过实验研究我们获得若干重要发现：相较于演化感知评估方法，先前演化无感知的评估方法会高估LLMs性能，在不同上下文获取方法下性能高估幅度达10.0%至61.1%。基于这些发现，我们为代码生成任务提出更贴近现实的LLMs评估建议，并构建了共享的演化感知代码生成工具箱以促进后续研究。包含源代码与数据集的复现包已匿名发布于</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/DeepSoftwareAnalytics/HumanEvo" target="_blank">https://github.com/DeepSoftwareAnalytics/HumanEvo</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n338" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a764/251mHzzKizu" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a764/251mHzzKizu</a></span></span></p><p style="text-align: center;" nodeleaf=""><img class="rich_pages wxw-img" data-imgfileid="100000515" data-ratio="0.3649122807017544" data-s="300,640" type="block" data-type="png" data-w="1710" src="https://wechat2rss.xlab.app/img-proxy/?k=84c3571f&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_png%2FicNlicgdbzSdUsr3zlDy5jvuhf6dz33SqB8w9ao4Xt0eGRD7LY9kyckjfOFI1zt8kgMr8eZsYl4JWB19eN2CowlQ%2F640%3Fwx_fmt%3Dpng"/></p><h3 cid="n339" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><h3 cid="n371" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p><span leaf=""><br/></span></p><p style="display: none;"><mp-style-type data-value="3"></mp-style-type></p>


<p><img src="https://wechat2rss.xlab.app/img-proxy/?k=dbe50d23&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_png%2FicNlicgdbzSdUsr3zlDy5jvuhf6dz33SqB8w9ao4Xt0eGRD7LY9kyckjfOFI1zt8kgMr8eZsYl4JWB19eN2CowlQ%2F0%3Fwx_fmt%3Dpng"/></p>



<p><a href="2247485981">阅读原文</a></p>
<p><a href="https://wechat2rss.xlab.app/link-proxy/?k=01cd3be6&amp;r=1&amp;u=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU0MzgzNTU0Mw%3D%3D%26mid%3D2247485981%26idx%3D1%26sn%3Df049b3766fbc37a1dce9141cd6377cd4">跳转微信打开</a></p>
]]></content:encoded>
      <pubDate>Sun, 22 Jun 2025 16:31:00 +0800</pubDate>
    </item>
    <item>
      <title>软件工程顶会——ICSE 2025 论文清单与摘要（中）</title>
      <link>https://mp.weixin.qq.com/s?__biz=MzU0MzgzNTU0Mw==&amp;mid=2247485981&amp;idx=2&amp;sn=dde58306f0db01312972ec31b0cf3bc7</link>
      <description></description>
      <content:encoded><![CDATA[<p>
<span>漏洞战争</span> <span>2025-06-22 16:31</span> <span style="display: inline-block;">广东</span>
</p>

<p></p>



<p>
<img src="https://wechat2rss.xlab.app/img-proxy/?k=7ab8e560&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdWS5eiaBgCG4u08ENFAiaZkicFAcyj2vbqibV5cveicgMBIZ2u0YXhnyxghTibcfk3GfmvVfZeA9GRxZpcA%2F0%3Fwx_fmt%3Djpeg"/>
</p>


<h3 cid="n339" mdtype="heading" style="box-sizing: border-box;" data-pm-slice="0 0 []"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">111、Hyperion: Unveiling DApp Inconsistencies using LLM and Dataflow-Guided Symbolic Execution</span></span></h3><p cid="n340" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">区块链平台的快速发展极大地推动了去中心化应用（DApp）的增长。与传统应用类似，DApp包含用于展示功能以吸引用户的前端描述，以及执行业务逻辑的后端智能合约。然而，前端宣传的功能与合约实际实现之间的不一致可能误导用户并损害DApp的可信度。本文首先通过实证研究归纳了七种不一致类型，每种均以真实DApp为例说明。进一步，我们提出Hyperion方法，用于自动检测DApp前端描述与后端代码实现的不一致。该方法利用微调的大语言模型LLaMA2分析DApp描述，并采用数据流引导的符号执行技术分析合约字节码，最终基于预定义检测模式报告不一致问题。在包含54个DApp的基准数据集实验中，Hyperion的总体召回率达到84.06%，总体精确率为92.06%。我们对835个真实DApp进行大规模分析，实验结果表明Hyperion发现了459个存在至少一类不一致的DApp。</span></span></p><p cid="n341" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a178/215aWAG8wla" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a178/215aWAG8wla</a></span></span></p><h3 cid="n342" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">112、IRFuzzer: Specialized Fuzzing for LLVM Backend Code Generation</span></span></h3><p cid="n343" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">现代编译器（如LLVM）结构复杂。由于其复杂性，人工测试难以全面覆盖，而形式化验证又难以扩展规模。虽然可采用端到端模糊测试，但发现LLVM后端问题存在双重障碍：首先，前端预处理与中端优化使后端难以接触到多样化输入；其次，由于LLVM后端包含大量可复用代码，分支覆盖率无法提供有效反馈。本文通过实现IRFuzzer，探究针对LLVM编译器后端的专项模糊测试必要性。我们聚焦两大改进方向：通过约束变异确保输入有效性以提升输入多样性，以及采用新指标优化反馈质量。IRFuzzer的变异器可生成包括结构化控制流、向量类型和函数定义在内的多种LLVM IR输入。该系统通过插桩编译器中的编码模式来监控指令选择的执行状态，不仅为匹配表提供新型覆盖率反馈，还能指导变异器生成架构特定的内部函数。我们在29个成熟LLVM后端目标上运行IRFuzzer，共发现78个上游LLVM新漏洞（现有模糊测试工具均未能检出），证明IRFuzzer显著优于现有方案。开发者收到报告后已修复57个漏洞，并将5个补丁反向移植至LLVM 15版本，表明专项模糊测试能为LLVM开发者提供切实有效的改进依据。</span></span></p><p cid="n344" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a667/251mGwFQGEU" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a667/251mGwFQGEU</a></span></span></p><h3 cid="n345" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">113、Improved Detection and Diagnosis of Faults in Deep Neural Networks Using Hierarchical and Explainable Classification</span></span></h3><p cid="n346" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">深度神经网络（DNN）已广泛应用于欺诈检测、医疗诊断、人脸识别和自动驾驶等领域。然而，由于其固有复杂性和底层模型的随机性，基于DNN的系统常面临可靠性问题。现有DNN程序故障检测技术或因支持的故障类型（如超参数或层级故障）受限，或因采用的信息类型（如动态或静态信息）单一，往往难以全面检测与诊断故障。本文提出DEFault（故障检测与解释）技术——一种检测并诊断DNN程序故障的新方法。该方法首先在模型训练过程中捕获动态（即运行时）特征，采用分层分类方法检测文献中所有主要故障类别；随后从DNN程序中提取静态特征（如层级类型），并利用可解释AI方法（如SHAP）锁定故障根源。我们在包含约14.5万个DNN程序的大型多样化数据集上训练和评估DEFault，并使用包含52个真实故障DNN程序的基准数据集进一步验证。实验表明，该方法检测现实故障DNN程序的召回率达约94%，诊断故障根源的召回率达约63%，较现有最优技术性能提升3.92%-11.54%。DEFault通过高效检测与诊断故障，有望显著提升DNN程序的可靠性。</span></span></p><p cid="n347" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a760/251mHx0dJte" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a760/251mHx0dJte</a></span></span></p><h3 cid="n348" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">114、InSVDF: Interface-State-Aware Virtual Device Fuzzing</span></span></h3><p cid="n349" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">虚拟机监控程序（Hypervisor）作为虚拟化技术的核心，负责为每个虚拟机模拟独立的硬件资源。虚拟设备是虚拟机监控程序的主要接口，其安全性至关重要——任何漏洞都可能影响整个虚拟化环境，并威胁宿主机的安全。直接内存访问（DMA）作为虚拟设备的接口，承担着与宿主机通信的功能。近年来，众多研究聚焦于对DMA进行模糊测试以发现虚拟机监控程序漏洞，但现有方法对DMA状态缺乏敏感性，导致测试效率受限。具体表现为两大问题：交互时机不确定性与交互深度不明确性。本文提出InSVDF，一种具备DMA接口状态感知能力的模糊测试引擎。该引擎首先对DMA接口的内部状态进行建模，继而引入异步感知状态快照机制与深度感知种子保留机制。为验证方案有效性，我们将InSVDF与前沿模糊测试工具进行对比。实验结果表明，InSVDF能显著提升漏洞发现速度，最优情况下提速达24.2倍，并成功发现2个新漏洞（其中1个已获得CVE编号）。</span></span></p><p cid="n350" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a727/251mHbtPqZW" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a727/251mHbtPqZW</a></span></span></p><h3 cid="n351" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">115、Increasing the Effectiveness of Automatically Generated Tests by Improving Class Observability</span></span></h3><p cid="n352" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">自动化单元测试生成面临两个互补的挑战：一是找到能够执行被测类代码的API调用序列，二是编写验证类执行行为的断言语句。前者通常通过元启发式搜索算法优化测试以实现代码覆盖来解决，随后通过添加回归断言（即捕获测试生成期间观察到的状态）来应对后者挑战。虽然生成的测试往往能实现高覆盖率，但由于代码库可观测性较差或难以观测，其发现缺陷的潜力常受限制。这表现为相关属性和特性要么完全未充分暴露，要么仅以测试生成器无法处理的方式呈现。本文在基于搜索的Java测试生成工具EvoSuite背景下研究可观测性的影响，并通过两种互补方式进行扩展以提升可观测性：首先对被测代码实施转换以向测试生成器暴露封装属性；其次改进EvoSuite对复杂对象状态断言的能力。评估表明，这些可观测性改进共同显著提高了变异分数，突显了在测试生成过程中考虑类可观测性的重要性。</span></span></p><p cid="n353" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a693/251mGOqlvX2" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a693/251mGOqlvX2</a></span></span></p><h3 cid="n354" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">116、Instruct or Interact? Exploring and Eliciting LLMs’ Capability in Code Snippet Adaptation Through Prompt Engineering</span></span></h3><p cid="n355" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">代码片段适配是软件开发过程中的基础性活动。与代码生成不同，代码片段适配并非&#34;自由创作&#34;，它要求开发者对给定代码片段进行定制化修改以满足特定需求和代码上下文。近期，大语言模型（LLMs）在代码生成任务中展现出显著成效，但其在面向复用、依赖上下文的代码变更预测任务——即代码片段适配上的表现仍不明确。为填补这一空白，我们开展实证研究以探究LLMs在适配任务中的性能与问题。</span></span></p><p cid="n356" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们首先评估了三款主流LLMs的适配性能，并与代码生成任务进行对比。结果表明其适配能力弱于生成能力，pass@1指标下降近15%，且出现更多上下文相关错误。通过人工检查200个案例，我们进一步将LLMs表现欠佳的原因归纳为三类：需求模糊、需求错位和上下文误用。基于上述实证研究，我们提出一种交互式提示方法以激发LLMs的适配能力。具体而言，我们通过丰富上下文和任务分解来优化提示模板，从而缓解上下文误用并提升需求理解；同时要求LLMs与人类或AI顾问进行交互以实现自我反思，弥补需求模糊的缺陷。</span></span></p><p cid="n357" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">实验结果表明，该方法显著提升了LLMs的适配性能。表现最佳的人机交互模式成功修复202个缺陷中的159个，相较初始指令式提示，pass@1和pass@5指标提升超40%。考虑到人力成本，我们建议采用多智能体交互作为折衷方案，其具备优异泛化能力且能达到相近效果。本研究可为基于LLMs的自动化代码复用与适配提供方法论支持。</span></span></p><p cid="n358" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a641/251mGfOZeRq" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a641/251mGfOZeRq</a></span></span></p><h3 cid="n359" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">117、Instrumentation-Driven Evolution-Aware Runtime Verification</span></span></h3><p cid="n360" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">摘要——运行时验证（RV）通过监控程序测试是否符合形式化规约（specs），已发现数百个错误。RV首先会对程序进行插桩以获取需监控的相关事件（如方法调用）。阻碍RV广泛应用（尤其是在持续集成中）的主要因素是其高昂开销。为此，先前研究提出了规约驱动的演化感知技术来加速RV。这些技术通过复杂分析，仅重新监控与代码变更相关的规约子集。但这些方法假设RV开销主要由监控时间主导，且其设计往往为追求速度而牺牲安全性（即发现所有新违规的能力）。我们提出IMOP——首个基于插桩驱动的演化感知RV框架。IMOP基于最新发现：测试期间RV开销通常由插桩而非监控主导。IMOP包含14种技术方案，其核心思想是仅对变更代码重新插桩（复用未修改代码的旧插桩结果），同时在新版本中重新监控所有规约，从而实现安全加速。我们将IMOP实现为Maven插件，并在66个项目的2,028个版本上使用160条JDK API正确用法规约进行评估。IMOP在设计上天然具备安全性，相比每次变更后从头运行RV提速达40.2倍，较安全/非安全的规约驱动技术分别快17.8倍和6.7倍，其速度优势也优于直接对RV应用回归测试选择技术。</span></span></p><p cid="n361" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a636/251mGcsVgw8" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a636/251mGcsVgw8</a></span></span></p><h3 cid="n362" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">118、Intention is All You Need: Refining Your Code from Your Intention</span></span></h3><p cid="n363" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出一种基于意图的代码精化技术，将传统&#34;从注释到代码&#34;的精化过程转变为&#34;从意图到代码&#34;。该过程分解为两个阶段：意图提取与意图引导的代码修改生成。意图提取通过预定义模板对注释进行分类，后者则利用大语言模型（LLM）基于已定义的意图生成修订代码。我们设计了包含3个大类8个子类的注释转换体系，并采用规则与LLM分类器结合的混合方法实现精准分类。在五种LLM（GPT4o、GPT3.5、DeepSeekV2、DeepSeek7B、CodeQwen7B）不同提示设置下的实验表明，该方法在意图提取准确率达79%，代码精化生成最高达66%。实验结果印证了该方法在提升数据质量与改进代码精化流程方面的潜力。</span></span></p><p cid="n364" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a728/251mHc6ItOM" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a728/251mHc6ItOM</a></span></span></p><h3 cid="n365" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">119、InterTrans: Leveraging Transitive Intermediate Translations to Enhance LLM-based Code Translation</span></span></h3><p cid="n366" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">代码翻译旨在将程序从一种编程语言（PL）转换为另一种。这一长期存在的软件工程任务对于现代化遗留系统、确保跨平台兼容性、提升性能等至关重要。然而，由于编程语言间存在大量语法与语义差异，实现该过程的自动化仍具挑战性。近期研究表明，即便是大语言模型（LLMs）等先进技术——尤其是开源LLMs——在此任务上仍表现欠佳。当前代码LLMs通过多编程语言源代码训练获得多语言能力，本文探究如何利用该能力增强代码翻译。为此，我们提出InterTrans：一种基于LLM的自动化代码翻译方法，与现有方案不同，该方法通过中间翻译桥接源语言与目标语言间的语法语义鸿沟。InterTrans包含两阶段：首先采用新颖的代码翻译树（ToCT）算法规划源语言与目标语言间的传递性中间翻译序列，随后按特定顺序验证这些序列。我们在涉及六种编程语言的三个基准测试（CodeNet、HumanEval-X和TransCoder）上评估了三种开源LLMs的表现。结果表明，经过10次尝试，InterTrans在计算准确率（CA）上较直接翻译绝对提升18.3%-43.3%。性能最佳的InterTrans变体（基于Magicoder LLM）在三个基准测试中平均CA达到87.3%-95.4%。</span></span></p><p cid="n367" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a772/251mHErciI0" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a772/251mHErciI0</a></span></span></p><h3 cid="n368" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">120、Interactive Cross-Language Pointer Analysis For Resolving Native Code in Java Programs</span></span></h3><p cid="n369" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Java提供了Java本地接口（JNI），允许运行在Java虚拟机中的程序调用由其他语言（通常是C语言）编写的本地应用程序和库，并受其操控。尽管JNI机制显著增强了Java平台的功能，但由于本地代码引入的复杂行为，它也为Java程序的静态分析带来了挑战。因此，有效解析Java与本地代码之间的交互对于静态分析至关重要。本文提出JNIFER，这是首个用于解析Java程序中本地代码的交互式跨语言指针分析工具。JNIFER集成了Java与C指针分析，配备先进的本地调用和JNI函数分析功能，能够同时分析Java与本地代码。在跨语言交互分析过程中，两个分析器相互协作，构建跨语言指向关系和调用图，从而近似模拟交互点的运行时行为。我们在OpenJDK和实际Java应用上的大量实验表明，JNIFER在保持高精度和相当效率的同时，其完备性优于现有最先进方法。</span></span></p><p cid="n370" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a612/251mFVNHn3i" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a612/251mFVNHn3i</a></span></span></p><h3 cid="n371" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">121、Investigating the Impact of Interpersonal Challenges on Feeling Welcome in OSS</span></span></h3><p cid="n372" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">开源软件（OSS）项目的可持续性取决于贡献者的留存率。人际冲突会削弱贡献者的归属感，尤其对弱势群体而言，这将影响他们持续参与项目的决定。这种影响的程度因人而异，凸显了深入理解其作用机制的重要性。本文通过性别、种族及（残）障身份等多样性视角，探究了人际冲突对开源社区不同群体归属感的影响。我们基于Linux基金会大规模多元包容性调查数据（n=706），采用偏最小二乘结构方程模型（PLS-SEM）构建了人际冲突与归属感关联的理论框架，继而通过多群组分析（MGA）量化了这些冲突对不同人口群体的差异化影响，最后通过回归分析考察了不同群体对各类人际冲突的感知差异。研究证实：人际冲突与开源社区归属感呈负相关，这种关联在性别少数群体及残障人士中更为显著；不同类型的冲突对归属感的影响存在差异，且随性别、种族和残障状态呈现群体特异性。数据表明，性别少数群体和残障人士遭遇人际冲突的概率更高，尤其在跟踪骚扰、性骚扰和人肉搜索等行为上表现突出。本研究为开源社区提供了改善人际关系生态、建设包容性环境的实践启示。</span></span></p><p cid="n373" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a593/251mFHCk45q" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a593/251mFHCk45q</a></span></span></p><h3 cid="n374" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">122、Invivo Fuzzing by Amplifying Actual Executions</span></span></h3><p cid="n375" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">软件库模糊测试中持续存在的主要瓶颈在于需要编写模糊驱动，即模糊测试工具与目标库之间的粘合代码。尽管历经多年模糊测试实践，关键安全漏洞仍时常通过人工审计被发现，究其根源在于现有模糊驱动无法覆盖库与宿主程序之间复杂的交互场景。本研究提出一种创新的库模糊测试方法：通过利用宿主程序（即调用目标库的程序）构建的有效执行上下文来放大其执行过程。具体而言，我们首先运行宿主程序直至到达预设目标函数列表中的某个函数，随后对该函数实施覆盖率导向的函数级模糊测试。当达到预设测试量后，即转向列表中的下一个目标函数继续测试。这种方法不仅显著减少了开发者将模糊测试集成到工作流所需的手动工作量，更重要的是使模糊测试能够探索真实程序中使用到的库功能——这些功能往往因常规模糊驱动过于简单而未被充分测试。</span></span></p><p cid="n376" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a709/251mGZLJwgU" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a709/251mGZLJwgU</a></span></span></p><h3 cid="n377" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">123、Iterative Generation of Adversarial Example for Deep Code Models</span></span></h3><p cid="n378" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">深度代码模型易受对抗攻击影响，导致语义相同的输入可能触发不同响应。当前黑盒攻击方法通常基于自定义重要性分数或程序上下文优先处理标识符对模型的影响，并通过逐步替换标识符生成对抗样本。然而，这些方法往往未能充分利用失败攻击的反馈来指导后续攻击，导致陷入局部最优偏差和效率困境等问题。本文提出ITGen——一种新型黑盒对抗样本生成方法，通过迭代利用失败攻击反馈优化生成过程。该方法采用基于比特向量的代码变体表示来缓解局部最优偏差，并通过将比特向量与失败攻击反馈相结合，利用增强的贝叶斯优化框架高效预测最具潜力的代码变体，从而显著缩减搜索空间以解决效率困境。我们在九种深度代码模型上针对理解与生成任务开展实验，验证了ITGen在效果与效率上的优势，以及通过对抗微调增强模型鲁棒性的能力。例如，ITGen平均攻击成功率较现有最优技术（ALERT和BeamAttack）分别提升47.98%和69.70%。</span></span></p><p cid="n379" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a623/251mG3BFrPi" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a623/251mG3BFrPi</a></span></span></p><h3 cid="n380" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">124、JANUS: Detecting Rendering Bugs in Web Browsers via Visual Delta Consistency</span></span></h3><p cid="n381" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">渲染技术是现代网络体验的核心。然而，浏览器渲染的正确性并非总能得到保证，常常导致渲染缺陷。传统差异测试虽在多个领域取得成功，却难以有效检测渲染问题——因为同一HTML文件在不同浏览器中可能呈现截然不同的渲染结果。本文提出&#34;视觉差异一致性&#34;这一测试准则，旨在通过使跨浏览器渲染页面具备可比性来检测渲染缺陷。我们的核心观点是：对HTML文件的任何修改，都应当对所有浏览器的渲染结果产生一致影响。具体而言，当面对仅存在细微差异的两个HTML文件时，所有浏览器的反应应当保持一致——要么全部呈现相同渲染结果，要么全部呈现不同结果。基于这一发现，我们开发了名为Janus的实用模糊测试工具。该工具通过构建微调后的HTML文件对，观察各浏览器对应渲染页面的变化状态以实现缺陷检测。我们在Chrome、Safari和Firefox三大主流浏览器上开展评估，Janus共检测出31个非崩溃性渲染缺陷，其中24个获得确认，8个已被修复。</span></span></p><p cid="n382" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a153/215aWz8c6nm" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a153/215aWz8c6nm</a></span></span></p><h3 cid="n383" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">125、Knowledge-Enhanced Program Repair for Data Science Code</span></span></h3><p cid="n384" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出DSrepair——一种知识增强的程序修复方法，专为修复数据科学领域中大语言模型生成的缺陷代码而设计。DSrepair采用基于知识图谱的检索增强生成技术（RAG）进行API知识检索，并通过缺陷知识增强来构建面向大语言模型的修复提示。具体而言，为实现基于知识图谱的API检索，我们为广泛使用的数据科学库构建了DS-KG（数据科学知识图谱）；针对缺陷知识增强，则利用抽象语法树（AST）在节点级实现错误定位。在DS-1000数据集上，我们使用四种先进大语言模型对DSrepair与五种最先进的基于大语言模型的修复基线方法进行对比评估。结果表明DSrepair全面超越所有基线：相较于次优基线，针对四种测试大语言模型分别多修复了44.4%、14.2%、20.6%和32.1%的缺陷代码片段；同时显著提升效率，单任务所需token数量分别降低17.49%、34.24%、24.71%和17.59%。</span></span></p><p cid="n385" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a782/251mHKMTW7u" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a782/251mHKMTW7u</a></span></span></p><h3 cid="n386" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">126、LLM Assistance for Memory Safety</span></span></h3><p cid="n387" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">使用C等低级语言编写的代码中，内存安全违规问题仍是软件漏洞的主要根源之一。通过代码重构将C代码迁移至安全C方言（如CheckedC）可从根本上消除此类问题。这类安全方言依赖程序员提供的代码注解，以最小运行时开销确保内存安全。然而迁移过程需人工完成，给开发者带来沉重负担，导致该技术应用受限。迁移工作不仅需要推断注解规范，往往还需对代码进行重构/重写以适配注解要求。本文创新性地利用大语言模型（LLM）同时解决这两大难题：我们不仅展示如何运用LLM实现复杂代码逻辑分析与大规模代码库重写，还提出一个基于轻量级静态分析的全程序转换框架——该框架将转换任务分解为LLM可高效处理的多个子步骤。我们将这些创新实现于MSA工具（面向CheckedC方言），在微基准测试和最高2万行真实代码的评估中，MSA不仅显著优于原始LLM基线，更超越了当前最先进的符号化（非LLM）技术。</span></span></p><p cid="n388" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a280/215aWGsmiuA" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a280/215aWGsmiuA</a></span></span></p><h3 cid="n389" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">127、LLM Based Input Space Partitioning Testing for Library APIs</span></span></h3><p cid="n390" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">自动化库API测试具有挑战性，因为它需要探索涉及复杂数据类型对象的庞大参数输入空间。现有基于搜索的方法由于对对象状态与程序分支间关系的认知有限，常面临效率低下问题——倾向于生成无效输入。基于符号执行的方法虽能有效识别此类关系，却难以扩展至大型程序。</span></span></p><p cid="n391" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本研究提出LISP：一种基于大语言模型（LLM）的库API输入空间划分测试方法。该方法利用LLM理解被测库API代码，并基于其理解与丰富常识进行输入空间划分。具体而言，我们向LLM提供被测API的签名与代码，期望获得该API各输入空间分区的文本描述。随后，这些生成的文本描述将指导每个分区的输入生成过程，最终形成系统探索API程序行为的测试套件。</span></span></p><p cid="n392" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们在10个热门开源Java库（如GitHub上2.6k星的apache/commons-lang、48.8k星的guava）上评估LISP。实验结果表明：LISP在分支覆盖率上显著优于当前最先进工具EvoSuite，平均达到67.82%覆盖率（是EvoSuite的1.21倍）。总计触发404次异常/错误，并发现13个此前未知的漏洞（均已分配CVE编号）。</span></span></p><p cid="n393" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a690/251mGMqS0mY" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a690/251mGMqS0mY</a></span></span></p><h3 cid="n394" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">128、LLM-Agents Driven Automated Simulation Testing and Analysis of small Uncrewed Aerial Systems</span></span></h3><p cid="n395" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">全面模拟测试对于验证小型无人航空系统（sUAS）在多种场景下的正确行为至关重要，这些场景包括恶劣天气条件（如大风、雾天）、多样化环境（丘陵地形或城市区域）以及不同任务模式（监视、追踪）。尽管现有多种sUAS模拟工具支持开发者，但创建、执行和分析模拟测试的整个过程仍主要依赖人工且繁琐。开发者需要确定测试场景、搭建模拟环境、将待测系统（SuT）与模拟工具集成、制定任务计划，并收集和分析结果。这些高人力成本的任务限制了开发者在广泛场景中进行详尽测试的能力。</span></span></p><p cid="n396" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为缓解这一问题，本文提出AutoSimTest——一个由大语言模型（LLM）驱动的框架，通过多个LLM智能体协作支持sUAS模拟测试流程。该框架包含：（1）创建使SuT暴露于独特环境背景的测试场景；（2）根据测试场景配置模拟环境；（3）为SuT生成多样化sUAS任务；（4）分析模拟结果并提供交互式分析界面。此外，该框架设计灵活，可适配各类sUAS应用场景、模拟工具及SuT输入需求。</span></span></p><p cid="n397" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们通过以下方式评估该方法：（a）对基于PX4和ArduPilot飞行控制器的SuT进行模拟测试；（b）分析各智能体性能；（c）收集sUAS开发者反馈。结果表明，AutoSimTest显著提升了sUAS测试流程的效率和覆盖范围，在减少人工投入的同时实现了更全面、更多样化的场景评估。</span></span></p><p cid="n398" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a759/251mHwgwjwQ" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a759/251mHwgwjwQ</a></span></span></p><h3 cid="n399" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">129、LLM-aided Automatic Modelling for Security Protocol Verification</span></span></h3><p cid="n400" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">符号化协议分析作为协议设计、安全分析和信息资产保护的关键技术，已被Tamarin、ProVerif等现代工具成功应用于真实协议（如TLS 1.3和5G AKA等复杂协议）的建模与验证。然而，构建形式化验证模型本身具有较高门槛，阻碍了这些强大工具在实际协议分析中的广泛应用。本研究致力于通过大语言模型（LLMs）从自然语言协议描述中自动生成符号化协议模型，以弥合这一鸿沟。尽管LLMs在多种代码生成任务中表现卓越，但实证研究表明其直接生成符号化模型效果欠佳。为此，我们并未简单套用LLMs，而是将符号化建模任务细分为多个阶段，通过渐进式开发一系列中间模型最终生成正确的符号化模型。具体而言，我们运用LLMs进行语义解析，通过轻量级人工交互消除歧义，并设计算法将中间模型转化为最终符号化模型。为确保生成模型的正确性，每个阶段均基于形式化执行模型设计，且模型转换过程被证明具备可靠性。据我们所知，这是首个从自然语言文档生成协议验证用符号化模型的研究。我们还构建了包含18个真实安全协议文本描述及其对应符号化模型的基准测试集。实验表明，我们的工具在18个案例中有10个成功生成了中等规模的正确模型，展现出实际应用潜力。</span></span></p><p cid="n401" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a734/251mHfUjxMk" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a734/251mHfUjxMk</a></span></span></p><h3 cid="n402" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">130、LLMs Meet Library Evolution: Evaluating Deprecated API Usage in LLM-based Code Completion</span></span></h3><p cid="n403" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于大规模代码语料库预训练或微调的大语言模型（LLM）在代码补全任务中展现出显著效果。然而，在基于LLM的代码补全过程中，由于软件库持续快速迭代，模型可能难以准确调用最新且正确的应用程序接口（API）。现有研究虽已指出模型预测错误API的问题，但针对LLM代码补全中废弃API调用这一具体问题尚未深入探究。为此，我们首次对基于LLM的代码补全中废弃API使用情况展开系统性评估研究。该研究涵盖7个前沿大语言模型、8个主流Python库的145组API映射关系，以及28,125条补全提示。研究从模型、提示词和软件库三个维度揭示了当前LLM代码补全中废弃API及其替代API的使用现状（包括API调用合理性与废弃调用率），并剖析了现象背后的根源成因。基于实证发现，我们提出REPLACEAPI与INSERTPROMPT两种轻量级修复方案，为后续研究缓解LLM补全中废弃API调用问题提供基线方法。此外，我们还为如何将软件库演化与LLM驱动的软件开发相融合的未来研究方向提供了建设性启示。</span></span></p><p cid="n404" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a781/251mHK5tjdC" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a781/251mHK5tjdC</a></span></span></p><h3 cid="n405" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">131、LWDIFF: An LLM-Assisted Differential Testing Framework for WebAssembly Runtimes</span></span></h3><p cid="n406" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">WebAssembly（Wasm）运行时负责执行Wasm程序——这是一种广泛应用于浏览器中高效执行高级语言的流行低级语言，其应用场景覆盖多个领域。这些运行时的正确性对Wasm执行的功能性和安全性至关重要，因此需要专门针对Wasm运行时设计测试方法。然而，现有Wasm测试框架无法生成能有效覆盖运行时全部三个环节（解码、验证和执行阶段）的测试用例。为填补这一研究空白，我们提出了一种新型Wasm运行时差分测试框架，该框架利用了此前技术忽视的Wasm语言规范知识，从而增强对运行时功能的全面测试。具体而言，我们首先使用大语言模型从规范中提取相关知识，随后通过多个新型变异算子生成具有多样化特征的测试用例，以覆盖运行时的所有三个阶段。我们在八个Wasm运行时上评估LWDIFF框架，结果表明：相较于最先进的Wasm测试工具，LWDIFF实现了最高的分支覆盖率，并检测出最多数量的缺陷。总计发现八个运行时中的31个缺陷（均已确认），其中25个为先前未知的新缺陷。</span></span></p><p cid="n407" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a769/251mHCEMl6U" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a769/251mHCEMl6U</a></span></span></p><h3 cid="n408" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">132、Large Language Models as Configuration Validators</span></span></h3><p cid="n409" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">配置错误是导致软件故障的主要原因。现有实践依赖于开发者编写的规则或测试用例来验证配置值，这种方法成本高昂。基于机器学习（ML）的配置验证被视为前景广阔的方向，但一直面临诸如需要大规模现场数据和系统特定模型等挑战。大型语言模型（LLM）的最新进展为解决基于机器学习的配置验证长期存在的局限性带来了希望。我们首次分析了使用LLM进行配置验证的可行性与有效性，通过开发名为Ciri的通用LLM配置验证框架展开实证评估。Ciri采用基于有效配置和错误配置样本的少样本学习提示工程，并在输出结果时核查LLM的响应，以解决其幻觉和不确定性问题。我们在十个广泛部署的开源系统配置数据上，对八种主流LLM驱动的Ciri验证效果进行评估。研究结果：（1）证实了LLM用于配置验证的潜力；（2）探索了Ciri等LLM验证器的设计空间；（3）揭示了现存挑战，包括对某些错误配置类型的检测失效以及对热门配置参数的偏好等问题。</span></span></p><p cid="n410" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a204/215aWCaXlSg" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a204/215aWCaXlSg</a></span></span></p><h3 cid="n411" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">133、Large Language Models for Safe Minimization</span></span></h3><p cid="n412" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">程序分析、验证与测试中的多项任务被建模为约束求解问题，并以SMT求解器作为推理引擎。本研究旨在探索大型语言模型（LLMs）通过挖掘约束间交互关系来缩减不可行字符串约束系统规模的能力，同时保持剩余约束仍不可满足——我们称之为&#34;安全最小化&#34;。基于对LLMs幻觉和错误传播现象的初步观察，我们设计了SAFEMIN框架，通过协同LLM与SMT求解器确保最小化过程的安全性与正确性。我们在LeetCode字符串基准测试集上验证了该方法计算最小不可满足子集（MUSes）的有效性：SAFEMIN成功安全地最小化了94.3%的约束，平均最小化率达到MUSes的98%。此外，我们评估了SAFEMIN通过&#34;采样-枚举&#34;解码策略部分枚举非唯一MUSes的能力，结果显示该方法比无LLM宏推理时多捕获42.1%的非唯一MUSes。最后，我们论证了SAFEMIN在检测程序不可行路径方面的实用价值。</span></span></p><p cid="n413" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a740/251mHjJTNEk" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a740/251mHjJTNEk</a></span></span></p><h3 cid="n414" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">134、Leveraging Large Language Models for Enhancing the Understandability of Generated Unit Tests</span></span></h3><p cid="n415" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">自动化单元测试生成器（尤其是基于搜索的软件测试工具，如EvoSuite）能够生成高覆盖率的测试用例。尽管这些工具减轻了人工编写测试的负担，但其生成的测试用例往往给软件工程师的理解带来挑战。为此，我们提出UTGen框架，通过结合基于搜索的软件测试与大型语言模型，从测试数据情境化、标识符命名优化和描述性注释添加三个维度提升自动生成测试用例的可理解性。我们通过一项受控实验（参与者包括32名来自学术界与工业界的软件工程师），探究单元测试可理解性对缺陷修复任务效率的影响——选择缺陷修复场景是因为其能真实体现可理解测试用例的重要性。实验表明：使用UTGen生成测试用例的参与者比使用基线测试用例的参与者多修复33%的缺陷，同时节省20%的时间。根据事后问卷反馈，改进后的测试名称、测试数据及变量命名能有效提升缺陷修复效率。</span></span></p><p cid="n416" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a392/215aWNtdLLq" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a392/215aWNtdLLq</a></span></span></p><h3 cid="n417" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">135、Leveraging Large Language Models to Detect npm Malicious Packages</span></span></h3><p cid="n418" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">现有恶意代码检测技术需整合多种工具以识别不同恶意软件模式，常伴随较高的误分类率。因此，采用更先进、自动化程度更高的方法可提升恶意代码检测技术，实现高准确率与低误判率。本研究旨在通过实证评估大语言模型（LLM）检测恶意代码的有效性，协助安全分析师识别恶意软件包。我们提出SocketAI——一种用于检测恶意代码的自动化审查工作流。为评估其效能，我们采用包含5,115个npm软件包的基准数据集（其中2,180个含恶意代码），将GPT-3和GPT-4模型与最先进的CodeQL静态分析工具进行基线对比（后者采用先前研究开发的39条定制规则检测JavaScript恶意代码）。我们还比较了静态分析预筛选与SocketAI工作流的效能差异，量化需分析的文件数量及相应成本。此外，通过定性研究归纳工作流可检测/遗漏的恶意活动类型。基线测试显示：相较静态分析，本方案在精确率与F1分数上分别提升16%和9%。其中GPT-4以99%精确率和97% F1分数实现更高准确率，而GPT-3以91%精确率和94% F1分数提供更经济的平衡方案。静态分析预筛选可使需LLM分析的文件量减少77.9%，GPT-3成本降低60.9%，GPT-4成本降低76.1%。定性分析表明，数据窃取、可疑域名连接和任意代码执行是当前检测到的主要恶意活动。</span></span></p><p cid="n419" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a683/251mGHYoHG8" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a683/251mGHYoHG8</a></span></span></p><h3 cid="n420" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">136、Leveraging Propagated Infection to Crossfire Mutants</span></span></h3><p cid="n421" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">变异测试通过反复生成人为缺陷的软件版本（变异体），并判定测试套件能否充分检测这些缺陷（即杀死变异体），以此识别测试套件的不足。当测试不充分时，每个存活的变异体都为改进测试套件提供了机会。我们通过研究发现，许多此类存活变异体（研究中最高占比84%）仅需通过增强现有测试的断言（即断言扩增）即可被检测到。此外，这些变异体中有许多可被多个现有测试检测到，这为开发者提供了多种检测选择方案。</span></span></p><p cid="n422" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为应对这些挑战，我们开发了一种基于内存状态分析的技术，可识别用于检测存活变异体的候选断言。同时，我们基于前人关于&#34;交叉触发&#34;（即单个测试意外杀死多个变异体）的研究成果，构建了理论模型。该模型描述了现有测试套件中可能发生交叉触发的不同粒度层级，为杀死存活变异体提供了多样化实现路径。我们将该模型转化为配套技术，通过优化现有测试的断言扩增，用更少的新增断言实现多变异体交叉触发，并可选择将断言集中到更少的测试中。</span></span></p><p cid="n423" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">实验表明：对于可利用现有测试数据检测的所有存活变异体，我们仅需采用1.1%的候选断言即可全部杀死；与未采用交叉触发的测试相比，扩增后的测试平均能多杀死6倍数量的变异体。</span></span></p><p cid="n424" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a687/251mGKwvh84" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a687/251mGKwvh84</a></span></span></p><h3 cid="n425" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">137、LiCoEval: Evaluating LLMs on License Compliance in Code Generation</span></span></h3><p cid="n426" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLM）的最新进展彻底改变了代码生成领域，使得开发者广泛采用AI编程工具。然而，LLM可能在生成受许可证保护的代码时未提供必要的许可信息，导致软件开发过程中潜在的知识产权侵权风险。本文针对LLM生成代码的许可证合规性这一关键但尚未充分探索的问题，通过建立基准来评估LLM为其生成代码提供准确许可信息的能力。为构建该基准，我们开展实证研究以确定&#34;显著相似性&#34;的合理标准——该标准需排除独立创作的可能性，表明LLM输出与特定开源代码之间存在复制关系。基于此标准，我们提出LiCoEval评估框架，用于衡量LLM的许可证合规能力，即当生成代码与现有受版权保护代码存在显著相似性时，模型提供准确许可证或版权信息的能力。通过LiCoEval对14个主流LLM的评估发现，即使性能最优的模型也会生成不可忽视比例（0.88%至2.01%）与现有开源实现显著相似的代码。值得注意的是，大多数LLM无法提供准确的许可信息，尤其是对采用著佐权许可证的代码。这些发现凸显了提升LLM代码生成任务合规能力的紧迫性。本研究为未来改善AI辅助软件开发中的许可证合规性提供了基础，既有助于保护开源软件版权，也能降低LLM用户的法律风险。</span></span></p><p cid="n427" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a589/251mFEBPBD2" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a589/251mFEBPBD2</a></span></span></p><h3 cid="n428" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">138、LiSSA: Toward Generic Traceability Link Recovery through Retrieval-Augmented Generation</span></span></h3><p cid="n429" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在软件系统的开发与维护过程中，需要处理大量相互关联的软件工件，这些工件通过多种复杂方式彼此联系。因此，清晰理解工件间的关联关系，并持续改进自动化工件链接技术，能够支持乃至增强众多软件工程任务的执行。然而，当前自动追溯链接恢复（TLR）方法主要针对特定工件集合（如需求与代码之间）的链接。所幸大型语言模型（LLM）的最新进展使得TLR方法具备广泛适用性成为可能。但如何为LLM提供执行TLR所需的特定信息仍非易事。本文提出LiSSA框架，该框架通过检索增强生成（RAG）技术充分利用LLM性能并提升其表现。我们在三个不同TLR任务（需求到代码、文档到代码、架构文档到架构模型）上对LiSSA进行实证评估，并与前沿方法进行对比。实验结果表明，基于RAG的方法在代码相关任务上显著优于现有技术。但要使基于RAG的方法在实践中适用，仍需进一步研究以提升其性能。</span></span></p><p cid="n430" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a723/251mH8YhfIA" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a723/251mH8YhfIA</a></span></span></p><h3 cid="n431" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">139、LibreLog: Accurate and Efficient Unsupervised Log Parsing Using Open-Source Large Language Models</span></span></h3><p cid="n432" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">日志解析是将非结构化日志数据转化为结构化格式的关键步骤，有助于后续基于日志的分析。传统的基于语法的日志解析器虽然高效，但在处理偏离预定义规则的日志时准确性往往下降。近年来，基于大语言模型（LLM）的日志解析器展现出卓越的解析精度。然而现有基于LLM的解析器面临三大挑战：1）微调或上下文学习需要耗时费力的人工标注；2）海量日志数据与LLM有限上下文长度导致解析成本上升；3）使用ChatGPT等商业模型处理敏感日志信息存在隐私风险。为突破这些局限，本文提出LibreLog——一种利用开源LLM（Llama3-8B）的无监督日志解析方法，在实现最先进解析精度的同时增强隐私保护并降低运营成本。LibreLog首先通过固定深度分组树对静态文本相似但动态变量不同的日志进行分组，随后通过三个组件解析组内日志：i）基于相似度评分的检索增强生成：根据Jaccard相似度筛选组内多样化日志，帮助LLM区分静态文本与动态变量；ii）自我反思：通过迭代查询LLM优化日志模板以提升解析精度；iii）日志模板记忆库：存储已解析模板以减少LLM查询次数，提升解析效率。在LogHub-2.0上的实验表明，LibreLog比现有最优LLM解析器精度提升25%，解析速度加快2.7倍。该方案在保障商业LLM隐私与成本优势的同时，实现了业界领先的解析效率与准确性。</span></span></p><p cid="n433" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a640/251mGfc6c2A" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a640/251mGfc6c2A</a></span></span></p><h3 cid="n434" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">140、Lightweight Concolic Testing via Path-Condition Synthesis for Deep Learning Libraries</span></span></h3><p cid="n435" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，深度学习（DL）库测试技术发展迅猛。尽管现有方法在提升API与代码覆盖率、检测未知缺陷方面成效显著，但其输入生成仍依赖于黑盒模糊测试。而混合执行测试（又称动态符号执行）能更有效地探索多样化执行路径，但将其应用于DL库却面临巨大挑战——因其内在复杂性。本文首次提出面向DL库的混合执行测试技术，通过轻量化方法显著降低传统混合执行的高昂开销。传统符号执行需为所有非具体值变量维护符号表达式以构建路径条件，而本技术通过归纳式程序合成推断分支条件，从而计算近似路径条件。尽管近似处理可能带来精度损失，但轻量级特性使其能有效探索DL库复杂实现中的多样化执行路径。我们实现了工具PATHFINDER并在PyTorch与TensorFlow上评估：平均分支覆盖率超越现有API级DL库模糊测试工具67%，最高较TitanFuzz提升63%、较FreeFuzz提升120%。PATHFINDER在缺陷检测方面同样出色，共发现61个崩溃性错误，其中59个被开发者确认为未知漏洞，32个已修复。</span></span></p><p cid="n436" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a739/251mHj6ryzm" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a739/251mHj6ryzm</a></span></span></p><h3 cid="n437" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">141、MARQ: Engineering Mission-Critical AI-based Software with Automated Result Quality Adaptation</span></span></h3><p cid="n438" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于人工智能的关键任务软件展现出一把双刃剑：其固有的统计特性虽然允许结果质量具有弹性空间，但关键任务的本质又要求其必须满足执行时限等严格约束。这为结果质量（QoR）——量化计算产出质量的指标——与执行时间、能耗等其他应用属性之间的权衡创造了空间，在实时场景中尤为突出。移动与边缘计算环境中普遍存在资源约束波动现象，例如通过不稳定网络连接向远程服务器传输数据的场景，典型用例包括车联网、无人机集群或社交虚拟现实等。我们提出了一种创新方法，使软件工程师能够便捷地配置具有不同QoR与资源需求的替代性AI服务链——即封装在微服务中、旨在实现预定目标的AI服务序列。该方法通过MARQ框架实现运行时动态优化自动驱动。实验表明，MARQ能有效实现关键任务AI软件实时场景下的服务链动态选择，同时确保满足应用约束。特别值得注意的是，相较于现有方法，本方案实现了服务链选择速度100倍提升及QoR平均10%的优化。</span></span></p><p cid="n439" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a719/251mH6gNUYw" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a719/251mH6gNUYw</a></span></span></p><h3 cid="n440" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">142、Magika: AI-Powered Content-Type Detection</span></span></h3><p cid="n441" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">内容类型检测任务——即识别任意字节序列中编码的数据类型——对操作系统、开发环境、逆向工程场景及各类安全应用至关重要。本文介绍Magika，一种基于人工智能的新型内容类型检测工具。其核心采用深度学习模型，仅需单核CPU运行，模型权重存储占用仅1MB内存。实验表明，Magika在超过100种内容类型和超百万文件的测试集上平均F1值达99%，性能超越现有所有检测工具。为促进应用与改进，我们以Apache 2许可在GitHub开源Magika，并公开模型与训练流程。该工具已被Gmail和Google Drive用于附件扫描，被VirusTotal用于辅助恶意软件分析，并被Apache Tika等知名开源项目采用。本文虽聚焦初始版本，但Magika持续演进，现已支持超200种内容类型。最新进展详见</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/google/magika" target="_blank">https://github.com/google/magika</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n442" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a695/251mGPEq0Ok" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a695/251mGPEq0Ok</a></span></span></p><h3 cid="n443" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">143、Measuring the Runtime Performance of C++ Code Written by Humans using GitHub Copilot</span></span></h3><p cid="n444" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">GitHub Copilot是一款广泛应用于开发者群体的人工智能编程助手。尽管已有少量研究评估过使用Copilot的安全风险，但尚未有研究验证其是否能帮助开发者生成运行时性能更优的代码。本文通过对比开发者使用与不使用GitHub Copilot时编写的C++代码，评估其运行时性能差异。为此，我们开展了包含32名参与者的用户研究，每位参与者需独立解决两个C++编程问题——其中一个问题允许使用Copilot辅助，另一个则禁止使用。通过测试数据集测量参与者提交方案的运行时性能，结果表明：使用Copilot生成的C++代码在统计意义上具有显著更慢的运行时性能。</span></span></p><p cid="n445" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a596/251mFJEDyY8" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a596/251mFJEDyY8</a></span></span></p><h3 cid="n446" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">144、Metamorphic-Based Many-Objective Distillation of LLMs for Code-related Tasks</span></span></h3><p cid="n447" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">知识蒸馏技术能够将大型语言模型（LLM）压缩为更紧凑高效的版本，使其在代码相关任务上保持相近的准确率。但本研究表明，当使用变形代码进行评估时，压缩模型的鲁棒性仅为原始LLM的四分之一。由于分析代码片段的细微改动（例如用同义词替换参数名），这些模型误判代码克隆的概率激增440%。为此，我们提出MORPH方法，通过结合变形测试与多目标优化，实现面向代码处理的鲁棒性LLM蒸馏。该方法高效探索模型配置空间，生成能精准平衡准确率、效率及变形代码鲁棒性的帕累托最优模型——其中鲁棒性通过变形测试量化，即模型对原始代码与其等效变形版本产生不同预测（预测翻转）的代码片段数量。我们在代码克隆和漏洞检测两项任务上评估MORPH，分别对CodeBERT和GraphCodeBERT进行蒸馏，并与当前最先进的AVATAR蒸馏方法及微调非蒸馏LLM对比。实验表明：相较AVATAR，MORPH生成的压缩模型具有（i）47%的鲁棒性提升，（ii）25%的效率提升（减少浮点运算量），同时保持（iii）相当或更高准确率（最高+6%），以及（iv）相近的模型体积。</span></span></p><p cid="n448" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a766/251mHASVzLW" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a766/251mHASVzLW</a></span></span></p><h3 cid="n449" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">145、Mobile Application Coverage: The 30% Curse and Ways Forward</span></span></h3><p cid="n450" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">测试、安全分析及其他动态质量保障方法依赖于调用被测软件的机制，旨在实现高代码覆盖率。文献中提出的大量调用机制（尤其是针对Android移动应用）采用基于GUI驱动的应用探索技术。然而研究表明，即使最先进的GUI探索技术也只能覆盖现实应用中约30%的代码。本文致力于研究&#34;剩余70%&#34;的覆盖难题。通过开展一项大规模实验——由两名人类专家深度探索61个基准应用和42个Google Play热门应用，我们发现即使排除已知的基于GUI探索问题（如无法提供语义输入和正确事件顺序），要显著提升现实应用的覆盖率仍不现实。阻碍人类分析师实现全覆盖的主要原因包括：应用对远程服务器和外部资源的依赖、难以触达的应用入口点、被禁用或存在缺陷的功能，以及底层设备的软硬件特性。因此，未来对基于GUI探索策略的投入难以带来覆盖率的实质性提升。为探索可能的突破路径及应对这些&#34;阻碍因素&#34;的方法，我们深入分析了保护这些阻碍的代码级特性。分析表明，大部分阻碍实际上可通过相对简单的超GUI探索技术成功绕过。本研究有望启发该领域的未来工作，同时也为相关评估提供了现实基准。</span></span></p><p cid="n451" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a679/251mGF2rPiM" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a679/251mGF2rPiM</a></span></span></p><h3 cid="n452" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">146、Mock Deep Testing: Toward Separate Development of Data and Models for Deep Learning</span></span></h3><p cid="n453" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">尽管深度学习（DL）已渗透并成为众多关键软件系统的核心组成部分，但当前的软件工程研究尚未探索如何对支撑DL方法有效运行的数据与模型进行独立测试。这一独立测试的核心挑战源于数据与模型之间的强耦合性。本研究填补了这一空白，提出了一种名为&#34;模拟深度测试&#34;的方法论，用于DL应用程序的单元测试。为实现单元测试，我们引入了一种设计范式：将工作流解耦为独立可管理的组件，最小化顺序依赖，并对数据准备、模型设计等DL关键阶段进行模块化划分。针对这些组件的单元测试，我们提出通过模拟对象（mock）对其依赖关系建模。在DL语境下，模拟对象指分别模拟原始数据与模型行为的模拟数据（mock data）和模拟模型（mock model）。这种模块化方法支持组件的独立开发与测试，确保开发全流程的质量保障。我们开发了KUnit框架，为流行DL开发库Keras提供模拟深度测试支持。通过实证评估，我们验证了模拟对象在数据与模型独立测试中的有效性：对来自Stack Overflow和GitHub的50个DL程序的分析显示，模拟对象成功识别出数据准备阶段的10个问题及模型设计阶段的53个问题。针对36名参与者的用户研究表明，使用KUnit的开发者在数据准备阶段解决了25个问题，在模型设计阶段修复了38个问题。研究证明模拟对象能为单元测试提供轻量级依赖模拟，实现早期缺陷检测。最后的可用性调查显示，KUnit能有效帮助开发者独立测试各组件（数据与模型），并在不同阶段高效解决问题。</span></span></p><p cid="n454" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a756/251mHucMOZO" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a756/251mHucMOZO</a></span></span></p><h3 cid="n455" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">147、Model Editing for LLMs4Code: How Far are We?</span></span></h3><p cid="n456" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">代码大模型（LLMs4Code）在软件工程领域展现出卓越性能，尤其在编码任务中表现突出。然而，即便是最先进的LLMs4Code也不可避免地包含错误或过时的代码知识。由于训练LLMs4Code成本高昂，重新训练模型以修正这些问题代码知识并不现实。模型编辑作为新兴技术领域，能高效精准地修正大模型中的错误知识，近期已有多种模型编辑技术和基准测试被提出。尽管如此，目前仍缺乏针对代码相关任务全面比较和分析前沿模型编辑技术对LLMs4Code知识适应性能的系统研究。为填补这一空白，我们首次系统研究了应用前沿模型编辑方法修复LLMs4Code知识错误的效能。为此，我们构建了CLMEEval基准测试集，包含两个数据集：含21,000+代码生成样本的CoNaLa-Edit（CNLE）和含16,000+代码摘要样本的CodeSearchNet-Edit（CSNE）。基于CLMEEval，我们对CodeLlama（7B）、CodeQwen1.5（7B）和Stable-Code（3B）三个LLMs4Code模型评估了六种先进模型编辑技术。研究发现：基于外部记忆的GRACE方法在知识编辑效果和特异性（编辑不影响非目标知识）上表现最佳，而泛化性（编辑能否推广到语义相同的其他输入）是现有技术面临的共同挑战。此外，通过深入案例分析，我们提出增强版A-GRACE，引入对比学习以更好捕捉输入语义。实验表明，相比原始GRACE，A-GRACE在保持相近编辑效果和特异性的同时，显著提升了泛化能力。</span></span></p><p cid="n457" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a586/251mFCqqWAg" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a586/251mFCqqWAg</a></span></span></p><h3 cid="n458" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">148、Module-Aware Context Sensitive Pointer Analysis</span></span></h3><p cid="n459" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Java平台模块系统（JPMS）自Java 9引入以来已得到广泛应用。然而现有指针分析技术未能有效利用JPMS的语义特性。本文提出一种创新的模块感知方法以提升指针分析性能：通过建模JPMS中provides与uses关键字的语义来恢复缺失的指向关系；设计模块感知的上下文敏感分析，利用模块化特性传播并应用关键上下文，实现精度与效率的更好平衡。我们在Tai-e中实现了名为MPA的模块感知指针分析，并通过大量实验与标准对象敏感度分析进行对比。评估结果表明：在相同分析条件下，MPA最多可发现90.9倍（lombok项目）的可达方法，并能增强现有上下文敏感分析方法，在效率与精度间取得良好平衡。性能方面，MPA在多数基准测试中接近上下文不敏感分析的速度，其平均精度则优于1-对象敏感度分析。</span></span></p><p cid="n460" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a763/251mHyWzECA" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a763/251mHyWzECA</a></span></span></p><h3 cid="n461" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">149、Moye: A Wallbreaker for Monolithic Firmware</span></span></h3><p cid="n462" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着嵌入式设备日益普及，以执行效率和简洁性著称的单一固件被广泛应用于资源受限设备。与普通固件不同，单一固件映像打包时不含标识格式的文件，这为逆向工程带来了挑战。函数识别是分析单一固件的前提。现有函数识别方法因高度依赖文件格式，在应用于单一固件时效果欠佳。本文提出Moye——一种识别单一固件函数的新方法。我们基于关键发现：寄存器的使用必须符合特定约束条件。具体而言，本方法通过分割固件定位代码段并输出指令，利用掩码语言模型学习指令间的隐含关系以识别函数边界。我们在1,318个单一固件映像（包括从广泛使用设备采集的48个样本）上评估Moye。实验表明，本方法在多数数据集上以超过98%的精确率和97%的召回率显著优于现有方案，且对复杂编译选项具有鲁棒性。</span></span></p><p cid="n463" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a590/251mFFmFq5G" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a590/251mFFmFq5G</a></span></span></p><h3 cid="n464" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">150、NIODebugger: A Novel Approach to Repair Non-Idempotent-Outcome Tests with LLM-Based Agent</span></span></h3><p cid="n465" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">不稳定测试（Flaky tests）是指在重复执行中结果不一致的测试用例，这给软件测试（尤其是回归测试）带来了重大挑战。近期，非幂等输出型（NIO）不稳定测试——即首次执行通过但在相同环境下后续执行失败的测试——开始引发研究关注。尽管当前已有利用大语言模型（LLMs）处理不稳定测试的研究进展，但现有方法尚未解决NIO型问题。LLMs有限的上下文窗口使其难以整合测试方法之外的关联源代码，往往遗漏了解决状态污染（NIO问题的根源）所需的关键信息。本文提出NIODebugger，首个基于LLM智能体修复不稳定测试的框架。该框架采用三阶段设计：检测阶段通过动态分析收集多轮测试运行的堆栈轨迹与自定义执行日志，以理解累积状态污染；探索阶段由LLM智能体指导提取与测试不稳定性相关的源代码；修复阶段则利用前两阶段信息修正测试。NIODebugger支持多种LLM集成，补丁生成成功率介于11.63%至58.72%之间。其最优变体NIODebugger-GPT-4在20个大型开源项目中，成功为172个未知NIO测试中的101个生成正确补丁。我们为所有生成补丁提交了Pull Request，其中58个已被合并，1个被拒绝，42个待处理。NIODebugger的Java实现以Maven插件形式发布于</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/kaiyaok2/NIOInspector" target="_blank">https://github.com/kaiyaok2/NIOInspector</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n466" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a762/251mHyeRqAE" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a762/251mHyeRqAE</a></span></span></p><h3 cid="n467" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">151、Navigating the Testing of Evolving Deep Learning Systems: An Exploratory Interview Study</span></span></h3><p cid="n468" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">深度学习（DL）系统已广泛应用于自动驾驶、智能医疗等众多工业领域。与传统软件类似，DL系统也需要持续演进以满足不断变化的用户需求。然而，如何确保这些持续演化系统的质量——尤其是在测试环节——仍存在重大挑战。了解行业开发者如何应对这些挑战及其面临的额外困境，将为进一步提升DL系统质量保障提供重要启示。为此，我们对来自不同领域和背景的22名DL开发者进行了半结构化访谈。本研究重点探究开发者在测试演化DL系统时遇到的挑战、实际采用的解决方案以及他们对额外支持的期望。研究结果揭示了测试演化DL系统时的核心难点（如回归故障、线上线下差异、测试数据收集等），并归纳出开发者应对这些挑战的最佳实践。此外，我们还提出了未来潜在研究方向，以提升演化DL系统的测试效能。</span></span></p><p cid="n469" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a643/251mGh4tJn2" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a643/251mGh4tJn2</a></span></span></p><h3 cid="n470" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">152、Neurosymbolic Modular Refinement Type Inference</span></span></h3><p cid="n471" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">细化类型作为弗洛伊德-霍尔逻辑基于类型的泛化，是一种表达力强且模块化的方法，能够静态确保软件各种正确性、安全性和安全性属性。然而，其表达力与模块化特性意味着开发者必须耗费大量精力，为代码中所有函数标注可能复杂的类型规范以明确函数契约。我们提出LHC——一种神经符号智能体，它利用大语言模型为整个包或模块中的所有函数自动生成细化类型注解，并以细化类型检查器LiquidHaskell作为验证生成规范正确性的判定机制。我们构建了三个Haskell包的数据集，这些包通过细化类型强制执行从数据结构不变量到低级内存安全等多种正确性属性，并利用该数据集评估LHC。此前专家用户需要数天至数周才能为这些包完成细化类型标注。评估表明，即便使用30亿参数的StarCoder等相对较小模型，通过微调和精心选择的上下文，我们的神经符号智能体仅需数小时即可为整个库中高达94%的函数自动生成细化类型，这证明大语言模型能极大减少形式化验证所需的人力投入。</span></span></p><p cid="n472" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a627/251mG6dKp68" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a627/251mG6dKp68</a></span></span></p><h3 cid="n473" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">153、No Harness, No Problem: Oracle-guided Harnessing for Auto-generating C API Fuzzing Harnesses</span></span></h3><p cid="n474" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">库API几乎被所有现代应用程序和系统所使用，使其成为当今安全性最关键的软件之一。近年来，针对库的漏洞挖掘工作广泛采用了覆盖率导向的模糊测试这一强大策略。API模糊测试的核心在于测试套件：这种封装程序会先初始化API，再向其函数输入随机数据。成功的模糊测试需要正确且全面的测试套件，这使得缺乏足够领域知识的开发者难以手动编写有效套件。为此，近期研究提出通过&#34;学习&#34;库的预期用途来自动生成测试套件。然而，尽管这些自动生成的套件实现了高代码覆盖率，却常常遗漏关键的API语义——包含无效、不切实际或根本不可能的数据及调用序列——导致模糊测试因误报崩溃而偏离正轨。因此，若缺乏精确且语义正确的测试套件，许多关键API将始终无法被有效模糊测试，其潜在漏洞将继续为攻击者敞开大门。</span></span></p><p cid="n475" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出预言引导的测试套件生成技术：一种全自动、语义感知的API模糊测试套件合成方法。该方法通过模拟人工编写套件的试错过程，借助模糊测试实现自动化。具体而言，我们利用API头文件信息，通过变异拼接生成候选套件；并通过一组正确性预言（包括编译、执行和覆盖率变化）验证其有效性。仅保留正确候选并进一步变异，我们的方法能在短短一小时内为复杂现实库生成多样化的语义正确套件。我们将该技术实现为原型系统OGHarn，并与当前领先的全自动套件生成工具Hopper及OSS-Fuzz中大量开发者编写的套件进行比较评估。在20个现实API的测试中，OGHarn的代码覆盖率中位数比人工编写套件高出14%，同时分别比Hopper和人工套件多发现31和30个漏洞——且零误报崩溃。OGHarn发现的41个新漏洞均获开发者确认，其中40个已被修复，且多数存在于此前完全缺乏测试套件的API中。</span></span></p><p cid="n476" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a775/251mHGjRraw" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a775/251mHGjRraw</a></span></span></p><h3 cid="n477" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">154、On Prescription or Off Prescription? An Empirical Study of Community-prescribed Security Configurations for Kubernetes</span></span></h3><p cid="n478" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">尽管Kubernetes部署有助于快速交付软件，但其可能面临安全攻击并导致严重后果。系统化分析社区推荐的安全配置（即安全专家建议的配置方案）如何帮助从业者加固Kubernetes部署具有重要价值。为此，我们开展了一项实证研究，涵盖互联网安全中心（CIS）推荐的53项安全配置、20名受访者的问卷调查结果，以及从开源软件（OSS）和专有领域获取的544份配置文件。研究发现：（1）从业者可能不了解推荐的安全配置——16项推荐配置中有5%-40%的受访者表示不熟悉；（2）在企业A和开源项目中，分别有18.0%和17.9%的配置文件存在至少一项违反推荐配置的情况。通过对5款静态应用安全测试（SAST）工具的评估发现：（1）仅Kubescape支持全部推荐的安全配置类别；（2）在企业A和开源数据集上观察到的最高精确率分别为0.41和0.43；（3）在企业A和开源数据集上观察到的最高召回率分别为0.53和0.65。研究结果表明CIS专家推荐的Kubernetes配置方案与实际应用存在脱节。文末为从业者和研究者提供了改进建议，研究所用数据集已公开。</span></span></p><p cid="n479" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a707/251mGYo0EZq" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a707/251mGYo0EZq</a></span></span></p><h3 cid="n480" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">155、On the Mistaken Assumption of Interchangeable Deep Reinforcement Learning Implementations</span></span></h3><p cid="n481" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">深度强化学习（DRL）是一种人工智能范式，智能体通过神经网络学习在特定环境中应采取的动作。近年来，DRL因能驾驭驾驶模拟器、三维机器人控制和多人在线战术竞技游戏等复杂环境而备受关注。当前已有诸多训练智能体的先进算法实现，例如深度Q网络（DQN）和近端策略优化（PPO）算法。然而，现有研究存在一个误区：假定同一算法的不同实现具有一致性并可相互替换。本文通过差分测试视角，系统研究了实现不一致性的程度、其对算法性能的影响，以及在&#34;实现可互换&#34;假设下对先前研究结论的潜在影响。  </span></span></p><p cid="n482" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">差分测试结果显示，不同算法实现之间存在显著差异，表明它们不可互换。具体而言，在56款游戏上测试的五个PPO实现中，有三个实现能在50%的试验中达到超人类水平，而另外两个实现仅有不足15%的试验达到该水平。此外，在九款游戏中，高性能PPO实现之间的表现也存在显著差异。通过对实现源码的细致人工分析，我们发现代码层面的不一致性是导致这些差异的主因。最后，我们复现了一项研究，证明&#34;实现可互换&#34;假设足以颠覆实验结果。  </span></span></p><p cid="n483" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于上述发现，我们呼吁改变现有实现的使用方式，并提出三点建议：（1）对误用实现互换性的研究进行可复现性验证；（2）DRL研究者与实践者应采用本文提出的差分测试方法应对实现不一致性问题；（3）推广使用大规模环境测试套件。</span></span></p><p cid="n484" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a758/251mHvDlFzW" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a758/251mHvDlFzW</a></span></span></p><h3 cid="n485" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">156、PUPPY: Finding Performance Degradation Bugs in DBMSs via Limited-Optimization Plan Construction</span></span></h3><p cid="n486" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">数据库管理系统（DBMS）始终致力于提升性能。针对给定查询，DBMS优化器旨在构建包含多重优化操作的最佳执行计划。然而，生成的计划有时可能比未应用任何优化时表现更差。这是由于优化操作间的交互极为复杂，且实现过程中可能忽略某些场景。我们将此类问题称为性能劣化缺陷（PDB）。PDB可能引发严重后果，包括系统效率降低、查询处理时间延长，甚至导致关键业务运营中断。本文提出PUPPY——一种通过有限优化计划构造自动检测DBMS中PDB的方法。其核心思想是：在相同DBMS中，对比启用全部优化操作生成的计划与仅启用部分优化操作生成的计划性能表现。若有限优化集的计划响应时间短于全优化计划，则表明存在潜在PDB。具体而言，PUPPY首先基于优化操作序列覆盖指导生成包含多重优化序列的查询；其次通过分析查询计划，选择性禁用特定优化以构造有限优化计划。我们在五种主流DBMS（MySQL、Percona、TiDB、PolarDB和PostgreSQL）上评估PUPPY，并与前沿DBMS性能测试工具APOLLO和AMOEBA进行对比。更重要的是，PUPPY报告了62个PDB，其中54个异常被确认为此前未知的缺陷。</span></span></p><p cid="n487" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a560/215aWWUOf6w" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a560/215aWWUOf6w</a></span></span></p><h3 cid="n488" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">157、PacDroid: A Pointer-Analysis-Centric Framework for Security Vulnerabilities in Android Apps</span></span></h3><p cid="n489" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">FlowDroid、IccTA、P/Taint、Amandroid和DroidSafe等通用框架通过提供基础功能，显著推动了Android安全静态分析工具的发展。然而，尽管这些框架对促进技术进步至关重要，但其运行过程中往往存在固有低效问题，例如冗余计算、依赖独立工具以及不必要的复杂性，而依赖它们的分析工具却很少审视这些问题。本文提出PacDroid——一种用于检测Android应用安全漏洞的新型静态分析框架。该框架采用简单高效的以指针分析为核心的方法，以统一方式自然管理别名信息、过程间值传播及其支持的所有Android特性（包括组件间通信、生命周期及其他功能）。大量实验表明，PacDroid不仅在完备性与精确性（F值）的权衡上优于现有先进框架，还在分析速度和鲁棒性方面实现超越；此外，PacDroid成功识别出23个真实Android应用中77条被其他框架全部遗漏的实际安全漏洞流。凭借其易扩展性和基础功能支持，PacDroid有望成为未来各类Android分析应用的奠基性框架。</span></span></p><p cid="n490" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a744/251mHmpnWtW" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a744/251mHmpnWtW</a></span></span></p><h3 cid="n491" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">158、PairSmell: A Novel Perspective Inspecting Software Modular Structure</span></span></h3><p cid="n492" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">提升现有系统的模块化结构已引发广泛研究关注，主要聚焦两种方法：(1) 软件模块化；(2) 将设计问题（如代码异味）识别为重构机会。然而，再模块化方案通常需要对原始模块进行大量修改，且识别的设计问题往往过于粗略而难以指导重构策略。本文融合上述两种方法，提出新概念PairSmell，通过模块化定位需要重构的设计问题。我们聚焦模块化原则中细粒度但基础性的维度——模块关系（MR），即实体对是否应分离或共置。核心假设是：若实体对的实际MR违反其&#34;适宜MR&#34;（即多个模块化工具作为评估者达成一致的MR），则可视为需进一步审查的缺陷架构决策。为量化评估PairSmell，我们对20个C/C++和Java项目开展实证研究，使用4种成熟模块化工具识别两类PairSmell：不适宜分离对InSep与不适宜共置对InCol。基于260,003个实例的研究表明其架构影响显著：(1)平均14.60%和20.44%的软件实体分别涉及InSep和InCol关系；(2)InSep对的协同变更次数比合理分离对多190%，而InCol对的协同变更次数比合理共置对少35%，均证明成功识别了损害软件质量的模块结构；(3)两类PairSmell在软件演化过程中持续存在。这些证据充分表明，PairSmell能为模块结构审查提供有效洞见，其识别的问题兼具细粒度与基础性，可显著提升模块化设计改进效率。</span></span></p><p cid="n493" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a609/251mFTQuEvK" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a609/251mFTQuEvK</a></span></span></p><h3 cid="n494" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">159、Parametric Falsification of Many Probabilistic Requirements under Flakiness</span></span></h3><p cid="n495" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">伪造是一种基于仿真的信息物理系统流行测试方法，用于发现违反形式化需求的输入。该方法采用优化算法最小化鲁棒性指标，该指标定义了执行轨迹上特定属性的满足程度。尽管伪造技术已趋成熟，但在仿真不稳定的情况下，如何同时检测多个可能相互独立的需求违规仍是一个悬而未决的难题。我们通过结合参数化模型检测与多目标优化的创新方法解决这一问题：利用参数化模型检测将部分问题复杂性转移至离线阶段，预先计算测试场景参数化规范中所有需求的满足数值约束；随后采用多目标优化检测不稳定违规，通过探索场景中变化因素的参数空间，推动参数突破所有预计算约束。基于四个复杂度递增（需求数量增加）的开源评估对象的实验表明，本方法能同时伪造多项需求且不掩盖其个体贡献。在违规数量与严重性方面，其有效性显著优于随机搜索及两种精选的先进基线方法，而额外的离线计算成本可忽略不计。</span></span></p><p cid="n496" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a773/251mHF64xri" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a773/251mHF64xri</a></span></span></p><h3 cid="n497" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">160、Patch Synthesis for Property Repair of Deep Neural Networks</span></span></h3><p cid="n498" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">深度神经网络（DNNs）易受对抗攻击等可靠性问题影响，这阻碍了其在安全关键领域的应用。近期提出的神经网络修复技术通过定位并修改问题神经元及其参数，在保持原始性能的同时解决了部分缺陷。然而现有修复方法通常局限于特定数据集，且无法提供修复效果的理论保证。为此，我们提出PatchPro——一种基于补丁的新型DNN属性级修复方法，专注于局部鲁棒性。其核心思想是构建补丁模块，与原始网络集成后可为鲁棒性邻域内所有样本提供针对性修复，同时维持网络原有性能。该方法融合形式化验证与启发式补丁分配机制，不仅能抵御对抗攻击，还可泛化至其他输入。相较于现有DNN修复技术，PatchPro在效率、可扩展性和修复成功率方面表现更优，在多个高维数据集上实现了100%可验证属性级修复。</span></span></p><p cid="n499" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a718/251mH5FkRO0" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a718/251mH5FkRO0</a></span></span></p><h3 cid="n500" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">161、Pattern-based Generation and Adaptation of Quantum Workflows</span></span></h3><p cid="n501" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">构建量子应用需要深厚的量子计算与软件工程知识。因此，有必要为非专业人士建立降低复杂度的抽象层。模式作为成熟概念，可对重复出现问题的已验证解决方案进行抽象描述。基于此，量子计算模式——一种面向量子计算领域的模式语言——可用于定义混合量子应用的构建模块与结构。此外，可将具体软件构件与模式关联以解决对应问题。然而这些软件构件通常存在异构性（如采用不同数据格式）。量子工作流能实现对异构软件构件的健壮、可扩展编排，但手动建模和配置此类工作流存在复杂度高、易出错且耗时的问题。为此，我们提出一种利用量子计算模式自动生成与适配量子工作流的方法，并给出实现该方法的架构设计、对应原型，以及包含多用例测试、运行时对比和用户研究的系统评估。</span></span></p><p cid="n502" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a733/251mHfdaw0w" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a733/251mHfdaw0w</a></span></span></p><h3 cid="n503" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">162、Planning a Large Language Model for Static Detection of Runtime Errors in Code Snippets</span></span></h3><p cid="n504" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLM）在生成和推理源代码及自然语言文本方面表现卓越。它们能够识别代码中的模式、语法和语义，从而在多项软件工程任务中展现出高效性。然而，这些模型在程序执行推理方面存在明显缺陷：其运作主要基于静态代码表示，无法捕捉程序运行期间发生的动态行为与状态变化。本文提出ORCA框架，旨在增强LLM对动态程序行为的推理能力。该方法创新性地引导LLM自主制定控制流图（CFG）遍历计划，实现对（不）完整代码段的预测式执行，其核心机制是作为&#34;预测解释器&#34;动态&#34;执行&#34;代码。ORCA的关键设计在于：1）要求LLM在分支点暂停运行，聚焦变量值符号表的状态跟踪，从而最小化计算过程中的错误传播；2）通过单次提示完成整个预测解释流程，避免逐步执行带来的提示开销。作为下游应用，我们利用ORCA对在线代码片段进行运行时错误的静态检测——这种在开发周期早期发现潜在运行时错误的能力，可有效避免代码库集成后产生高昂修复成本。实验结果表明，ORCA在预测执行轨迹和静态检测运行时错误方面均优于现有最优方法。</span></span></p><p cid="n505" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a639/251mGeDbx2E" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a639/251mGeDbx2E</a></span></span></p><h3 cid="n506" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">163、Practical Object-Level Sanitizer With Aggregated Memory Access and Custom Allocator</span></span></h3><p cid="n507" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为缓解潜在的内存安全漏洞，近年来预生产环境错误检测的净化器技术取得了显著进展。然而性能与检测精度之间的平衡难题仍未得到根本解决。其核心原因在于过度依赖影子内存和运行时大量内存访问检查，导致显著的性能开销（若执行细粒度内存安全检测，开销将进一步加剧）。本文提出新型对象级地址净化器OLASan，在实现精准内存违规（包括对象内溢出）检测的同时进一步降低性能损耗。与传统净化器忽视内存访问与对象关联性的做法不同，OLASan在函数层级聚合同一对象的多次内存访问，按需执行定向净化，从而规避运行时绝大多数访问检查。具体而言，OLASan通过表征多样化内存访问模式识别可聚合操作，并采用定制化内存标签实现安全检查。基于LLVM框架实现的OLASan在SPEC CPU基准测试中显示：相较ASan、ASan--和GiantSan，其运行时开销分别降低51.18%、25.20%和6.52%。借助定制内存标签技术，OLASan在Juliet测试套件中首次实现零漏报。实验同时证实其对真实漏洞具有同等检测效力。</span></span></p><p cid="n508" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a749/251mHpwGM3S" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a749/251mHpwGM3S</a></span></span></p><h3 cid="n509" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">164、Preserving Privacy in Software Composition Analysis: A Study of Technical Solutions and Enhancements</span></span></h3><p cid="n510" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">软件成分分析（SCA）是指识别输入软件应用程序中开源软件组件的过程。SCA技术已在学术界和工业界得到广泛发展和应用。然而我们注意到，由于隐私问题，工业场景中的现代SCA技术仍有待改进。当前SCA通常要求用户将应用程序源代码上传至远程SCA服务器，由服务器深度检测后反馈组件使用情况。这一过程涉及敏感隐私，因为应用程序可能包含专有源代码、核心算法、商业机密和用户数据等敏感信息。隐私顾虑导致SCA技术难以在实际场景中落地应用，因此学界和工业界亟需隐私保护的SCA解决方案。</span></span></p><p cid="n511" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文首次系统分析了SCA的隐私需求，绘制了不同隐私收益与开销的技术解决方案全景图。鉴于主流SCA框架主要依赖基于代码相似性的检测技术，我们探索通过组合多种隐私保护协议来封装相似性检测框架。研究发现，多方安全计算（MPC）在众多可行方案中能提供最强的隐私保障和可接受的准确度，但会带来184倍的高额开销。我们通过程序分析技术减少加密协议交互量，对基于MPC的SCA框架进行优化。评估结果表明，所提优化方案能在不牺牲隐私保障和准确度的前提下，将MPC-SCA的开销降低至仅8.5%。</span></span></p><p cid="n512" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a592/251mFGSl30Y" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a592/251mFGSl30Y</a></span></span></p><h3 cid="n513" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">165、Prompt-to-SQL Injections in LLM-Integrated Web Applications: Risks and Defenses</span></span></h3><p cid="n514" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLM）已在多个领域得到广泛应用，包括搭载聊天机器人接口的网页应用。借助LangChain等LLM集成中间件，用户提示词可被转化为SQL查询语句，供LLM生成有效响应。然而未经净化的用户提示可能导致SQL注入攻击，威胁数据库安全。本文系统研究了针对LangChain和LlamaIndex等框架网页应用的提示词转SQL（P2SQL）注入攻击，通过多个实例分析其变体形式及对应用安全的影响。我们评估了七种前沿LLM，证明跨语言模型的P2SQL攻击风险普遍存在。通过人工与自动化结合的方法，我们在五个实际应用中发现了P2SQL漏洞。研究表明，LLM集成应用极易受到P2SQL注入攻击，亟需部署强效防御措施。为此我们提出四种可集成至LangChain框架的防御技术以应对此类攻击。</span></span></p><p cid="n515" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a076/215aWuWbxeg" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a076/215aWuWbxeg</a></span></span></p><h3 cid="n516" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">166、QEDCartographer: Automating Formal Verification Using Reward-Free Reinforcement Learning</span></span></h3><p cid="n517" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">形式化验证是生成可靠软件的一种有效方法，但手动编写验证证明的困难严重限制了其实际应用。近期研究通过定理证明器引导在证明空间中的搜索，实现了部分证明合成的自动化。然而，定理证明器仅能提供最粗略的进展评估，导致搜索实质上缺乏方向性。为解决这一问题，我们开发了QEDCartographer——一种结合监督学习与强化学习的自动化证明合成工具，可更高效探索证明空间。该工具通过融入证明的分支结构，实现了无奖励搜索，克服了形式化验证固有的稀疏奖励问题。我们在包含124个开源Coq项目中68,500条定理的CoqGym基准集上评估QEDCartographer，其可全自动证明测试集中21.4%的定理。此前仅依赖监督学习的基于搜索的证明合成工具Tok、Tac、ASTactic、Passport和Proverbot9001分别证明9.6%、9.8%、10.9%、12.5%和19.8%。整合62种工具的Diva证明19.2%。与当前最有效的工具Proverbot9001相比，在双方均能证明的定理上，QEDCartographer生成的证明平均缩短26%，速度提升27%。QEDCartographer与非学习型工具CoqHammer共同证明31.8%的定理，而单独使用CoqHammer可证明26.6%。本研究表明，强化学习是改进证明合成工具搜索机制的有效研究方向。</span></span></p><p cid="n518" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a584/215aX0I7HW0" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a584/215aX0I7HW0</a></span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a405/215aWObdAVq" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a405/215aWObdAVq</a></span></span></p><h3 cid="n519" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">167、REDII: Test Infrastructure to Enable Deterministic Reproduction of Failures for Distributed Systems</span></span></h3><p cid="n520" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">尽管分布式系统已成为现代技术的关键支柱，支撑着众多赋能现代生活的软件系统，开发者在实施此类系统的回归测试时仍面临诸多挑战。现有分布式系统测试方案通常存在两类局限：（1）由开发团队专为特定系统构建的定制化测试环境，需投入大量人力且难以跨团队复用；（2）基于随机故障注入的工具，常因计算开销高昂且依赖随机性而无法确保预防回归缺陷。当前领域尚未有效解决如何提供通用、实用的解决方案来触发缺陷以复现故障，同时防范回归缺陷这一核心挑战。</span></span></p><p cid="n521" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本研究提出REDII——一个支持分布式系统回归测试的基础设施。REDII整合了常见分布式系统的真实缺陷数据集，并包含通用化测试框架REDIT。该框架通过提供确定性控制分布式执行的手段，使开发者能够编写可复现故障的测试用例。除收录自多个分布式系统的真实故障案例外，REDIT还为开发者提供了可复用、可编程、平台无关的确定性测试框架，助力从业者和研究者实现测试自动化。我们基于JIRA中7个主流分布式系统的63个缺陷案例验证了REDIT的有效性。案例研究表明：REDII能帮助开发者编写有效复现分布式系统故障的测试用例，生成回归测试专用场景，并提供确定性故障注入功能，使开发者与研究者能更深入理解未来可能出现的确定性系统故障。此外，实验证实REDII在实际系统回归测试中具备高效性，为分布式系统测试领域的研究者与开发者提供了强有力的工具支持。</span></span></p><p cid="n522" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a780/251mHJqjtmg" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a780/251mHJqjtmg</a></span></span></p><h3 cid="n523" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">168、RLCoder: Reinforcement Learning for Repository-Level Code Completion</span></span></h3><p cid="n524" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">仓库级代码补全旨在根据指定仓库的上下文，为未完成的代码片段生成代码。由于输入序列长度的限制，现有方法主要依赖检索增强生成策略。然而，传统基于词法的检索方法（如BM25）难以捕捉代码语义，而基于模型的检索方法则因缺乏训练标注数据面临挑战。为此，我们提出RLCoder——一种新型强化学习框架，可使检索器无需标注数据即可学习检索对代码补全有用的内容。具体而言，我们通过迭代评估检索内容的有用性（以目标代码在检索内容作为附加上下文时的困惑度为指标），并向检索器提供反馈以更新其参数。这一迭代过程使检索器能够从成功与失败中学习，逐步提升检索相关且高质量内容的能力。考虑到并非所有场景都需要代码文件外的信息，且并非所有检索内容都有助于生成，我们还引入了停止信号机制，允许检索器自主决定何时检索及保留哪些候选内容。大量实验结果表明，RLCoder在CrossCodeEval和RepoEval基准上持续超越现有最优方法，相比之前方法实现了12.2%的精确匹配提升。此外，实验证明我们的框架可泛化至不同编程语言，并能进一步提升RepoCoder等现有方法。代码与数据详见</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/DeepSoftwareAnalytics/RLCoder" target="_blank">https://github.com/DeepSoftwareAnalytics/RLCoder</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n525" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a165/215aWzRTwjK" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a165/215aWzRTwjK</a></span></span></p><h3 cid="n526" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">169、ROCODE: Integrating Backtracking Mechanism and Program Analysis in Large Language Models for Code Generation</span></span></h3><p cid="n527" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，大语言模型（LLM）在代码生成领域展现出卓越性能，为软件开发人员提供了革命性辅助。然而受自回归特性限制，LLM在代码生成过程中易出现错误累积问题——模型无法调整已生成内容，一旦产生错误便只能基于错误上下文继续生成后续代码。现有基于LLM的方案通常在完整生成后进行修正，这不仅导致累积错误难以解决，还会造成大量资源浪费。理想情况下，模型应在生成过程中及时回滚并修正错误，而非基于错误继续生成并等待事后修正。本文提出ROCODE框架，将回溯机制与程序分析技术融入LLM代码生成过程：通过程序分析实现生成过程中的增量式错误检测；当检测到错误时触发回溯机制，引导模型执行回滚策略与约束性重新生成，从而提前消除错误并确保后续生成基于正确上下文。在多代码生成基准测试中，ROCODE显著降低了LLM生成错误，编译通过率达99.1%。相较于最优基线方法，测试通过率最高相对提升23.8%；与事后修正基线相比，token消耗降低19.3%。该框架具备模型无关性，在九种代表性LLM上均取得稳定提升效果。</span></span></p><p cid="n528" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a670/251mGyEbNII" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a670/251mGyEbNII</a></span></span></p><h3 cid="n529" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">170、ROSA: Finding Backdoors with Fuzzing</span></span></h3><p cid="n530" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">代码级后门是一种隐藏在程序代码中的预设访问机制。例如，文件服务器应用程序代码中植入的硬编码凭证，可使攻击者恶意登录所有部署实例。已证实的软件供应链攻击导致多个热门开源项目被注入后门，各类路由器固件中也屡次发现后门。人工代码审计检测后门难度大，现有半自动化方法仅能处理有限范围的程序和后门类型，且需对（二进制）程序进行手动逆向工程。灰盒模糊测试（自动化半随机测试）因在漏洞发现方面的卓越成效而广受关注，成为改进后门检测的理想候选方案。然而当前模糊测试技术尚无法在运行时检测后门触发。本研究提出ROSA创新方案（及工具），将前沿模糊测试器（AFL++）与新型蜕变测试预言相结合，可有效检测运行时后门触发。为便于评估，我们构建了首个公开的后门检测基准测试集ROSARUM，涵盖多样化程序中的各类后门。实验表明，ROSA在鲁棒性、速度及自动化程度上与传统模糊测试相当，平均1.5小时内即可检测出ROSARUM全部17个真实/合成后门。相较于现有检测工具，本方案能处理多样化后门与程序，且无需对模糊测试的二进制代码进行手动逆向工程。</span></span></p><p cid="n531" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a720/251mH6Yw90s" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a720/251mH6Yw90s</a></span></span></p><h3 cid="n532" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">171、RUG: Turbo LLM for Rust Unit Test Generation</span></span></h3><p cid="n533" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">单元测试通过评估程序的独立部分来提升软件质量。这种方法减少了对全面程序测试的需求，并将潜在错误范围限制在软件内部。然而，单元测试开发耗时费力，开发者需要创建合适的测试上下文并确定输入值以覆盖不同代码区域。由于Rust复杂的类型系统，该问题在其生态中尤为突出，导致传统单元测试生成工具在Rust项目中收效甚微。近期，大语言模型（LLM）展现出理解编程语言和完成软件工程任务的能力，但仅使用&#34;为以下源代码生成单元测试&#34;这类基础提示往往会产生编译错误的代码。此外，LLM生成的单元测试通常覆盖率有限。为弥补这一差距并释放LLM潜力，我们设计并实现了RUG——一个为Rust项目自动生成单元测试的端到端解决方案。为帮助LLM生成的测试通过Rust严格编译检查，RUG采用语义感知的自底向上方法，将上下文构建问题分解为依赖子问题，通过LLM依次解决并合并为完整上下文。为提高测试覆盖率，RUG将覆盖率引导的模糊测试与LLM结合来准备测试框架。在17个真实Rust程序（平均24,937行代码）上的实验表明，RUG可实现高达71.37%的代码覆盖率，接近人工水平（73.18%）。我们提交了113个RUG生成的新代码单元测试：53个被接受，17个被拒绝，43个待审核。</span></span></p><p cid="n534" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a634/251mGbdqM0w" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a634/251mGbdqM0w</a></span></span></p><h3 cid="n535" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">172、Rango: Adaptive Retrieval-Augmented Proving for Automated Software Verification</span></span></h3><p cid="n536" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">使用Coq等证明辅助工具进行形式化验证，能够创建高质量的软件。然而，验证过程需要大量专业知识和人工投入来编写证明。近期研究探索了利用机器学习和大型语言模型（LLM）自动合成证明的方法，结果表明识别相关前提（如引理和定义）有助于合成。我们推出Rango——一款全自动的Coq证明合成工具，它能自动识别当前项目中的相关前提及相似证明，并在合成过程中加以利用。Rango在证明的每个步骤采用检索增强技术，通过其微调后的LLM自动确定哪些证明和前提应纳入上下文。这种方式使Rango能够适配项目特性及证明的动态演进状态。我们构建了包含2,226个开源Coq项目和196,929个GitHub定理的新数据集CoqStoq，其中既包含训练数据，也包含精选的优质项目评估基准。在该基准测试中，Rango成功合成了32.0%定理的证明，较此前最先进的Tactician工具提升29%。评估还显示，Rango通过添加上下文相关证明，使得可验证定理数量增加47%。</span></span></p><p cid="n537" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a698/251mGRz4lbi" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a698/251mGRz4lbi</a></span></span></p><h3 cid="n538" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">173、Ranking Relevant Tests for Order-Dependent Flaky Tests</span></span></h3><p cid="n539" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">回归测试面临的一大挑战是闪烁测试（flaky tests），即针对同一代码版本运行时可能一次通过、另一次却失败的测试用例。其中一类典型问题是顺序依赖型（OD）闪烁测试——这类测试的通过或失败取决于测试执行的顺序。为帮助开发者调试和修复OD测试，已有研究尝试自动识别OD相关测试（OD-relevant tests），这些测试的运行顺序（先于或后于OD测试执行）将决定OD测试的最终结果。现有方法通过随机变更OD测试前的执行序列来寻找OD相关测试，但未评估各测试成为OD相关测试的可能性。本文提出RankF方法，通过概率排序加速定位首个OD相关测试。我们设计了两种排序策略，分别需要不同维度的信息：RankF_L基于大语言模型对测试代码的分析，RankF_O则利用历史测试执行顺序数据。在24个开源项目的155个OD测试上进行评估，结果表明RankF定位首个OD相关测试的速度显著优于基线方法。针对不同类型的OD相关测试，RankF的中位定位时间为9.4至14.1秒，而最优基线方法需34.2至118.5秒。</span></span></p><p cid="n540" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a715/251mH3NwwJG" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a715/251mH3NwwJG</a></span></span></p><h3 cid="n541" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">174、Reasoning Runtime Behavior of a Program with LLM: How Far Are We?</span></span></h3><p cid="n542" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">面向代码的大型语言模型（即代码大模型）已展现出强大的代码理解与生成能力。为评估代码大模型在多元维度的能力，学界已提出多种基准测试（如HumanEval和ClassEval）。代码推理作为代码大模型的核心能力之一（即预测程序输出、执行路径等代码执行行为），现有基准测试体系仍存在不足：通常仅关注程序输入输出的预测，既忽视对程序执行过程中间行为的评估，也缺乏对推理逻辑一致性（例如当执行路径预测错误时模型不应给出正确输出）的检验。针对这些问题，本文提出REval评估框架，用于检验代码大模型的代码推理能力及其与程序执行的逻辑一致性。我们基于既有代码基准测试进行适应性改造，将其纳入新评估体系。大规模实证研究表明，当前多数大模型在运行时行为推理（平均准确率44.4%）和增量一致性评估（平均IC得分10.3）上均表现欠佳。评估结果揭示了业界亟需加强代码大模型推理能力的现状。相关代码、数据及REval排行榜详见</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://r-eval.github.io" target="_blank">https://r-eval.github.io</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n543" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a140/215aWyoMhz2" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a140/215aWyoMhz2</a></span></span></p><h3 cid="n544" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">175、Reduce Dependence for Sound Concurrency Bug Prediction</span></span></h3><p cid="n545" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，动态并发错误预测技术在保证可靠性的同时持续提升并发覆盖率方面取得了显著进展。现有方法大多仅依赖执行轨迹中的动态信息进行错误预测，而忽视了程序的静态语义。为确保可靠性，这些方法假设任何（内存）读取操作都可能通过控制流或数据流完全影响后续程序执行。然而这种假设过度放大了写操作与读操作之间的约束关系，从而限制了线程交错的重排空间，最终导致漏报现象。从程序语义角度分析，实际上只有部分读取操作会真正影响后续执行。因此，通过基于静态程序语义细化读操作与后续执行间的依赖关系，可以优化原有假设并消除不必要的约束。这将为探索更广阔的线程交错空间、发现更多并发错误创造机会。然而依赖关系细化可能损害可靠性并带来高昂开销。为解决这些挑战，本文提出了必要一致性读事件（NRE）概念及混合分析算法。NRE通过细化读操作与后续事件的依赖关系，用于识别读操作可能影响后续事件执行的必要约束条件。我们进而设计了一种高效精确的混合分析算法来计算轨迹中每个事件的NRE。该算法将事件映射到程序的SSA指令，并基于原始轨迹模拟执行过程。NRE及其算法能够以较低成本增强现有并发错误预测方法的能力，且不受目标并发错误类型的限制。本文以数据竞争为例，将NRE及算法实现为原型工具ReconP。在MySQL上进行的对比实验表明，与M2和SeqCheck相比，ReconP分别能多检测出46.9%和22.4%的数据竞争问题，而混合算法仅占总时间成本的34%。</span></span></p><p cid="n546" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a686/251mGJWsdBS" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a686/251mGJWsdBS</a></span></span></p><h3 cid="n547" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">176、Relationship Status: &#34;It&#39;s complicated&#34; Developer-Security Expert Dynamics in Scrum</span></span></h3><p cid="n548" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">数量庞大的网络威胁带来了重大挑战，从数据窃取到勒索软件攻击，各类软件漏洞利用造成深远影响。遗憾的是，既往研究表明开发团队普遍存在安全专业知识不足的问题。开发人员与安全专家之间的协作由此成为弥补这一差距的可行途径之一。本文以Scrum这一积极倡导协作的广受欢迎框架为背景，深入探究开发人员与安全专家之间复杂的互动关系，揭示其协作模式、现存挑战及改进方向。为此，我们对14名开发人员和13名安全专家开展了定性访谈研究。质性分析结果表明：两组人员之间存在三种典型沟通模式与五项共同挑战，这些因素显著影响开发-安全专家协作。最突出的挑战包括持续性沟通障碍，以及缺乏平衡业务需求与安全需求的可行方法。研究发现，这种协作关系中缺失了Scrum三大核心价值（开放、尊重、勇气）。基于研究结果，我们提出了在Scrum框架内外促进开发人员与安全专家良性协作的具体建议。</span></span></p><p cid="n549" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a657/251mGqad5Ha" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a657/251mGqad5Ha</a></span></span></p><h3 cid="n550" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">177、RepairAgent: An Autonomous, LLM-Based Agent for Program Repair</span></span></h3><p cid="n551" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">自动化程序修复已成为一种强大技术，可有效缓解软件缺陷对系统可靠性和用户体验的影响。本文提出RepairAgent，这是首个基于大语言模型（LLM）的自主代理来解决程序修复难题的研究。与现有深度学习方法使用固定提示或固定反馈循环的模式不同，我们将LLM视为能自主规划并执行行动的代理，通过调用合适工具来修复错误。RepairAgent自由交织了以下行为：收集错误信息、获取修复素材、验证修复方案，同时根据已收集信息和先前修复尝试的反馈动态决定调用哪些工具。实现RepairAgent的关键创新包括：一套适用于程序修复的工具集、支持LLM与工具交互的动态更新提示格式，以及指导代理调用工具的有限状态机。我们在Defects4J数据集上的评估表明，RepairAgent能自主修复164个错误，其中包含39个先前技术未能解决的错误。每次错误修复平均消耗27万token，按当前OpenAI GPT-3.5模型定价计算约合0.14美元。据我们所知，这是首个基于LLM的自主程序修复代理，为软件工程领域未来开发基于代理的技术开辟了新道路。</span></span></p><p cid="n552" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a694/251mGP1fmRq" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a694/251mGP1fmRq</a></span></span></p><h3 cid="n553" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">178、Repository-Level Graph Representation Learning for Enhanced Security Patch Detection</span></span></h3><p cid="n554" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">软件厂商常在不发布充分安全通告（如通用漏洞披露）或延迟通过资源库（如国家漏洞数据库）更新的情况下，静默发布安全补丁。因此，检测这类安全补丁对确保软件安全维护至关重要。然而现有方法面临以下挑战：（1）主要关注补丁自身信息，忽视了代码仓库中的复杂依赖关系；（2）安全补丁通常涉及多个函数与文件，增加了特征表征的学习难度。为缓解上述问题，本文提出仓库级安全补丁检测框架RepoSPD，其包含三个核心组件：1）仓库级图构建RepoCPG，通过在仓库层面合并补丁前后源代码来表征软件补丁；2）结构感知的补丁表征，融合图结构与序列分支以理解多代码变更间的关系；3）渐进式学习，帮助模型平衡语义与结构信息。为评估RepoSPD，我们采用安全补丁检测领域两个广泛使用的数据集SPI-DB与PatchDB，并将其扩展至仓库级别，分别包含20,238和28,781个C/C++语言仓库版本（记为SPI-DB</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">与PatchDB</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">）。我们将RepoSPD与六种现有安全补丁检测方法及五种静态工具对比。实验结果表明，RepoSPD在两个数据集上的准确率分别提升11.90%和3.10%，优于当前最优基线方法。这些结果印证了RepoSPD检测安全补丁的有效性。此外，RepoSPD能检测出151个安全补丁，其准确率较最佳基线方法提升21.36%。</span></span></p><p cid="n555" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a658/251mGqOex2g" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a658/251mGqOex2g</a></span></span></p><h3 cid="n556" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">179、Revisiting Unnaturalness for Automated Program Repair in the Era of Large Language Models</span></span></h3><p cid="n557" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着基于Transformer架构的大语言模型（LLM）的崛起，语言模型的性能已实现数量级提升。这类模型展现出生成与专业开发者所写代码高度相似的&#34;自然&#34;代码的能力。LLM可输出的中间值之一是熵——该指标用于衡量代码标记的自然程度。我们提出假设：熵值可用于改进自动程序修复（APR）任务的性能。尽管自动程序修复领域已取得显著进展，但故障定位技术仍受限于排名分数缺乏多样性，补丁生成工具往往效率低下（因需运行全部测试才能判断补丁正确性），而补丁排序常遭遇测试套件过拟合问题。直接使用LLM进行APR可能引发训练数据泄露的隐患。本研究创新性地将LLM熵值与现有APR工具结合，以优化APR全流程。通过仅利用代码行/块的上下文前缀和后缀来描述自然性，我们能在摆脱测试套件依赖的同时，运用LLM实现故障定位与补丁排序。实验表明熵值与现有故障定位工具具有高度互补性：所提方法在top-1准确率上较SBFL提升108%。当采用熵值进行补丁排序与分类时，我们的方法在top-1指标上比最先进机器学习工具提升49%，能更有效排序正确补丁。本研究表明，LLM可成为增强现有APR任务的有效补充，同时最大限度缓解测试套件过拟合与LLM数据泄露两大难题。</span></span></p><p cid="n558" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a626/251mG5ttMTC" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a626/251mG5ttMTC</a></span></span></p><h3 cid="n559" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">180、RustAssistant: Using LLMs to Fix Compilation Errors in Rust Code</span></span></h3><p cid="n560" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Rust编程语言凭借其安全保障机制，已成为替代传统不安全语言（如C/C++）进行底层系统开发的可行选择。这些保障源于其基于所有权的强类型系统，以及对闭包、模式匹配等特性的原生支持，使代码更简洁且易于推理。然而，这些独特特性也导致程序员面临陡峭的学习曲线。本文提出名为RustAssistant的工具，该工具利用大语言模型（LLM）的涌现能力，自动为Rust编译错误提供修复建议。RustAssistant通过精心设计的提示技术组合，以及LLM与Rust编译器之间的迭代交互，实现了高精度修复。在主流开源Rust项目实际编译错误测试中，该工具峰值准确率可达74%。我们还贡献了一个Rust编译错误数据集，以推动后续研究。</span></span></p><p cid="n561" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a267/215aWFCYTWU" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a267/215aWFCYTWU</a></span></span></p><h3 cid="n562" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">181、SAND: Decoupling Sanitization from Fuzzing for Low Overhead</span></span></h3><p cid="n563" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">检测器（Sanitizers）为各类漏洞提供了强有力的测试预言。在启用检测器的程序上进行模糊测试已成为发现软件缺陷的最佳实践。由于检测器需通过繁重的程序插装来插入运行时检查，启用检测器的程序相比常规构建程序存在显著性能开销。本文提出SAND——一种将检测过程与模糊测试循环解耦的新型模糊测试框架。SAND对常规构建程序执行模糊测试，仅当输入被判定为有价值时才调用启用检测器的程序。鉴于大多数生成输入并无价值（即不会触发缺陷），SAND使得模糊测试时间主要消耗在常规构建程序上。我们进一步引入执行模式这一概念，以实用高效的方式识别有价值输入。基于AFL++实现的SAND在20个真实世界程序上的评估表明：在24小时测试周期内，相较于所有基线模糊测试工具，SAND不仅显著发现更多缺陷，且无任何漏报。</span></span></p><p cid="n564" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a724/251mH9y2I6I" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a724/251mH9y2I6I</a></span></span></p><h3 cid="n565" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">182、SECRET: Towards Scalable and Efficient Code Retrieval via Segmented Deep Hashing</span></span></h3><p cid="n566" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">代码检索技术通过用户自然语言描述获取相关代码片段，这一技术被开发者广泛采用，在实际软件开发中发挥着关键作用。深度学习的发展促使检索范式从基于词法的匹配转向利用深度学习模型将源代码和查询编码为向量表示，进而通过向量相似度实现代码检索。尽管现有模型效果显著，但大规模代码库的管理仍面临重大挑战。已有研究提出基于深度哈希的方法，该方法为查询和代码片段生成哈希码，并利用汉明距离快速召回候选代码。然而，该方法需线性扫描整个代码库的特性限制了其可扩展性。</span></span></p><p cid="n567" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为提升大规模代码检索效率，我们提出创新方法SECRET（基于分段深度哈希的可扩展高效代码检索）。该方法通过迭代训练策略，将现有深度哈希方法生成的长哈希码转换为若干短哈希码段。训练完成后，SECRET通过查询各分段的哈希表召回候选代码，从而大幅降低时间复杂度。大量实验结果表明，SECRET在保持与现有深度哈希方法相当甚至更优性能的同时，能减少至少95%的检索耗时。此外，在相同哈希表数量条件下，SECRET相较基于局部敏感哈希（LSH）的经典哈希表方法也展现出更卓越的性能与效率。</span></span></p><p cid="n568" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a691/251mGN6jrmo" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a691/251mGN6jrmo</a></span></span></p><h3 cid="n569" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">183、SOEN-101: Code Generation by Emulating Software Process Models Using Large Language Model Agents</span></span></h3><p cid="n570" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">软件过程模型对于促进软件团队协作沟通、解决复杂开发任务至关重要。受软件工程实践启发，我们提出FlowGen——一个基于多智能体大语言模型（LLM）模拟软件过程模型的代码生成框架。我们通过为LLM智能体分配对应日常开发活动的角色（需求工程师、架构师、开发者、测试员及Scrum主管）并组织其通信模式，模拟了三种过程模型：FlowGenWaterfall、FlowGenTDD和FlowGenScrum。这些智能体通过思维链与提示组合进行协作，持续自我优化以提升代码质量。我们采用GPT3.5作为基础LLM，并选取若干基线模型（RawGPT、CodeT、Reflexion）在HumanEval、HumanEval-ET、MBPP和MBPP-ET四个基准上评估代码生成能力。实验表明FlowGenScrum表现最优，在四项基准中的Pass@1分别达到75.2、65.5、82.5和56.7（较RawGPT平均提升15%）。与前沿技术对比时，FlowGenScrum在MBPP上的Pass@1优于CodeT，两者均超越Reflexion。值得注意的是，将CodeT集成至FlowGenScrum能带来统计显著的提升，获得最高Pass@1分数。分析还发现开发活动对代码异味和异常处理的影响存在差异：设计与代码评审能增加异常处理并减少代码异味。最后，FlowGen模型在不同GPT3.5版本和温度值下均保持稳定的Pass@1分数，印证了软件过程模型对提升LLM生成代码质量与稳定性的有效性。</span></span></p><p cid="n571" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a677/251mGDuvpkY" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a677/251mGDuvpkY</a></span></span></p><h3 cid="n572" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">184、Scenario-Driven and Context-Aware Automated Accessibility Testing for Android Apps</span></span></h3><p cid="n573" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">移动可访问性在当今社会愈发重要，它使得残障人士能够借助移动应用完成日常任务。确保移动可访问性不仅惠及残障群体，还能提升所有用户的使用体验，使应用程序更直观易用。尽管现有诸多工具可用于检测Android应用的可访问性问题，但由于现有方法存在局限性（如UI场景覆盖率不足、运行时上下文缺失考量），误报和漏报现象依然普遍。为解决这些问题，本文提出一种场景驱动的探索方法以提升UI场景覆盖率，从而检测应用内的可访问性问题，最终降低漏报率。此外，针对因忽略运行时上下文导致的误报问题，我们提出上下文感知检测方法以实现更细粒度的检测能力。实验结果表明，A11yScan的检测能力超越当前最先进方法如Xbot（检测出3,991个问题 vs. 2,321个），漏报率降低41.84%；在UI场景探索方面优于SceneDroid等技术（覆盖952 vs. 661个UI场景），同时在可用数据集上达到与GPTDroid等前沿GUI测试工具相当的活动覆盖率（73% vs. 71%）。通过用户研究验证，结合上下文感知检测方法后，A11yScan以90.56%的准确率将误报率有效降低21%。</span></span></p><p cid="n574" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a630/251mG8Etpao" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a630/251mG8Etpao</a></span></span></p><h3 cid="n575" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">185、Search-Based LLMs for Code Optimization</span></span></h3><p cid="n576" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">开发者编写的代码通常存在效率问题，包含各类性能缺陷。这些低效现象促使自动化代码重构优化方法的研究成为必要。早期代码优化研究采用基于规则的方法，专注于特定低效问题，不仅耗费人力且存在覆盖率低的缺陷。近期工作将该任务视为序列生成问题，转而采用大语言模型（LLMs）等深度学习技术。这类方法通常直接提示LLMs生成优化后的代码，虽展现出先进性能，但一步式生成范式难以实现最优解：其一，组合优化等复杂方法难以被LLMs捕捉；其二，该范式难以为LLMs精准注入代码优化所需知识，导致优化不足。为解决这些问题，我们提出从搜索视角建模该任务，构建名为SBLLM的基于搜索的LLMs框架，支持迭代优化方法的改进与发现。SBLLM通过协同整合LLMs与进化搜索，包含三个核心组件：1）基于执行的典型样本选择模块，评估现有优化代码的适应度并优先选择有潜力的样本来引导改进代码生成；2）自适应优化模式检索模块，向模型注入针对性优化模式以指导LLMs修正并持续增强其优化方法；3）受遗传算子启发的思维链提示模块，协助LLMs组合不同优化方法并生成改进方案。我们在Python和C++代码数据集上的评估表明，SBLLM能有效提升代码效率：具体而言，该框架最高可提升程序执行效率109.59%，在Python和C++的top-5加速率指标上，分别以8.72%∼28.06%和1.15%∼9.56%的优势持续超越所有基线方法（不同LLMs下）。</span></span></p><p cid="n577" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a254/215aWEVyh32" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a254/215aWEVyh32</a></span></span></p><h3 cid="n578" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">186、SeeAction: Towards Reverse Engineering How-What-Where of HCI Actions from Screencasts for UI Automation</span></span></h3><p cid="n579" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">用户界面（UI）自动化是UI测试、缺陷复现和机器人流程自动化的实用技术。通过记录用户与应用程序的交互操作，可快速生成UI自动化脚本，但现有录制技术具有侵入性，需依赖操作系统或GUI框架的无障碍支持，或要求特定应用实现。从屏幕录像逆向推导用户操作虽无侵入性，但当前缺失关键逆向环节——如何从操作录像中识别人类可理解的结构化用户动作（</span></span><span md-inline="reflink" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">指令</span></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">[位置]）。为此，我们提出基于深度学习的计算机视觉模型，通过联合学习与多任务学习，能从操作录像中识别11种指令和11种控件类型，并生成位置描述短语。我们标注了包含7260组视频-动作对的大规模数据集，涵盖用户与Word、Zoom、Firefox、Photoshop及Windows 10设置应用的交互。大量实验证实了模型的有效性与泛化能力，并展示了基于该模型构建的&#34;录像转动作脚本&#34;工具在缺陷复现中的实用价值。</span></span></p><p cid="n580" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a681/251mGGbH8WY" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a681/251mGGbH8WY</a></span></span></p><h3 cid="n581" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">187、Selecting Initial Seeds for Better JVM Fuzzing</span></span></h3><p cid="n582" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">JVM模糊测试技术是保障实现质量的核心手段。在典型的模糊测试流程中，初始种子至关重要，它们构成了整个测试过程的基础。传统程序模糊测试的研究已证实，初始种子间的冗余会显著影响测试效果，因而提出了一系列种子选择方法。相较于传统方法，JVM模糊测试具有独特特性，包括大规模复杂代码结构，以及兼具语法与语义特征的程序。然而现有初始种子选择方法是否适用于JVM模糊测试，以及利用程序特征能否提升效果，目前仍不明确。为此，我们设计了共计10种初始种子选择方法，涵盖基于覆盖率、预模糊测试和程序特征的方法，并在三种JVM实现上开展实证研究，通过两大前沿模糊测试技术（JavaTailor和VECT）全面评估这些方法的性能。具体从三个维度展开分析：（i）使用广泛研究的初始种子时的效能与效率；（ii）使用真实环境程序的效能；（iii）新漏洞发现能力。评估结果首先表明，基于控制流图的程序特征方法不仅时间开销显著降低（仅30秒），其效果更超越其他方法，相较完整初始种子集合实现了142%至269%的提升。其次，研究发现初始种子选择能大幅提升真实环境程序质量，并通过检测新行为展现出互补效应。再者，结果表明在相同测试周期内，初始种子选择助力JVM模糊测试技术发现了更多未知漏洞——25个被检测漏洞中有21个已获开发者确认或修复。本研究首次系统探索JVM模糊测试中的初始种子选择问题，证实其对测试效能与效率的关键影响。</span></span></p><p cid="n583" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a343/215aWKexmNO" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a343/215aWKexmNO</a></span></span></p><h3 cid="n584" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">188、Show Me Your Code! Kill Code Poisoning: A Lightweight Method Based on Code Naturalness</span></span></h3><p cid="n585" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">神经代码模型（NCMs）在代码智能任务中展现出卓越能力，其安全性问题也日益受到关注。由于NCMs通常基于潜在不可信来源的大规模数据进行训练，攻击者可能通过向数据中植入精心构造的样本实施操纵，这类攻击被称为代码投毒攻击（亦称后门攻击）。此类攻击能在模型中植入后门从而控制模型行为，构成重大安全威胁。然而，目前仍缺乏有效检测各类复杂代码投毒攻击的技术。本文提出了一种创新且轻量级的代码投毒检测技术KillBadCode，其设计基于代码投毒会破坏代码自然性的核心发现。具体而言，KillBadCode首先基于轻量级n-gram语言模型构建代码语言模型（CodeLM），随后针对投毒数据，利用CodeLM识别出（被投毒）代码片段中那些被删除后能使代码更自然的标记作为触发标记。考虑到单个样本中某些正常标记的删除也可能提升代码自然性导致高误报率（FPR），我们聚合所有样本中每个标记的累计改进量。最终，KillBadCode通过删除包含已识别触发标记的所有投毒样本来净化数据。我们通过涵盖两类先进代码投毒攻击（共五种投毒策略）和四项代表性代码智能任务数据集的广泛实验评估KillBadCode的有效性与效率。实验结果表明，在20个代码投毒检测场景中，KillBadCode平均误报率8.30%、平均召回率100%，显著优于四种基线方法。更重要的是，KillBadCode效率极高，最短耗时仅5分钟，平均比最佳基线快25倍。</span></span></p><p cid="n586" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a783/251mHLoWby8" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a783/251mHLoWby8</a></span></span></p><h3 cid="n587" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">189、Similar but Patched Code Considered Harmful -- The Impact of Similar but Patched Code on Recurring Vulnerability Detection and How to Remove Them</span></span></h3><p cid="n588" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">识别重复出现的漏洞对于保障软件安全至关重要。基于克隆检测的技术虽被广泛使用，但由于存在相似但已修复（SBP）代码——即与漏洞代码相似但因已打补丁而不具危害性的代码片段，这类方法常产生大量误报。尽管SBP代码严重影响了现有方法的有效性，该问题尚未得到充分研究。本文提出一种与编程语言无关的框架——已修复漏洞过滤器（FVF），用于在漏洞检测中识别并过滤此类SBP实例。不同于现有研究依赖函数签名的方案，我们的方法通过分析代码变更历史精准定位SBP代码，从而降低误报率。实际场景下的评估验证了该方法的有效性与精确性：FVF成功从四种漏洞检测工具（ReDeBug、VUDDY、MVP及基础哈希方法）中过滤65.1%的误报，且未产生误判。我们进一步将FVF应用于1,081个真实软件项目，构建了包含6,827个SBP函数的真实场景数据集。鉴于SBP特性，该数据集可作为严格基准，测试漏洞检测方法区分真实漏洞与SBP的敏感性。基于此数据集，我们验证了四种先进深度学习漏洞检测方法的局限性。本数据集不仅助力开发者更客观评估检测工具，也为深入探索真实场景中的SBP问题奠定了基础。</span></span></p><p cid="n589" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a647/251mGjJXScE" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a647/251mGjJXScE</a></span></span></p><h3 cid="n590" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">190、SmartReco: Detecting Read-Only Reentrancy via Fine-Grained Cross-DApp Analysis</span></span></h3><p cid="n591" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">尽管去中心化应用（DApps）日益普及，但它们仍面临各类可被攻击者利用以牟利的漏洞。其中，&#34;只读重入&#34;（本文简称ROR）是一种因DApp间复杂交互而新兴的漏洞类型。近三年来，ROR攻击事件已给DApp生态系统造成约3000万美元损失。现有智能合约漏洞检测技术由于缺乏对多DApp间复杂交互的追踪与分析，几乎无法检测只读重入攻击。本文提出SmartReco框架，通过静态分析与动态分析（即模糊测试）的创新结合来检测DApp中的只读重入漏洞。其核心设计包含三点：（1）从高度耦合的跨合约交互中识别不同DApp的边界；（2）通过细粒度静态分析定位可能引发ROR的关键点（即入口函数）；（3）利用链上交易数据实施跨DApp的多函数模糊测试（即入口函数与受害函数）以验证ROR存在性。在包含45个ROR的人工标注数据集上，SmartReco实现了88.63%的准确率与86.36%的召回率。此外，SmartReco成功从123个主流DApp中检测出43个新ROR漏洞，相关漏洞影响的资产总额约达52万美元。</span></span></p><p cid="n592" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a594/251mFIlJSTK" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a594/251mFIlJSTK</a></span></span></p><p style="text-align: center;" nodeleaf=""><img class="rich_pages wxw-img" data-imgfileid="100000515" data-ratio="0.3649122807017544" data-s="300,640" type="block" data-type="png" data-w="1710" src="https://wechat2rss.xlab.app/img-proxy/?k=84c3571f&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_png%2FicNlicgdbzSdUsr3zlDy5jvuhf6dz33SqB8w9ao4Xt0eGRD7LY9kyckjfOFI1zt8kgMr8eZsYl4JWB19eN2CowlQ%2F640%3Fwx_fmt%3Dpng"/></p><p cid="n592" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><br/></span></span></p><p style="display: none;"><mp-style-type data-value="3"></mp-style-type></p>


<p><img src="https://wechat2rss.xlab.app/img-proxy/?k=dbe50d23&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_png%2FicNlicgdbzSdUsr3zlDy5jvuhf6dz33SqB8w9ao4Xt0eGRD7LY9kyckjfOFI1zt8kgMr8eZsYl4JWB19eN2CowlQ%2F0%3Fwx_fmt%3Dpng"/></p>



<p><a href="2247485981">阅读原文</a></p>
<p><a href="https://wechat2rss.xlab.app/link-proxy/?k=0f3f2793&amp;r=1&amp;u=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU0MzgzNTU0Mw%3D%3D%26mid%3D2247485981%26idx%3D2%26sn%3Ddde58306f0db01312972ec31b0cf3bc7">跳转微信打开</a></p>
]]></content:encoded>
      <pubDate>Sun, 22 Jun 2025 16:31:00 +0800</pubDate>
    </item>
    <item>
      <title>软件工程顶会——ICSE 2025 论文清单与摘要（下）</title>
      <link>https://mp.weixin.qq.com/s?__biz=MzU0MzgzNTU0Mw==&amp;mid=2247485981&amp;idx=3&amp;sn=30bf121a99a6e65bb1ad6d96aff2a134</link>
      <description></description>
      <content:encoded><![CDATA[<p>
<span>漏洞战争</span> <span>2025-06-22 16:31</span> <span style="display: inline-block;">广东</span>
</p>

<p></p>



<p>
<img src="https://wechat2rss.xlab.app/img-proxy/?k=7ab8e560&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdWS5eiaBgCG4u08ENFAiaZkicFAcyj2vbqibV5cveicgMBIZ2u0YXhnyxghTibcfk3GfmvVfZeA9GRxZpcA%2F0%3Fwx_fmt%3Djpeg"/>
</p>


<h3 cid="n593" mdtype="heading" style="box-sizing: border-box;" data-pm-slice="0 0 []"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">191、Software Model Evolution with Large Language Models: Experiments on Simulated, Public, and Industrial Datasets</span></span></h3><p cid="n594" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">软件系统的结构与行为建模在软件工程工业实践中占据关键地位。与其他软件工程制品类似，软件模型同样面临演化需求。然而如何通过模型补全推荐辅助建模者完成模型演化，仍是亟待解决的开放性问题。本文探索大语言模型在此任务的潜力，提出RaMc方法——融合大语言模型、模型历史与检索增强生成技术的模型补全方案。通过工业应用案例、开源社区数据集及模拟模型仓库对照实验，我们基于RaMc评估了大语言模型在模型补全任务中的表现。</span></span></p><p cid="n595" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a649/251mGkTdbQQ" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a649/251mGkTdbQQ</a></span></span></p><h3 cid="n596" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">192、Source Code Summarization in the Era of Large Language Models</span></span></h3><p cid="n597" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为帮助软件开发人员理解与维护程序，各类自动（源代码）摘要生成技术被提出，旨在为给定代码片段生成简洁的自然语言摘要（即注释）。近年来，大型语言模型（LLM）的兴起显著提升了代码相关任务的性能表现。本文对LLM时代的代码摘要技术展开了系统而全面的研究，涵盖基于LLM的代码摘要工作流程中涉及的多个维度。具体而言，我们首先检验了评估LLM生成摘要质量的常见自动化方法，发现GPT-4评估方法的结果与人工评估最为吻合。随后，我们探究了五种提示技术（零样本、少样本、思维链、批判和专家模式）在适配LLM完成代码摘要任务时的有效性。与预期相反，复杂提示技术未必优于简单的零样本提示。接着，我们研究了LLM模型设置（包括top_p和temperature参数）对生成摘要质量的影响，发现这两个参数的影响效果因基础LLM和编程语言而异，但其影响模式具有相似性。此外，我们全面考察了LLM对不同类型编程语言代码的摘要能力。结果表明，与过程式和面向对象等编程语言相比，LLM在摘要逻辑编程语言代码时表现欠佳。最后，我们意外发现7B参数的CodeLlama-Instruct模型在生成描述代码设计原理和断言代码属性的摘要时，能够超越先进的GPT-4模型。本研究期望为理解LLM时代的代码摘要技术提供全面参考。</span></span></p><p cid="n598" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a419/215aWOQ5PEI" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a419/215aWOQ5PEI</a></span></span></p><h3 cid="n599" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">193、SpecGen: Automated Generation of Formal Program Specifications via Large Language Models</span></span></h3><p cid="n600" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在软件开发过程中，形式化程序规约在需求分析、软件测试与验证等多个阶段具有关键作用。然而人工编写形式化程序规约难度较大，不仅耗时耗力，对于复杂程序语义的正确性与完备性描述更具挑战性。为减轻开发者负担，自动化规约生成方法应运而生。但现有方法通常依赖预定义模板或语法规则，难以准确描述现实复杂程序的行为与功能。为应对这一挑战，我们提出SpecGen——一种基于大语言模型（LLMs）的创新性形式化程序规约生成技术。其核心思路是通过LLMs的代码理解能力突破现有方法的局限性。SpecGen的工作流程分为两个阶段：第一阶段采用对话式引导策略，通过激发LLM生成高质量规约的潜能，为目标程序生成合适规约；第二阶段针对LLM生成失败的情况，对模型输出的规约施加四种变异算子，并基于新型启发式选择策略，通过高效分配变体权重从变异结果中筛选可验证的规约。我们在SV-COMP Java类别基准测试集和包含120个程序的手工构建数据集上评估SpecGen。实验结果表明，SpecGen在385个程序中成功为279个生成可验证规约，性能优于现有基于LLM的方法及Houdini、Daikon等传统规约生成工具。对生成规约质量的深入分析表明，SpecGen能全面准确地表达输入程序的行为特征。</span></span></p><p cid="n601" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a666/251mGw3wQ6c" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a666/251mGw3wQ6c</a></span></span></p><h3 cid="n602" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">194、SpecRover: Code Intent Extraction via LLMs</span></span></h3><p cid="n603" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">自主程序改进通常涉及自动生成错误修复和功能添加。此类程序改进可通过结合大型语言模型（LLM）与程序分析能力来实现，以LLM智能体的形式运作。由于程序修复或改进通常需要预期行为的规范说明——规范推断对于生成高质量程序补丁至关重要。本研究探讨了在LLM智能体中实现高效低成本的迭代式规范推断工作流。针对软件项目中待解决的GitHub问题，我们的目标是通过迭代式代码搜索与规范推断相结合，从项目结构和行为中推断意图。所捕获的意图将由审查代理进行验证，其目标是对补丁进行审核，并为已审核补丁提供置信度度量。我们的方法SpecRover基于开源LLM智能体AutoCodeRover构建。在包含2294个GitHub问题的完整SWE-Bench评估中，其效能较AutoCodeRover提升超50%。与现有开源智能体相比，本方案在解决SWE-Bench lite中平均GitHub问题时展现出适度成本（每个问题0.65美元）。SpecRover生成的解释能为开发者提供更清晰的&#34;信号&#34;，帮助判断何时可放心采纳建议补丁。该研究也旨在证明：即便程序修复技术进入LLM时代，规范推断在自动化程序修复中仍具有持续重要性。</span></span></p><p cid="n604" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a617/251mFZysrIc" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a617/251mFZysrIc</a></span></span></p><h3 cid="n605" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">195、Static Analysis of Remote Procedure Call in Java Programs</span></span></h3><p cid="n606" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">远程过程调用（RPC）通常用于网络间的进程通信，它使得程序能够像调用本地函数一样，调用另一个地址空间（甚至另一台机器）中的过程。这种便利性源于其对网络通信的封装。然而，正是由于这种封装特性，现有静态分析工具难以穿透其内部逻辑。随着基于RPC的程序/框架在各领域发挥日益重要的作用，对RPC进行静态分析具有不可忽视的意义。我们注意到，现有许多基于Java编写的RPC框架/程序采用显式协议，这为建立静态分析模型提供了可能。其核心挑战在于如何识别不同框架/程序中的RPC操作，以及如何自动建立客户端与服务端的关联关系。本文提出创新方法RPCBridge，通过适配器统一RPC过程中最基础的操作，基于语义以直接而精确的逻辑规则对RPC建模，执行指针分析并在调用图中构建RPC边，从而完善调用图结构。基于5种主流RPC框架对实际大型Java程序的评估表明，我们的方法能有效捕获RPC操作并构建客户端与服务端的关键链接，其中60.1%在执行后确认为真实调用关系。该方法以极低的内存和时间开销（污点分析器的泄漏路径检出率提升24.3%），使原先未被完整建模的代码获得显著收益，并能连接系统中的各个模块，从而实现更全面的静态分析。</span></span></p><p cid="n607" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a688/251mGLaOjBe" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a688/251mGLaOjBe</a></span></span></p><h3 cid="n608" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">196、Studying Programmers Without Programming: Investigating Expertise Using Resting State fMRI</span></span></h3><p cid="n609" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">资深程序员在编码活动中效率更高，但其深层原因尚未明晰。为此，近期研究开始采用功能性磁共振成像（fMRI）等技术，试图解析专家级程序员在编码时的思维模式。这些实验均基于特定编程任务（如代码理解展开），但始终未能检测出与编程经验相关的系统性差异。然而，任务导向型研究可能限制了所涉及脑网络的广度与类型。在认知神经科学领域，研究者常采用静息态数据分析——即记录参与者静卧于扫描仪时的自发脑活动。大脑功能组织具有可塑性，会随经验积累产生变化。这种变化可通过静息态检测，因此该数据类型适用于研究编程活动如何随时间推移重塑神经组织结构。本文分析了150名参与者（其中96名为程序员）的静息态扫描数据，发现程序员群体在语言处理、数学运算及时间注意力相关的脑区间呈现更强的功能连接，而非程序员群体则在与社交情感认知相关的脑区表现出更多连接。研究还发现，随着编程年限增长，程序员大脑中分别负责阅读视觉信息处理和发音的两个脑区间的连接强度会逐渐减弱。</span></span></p><p cid="n610" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a701/251mGUpleXm" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a701/251mGUpleXm</a></span></span></p><h3 cid="n611" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">197、Synthesizing Document Database Queries using Collection Abstractions</span></span></h3><p cid="n612" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">文档数据库在各类应用中日益普及，但其底层灵活复杂的数据模型使得查询语句编写颇具挑战性。本文提出一种自动从输入-输出示例生成文档数据库查询的合成技术。我们设计了一种新型领域特定语言，以代数风格表达具有代表性的文档数据库查询集合。该合成技术通过创新的集合抽象推理机制高效剪枝搜索空间，快速生成目标查询。基于多源110项基准测试的评估表明，所提技术成功合成了108项测试案例。平均而言，合成器仅需少量输入-输出示例即可在数十秒内生成文档数据库查询。</span></span></p><p cid="n613" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a689/251mGLN8a9W" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a689/251mGLN8a9W</a></span></span></p><h3 cid="n614" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">198、TIGER: A Generating-Then-Ranking Framework for Practical Python Type Inference</span></span></h3><p cid="n615" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Python的动态类型系统虽提供了灵活性与表现力，却可能引发类型相关错误，因此亟需通过自动类型推断来增强类型提示功能。现有基于学习的方法虽展现出良好的推断准确性，但在全面处理各类类型（包括复杂参数化类型及（未见过）的用户自定义类型）时仍面临实际挑战。本文提出TIGER——一种两阶段生成-排序（GTR）框架，专为有效处理Python多样化类型类别而设计。TIGER利用微调过的预训练代码模型，通过跨度掩码目标训练生成模型，并通过对比训练目标训练相似性模型。该方法使TIGER能在生成阶段生成广泛类型候选项（含复杂参数化类型），并在排序阶段精准排列含用户自定义类型的候选项。基于ManyTypes4Py数据集的评估表明，TIGER在各类类型推断中均优于现有方法，其中用户自定义类型与未见类型的Top-5精确匹配准确率分别提升11.2%和20.1%。实验结果不仅验证了TIGER的卓越性能与效率，更凸显其生成与排序阶段对增强自动类型推断的重要意义。</span></span></p><p cid="n616" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a229/215aWDAX0cg" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a229/215aWDAX0cg</a></span></span></p><h3 cid="n617" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">199、TIVER: Identifying Adaptive Versions of C/C++ Third-Party Open-Source Components Using a Code Clustering Technique</span></span></h3><p cid="n618" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">复用第三方开源软件（OSS）虽能带来诸多益处，却可能因漏洞传播使整个系统面临风险。尽管追踪OSS组件版本有助于防范威胁，现有方法通常仅将单一版本映射至复用的OSS代码库。这种粗粒度机制无法处理代码库中共存的多个版本，导致OSS管理失效。此外，由于噪声代码（如跨不同OSS共存的算法代码）以及OSS冗余复用产生的重复组件，精准识别组件版本极具挑战性。本文提出&#34;自适应版本&#34;概念作为表征复用OSS版本多样性的全流程解决方案，并推出TIVER方法用于有效识别OSS组件的自适应版本。TIVER采用两项关键技术：(1) 细粒度函数级版本控制以揭示详细版本信息，(2) OSS代码聚类以识别重复组件并消除噪声，从而精准定位OSS复用位置与自适应版本，有效缓解OSS复用相关威胁。通过对GitHub热门C/C++软件的评估发现，单一版本的OSS组件仅占33%，其余67%的组件平均包含三个以上版本。TIVER在区分重复组件时以88.46%准确率和91.63%召回率识别自适应版本，在消除噪声时达到86%准确率和86.84%召回率，而现有方法在区分重复组件时召回率不足42%且未处理噪声问题。进一步实验表明，TIVER可提升漏洞管理能力，并能应用于软件物料清单（SBOM）以增强供应链安全。</span></span></p><p cid="n619" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a725/251mHaekWuk" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a725/251mHaekWuk</a></span></span></p><h3 cid="n620" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">200、TOGLL: Correct and Strong Test Oracle Generation with LLMs</span></span></h3><p cid="n621" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">测试预言在软件测试中扮演着关键角色，能有效支撑缺陷检测。尽管神经网络方法在自动生成测试预言方面初显潜力，但其常产生大量误报并生成较弱预言。虽然大语言模型（LLM）在代码生成、测试用例创建和缺陷修复等软件工程任务中展现出卓越能力，但目前仍缺乏大规模研究探索其在测试预言生成中的有效性。LLM能否解决高效预言生成的核心挑战，这一命题既引人入胜又亟待深入探究。本研究首次系统评估LLM生成正确、多样且强健测试预言的能力——这些预言应能有效识别大量独特缺陷。我们基于110个Java项目的大规模数据集，采用六种差异化提示对七种代码LLM进行微调，并利用最优微调模型与提示组合，提出新型LLM测试预言生成方法TOGLL。为验证TOGLL的泛化性，我们在25个未参与训练的大型Java项目上进行实验，不仅评估生成预言的正确性，还考察其多样性与强度，并与EvoSuite及前沿神经方法TOGA对比。结果表明：TOGLL生成的正确断言预言数量是TOGA的3.8倍，异常预言数量达4.9倍；在缺陷检测方面，TOGLL能检测出EvoSuite无法识别的1,023个独特变异体（相当于TOGA检测能力的十倍）；此外，TOGLL在Defects4J数据集真实缺陷检测上显著优于TOGA。</span></span></p><p cid="n622" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a635/251mGbSj0JO" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a635/251mGbSj0JO</a></span></span></p><h3 cid="n623" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">201、TacDroid: Detection of Illicit Apps through Hybrid Analysis of UI-based Transition Graphs</span></span></h3><p cid="n624" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">非法应用已发展为一个利润丰厚的灰色产业。这类应用或为用户提供受限服务（如色情、赌博），或实施欺诈行为（如诈骗）。尽管非法应用普遍存在，但相关研究却鲜有关注，现有检测方法大多仅依赖静态分析。然而，随着越来越多移动应用通过动态资源加载实现核心功能，仅靠静态分析已显不足。为此，本文提出TacDroid——一种融合动态内容获取与静态分析的新方法，旨在解决两种方法各自的局限性（动态分析覆盖率低、静态分析准确率低）。具体而言，TacDroid对安卓应用同时进行动静双态分析，分别构建动态与静态用户界面跳转图（UTG），通过关联生成中间态UTG；继而嵌入图结构并采用改进的图自编码器（GAE）模型预测节点跳转关系，通过链接预测有效剔除静态分析误判产生的假阳性跳转边，补充中间态UTG遗漏的假阴性跳转边，最终生成完整准确的UTG。基于该UTG，TacDroid可判定应用合法性并识别其类别。实验结果表明，TacDroid在非法应用检测中准确率表现突出，F1值达96.73%，显著优于现有最优方案。本研究为非法应用的识别与分类提供了重要技术突破。</span></span></p><p cid="n625" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a648/251mGki1JOo" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a648/251mGki1JOo</a></span></span></p><h3 cid="n626" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">202、Template-Guided Program Repair in the Era of Large Language Models</span></span></h3><p cid="n627" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，大型语言模型（LLM）的应用显著推动了自动化程序修复（APR）领域的进展。特别是将LLM与传统基于模板的修复方法相结合，已展现出显著成效。然而，传统方法与LLM的优势协同仍未被充分挖掘。这一不足源于模板的滥用及其有限覆盖范围，同时零样本学习环境下使用小规模LLM也非最优方案。为突破这些限制，我们提出神经模板修复框架NTR，该两阶段修复框架包含模板选择与补丁生成，均采用微调范式。在模板选择阶段，我们将其建模为多分类问题，通过微调百万级参数的LLM实现精准模板筛选。在补丁生成阶段，将选定模板（如&#34;条件表达式变异&#34;）作为指导方向，对十亿级参数的LLM进行定向微调以生成精确补丁。此外，我们引入特殊模板标识无适用模板的情况，并采用基于概率的模板优先级排序，从而优化补丁生成。该框架不仅有效解决模板失配问题，还能在GPU内存限制下帮助十亿级LLM高效探索补丁空间。我们在Defects4J V1.2和HumanEval-Java基准上评估不同基础模型的NTR表现，结果均显示显著优势。以StarCoder为基础模型时，NTR分别修复128和129个错误，较最佳基线APR工具多修复14和59个错误；采用更大规模的CodeLlama模型时，修复数量提升至139和136个，超出基线25和66个。值得注意的是，这一性能不仅源于基础模型，更得益于NTR框架的独特设计——StarCoder和CodeLlama在NTR框架下分别实现22和23个额外修复，充分验证了我们通过模板释放LLM缺陷修复潜力的创新视角。</span></span></p><p cid="n628" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a367/215aWM25IVa" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a367/215aWM25IVa</a></span></span></p><h3 cid="n629" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">203、Test Intention Guided LLM-based Unit Test Generation</span></span></h3><p cid="n630" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLM）的出现加速了智能软件工程技术的发展，为单元测试生成带来了广阔前景。然而，现有直接由LLM生成单元测试的方法往往因覆盖率低和模拟能力不足而难以实用。本文提出IntUT，该方法通过显式测试意图（如测试输入、模拟行为和预期结果）有效引导LLM生成高质量测试用例。在三个工业级Java项目及实时研究中的实验表明，基于测试意图的提示能帮助开发者生成优质测试用例：分支覆盖率提升94%，行覆盖率提升49%。最终，我们收集了开发者使用IntUT为三个新Java项目生成用例的反馈，结果显示行覆盖率超过80%，编写单元测试用例的效率提升30%。</span></span></p><p cid="n631" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a779/251mHIQPC6c" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a779/251mHIQPC6c</a></span></span></p><h3 cid="n632" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">204、Testing and Understanding Deviation Behaviors in FHE-hardened Machine Learning Models</span></span></h3><p cid="n633" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">全同态加密（FHE）是一种极具前景的密码学原语，能够实现对加密数据的安全计算。FHE的主要应用场景是支持公有云基础设施上的隐私保护机器学习（ML）。尽管基于FHE的机器学习（HE-ML）发展迅速，学界仍缺乏对其鲁棒性的系统性认知。本文致力于系统化测试并理解HE-ML模型的偏差行为——即相同输入在FHE强化模型与其明文版本之间产生分歧输出，最终导致完全错误的模型预测结果。为在昂贵FHE计算约束下高效发现触发偏差的输入，我们设计了新型差分测试工具HEDIFF，该工具利用明文模型上的边界度量作为指导，驱动针对FHE模型的定向测试。对于识别出的偏差输入，我们进一步分析其是否具有可迁移的通用噪声模式。通过三个主流HE-ML框架和12种模型-数据集组合的评估，HEDIFF在几乎所有测试的FHE框架和模型中成功检测出数百个偏差输入。定量分析表明，相比常规输入，这些偏差输入具有（视觉上）可辨识的意义。深入的原理分析揭示了偏差输入的根本成因，并允许我们归纳其噪声模式以实现更精准的定向测试。本研究为构建适用于真实场景的鲁棒HE-ML系统提供了重要启示。</span></span></p><p cid="n634" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a644/251mGhDoomY" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a644/251mGhDoomY</a></span></span></p><h3 cid="n635" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">205、Thanos: DBMS Bug Detection via Storage Engine Rotation Based Differential Testing</span></span></h3><p cid="n636" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">差分测试是自动化数据库管理系统测试中建立测试预言的主流策略。然而，精心选择具有不同实现方式且输入语法兼容的等效数据库系统需要耗费大量人工成本。本文提出Thanos框架，通过基于存储引擎轮换的差分测试来发现数据库管理系统缺陷。我们的核心思路是：采用不同存储引擎的数据库管理系统必须提供一致的基础存储功能，因此可通过存储引擎轮换构建等效数据库系统，确保相同SQL测试用例在这些等效系统上产生一致结果。该框架包含四个主要步骤：1)选择合适存储引擎；2)提取选定存储引擎间的等价信息；3)合成确保数据库系统等效性的特征导向测试用例；4)向配置选定存储引擎的数据库系统发送测试用例并比对结果。我们在MySQL、MariaDB和Percona三种经过广泛测试的主流数据库系统上评估Thanos，并与前沿模糊测试工具SQLancer、SQLsmith和Squirrel进行对比。Thanos在分支覆盖率上领先24%-116%，同时发现了其他工具遗漏的多个缺陷。更重要的是，厂商已确认Thanos发现的32个未知漏洞，其中29个被评定为严重等级。</span></span></p><p cid="n637" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a001/215aWk5aBPi" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a001/215aWk5aBPi</a></span></span></p><h3 cid="n638" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">206、The Design Smells Breaking the Boundary between Android Variants and AOSP</span></span></h3><p cid="n639" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">手机厂商基于安卓开源项目（AOSP）定制其安卓分支系统以增强功能。尽管独立开发，这些分支系统仍需定期跟随上游AOSP演进并合并代码变更。厂商投入大量精力维护其分支系统并解决合并冲突。本文揭示了破坏安卓分支系统与AOSP设计边界的重复性设计异味，这些异味表现为跨边界的异常依赖关系，损害了分支系统的可维护性及与AOSP的协同演进能力。我们提出自动化检测工具DroidDS，收集了4个开源项目和1个工业项目的22个安卓分支版本及对应AOSP版本。研究发现：涉及设计异味的文件维护成本显著高于其他文件；这些受感染文件不仅具有大代码量、高复杂度或面向对象异味特征；超过半数因重新应用AOSP变更引发的代码冲突涉及受感染文件；大部分设计问题可被缓解。开发者可利用DroidDS定位并优先处理设计问题，通过重构保持分支系统与AOSP的健康耦合，从而提升可维护性并降低冲突风险。</span></span></p><p cid="n640" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a599/251mFLO326s" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a599/251mFLO326s</a></span></span></p><h3 cid="n641" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">207、The Fact Selection Problem in LLM-Based Program Repair</span></span></h3><p cid="n642" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近期研究表明，在提示词中融入错误相关事实（如堆栈轨迹和GitHub问题）能增强大语言模型（LLM）的缺陷修复能力。随着模型上下文窗口持续扩展，一个关键问题随之产生：为最大化正确修复缺陷的概率，提示词中应包含哪些事实及多少事实？为解答此问题，我们开展了一项大规模研究，通过在BugsInPy基准测试中针对314个开源Python项目缺陷构建19,000余条包含七类不同事实组合的提示词。研究发现，从简单的代码上下文等语法细节，到先前LLM研究中未涉及的语义信息（如天使值），每类事实均具有价值。具体而言，每类事实都能帮助修复某些原本无法解决或仅能低成功率修复的缺陷。值得注意的是，程序修复提示词的效果与使用事实数量呈非单调关系——过多事实反而导致效果下降。这些发现促使我们提出事实选择问题：如何为特定任务实例确定最优事实集合以最大化LLM性能。研究表明不存在适用于所有缺陷修复的通用事实集合，为此我们开发了名为Maniple的基础统计模型，该模型能针对特定缺陷动态选择提示词中的事实组合。该模型性能显著优于最佳通用事实集合。为突显事实选择问题的重要性，我们将Maniple与最先进的零样本、非对话式LLM缺陷修复方法进行对比测试。在包含157个缺陷的测试数据集上，Maniple成功修复88个缺陷，较最佳配置提升17%。</span></span></p><p cid="n643" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a699/251mGSbXo08" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a699/251mGSbXo08</a></span></span></p><h3 cid="n644" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">208、The Power of Types: Exploring the Impact of Type Checking on Neural Bug Detection in Dynamically Typed Languages</span></span></h3><p cid="n645" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">[动机]在Python等动态类型语言中实现自动化缺陷检测对保障代码质量至关重要。由于这类语言缺乏强制性类型标注，传统静态分析工具难以早期识别相关错误。随着深度神经网络的进展，神经缺陷检测器的应用日益广泛。在静态类型语言中，类型检查器被集成至编译器，因此在为这些语言设计神经缺陷检测器时已考虑该因素。[问题]然而先前研究在训练和测试动态类型语言的神经缺陷检测器时忽视了这一点。当采用可选类型检查器时，对现有神经缺陷检测器评估时若包含类型检查器易检测的缺陷，可能影响其性能评估。更甚者，在训练集中包含此类缺陷会导致检测器错误偏向特定缺陷类型。[贡献]我们探究了类型检查对多种变量误用缺陷（神经缺陷检测器常见目标）检测器的影响。通过对现有合成与真实数据集进行类型检查，评估类型相关缺陷的普遍性。进而研究类型相关缺陷如何影响神经缺陷检测器的训练与测试。[发现]研究表明现有缺陷检测数据集包含大量类型相关缺陷。基于此发现，我们证明将神经缺陷检测器与类型检查器结合具有优势，尤其在代码含类型标注时。进一步实验表明神经缺陷检测器对类型相关缺陷的识别优于其他缺陷。此外，从训练数据中剔除类型相关缺陷可提升检测器识别超出类型检查器范围缺陷的能力。</span></span></p><p cid="n646" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a625/251mG4MkL7O" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a625/251mG4MkL7O</a></span></span></p><h3 cid="n647" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">209、The Product Beyond the Model -- An Empirical Study of Repositories of Open-Source ML Products</span></span></h3><p cid="n648" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">机器学习（ML）组件正日益被集成到面向终端用户的软件产品中，但开发者在将ML原型转化为产品的过程中面临诸多挑战。学术界对商业ML产品的源代码获取途径有限，这阻碍了研究进展。本研究首先提出一种创新方法，从GitHub上超过50万个ML相关项目中筛选出262个开源ML产品。随后，我们通过定性与定量分析30个开源ML产品，围绕开发实践与系统架构回答了六大研究问题。研究发现，样本中大多数ML产品呈现出既往访谈研究所述的初创式开发模式。我们总结出21项发现，包括：许多ML产品中数据科学家参与度有限、ML与非ML代码间模块化程度异常低下、模型集成至产品的架构选择呈现多样性，以及模型测试、流水线自动化与监控等行业最佳实践普及不足等。此外，本研究还从科研、开发与教育角度提出7项启示，包括：需为非数据科学团队开发辅助工具、存在教育机遇，以及针对隐私保护遥测开展开源专项研究等。</span></span></p><p cid="n649" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a063/215aWuf2vss" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a063/215aWuf2vss</a></span></span></p><h3 cid="n650" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">210、The Same Only Different: On Information Modality for Configuration Performance Analysis</span></span></h3><p cid="n651" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">软件系统中的配置功能旨在确保系统高效运行并满足多样化的用户需求。然而，部分（若非全部）配置选项会显著影响系统性能。配置性能分析的核心在于理解（或推断）配置选项间的关联及其对性能的影响，这一过程至关重要。现有分析主要依赖两种信息源：用户手册或源代码。但二者在配置性能分析中的具体作用尚不明确。基于手册的研究强调其信息丰富性与自然语言优势；而倾向源代码的研究则看重其提供的结构化信息，同时质疑手册的时效性。为填补这一认知空白，本文对10个系统开展大规模实证研究，涵盖1,694个配置选项、106,798字手册内容及22,859,552行代码，重点探究手册与代码在配置性能分析两项关键任务（性能敏感选项识别与关联依赖关系提取）中的实际效用。研究发现：融合手册与代码的双模态方法对两项任务均有增益；当前依赖单一信息源的自动化工具远未达到实用水平，整体上仍无法与人工分析媲美。这些发现为推进配置性能分析研究指明了方向。</span></span></p><p cid="n652" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a748/251mHoVMV9u" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a748/251mHoVMV9u</a></span></span></p><h3 cid="n653" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">211、The Seeds of the FUTURE Sprout from History: Fuzzing for Unveiling Vulnerabilities in Prospective Deep-Learning Libraries</span></span></h3><p cid="n654" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLM）的广泛应用凸显了依赖PyTorch、TensorFlow等基础深度学习（DL）库的深度学习技术的重要性。尽管这些库功能强大，但在应对LLM领域的快速迭代时仍面临可扩展性与适应性挑战。为此，苹果、华为等科技巨头正积极开发专属DL库以提升性能、增强扩展性并保护知识产权。确保此类库的安全性至关重要，其中模糊测试是关键解决方案。然而，现有模糊测试框架存在目标灵活性不足、难以有效测试易出错的API序列、以及难以利用新库有限可用信息等问题。针对这些局限，我们提出首个面向新兴及未来DL库的通用模糊测试框架FUTURE。该框架通过挖掘现有库的历史漏洞信息，并基于LLM进行针对性代码生成微调，既能识别新库中的漏洞，又能反向利用新库的发现增强现有库安全性，形成&#34;历史-未来-历史&#34;的闭环。我们在三个新兴DL库上开展全面评估，结果表明FUTURE在漏洞检出量、漏洞复现成功率、代码生成有效率和API覆盖率上显著优于现有方案。值得注意的是，FUTURE已在452个目标API中检测出148个漏洞（含142个零日漏洞），其中10个漏洞获颁CVE编号。此外，FUTURE还逆向检测出PyTorch中的7个漏洞，印证了其增强现有库安全性的能力。</span></span></p><p cid="n655" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a669/251mGxZSLfy" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a669/251mGxZSLfy</a></span></span></p><h3 cid="n656" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">212、TopSeed: Learning Seed Selection Strategies for Symbolic Execution from Scratch</span></span></h3><p cid="n657" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们提出TopSeed，一种自动选择最优种子以增强符号执行的新方法。近年来，通过包括搜索策略和状态剪枝启发式在内的多种先进技术，符号执行的性能已显著提升。然而，这些技术通常在未考虑&#34;种子注入&#34;的情况下验证其有效性——种子注入能高效初始化待探索的程序状态。本文旨在从与任意符号执行技术交互过程中产生的候选输入中筛选有价值种子，无需预定义种子语料库，从而最大化技术效能。核心挑战在于候选输入数量庞大，难以识别潜力种子。为此，我们引入定制化在线学习算法：该算法迭代式地对候选输入分组，对各组进行排序，并基于符号执行过程中积累的数据从排名最高组别选择种子。在17个开源C程序上的实验表明，TopSeed在分支覆盖率和漏洞检测能力方面，显著提升了基于两种符号执行器实现的四种前沿技术。</span></span></p><p cid="n658" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a632/251mG9WwhQA" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a632/251mG9WwhQA</a></span></span></p><h3 cid="n659" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">213、Toward a Better Understanding of Probabilistic Delta Debugging</span></span></h3><p cid="n660" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">给定一个元素列表L及其满足的属性ψ，ddmin是一种经典的测试输入最小化算法，旨在自动从L中移除与ψ无关的元素。该算法已被广泛应用于测试输入最小化和软件减负等领域。近期提出的ddmin变体ProbDD通过贝叶斯优化估计L中每个元素与ψ相关的概率，并统计决定每次应批量删除的元素及其数量，实现了当前最优性能。然而，ProbDD的理论概率模型较为复杂，其性能优势的内在机理尚未得到充分探究。本文首次对ProbDD展开深度理论分析，阐明概率与子集规模的变化趋势并简化概率模型，同时通过成功率分析、消融实验及权衡与局限性考察等实证研究，进一步解析这一前沿算法。成功率分析揭示了ProbDD如何通过跳过删除子集补集和已尝试子集的低效查询，有效解决ddmin的速度瓶颈；消融实验表明随机性对ProbDD效率无显著影响。这些发现为测试输入最小化算法的未来研究和应用提供了重要参考。基于上述发现，我们提出简化版ProbDD——CDD，其在理论和实现层面均显著降低复杂度。CDD的作用在于：1）验证关键结论的正确性（如ProbDD中的概率实质上是元素的单调递增计数器）；2）识别真正影响ProbDD性能的核心因素。在测试输入最小化和软件减负的76个基准实验上，全面评估证明CDD虽大幅简化，仍能保持与ProbDD相当的性能。</span></span></p><p cid="n661" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a654/251mGo5UoU0" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a654/251mGo5UoU0</a></span></span></p><h3 cid="n662" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">214、Towards Better Answers: Automated Stack Overflow Post Updating</span></span></h3><p cid="n663" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在Stack Overflow（SO）上复用代码片段是开发者解决问题的常见做法。尽管SO代码片段是宝贵的资源，但必须认识到其存在缺陷——重用问题代码可能导致次优或缺陷代码被引入软件项目。SO评论常会指出帖子的弱点并提供改进答案质量的宝贵见解，但这些评论往往被遗漏或忽视，使得问题代码片段未被修正。本研究首先探索了基于关联评论自动更新SO帖子的任务，为此我们提出了名为Soup（Stack Overflow帖子更新器）的新型框架。该框架解决两个核心任务：有效评论-编辑预测（VCP）和自动帖子更新（APU）。大量实验结果表明，我们的模型在一系列基准测试中表现优异。此外，我们还对Stack Overflow进行了真实环境评估，向SO帖子提交了50个由该方法生成的编辑建议，其中21个已通过网站维护者审核采纳，进一步证实了Soup的实用价值。</span></span></p><p cid="n664" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a292/215aWHkzGkU" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a292/215aWHkzGkU</a></span></span></p><h3 cid="n665" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">215、Towards High-strength Combinatorial Interaction Testing for Highly Configurable Software Systems</span></span></h3><p cid="n666" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">高度可配置的软件系统在实践中对于满足日益增长的软件定制需求至关重要，而组合交互测试（CIT）是验证此类系统的重要方法。作为CIT的核心问题，约束覆盖阵列生成（CCAG）旨在构建最小规模的t维覆盖阵列（CA），其中t代表测试强度。大量研究表明，高强度CIT（如4维和5维CIT）比低强度CIT（即2维和3维CIT）具有更强的缺陷检测能力，且某些关键缺陷仅能通过高强度CIT暴露。尽管现有CCAG算法在解决低强度CCAG问题时表现优异，但在处理4维和5维CCAG时面临严峻的高强度挑战，亟需有效解决方案。</span></span></p><p cid="n667" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为缓解这一挑战，我们提出了一种新颖高效的局部搜索算法HSCA。该算法融合了三项创新技术：多轮CA生成机制、动态优先级分配方法和变量分组策略，以提升性能。在35个真实场景与合成实例上的实验表明，HSCA生成的4维和5维CA规模显著小于当前最优CCAG算法。更令人鼓舞的是，在全部35个实例中，HSCA成功构建了35个4维CA和29个5维CA，其中包括现有CCAG算法失败的11个4维实例和15个5维实例。实验结果证实HSCA能有效应对高强度挑战。</span></span></p><p cid="n668" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a650/251mGlwX23S" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a650/251mGlwX23S</a></span></span></p><h3 cid="n669" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">216、Towards More Trustworthy Deep Code Models by Enabling Out-of-Distribution Detection</span></span></h3><p cid="n670" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">众多机器学习（ML）模型的开发，包括针对软件工程（SE）任务的模型，均基于训练数据与测试数据来自同一分布的假设。然而，训练与测试的分布往往存在差异——训练数据集极少能覆盖完整分布，而测试分布通常会随时间推移发生变化。因此，当面对与训练数据存在差异的分布外（OOD）实例时，一个可靠且可信的SE机器学习模型必须能够检测出这些样本，从而选择拒绝预测，或将其传递给处理其他类别或任务的适当模型。本文开发了两种针对代码的SE专用OOD检测模型：无监督OOD检测与弱监督OOD检测。无监督方法仅利用分布内样本进行训练，而弱监督方法则通过少量OOD样本进一步提升多场景下的检测性能。大量实验结果表明，我们提出的方法在同步检测四种不同场景的OOD样本时显著优于基线模型，并能对核心代码理解任务产生积极影响。</span></span></p><p cid="n671" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a714/251mH3aV52U" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a714/251mH3aV52U</a></span></span></p><h3 cid="n672" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">217、Towards Neural Synthesis for SMT-assisted Proof-Oriented Programming</span></span></h3><p cid="n673" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">面向证明的程序将计算内容与程序正确性证明相结合。然而尽管采用了可满足性模理论（SMT）求解器来自动化F</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">等语言中的证明过程，编程与验证所需的人力投入仍然巨大。为促进利用人工智能自动构建面向证明程序的研究，我们整理了一个包含60万行开源F</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">程序及证明的数据集，涵盖从Windows、Linux到Python、Firefox等生产系统实际使用的软件。该数据集包含约3.2万个顶层F</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">定义，每个定义都代表一个类型导向的程序与证明合成问题——即根据F</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">类型形式化规范生成对应定义。我们提供了可通过查询F</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">验证候选解决方案正确性的程序片段检查器。据我们所知，这是目前规模最大的结合可复现程序片段检查器的SMT辅助程序证明语料库。基于此数据集，我们探索了利用AI合成F</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">程序及其证明的方法，并取得积极成果。主要发现表明，经过微调的小型语言模型（如Phi-2或StarCoder）在计算成本大幅降低的情况下，性能可媲美大型语言模型（如GPT-4）。我们还验证了多种基于类型的检索增强技术，证实其能显著提升模型表现。通过详细的错误分析与案例研究，我们揭示了现有模型与技术的潜在优势与局限，并为未来改进指明了方向。</span></span></p><p cid="n674" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a013/215aWmp5eM0" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a013/215aWmp5eM0</a></span></span></p><h3 cid="n675" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">218、Towards Understanding the Characteristics of Code Generation Errors Made by Large Language Models</span></span></h3><p cid="n676" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLM）在代码生成方面展现出前所未有的能力。然而，目前对其可能产生的代码生成错误仍缺乏深入理解。为填补这一空白，我们基于HumanEval数据集对六种代表性LLM的代码生成错误展开了系统分析。具体而言，我们首先采用开放式编码和主题分析方法，提炼出完整的代码生成错误分类体系，并从语义特征和语法特征两个维度解析错误特性。研究发现，LLM常在不同位置因多种根本原因产生非平凡的多行代码生成错误。我们进一步分析了这些错误与任务复杂度及测试通过率之间的关联性。研究结果凸显了定位与修复LLM代码生成错误的若干挑战，最后我们探讨了应对这些挑战的未来研究方向。</span></span></p><p cid="n677" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a717/251mH51B1AY" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a717/251mH51B1AY</a></span></span></p><h3 cid="n678" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">219、TraceFL: Interpretability-Driven Debugging in Federated Learning via Neuron Provenance</span></span></h3><p cid="n679" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在联邦学习中，客户端基于本地数据训练模型并将更新发送至中央服务器，后者通过融合算法将其聚合成全局模型。这种协作式且保护隐私的训练方式存在代价：开发者面临将全局模型预测归因于特定客户端的重大挑战。定位责任客户端是实现以下目标的关键步骤：(a) 排除导致错误预测的主要责任方；(b) 激励贡献高质量模型的客户端持续参与。现有机器学习调试方法因专为单模型集中式训练设计而无法适用。我们提出TraceFL——一种细粒度神经元溯源机制，通过追踪从个体客户端到全局模型的信息流来识别预测责任方。由于不同输入会激活全局模型中不同的神经元集合，TraceFL动态量化特定预测中神经元的重要性，定位最关键神经元后将其映射至各客户端的对应神经元，从而确定每个客户端的贡献度并最终锁定责任方。我们在六个数据集（含两个真实医疗影像数据集）和四个神经网络（包括GPT等先进模型）上评估TraceFL。在涵盖图像与文本分类的联邦学习任务中，其定位准确率达99%。当前最先进的机器学习调试方法多局限于特定领域（如图像分类），而TraceFL首次实现了跨多种联邦学习应用的高精度自动化归因。</span></span></p><p cid="n680" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a665/251mGvrcZxu" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a665/251mGvrcZxu</a></span></span></p><h3 cid="n681" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">220、TransferFuzz: Fuzzing with Historical Trace for Verifying Propagated Vulnerability Code</span></span></h3><p cid="n682" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">软件开发中的代码复用常常导致漏洞扩散，使得CVE报告中受影响软件的范围界定不精确。传统方法主要集中于识别目标软件中复用的漏洞代码，却无法验证这些漏洞能否在新软件环境中被触发，这一局限往往导致误报。本文提出TransferFuzz这一新型漏洞验证框架，用于验证通过代码复用传播的漏洞能否在新软件中被触发。我们创新性地在基础二进制文件（CVE报告中详述的存在漏洞的二进制文件）执行或模糊测试过程中收集运行时信息，通过该过程提取历史执行轨迹，这些轨迹被证明能有效指导目标二进制文件（复用漏洞函数的新二进制文件）的模糊测试过程。TransferFuzz提出独特的键字节引导变异策略和嵌套模拟退火算法，将历史轨迹迁移至目标二进制文件以实现轨迹引导的模糊测试，从而高效精准地验证传播的漏洞。基于广泛认可的数据集评估表明，TransferFuzz能快速验证现有技术无法确认的漏洞，其验证速度较现有方法提升2.5至26.2倍。此外，该框架成功扩展了15个CVE漏洞的受影响软件范围，使受影响的二进制文件数量从15个增至53个，充分证明了其有效性。</span></span></p><p cid="n683" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a598/251mFL63cWs" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a598/251mFL63cWs</a></span></span></p><h3 cid="n684" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">221、Treefix: Enabling Execution with a Tree of Prefixes</span></span></h3><p cid="n685" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">执行代码的能力是各类动态程序分析的前提条件。学习引导式执行作为一种新兴方法，通过让神经网络模型预测缺失变量的可能取值，实现了任意代码片段的执行。尽管当前最先进的学习引导式执行方案（如LExecutor）能支持相对高比例的代码执行，但其预测范围仅限于特定取值集合，且未利用历史执行反馈来提升后续代码执行率。本文提出Treefix——一种基于大语言模型迭代生成代码前缀的新型学习引导式执行方法。该方法采用多步处理策略：每一步都利用代码片段及其执行反馈信息指导大语言模型优化前序生成的前缀。该过程会迭代构建前缀树结构，最终返回能最大化代码片段行执行覆盖率的子前缀集合。在针对两组Python代码片段的实验中，Treefix相较当前最优学习引导式执行方案分别实现了25%和7%的覆盖率提升，总体可覆盖代码片段中84%和82%的代码行。</span></span></p><p cid="n686" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a751/251mHqTQr5e" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a751/251mHqTQr5e</a></span></span></p><h3 cid="n687" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">222、Trust Dynamics in AI-Assisted Development: Definitions, Factors, and Implications</span></span></h3><p cid="n688" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">软件开发人员日益依赖AI代码生成工具。为确保&#34;优质&#34;代码被纳入代码库而&#34;劣质&#34;代码被拒绝，开发者必须明确何时信任AI建议。理解开发者如何建立这种直觉对增强人机协作编程至关重要。本文旨在探究开发者如何(1)定义、(2)评估代码建议的可信度，以及(3)使用AI编程助手时信任如何演变。为此，我们采用混合方法开展研究：先对29名开发者进行深度探索性调查，随后对10名开发者进行观察实验。研究发现，可理解性和感知正确性是评估代码可信度时最常用的标准。但开发者对可信度的定义与评估标准之间存在脱节，表明实时评估可信代码的支持机制尚不完善。我们还发现开发者常会修改信任决策，仅保留52%的原始建议。基于这些发现，我们提炼出四条优化人机协作的准则，并通过7名领域专家和8名调查成员的验证。文中讨论了这些已验证准则的应用方法及配套工具支持方案。</span></span></p><p cid="n689" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a736/251mHh8o2DC" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a736/251mHh8o2DC</a></span></span></p><h3 cid="n690" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">223、Tumbling Down the Rabbit Hole: How do Assisting Exploration Strategies Facilitate Grey-box Fuzzing?</span></span></h3><p cid="n691" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">许多辅助探索策略被提出，旨在帮助灰盒模糊测试工具突破由严格复杂分支条件（如等式约束）保护的程序状态。尽管这些策略在原始论文中展现出显著效果，但其评估流程往往缺乏可比性——例如，它们极少在统一基准上进行测试。此外，现有研究对这些策略所探索程序状态的具体特征缺乏深入分析，这种认知空白将阻碍策略的未来应用与发展。因此，迫切需要对辅助探索策略的有效性、通用性和局限性展开系统性研究，以指引其发展方向。  </span></span></p><p cid="n692" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为此，我们首次对灰盒模糊测试的辅助探索策略展开全面研究。具体而言，我们首先选取代表主流辅助探索策略的9个最新模糊测试工具作为研究对象，并构建包含21个真实项目的基准测试集。经过基准评估后，我们意外发现字典策略最具潜力：该策略不仅能达到与其他策略相当（甚至略优）的程序状态探索效果，还具备更强的可扩展性。基于此发现，我们在AFL基础模糊测试器上提出CDFUZZ，通过为每个种子生成定制化字典来优化原始字典策略。评估结果表明，相较于本研究中的最优方案（采用字典策略的AFL++），CDFUZZ在所有基准项目上的平均边覆盖率提升16.1%，并成功暴露37个未知漏洞，其中9个漏洞获得开发者确认，7个已被修复。</span></span></p><p cid="n693" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a547/215aWW8Q27C" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a547/215aWW8Q27C</a></span></span></p><h3 cid="n694" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">224、UML is Back. Or is it? Investigating the Past, Present, and Future of UML in Open Source Software</span></span></h3><p cid="n695" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">自诞生以来，统一建模语言（UML）一直被誉为设计和记录软件系统的首选方法。尽管UML是许多大学软件工程课程的重要组成部分，但在开发者中却鲜少受到重视，尤其是在开源软件领域。其原因包括UML与其他形式的文档存在一些共同的缺陷（例如可用性有限、内容过时、细节层次不足）。我们开展了一项研究，以调查开源项目中UML的使用演变及现状。我们挖掘并分析了约1.3万个GitHub项目，通过文件扩展名和内容开发策略与启发式方法来识别UML文件，从而对UML二十年来的使用演变进行定量分析。我们探讨了UML的流行度，总结了采用UML的项目特征，并分析了UML制品的作者、创建者和维护者。我们的研究证实，UML确实仍未得到充分利用。与此同时，我们发现随着PlantUML和Mermaid等工具定义和使用的人类可读文本格式的流行，UML正出现复苏迹象。我们讨论了如何识别并应对这一复苏趋势带来的新挑战，及其对UML未来的潜在影响。</span></span></p><p cid="n696" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a692/251mGNKCtPy" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a692/251mGNKCtPy</a></span></span></p><h3 cid="n697" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">225、Unavoidable Boundary Conditions: A Control Perspective on Goal Conflicts</span></span></h3><p cid="n698" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">边界条件描述了需求规约发生冲突的情形。在更广泛的冲突管理流程中，它们被用于生成更少理想化的规约。目前已有多种自动化识别边界条件的方法被提出，其中部分方法通过引入优先级标准来减少呈现给工程师的边界条件数量。然而，如何识别少量关键性边界条件仍是一个悬而未决的挑战。本文指出，现有技术存在的问题之一在于边界条件本身的定义过于宽泛。我们提出了一种更强约束的定义——称为不可避免边界条件（UBC），其利用了反应式综合中可实现性的概念。实验表明，UBC能有效削减现有边界条件识别技术产生的条件数量，且这种削减具有非平凡意义。我们还将UBC与反应式综合中用于反馈不可实现规约的现有概念（包括反策略和不可实现核心）建立关联，进而证明UBC能为修复不可实现规约提供针对性反馈。</span></span></p><p cid="n699" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a380/215aWMI6maI" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a380/215aWMI6maI</a></span></span></p><h3 cid="n700" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">226、Understanding Architectural Complexity, Maintenance Burden, and Developer Sentiment--A Large-Scale Study</span></span></h3><p cid="n701" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">摘要——直观而言，软件系统越复杂，维护难度越大。但从统计学角度看，尚不清楚哪些复杂度指标与维护工作量相关；甚至如何客观量化维护负担也缺乏明确方法，导致开发者的感受和直觉难以获得数据支撑。缺乏有效的复杂度和维护度量标准，就难以客观监控维护状态、控制复杂度或验证重构合理性。本文针对谷歌公司1252个C++与Java项目开展大规模研究，收集了三类指标：(1) 架构复杂度，通过传播成本(PC)、解耦水平(DL)和结构反模式进行量化；(2) 维护活动，基于变更次数、编写代码行数(LOC)及投入功能新增与缺陷修复的活跃编码时间(ACT)；(3) 开发者对复杂度与效率的主观评价，采集自7200份问卷反馈。通过统计分析这些指标的关联性，我们获得以下重要发现：1) 架构越复杂（传播成本越高、反模式实例越多），缺陷修复消耗的代码行数占比越高；2) 在功能开发中提交更多变更、编写更多代码或投入更多时间的开发者，其受技术债务和复杂度阻碍的感受更轻。据我们所知，这是首个证实架构复杂度、维护活动与开发者感受三者间统计相关性的大规模实证研究。研究表明：通过持续客观测量架构复杂度和维护难度，可替代单纯依赖开发者主观感受来判断架构劣化或演进负担，进而通过降低架构复杂度和消除反模式来提升功能交付效率。</span></span></p><p cid="n702" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a705/251mGWXJpxm" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a705/251mGWXJpxm</a></span></span></p><h3 cid="n703" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">227、Understanding Compiler Bugs in Real Development</span></span></h3><p cid="n704" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">编译器在开发过程中至关重要，但编译器漏洞可能导致其编译代码中存在隐蔽且严重的缺陷。为深化对编译器漏洞的理解，已有实证研究通过分析漏洞报告和补丁来探究其成因、位置及模式。尽管这些研究得出许多有价值的发现，但仍存在局限：首先，由于漏洞报告极少说明受影响的工程项目，难以评估其实际影响范围；其次，程序员在漏洞修复前可能采用规避方案，但漏洞报告通常不包含此类应对措施；最后，由于研究者和编译器开发者也会提交漏洞报告，漏洞分布可能存在偏差。本文提出一种创新分析视角——不依赖编译器漏洞报告，而是收集实际开发中提及的编译器漏洞。当程序员遭遇编译器漏洞时，会在提交信息中留下痕迹。通过检索这类信息，我们收集到644条明确包含编译器漏洞链接的独立提交记录。基于此视角，本文首次开展针对真实环境中编译器漏洞的实证研究，归纳出七项对用户、编译器开发者和研究者具有实用价值的发现。例如对研究者而言，我们发现某些大型规避方案涉及重复性系统性代码修改，这为代码迁移工具提供了新的研究方向。此外，我们将研究结论应用于实际开发并获得了积极反馈。</span></span></p><p cid="n705" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a605/251mFQXnLr2" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a605/251mFQXnLr2</a></span></span></p><h3 cid="n706" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">228、Understanding and Detecting Peer Dependency Resolving Loop in npm Ecosystem</span></span></h3><p cid="n707" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">作为Node.js的默认包管理器，npm已成为全球规模最大的包管理系统之一。为简化开发者的依赖管理，npm支持一种特殊依赖类型——对等依赖（Peer Dependency），其安装与使用方式均不同于常规依赖。然而对等依赖间的冲突可能使npm客户端陷入无限循环，导致资源耗尽与系统崩溃，我们将此问题命名为PeerSpin。尽管PeerSpin对生态系统构成严重威胁，但先前研究均未关注该问题，其影响也从未被探讨。为填补这一空白，本文首次开展深度研究以理解并检测npm生态系统中的PeerSpin现象。首先，通过系统分析npm依赖解析机制，我们揭示了PeerSpin的根本成因，并归纳出两种对等依赖模式以指导检测。其次，我们提出基于节点替换冲突（Node-Replacement-Conflict）的创新检测技术，该技术利用依赖解析过程中目录树的状态实现精准高效的PeerSpin检测。基于此技术开发了检测工具PeerChecker。最后，我们将PeerChecker应用于整个npm生态系统，发现5,662个包的72,968个版本存在PeerSpin问题。截至目前，已通过向包维护者提交报告确认28个真实PeerSpin案例。我们同时开源了所有PeerSpin分析实现、工具及数据集，以帮助社区检测PeerSpin问题并提升npm生态系统的可靠性。</span></span></p><p cid="n708" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a591/251mFG6W2ic" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a591/251mFG6W2ic</a></span></span></p><h3 cid="n709" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">229、Understanding the Effectiveness of Coverage Criteria for Large Language Models: A Special Angle from Jailbreak Attacks</span></span></h3><p cid="n710" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLMs）已彻底改变人工智能领域，但其在关键领域的日益广泛应用引发了人们对模型面临恶意攻击时异常行为的担忧。这种脆弱性暴露出当前预发布测试普遍存在的不足。本文通过全面实证研究，以越狱攻击这一重大安全问题为例，评估传统覆盖准则在识别此类缺陷方面的有效性。研究首先对LLM隐藏状态进行聚类分析，发现其嵌入特征能有效区分不同查询类型。随后我们从准则层级、网络层和标记层级三个维度系统评估这些准则的表现，发现LLM处理正常查询与越狱查询时神经元覆盖存在显著差异，这与聚类实验结果一致。基于这些发现，我们提出覆盖准则在LLM安全测试中的三项实际应用：开发实时越狱检测机制（平均分类准确率达93.61%）；利用覆盖水平优化测试用例优先级，通过聚焦高风险交互和剔除冗余测试提升效率；提出覆盖引导的越狱攻击样本生成方法，通过系统化提示词优化来发掘漏洞。本研究深化了对LLM安全测试的理解，提升了模型安全性，为开发更健壮的人工智能应用奠定了基础。</span></span></p><p cid="n711" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a745/251mHn2yAqQ" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a745/251mHn2yAqQ</a></span></span></p><h3 cid="n712" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">230、Understanding the Response to Open-Source Dependency Abandonment in the npm Ecosystem</span></span></h3><p cid="n713" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">许多依赖开源数字基础设施的开发者期望获得持续维护，但即便是最关键的软件包也可能陷入无人维护状态。尽管如此，人们对广泛使用软件包的废弃普遍性、后续影响以及实际应对措施仍知之甚少，对相关影响因素也缺乏认知。我们对所有广泛使用的npm软件包进行了大规模定量分析，发现废弃现象在其中十分常见，这种废弃会使许多项目暴露于风险之下且往往无人响应，而应对措施与其他依赖管理实践存在关联。当项目明确声明终止维护状态时，依赖移除速度会显著加快。最后，我们为面临依赖废弃或项目终止的研究者和实践者提出建议，例如通过低成本的透明度机制帮助受影响项目做出更明智的决策。</span></span></p><p cid="n714" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a038/215aWo66OTS" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a038/215aWo66OTS</a></span></span></p><h3 cid="n715" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">231、Unleashing the True Potential of Semantic-based Log Parsing with Pre-trained Language Models</span></span></h3><p cid="n716" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">软件密集型系统通常通过控制台日志进行故障排查。日志解析旨在将日志消息解析为特定日志模板，是自动化日志分析的首要步骤。为深入理解日志消息的语义信息，学界已提出多种基于语义的日志解析器。这类解析器通常在少量标注日志样本上微调小型预训练语言模型（如RoBERTa）。随着大语言模型（LLM）的兴起，近期研究尝试通过上下文学习调用ChatGPT等LLM进行自动化日志解析，其效果优于传统基于小型预训练模型的语义解析器。本文证明：采用小型预训练模型的语义解析器在效率和成本优势显著的前提下，其性能可超越或比肩最先进的LLM日志解析方案。我们提出新型语义解析方法UNLEASH，通过三项增强技术提升预训练模型的日志解析能力：（1）基于信息熵的排序方法筛选最具信息量的日志样本；（2）采用对比学习优化微调过程；（3）引入推理优化方法提升解析性能。基于大规模公开日志数据集的实验表明，UNLEASH在效果与效率上均优于当前最先进的日志解析器。</span></span></p><p cid="n717" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a711/251mH1c0LIY" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a711/251mH1c0LIY</a></span></span></p><h3 cid="n718" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">232、Unseen Horizons: Unveiling the Real Capability of LLM Code Generation Beyond the Familiar</span></span></h3><p cid="n719" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，大型语言模型（LLM）在代码生成任务中展现出强大潜力，但其在实际软件开发流程中的全面应用仍存在差距。准确评估大模型的代码生成能力已成为衡量和改进模型的重要依据。现有研究已构建了若干评测数据集，但当前评估过程可能陷入&#34;熟悉领域专家&#34;的错觉，主要源于三大鸿沟：目标代码的暴露性、案例时效性以及依赖可用性。这些鸿沟的根本原因在于，现有数据集中的代码可能在训练阶段已被广泛暴露并反复训练，且由于LLM的持续训练与迭代发展，其时效性已严重受损。解决问题的关键在于尽可能使用模型未接触过的代码进行评估。为此，本文提出借鉴代码混淆概念，在保持功能与输出的前提下对代码实施多层级变换。我们构建了基于代码混淆的评测基准OBFUSEVAL：首先从五个真实项目中收集1,354个原始案例（含函数描述与代码），继而采用符号级、结构级和语义级的三层策略对描述文本、代码及上下文依赖进行混淆处理。我们在OBFUSEVAL上评估了四个LLM，对比了不同混淆策略的效果，并利用项目官方测试套件验证生成代码。实验表明，经过混淆处理后，测试通过率平均下降幅度最高可达62.5%。</span></span></p><p cid="n720" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a619/251mG0OexlS" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a619/251mG0OexlS</a></span></span></p><h3 cid="n721" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">233、Unveiling the Energy Vampires: A Methodology for Debugging Software Energy Consumption</span></span></h3><p cid="n722" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">软件系统中的能耗问题日益重要，尤其在大规模部署场景中。然而由于缺乏专用工具，能耗相关问题的调试仍具挑战性。本文提出一种能耗调试方法，用于识别和定位软件系统中的能耗热点。我们通过对流行内存数据库Redis的案例研究验证了该方法的有效性。分析表明Alpine与Ubuntu发行版存在显著能耗差异，其中Alpine在特定操作中功耗最高增加20.2%。通过追踪发现，这种差异源于不同C标准库（musl与glibc）中memcpy函数的实现差异。经隔离测试与基准验证，我们确认memcpy是导致能耗差异的主因。本研究揭示了软件依赖项中能效考量的重要性，并展示了帮助开发者识别和解决能耗问题的能力。本工作通过提供系统性能耗调试方法，并借此揭示Alpine系统中意料之外的能耗表现，为可持续软件工程领域的发展做出贡献。</span></span></p><p cid="n723" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a655/251mGoOL1sc" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a655/251mGoOL1sc</a></span></span></p><h3 cid="n724" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">234、User Personas Improve Social Sustainability by Encouraging Software Developers to Deprioritize Antisocial Features</span></span></h3><p cid="n725" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">背景：可持续软件开发是指以既能满足当前目标又不损害未来目标实现能力的方式创建软件。在软件工程领域，可持续性至少包含四个维度：生态、经济、社会和技术。目前尚未有通过严格实验室实验验证的提升软件工程社会可持续性的干预措施，也缺乏基于证据的实践指导。</span></span></p><p cid="n726" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">目的：本研究旨在评估两种干预措施——利益相关者地图和人物角色模型——通过软件功能优先级排序提升社会可持续性的有效性。</span></span></p><p cid="n727" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">方法：我们对79名计算机科学本科生进行了随机对照析因实验。参与者被随机分配到四个组，要求为购物中心数字屏幕显示及人脸识别软件的用户故事（亲社会型、中立型和反社会型）进行优先级排序。各组分别接收人物角色模型、利益相关者地图、两者结合或两者皆无。我们采用累积链接混合模型回归比较了亲社会型与反社会型用户故事的优先级差异。</span></span></p><p cid="n728" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">结果：接收人物角色模型的参与者对反社会型用户故事赋予的优先级显著更低，但对亲社会型用户故事未见显著差异。利益相关者地图的影响不显著。交互效应亦不显著。</span></span></p><p cid="n729" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">结论：为软件从业者提供精心设计的人物角色模型，能促使其降低反社会软件功能的优先级。因此，人物角色建模对可持续软件开发的影响值得在资深从业者中进一步研究。此外，通过待办列表优先级排序评估社会可持续性行为的新方法策略，在实验室环境中展现出可行性。</span></span></p><p cid="n730" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a672/251mGzWNSF2" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a672/251mGzWNSF2</a></span></span></p><h3 cid="n731" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">235、Vulnerability Detection with Code Language Models: How Far Are We?</span></span></h3><p cid="n732" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着代码语言模型（code LM）和漏洞检测研究的热度攀升，本研究系统评估了代码语言模型在漏洞检测任务中的实际效能。分析发现现有漏洞数据集存在严重缺陷：数据质量低下、标注准确率不足且重复率畸高，导致模型在真实漏洞检测场景中的表现不可靠。此外，基于这些数据集的评估方法也无法反映实际漏洞检测需求。为此，我们提出PrimeVul——一个专为代码语言模型训练与评估构建的新型漏洞检测数据集。该数据集采用创新性数据标注技术，在保证与人工验证基准相当标注精度的同时实现数据规模显著扩展；通过严格的数据去重和时序划分策略解决数据泄露问题，并引入更贴近现实的评估指标与设置，从而为代码语言模型在真实环境中的性能提供更准确评估。基于PrimeVul的测试表明，现有基准严重高估了模型性能：例如某先进70亿参数模型在BigVul数据集上F1值达68.26%，但在PrimeVul上仅3.09%。即使采用GPT-3.5和GPT-4等先进模型及训练技术进行优化，在最严格测试设置下其表现仍与随机猜测无异。这些发现揭示了当前技术能力与安全领域实际需求间的巨大鸿沟，凸显该领域亟需更具创新性的研究突破。</span></span></p><p cid="n733" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a469/215aWRJLUZy" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a469/215aWRJLUZy</a></span></span></p><h3 cid="n734" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">236、WDD: Weighted Delta Debugging</span></span></h3><p cid="n735" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">差分调试（Delta Debugging）是一类广泛应用的算法家族（如ddmin和ProbDD），用于自动最小化触发错误的测试输入以辅助调试。该算法将测试输入划分为元素列表（每个元素代表输入片段），通过系统化的多粒度分区策略识别并删除与错误无关的片段。现有差分调试算法默认列表中所有元素具有同等地位，在分区时进行统一处理。然而实际场景中该假设往往不成立——各元素所代表片段的尺寸（称为权重）可能存在显著差异。例如，某个占输入总量50%的元素比仅占1%的元素更可能关联错误，这种假设缺陷会损害算法效率甚至有效性。</span></span></p><p cid="n736" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出加权差分调试（Weighted Delta Debugging, WDD）新范式以突破上述局限。其核心思想是根据元素尺寸分配权重，在分区时差异化处理不同权重的元素。我们基于WDD分别改造ddmin和ProbDD，设计出Wddmin和WProbDD两种新算法。在HDD和Perses两大典型应用场景中，我们对跨两种语言的62个基准案例展开全面评估：使用Wddmin时，HDD和Perses分别减少51.31%和7.47%的运行时间，同时生成比ddmin缩小9.12%和0.96%的结果；采用WProbDD后，二者耗时降低11.98%和9.72%，生成结果较ProbDD缩小13.40%和2.20%。实验结果有力验证了WDD的价值。我们确信WDD为测试输入最小化技术开辟了新的优化维度。</span></span></p><p cid="n737" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a608/251mFSTJGAo" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a608/251mFSTJGAo</a></span></span></p><h3 cid="n738" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">237、Weakly-supervised Log-based Anomaly Detection with Inexact Labels via Multi-instance Learning</span></span></h3><p cid="n739" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于日志的异常检测对于保障软件可用性至关重要。然而现有方法严重依赖日志条目的细粒度精确标签，这些标签在实际系统中极难获取。这导致一个核心矛盾：异常检测模型需要监督信号，但已标注日志条目却不可得。针对该问题，我们提出了一种称为&#34;非精确标注&#34;的新策略，系统专家无需标注单个日志条目，而是对特定时间段内的日志条目集合进行整体标注。基于此，我们提出了MIDLog——一种支持非精确标注的弱监督日志异常检测方法。通过多示例学习框架，我们实现了从非精确标注的异常日志集合中显式分离出真实异常日志条目，从而从非精确标注集合推导出精确的异常日志标签。在三个公开数据集上的大量实验表明，我们的方法在非精确标注条件下仍能取得超过85%的F1分数。</span></span></p><p cid="n740" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a726/251mHaMY0mc" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a726/251mHaMY0mc</a></span></span></p><h3 cid="n741" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">238、What Guides Our Choices? Modeling Developers&#39; Trust and Behavioral Intentions Towards GenAI</span></span></h3><p cid="n742" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">生成式人工智能（genAI）工具（如ChatGPT或Copilot）被宣传为能提升开发者生产力，并正被集成到软件开发中。然而，信任偏差、怀疑态度及可用性顾虑可能阻碍此类工具的采用。研究还表明，AI可能具有排他性，无法充分支持多样化用户。多样性的一个方面是认知多样性——用户认知风格的差异——这会导致视角和交互方式的分歧。当个体的认知风格得不到支持时，就会形成技术采用的障碍。因此，为了理解如何有效将genAI工具集成到软件开发中，首先需要建模分析哪些因素会影响开发者对genAI工具的信任及实际采用意愿？我们开发了一个基于理论的统计模型，旨在（1）识别影响开发者对genAI工具信任的因素，（2）检验开发者信任、认知风格与工作中使用这些工具的意图之间的关系。我们对两家全球大型科技组织（GitHub Inc.和微软）的软件开发者（N=238）进行了调研，并采用偏最小二乘结构方程模型（PLS-SEM）评估模型。研究发现，genAI的系统/输出质量、功能价值及目标持续性显著影响开发者对这些工具的信任。此外，开发者的信任和认知风格会影响他们在工作中使用这些工具的意图。我们为设计genAI工具提出了实用建议，以实现高效使用和包容性用户体验。</span></span></p><p cid="n743" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a624/251mG4bIvlu" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a624/251mG4bIvlu</a></span></span></p><h3 cid="n744" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">239、What You See Is What You Get: Attention-based Self-guided Automatic Unit Test Generation</span></span></h3><p cid="n745" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">软件缺陷会严重影响软件功能并可能造成巨大损失。近年来，研究者提出了多种基于人工智能的缺陷检测方法，主要分为两类：软件缺陷预测与自动化单元测试生成。尽管这些方法在缺陷检测领域取得了显著进展，但在实际应用中仍存在预测模型置信度低、单元测试模型效率不足等局限性。为此，我们提出一种所见即所得（WYSIWYG）方法——基于注意力的自引导自动化单元测试生成框架（AUGER），其包含缺陷检测与错误触发两阶段：前阶段通过缺陷倾向性检测定位潜在缺陷，后阶段利用前阶段获取的关键信息引导生成触发对应错误的单元测试。为验证AUGER的有效性，我们在Bears、Bugs.jar和Defects4J等主流数据集上与前沿方法进行大规模对比实验。结果表明，AUGER在缺陷检测的F1值与精确率指标上分别提升4.7%-35.3%和17.7%-40.4%，在单元测试生成中比现有方法多触发23-84个错误。此外，我们还通过从真实项目中采集新数据集开展深入实验，验证了该方法在实际应用中的泛化能力。</span></span></p><p cid="n746" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a642/251mGgs9SOk" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a642/251mGgs9SOk</a></span></span></p><h3 cid="n747" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">240、When Quantum Meets Classical: Characterizing Hybrid Quantum-Classical Issues Discussed in Developer Forums</span></span></h3><p cid="n748" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">量子计算的最新进展引发了人们的热切期待，认为这种新型计算范式有望解决以往棘手的难题。然而受限于当前量子硬件的固有缺陷与量子特性噪声，量子计算的全部潜力仍需数年才能实现。作为折中方案，量子-经典混合计算应运而生，旨在融合双方优势。本文从软件工程视角出发，首次针对混合量子-经典应用开发者面临的典型问题展开实证研究。通过对量子计算专业论坛531条真实讨论线索的系统分析（涵盖软件故障、硬件失效、量子库错误及开发者失误等），我们通过定性研究构建了混合量子-经典应用的系统性问题分类体系，该成果可为应用开发者和平台开发者提升混合应用可靠性提供参考。研究发现：混合应用具有崩溃主导特性（占研究案例的74%），且错误主要源于应用开发者（占70%）。最后我们总结了混合应用开发者面临的典型障碍，并提出了可操作的改进建议。</span></span></p><p cid="n749" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a674/251mGBqujFS" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a674/251mGBqujFS</a></span></span></p><h3 cid="n750" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">241、Who&#39;s Pushing the Code? An Exploration of GitHub Impersonation</span></span></h3><p cid="n751" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">GitHub是全球最大的开源软件（OSS）开发与协作社区之一。开源社区中的身份冒用行为指恶意冒充他人身份的行为，通常旨在非法获取代码访问权限、操纵项目成果或传播虚假信息。随着近期多起现实攻击事件因身份冒用引发，该问题日益受到开源社区关注。本文首次系统探究GitHub平台上的身份冒用影响：通过对17位实际开源贡献者开展结构化访谈，分析其对身份冒用的认知及应对措施。研究发现，GitHub用户普遍缺乏对身份冒用的警觉性，并低估其潜在危害的严重程度。在目睹冒用演示后，受访者表现出对开源社区安全的高度担忧。研究同时表明，当前可能缓解冒用问题的最佳实践（如提交签名）仍需改进以提升采用率。我们还讨论并总结了参与者对GitHub身份冒用缓解方案的认知。通过分析包含1250万次提交的数据集，我们探究了当前身份冒用现状。值得注意的是，研究发现现有技术难以有效检测冒用行为——现有的提交历史记录将冒用行为与拉取请求事件同等处理，导致缺乏专门的冒用检测方法。</span></span></p><p cid="n752" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a602/251mFNUU74c" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a602/251mFNUU74c</a></span></span></p><h3 cid="n753" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">242、Your Fix Is My Exploit: Enabling Comprehensive DL Library API Fuzzing with Large Language Models</span></span></h3><p cid="n754" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">深度学习（DL）库被广泛用作计算机视觉、自然语言处理和软件工程等领域各类AI应用的基础设施。尽管应用广泛，这些库却存在缓冲区溢出、释放后使用、整数溢出等漏洞，可能被利用以破坏底层库的安全性或功能有效性。传统模糊测试技术虽常用于软件缺陷检测，却难以适配DL库的特殊性。总体而言，DL库的复杂性和API的多样性使得全面测试极具挑战性——当前主流DL库（如TensorFlow和PyTorch）的API数量已逾千个且持续增长，考虑到输入数据的复杂性和API使用模式的多样性，全覆盖式模糊测试几乎是不可能完成的任务。</span></span></p><p cid="n755" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLM）的最新进展展现了其在理解和生成类人代码方面的巨大潜力。然而研究发现，现有基于LLM的模糊测试工具在DL库API测试中存在明显不足：既缺乏对API输入边界条件的深入认知，又难以高效生成测试输入。本文提出DFUZZ这一LLM驱动的DL库模糊测试方法，其核心创新在于：（1）利用LLM的高阶推理能力替代人工专家，从API代码检查中推导边界条件（易触发错误的输入），并将提取的知识迁移至其他（新发布或低覆盖率）API的测试；（2）凭借LLM的强大生成能力，精准合成初始测试程序以实现API测试自动化。DFUZZ为LLM提供了独特的DL库API&#34;白盒视角&#34;，从而充分发挥其推理与生成能力实现全面模糊测试。</span></span></p><p cid="n756" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">实验结果表明，在TensorFlow和PyTorch上，DFUZZ的API覆盖率显著优于当前最先进的（基于LLM的）模糊测试工具。此外，DFUZZ成功检测出37个漏洞，其中8个已被修复，19个获开发者复现并正在核查中。</span></span></p><p cid="n757" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a508/215aWTZ8XRe" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a508/215aWTZ8XRe</a></span></span></p><h3 cid="n758" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">243、ZTD_{JAVA}: Mitigating Software Supply Chain Vulnerabilities via Zero-Trust Dependencies</span></span></h3><p cid="n759" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">像Log4j这样的第三方库加速了软件应用的开发，但也带来了重大风险。这些库中的漏洞已导致软件供应链（SSC）攻击，从而危及主机系统内的资源。这些攻击利用了当前应用程序权限管理方式的缺陷：第三方库在应用运行时被隐式信任。基于零信任架构（ZTA）原则设计的应用运行时——包括安全的资源访问、持续监控和最小权限执行——可以缓解SSC攻击，因为它不会对这些库赋予任何隐式信任。然而，目前尚无单一的安全防御措施能以较低的运行时成本整合这些原则。本文提出\emph{\ztd}来缓解SSC漏洞：我们将NIST的ZTA应用于软件应用。首先，我们通过研究第三方软件库及其漏洞，评估了\ztd的预期有效性和配置成本。接着，我们提出了一个系统设计\tooldesign，使\ztd能够应用于软件应用，并为Java应用开发了原型工具\toolname。最后，通过对复现漏洞和实际应用的评估，我们证明\toolname能够防御常见漏洞类型，引入的开销可忽略不计，且易于配置和使用。</span></span></p><p cid="n760" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a685/251mGJgJbuo" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a685/251mGJgJbuo</a></span></span></p><h3 cid="n761" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">244、exLong: Generating Exceptional Behavior Tests with Large Language Models</span></span></h3><p cid="n762" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">包括C#、Java和Python在内的众多主流编程语言均支持异常处理机制。当程序执行过程中发生非预期事件（例如调用方法时传入非法参数值）时，系统会抛出异常。软件开发人员通过编写异常行为测试（EBT）来验证代码能否正确检测异常事件并抛出相应异常。先前研究表明EBT具有重要价值，但同时也揭示开发者往往将主要精力投入&#34;正常路径&#34;（即不触发异常的执行路径）。为弥补这一缺口，我们提出首个自动化生成EBT的框架exLong。该框架基于CodeLlama进行大语言模型指令微调，能够推理分析导致throw语句的执行轨迹、守卫throw语句的条件表达式，以及执行相似轨迹的非异常行为测试。我们将exLong与当前最先进的测试生成模型（CAT-LM）、最强基础模型之一（GPT-4o）以及基于分析的测试生成工具（Randoop和EvoSuite）进行对比。实验结果表明exLong优于现有模型与工具。此外，我们向开源项目提交了多项拉取请求，其中已有23个由exLong生成的EBT被正式采纳。</span></span></p><p cid="n763" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a713/251mH2ySPCg" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a713/251mH2ySPCg</a></span></span></p><h3 cid="n764" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">245、µPRL: A Mutation Testing Pipeline for Deep Reinforcement Learning based on Real Faults</span></span></h3><p cid="n765" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">强化学习（RL）正日益广泛地应用于训练处理复杂序列任务的智能体，例如自动驾驶汽车或控制人形机器人。相应地，需要新的方法来确保RL智能体在生产前经过充分测试。其中，变异测试尤其具有前景，特别是在假设注入的故障（变异）能模拟真实故障的情况下。本文首先通过仓库挖掘获取真实RL故障的分类体系，随后提出基于此类真实故障的变异算子，并在工具μPRL中实现。最后，我们讨论实验结果，表明μPRL能有效区分强弱测试生成器，从而为开发者提供关于生成测试场景充分性的有用反馈。</span></span></p><p cid="n766" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/icse/2025/056900a444/215aWQmTR6g" target="_blank">https://www.computer.org/csdl/proceedings-article/icse/2025/056900a444/215aWQmTR6g</a></span></span></p><p style="text-align: center;" nodeleaf=""><img class="rich_pages wxw-img" data-imgfileid="100000515" data-ratio="0.3649122807017544" data-s="300,640" type="block" data-type="png" data-w="1710" src="https://wechat2rss.xlab.app/img-proxy/?k=84c3571f&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_png%2FicNlicgdbzSdUsr3zlDy5jvuhf6dz33SqB8w9ao4Xt0eGRD7LY9kyckjfOFI1zt8kgMr8eZsYl4JWB19eN2CowlQ%2F640%3Fwx_fmt%3Dpng"/></p><p><span leaf=""><br/></span></p><p style="display: none;"><mp-style-type data-value="3"></mp-style-type></p>


<p><img src="https://wechat2rss.xlab.app/img-proxy/?k=dbe50d23&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_png%2FicNlicgdbzSdUsr3zlDy5jvuhf6dz33SqB8w9ao4Xt0eGRD7LY9kyckjfOFI1zt8kgMr8eZsYl4JWB19eN2CowlQ%2F0%3Fwx_fmt%3Dpng"/></p>



<p><a href="2247485981">阅读原文</a></p>
<p><a href="https://wechat2rss.xlab.app/link-proxy/?k=2fa49293&amp;r=1&amp;u=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU0MzgzNTU0Mw%3D%3D%26mid%3D2247485981%26idx%3D3%26sn%3D30bf121a99a6e65bb1ad6d96aff2a134">跳转微信打开</a></p>
]]></content:encoded>
      <pubDate>Sun, 22 Jun 2025 16:31:00 +0800</pubDate>
    </item>
    <item>
      <title>网络安全顶会——SP 2025 论文清单与摘要（中）</title>
      <link>https://mp.weixin.qq.com/s?__biz=MzU0MzgzNTU0Mw==&amp;mid=2247485972&amp;idx=1&amp;sn=4fdd65f48815b512a83d6bc087cc5989</link>
      <description>SP 2025 论文 cycle 2的论文清单补上</description>
      <content:encoded><![CDATA[<p>
<span>漏洞战争</span> <span>2025-06-10 22:39</span> <span style="display: inline-block;">广东</span>
</p>

<p>SP 2025 论文 cycle 2的论文清单补上</p>
<p></p>



<p>
<img src="https://wechat2rss.xlab.app/img-proxy/?k=68ffba2b&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdXDTLj7fquKwYll6jFmqmCV9iaIaEkU6zauopBQaicnFUdj3bFgMrWNKu93sC4Kwyia6xDadBrmibIyRA%2F0%3Fwx_fmt%3Djpeg"/>
</p>


<p><span leaf="">上一篇 <a class="normal_text_link" target="_blank" style="" href="https://mp.weixin.qq.com/s?__biz=MzU0MzgzNTU0Mw==&amp;mid=2247485954&amp;idx=1&amp;sn=d361d90c096adcfc889b969fb4614c84&amp;scene=21#wechat_redirect" textvalue="网络安全顶会——SP 2025 论文清单与摘要" data-itemshowtype="0" linktype="text" data-linktype="2">网络安全顶会——SP 2025 论文清单与摘要</a> 只有cycle 1的论文，另一半的遗漏了（感谢网友_JIER提醒），在公众号一篇限制5万字，所有论文的摘要加起来超过了，因此只能分篇。</span></p><h3 cid="n0" mdtype="heading" style="box-sizing: border-box;" data-pm-slice="0 0 []"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">105、&#34;We can’t allow IoT vendors to pass off all such liability to the consumer&#34;: Investigating the U.S. Legal Perspectives on Liability for IoT Product Security</span></span></h3><p cid="n2" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着物联网（IoT）监管环境的发展，厂商正逐步推进产品的安全认证。因此，我们需要明确当认证失效导致损害时（即已认证产品存在漏洞并被利用，从而对用户造成伤害）的责任归属问题。本文探讨了一个具有基础性与时效性、且对认证产品漏洞检测具有重大意义的核心问题：谁应对认证产品漏洞引发的损害承担法律责任，以及谁应当承担此类责任？通过对20家物联网厂商合同文件的定性分析，本文研究了当前厂商与用户合同条款中的责任界定方式，并进一步结合对18位法律专业人士的专家调研，探究其在此背景下的责任认定观点。我们的分析得出14项关键发现（F1-F14），揭示了厂商如何通过（有时不合法的）免责条款最大限度规避责任，以及法律专家的观点与律师起草的合同条款之间存在的显著反差。最终，我们将研究发现归纳为三大核心主题，呼吁建立强健且清晰的责任框架，以此激励物联网厂商确保其产品符合适当的安全与隐私标准。</span></span></p><p cid="n3" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d452/26hiVwhU7Cw" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d452/26hiVwhU7Cw</a></span></span></p><h3 cid="n12" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">106、(Blind) Users Really Do Heed Aural Telephone Scam Warnings</span></span></h3><p cid="n13" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文报告了一项研究，探讨了两组人群——法定盲人（36名）与视力正常者（36名）——在自然情境下对电话诈骗语音警告的反应。由于伪造来电显示轻而易举，通过传达来电背景信息来警示接听者潜在诈骗风险成为更有效的防范方式。传统警告通常以视觉形式呈现，无法满足视障用户需求。为解决这一缺陷，我们开发了语音版电话诈骗警告，并在三种条件下进行测试：无警告（基线组）、简短警告组以及包含诈骗内容前导信息的场景化警告组。我们通过陌生来电模拟两种最常见诈骗场景（利率优惠欺诈与社会安全号盗用），记录参与者行为，事后进行回访并获取知情同意。仅有两名参与者按照诈骗要求&#34;按1键&#34;，均为接收社会安全号场景化警告的法定盲人组。深入调查发现，其中一人因屏幕阅读器无障碍功能问题误操作，另一人则因警告内容使其决定故意拖延骗子时间以保护弱势群体。盲人与视力正常参与者均认为场景化警告是高效的安全提示手段，若与&#34;疑似诈骗&#34;等STIR/SHAKEN标识结合，可形成针对各类诈骗的强效防护。研究还探讨了场景化警告潜在的隐私影响，并收集了关于无障碍实施方案的建议。</span></span></p><p cid="n14" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a074/26hiTtU9fXy" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a074/26hiTtU9fXy</a></span></span></p><h3 cid="n15" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">107、403 Forbidden? Ethically Evaluating Broken Access Control in the Wild</span></span></h3><p cid="n16" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">根据OWASP十大安全风险榜单，访问控制缺陷是当前Web应用中最普遍存在的漏洞。由于访问控制(AC)机制在服务端实现，而研究人员无法获取线上系统的代码，这限制了对实际环境中AC缺陷的研究。虽然已有研究在可控环境下部署的开源应用中发现了相关漏洞，但出于保护用户数据隐私的伦理和法律考量，该问题尚未在真实网络环境中进行过研究。我们提出了变量交换框架(VSF)——首个符合伦理规范、可规模化检测真实环境中AC缺陷的黑盒测试框架。该框架基于我们开展的深度伦理影响分析与风险收益评估，通过为每个目标站点创建两个测试账户并交换其身份标识，尝试用其中一个账户访问另一个账户的资源。在成功测试的100个Web应用中，共发现584个潜在AC敏感端点，其中7个站点的19个端点存在可被利用的漏洞，我们已对这些漏洞进行了负责任的披露。</span></span></p><p cid="n17" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d218/26EkGMYvSso" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d218/26EkGMYvSso</a></span></span></p><h3 cid="n18" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">108、A Big Step Forward? A User-Centric Examination of iOS App Privacy Report and Enhancements</span></span></h3><p cid="n19" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">移动应用的广泛使用凸显了理解其数据实践的重要性。在此背景下，透明度发挥着关键作用，确保用户在数据访问发生前知情并同意。苹果公司自iOS 15.2起推出新功能&#34;应用隐私报告&#34;，向用户展示应用数据访问与共享的详细情况。该功能延续了苹果以隐私为核心的创新趋势（继&#34;隐私营养标签&#34;之后），并被宣传为用户隐私领域的重大进步。然而，其对用户隐私和控制的实际影响尚未得到验证。为此，我们开展了一项端到端研究：系统评估应用隐私报告的实际效益与局限，结合大语言模型与多技术协同的增强方案，并从系统和用户双视角进行全面评估。通过对12名普通iOS用户开展结构化焦点小组研究，我们探究了其使用体验、理解认知，发现该功能因缺失关键细节导致实际影响有限。研究揭示两大核心用户关切：数据访问目的明确性与域名描述清晰度。针对这些问题，我们提出了包含目的推理框架和域名解析流程的增强方案，并验证了这些改进对移动应用用户的有效性与益处。本研究为提升用户隐私透明度提供了实践启示，并探讨了未来研究方向。</span></span></p><p cid="n20" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d878/26hiVNNmd1e" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d878/26hiVNNmd1e</a></span></span></p><h3 cid="n21" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">109、A Composability Analysis Framework for Web3 Wallet Recovery Mechanisms</span></span></h3><p cid="n22" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">现代Web3钱包提供混合恢复方案，通过结合多种密钥恢复方法来平衡安全性、可用性与易用性。这些方法包括钱包私钥的秘密共享、加密云存储以及基于智能合约的高级恢复功能。然109，这种组合方案可能引入独立恢复方案中不存在的新型攻击向量。本研究提出一个针对具备密钥或资产恢复功能的区块链/Web3钱包设计的正式安全分析框架。为评估钱包设计是否安全，我们的框架综合考虑以下因素：用户可用性及对恶意行为的响应能力、与外部方的共同托管关系、钱包管理的资产总价值，以及用户选择的用于支持支出或恢复功能的实体声誉。通过概率模型检测，该框架能识别钱包设计保持安全性的边界条件。我们还提供了两个采用复合恢复机制的Web3钱包设计案例（灵感源自现有方案），以验证框架的有效性。</span></span></p><p cid="n23" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b475/26hiUkWiAIU" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b475/26hiUkWiAIU</a></span></span></p><h3 cid="n30" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">110、A Wall Behind A Wall: Emerging Regional Censorship in China</span></span></h3><p cid="n31" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">长期以来，中国通过相对集中的政策和统一实施的网络审查机制——即&#34;国家防火墙&#34;（GFW）——来管控互联网。然而自2023年8月起，多方迹象表明河南省部署了区域性审查系统。本研究对河南省省级网络审查进行特征分析，并与国家级GFW进行对比。我们发现河南建立了基于TLS SNI和HTTP Host的审查机制，对出省流量实施检测拦截。尽管&#34;河南防火墙&#34;技术复杂度较低，对抗常规网络波动的稳定性较弱，但其对二级域名采取的不稳定激进拦截策略，曾导致其封禁网站数量一度达到GFW的十倍。基于观测到的协议解析漏洞和注入行为，我们提出几种简单的客户端方法可绕过该省审查。本研究记录了中国出现区域性审查这一值得警惕的新动向。</span></span></p><p cid="n32" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b307/26hiUf1hfxu" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b307/26hiUf1hfxu</a></span></span></p><h3 cid="n33" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">111、ALPACA: Anonymous Blocklisting with Constant-Sized Updatable Proofs</span></span></h3><p cid="n34" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，在线匿名性日益重要，但由于匿名空间内容审核的挑战，这一特性正面临威胁。一种名为匿名屏蔽列表的密码学解决方案展现出前景，它允许用户匿名发帖的同时支持内容审核。该机制的核心在于要求用户发布消息时附加密码学证明，证实其未创作过屏蔽列表中的任何内容。然而现有匿名屏蔽方案在应对大规模屏蔽列表时，其性能仍远未达到实用水平——这主要源于所有现有方案都要求用户对屏蔽条目进行多次（密码学）重复处理，进而导致验证时间与证明体量居高不下。</span></span></p><p cid="n35" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出ALPACA系统，首次实现用户对每个屏蔽条目仅需执行恒定计算量的匿名屏蔽方案，从而达成渐进最优性能。本方案同时开创性地使验证时间与证明体量完全独立于屏蔽条目数量。关键技术在于设计了一种新型增量可验证计算（IVC）变体，专门用于保障匿名性。在此过程中，我们建立了新的安全定义以形式化论证安全性。实验表明：在中端笔记本电脑上，ALPACA的证明生成时间恒定为6.15秒，证明体积恒为25.6KB；在服务器端验证时间恒定为400毫秒。</span></span></p><p cid="n36" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d123/26hiVkpj356" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d123/26hiVkpj356</a></span></span></p><h3 cid="n37" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">112、AccuRevoke: Enhancing Certificate Revocation with Distributed Cryptographic Accumulators</span></span></h3><p cid="n38" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">证书撤销对于维护公钥基础设施（PKI）的安全至关重要，它能确保及时废止已泄露或不可信的证书。传统撤销机制如证书撤销列表（CRL）和在线证书状态协议（OCSP）面临重大挑战，包括可扩展性问题、高带宽消耗、隐私隐患，以及依赖可能成为单点故障的集中式基础设施。本文提出AccuRevoke——一种基于密码累加器与边缘计算的新型撤销方案，能有效应对这些挑战。该方案使客户端无需每次验证都直接联系证书颁发机构（CA），即可高效核验证书撤销状态。通过分布式累加器与阈值密码学技术，AccuRevoke确保即使由第三方边缘计算提供商（ECP）生成响应，撤销信息的真实性与完整性仍能得到保障。本方案提供极简撤销证明（成员证明约21字节，非成员证明约61字节），较传统OCSP响应大幅缩减带宽消耗。针对非成员见证生成等性能瓶颈，我们采用GPU加速显著提升处理效率。与现有撤销机制对比实验表明，AccuRevoke在带宽效率、可靠性、可审计性及隐私增强潜力方面均具优势。评估显示该方案为TLS/PKI部署提供了可扩展的实用化撤销检查方案，能同时提升安全性与性能。我们将开源设计与实现以促进应用并推动该领域深入研究。</span></span></p><p cid="n39" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a627/26hiTQkK8bC" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a627/26hiTQkK8bC</a></span></span></p><h3 cid="n43" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">113、Alleviating the Fear of Losing Alignment in LLM Fine-tuning</span></span></h3><p cid="n44" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLM）已展现出理解复杂语境和执行多样化任务的革命性能力。然而，LLM也可能回答不道德或有害的问题，引发对其应用场景的担忧。为规范LLM对此类问题的响应，一种称为&#34;对齐&#34;的训练策略可发挥作用。但当下游任务微调LLM时，对齐可能意外失效。本文聚焦于恢复微调过程中丢失的对齐属性。  </span></span></p><p cid="n45" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们发现已对齐的LLM内存在两个固有方向：对齐方向与有害方向。LLM倾向于沿对齐方向回答问题，同时拒绝有害方向的查询。因此，我们提出恢复微调模型中受损的有害方向判断能力。具体而言，通过梯度下降从原始对齐模型中还原微调模型的部分权重参数子集，并引入回滚机制以避免激进恢复，保持下游任务性能。  </span></span></p><p cid="n46" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在125个微调LLM上的实验表明，本方法能将有害率（回答有害问题的百分比）从33.25%降至1.74%，且基本不影响任务表现。相比之下，现有方法要么仅有限降低有害率，要么严重损害模型正常功能。</span></span></p><p cid="n47" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c004/26hiUFlZXIA" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c004/26hiUFlZXIA</a></span></span></p><h3 cid="n48" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">114、An Attack on TON’s ADNL Secure Channel Protocol</span></span></h3><p cid="n49" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们针对开放网络（TON，当前市值排名第十的区块链）中使用的抽象数据报网络层（ADNL）协议提出了一种攻击方法。在TCP变体中，ADNL负责保障客户端与轻量服务器节点（liteservers）之间的通信安全，这些节点专门提供区块链数据访问服务。我们发现该协议存在两处密码学设计缺陷：允许会话密钥重放的握手过程，以及一种非标准完整性机制——其安全性高度依赖消息保密性。通过利用ADNL协议中允许跨重放会话进行消息重排序的两种通信模式，我们将这些漏洞转化为高效的明文恢复攻击。随后针对该场景构建明文模型，设计出仅需少量已知明文和数次会话重放即可恢复密钥流的算法。实验表明：攻击者只需拦截轻量服务器与广泛部署的ADNL客户端之间的通信，并向服务器发起八次连接重放，即可破解用于加密服务器响应的密钥流。此举能解密敏感数据（如账户余额和用户行为模式），还能篡改服务器响应以操控客户端显示的区块链信息（包括账户余额和资产价格）。</span></span></p><p cid="n50" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b854/26hiUzMy8q4" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b854/26hiUzMy8q4</a></span></span></p><h3 cid="n51" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">115、An Attack-Agnostic Defense Framework Against Manipulation Attacks under Local Differential Privacy</span></span></h3><p cid="n52" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">保护本地差分隐私（LDP）协议免受操纵攻击是一个重要且具有挑战性的问题。我们希望设计一种与攻击无关的框架，该框架不依赖于任何攻击者知识。早期研究通过将每个样本转换为二进制信号来限制攻击者能力，但信号压缩会导致严重的信息损失，从而造成不必要的效用牺牲，尤其在ε&gt;1时更为明显。本文提出了一种通用估计框架RobustLDP，用于实现LDP下的鲁棒估计。其核心思想是向所有用户发送精心设计的预定义信息，然后在服务器端聚合反馈结果。我们在保留信息与限制攻击者能力之间实现了更好的平衡。针对l1和l2支持域下的频率估计与均值估计任务，我们实现了RobustLDP的具体方案，这些方案可作为更高级任务的构建模块。同时，我们为所有可能的攻击建立了理论保证。结果表明，当ε&gt;1时，我们的方法显著优于现有方案。在多个真实数据集上的大量实验验证了该方法的有效性。</span></span></p><p cid="n53" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d858/26EkHbq0fUQ" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d858/26EkHbq0fUQ</a></span></span></p><h3 cid="n54" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">116、Analyzing Ad Prevalence, Characteristics, and Compliance in Alexa Skills</span></span></h3><p cid="n55" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着亚马逊Alexa等智能语音助手的快速普及，以及基于大语言模型的助手带来的增长潜力，加之Alexa平台内部引入“广告标识符”，广告内容在该类平台上的广泛传播已成必然（若尚未如此）。尽管Alexa允许第三方开发者在语音应用（即“技能”）中嵌入广告，并通过广告标识符实现精准投放，但其广告政策明确规定除非特定情况，否则禁止在技能响应、通知或提醒中插入广告。然而，目前尚不清楚所有开发者是否遵守这些政策，或是否存在试图绕过审核机制发布违规广告的行为。本文首次对Alexa平台广告生态开展大规模分析，研究广告渗透率、特征及其对平台政策的遵循情况。我们提出一种基于微调大语言模型（LLM）的自动化广告检测方法，准确率达88.92%；通过思维链（CoT）提示技术，对潜在违规广告的识别准确率提升至94.52%。通过对45,477个Alexa技能的分析，我们发现13.58%包含广告或推广内容，主题涉及旅游、娱乐等领域。值得注意的是，部分广告来自亚马逊合作机构（如&#34;Vixen Labs&#34;）开发的技能，另一些则由专注语音助手平台的机构（如Skilled Creative）生成。我们的模型识别出约29.18%的广告可能存在政策违规。相关发现已提交亚马逊并获得漏洞赏金。该系统能自动标记潜在广告违规行为以强化平台审核，同时证明微调后的大语言模型可有效支持语音平台的政策监管。</span></span></p><p cid="n56" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e321/26EkHw2tzLq" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e321/26EkHw2tzLq</a></span></span></p><h3 cid="n86" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">117、BaseBridge: Bridging the Gap between Emulation and Over-The-Air Testing for Cellular Baseband Firmware</span></span></h3><p cid="n87" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">当前蜂窝基带仿真方法的固有缺陷使其难以媲美空中测试，主要原因在于对现代基带复杂外设（如数字信号处理器、SIM卡及射频前端）的支持不足。提升此类支持是一项艰巨任务，需耗费大量时间进行深度逆向工程，导致进展缓慢。因此，模糊测试等技术仅能发现相对浅层的漏洞，因其无法触达基带核心功能所需的状态。为填补这一空白，我们提出BaseBridge系统，通过从真实设备内存转储中恢复关键状态，实现了更全面的基带行为仿真。原型系统支持联发科与三星两大厂商的基带固件，相较现有最优仿真器，能正确响应97%的测试用例（RRC/NAS协议消息），并将代码覆盖率平均提升2.41倍（三星）和5.54倍（联发科）。该系统还通过了多项LTE一致性测试。实证研究表明，仿真可扩展性带来的高保真度能加速发现更广泛的漏洞：模糊测试显示总体覆盖率提升2.3-5倍，针对特定功能的覆盖率更提升9.0-22.5倍。BaseBridge已发现5个新漏洞并提交给相关厂商。</span></span></p><p cid="n88" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b101/26EkFnSdkOY" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b101/26EkFnSdkOY</a></span></span></p><h3 cid="n92" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">118、Beyond the Horizon: Uncovering Hosts and Services Behind Misconfigured Firewalls</span></span></h3><p cid="n93" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">公共IP地址可能使设备和服务面临端口扫描及后续网络攻击等风险。因此，防火墙被广泛部署，在强制执行安全策略和防止未授权访问方面发挥着关键作用。然而，漏洞可能导致防火墙被绕过，使防护措施完全失效。本文首次对先前研究不足的攻击面进行全面研究：即防火墙配置错误导致受保护服务意外暴露在公共互联网中。具体而言，我们展示了存在缺陷的防火墙规则——这些规则允许来自特殊源端口的入站连接绕过防火墙，并探讨了其普遍性和安全隐患。为此，我们从两个特殊源端口对IPv4地址空间中15种常见高风险TCP和UDP服务进行扫描。测量结果表明此类错误配置广泛存在，共发现分布在15,837个自治系统中的超200万个原本不可达的服务，使多种协议的&#34;可观测互联网&#34;范围最高扩大12.60%。更重要的是，受影响服务通常比公开可访问服务表现出更高的安全风险，例如软件版本过时和配置薄弱。尽管该漏洞危害严重，但我们的蜜罐实验未发现野外主动利用的确凿证据。本研究为提升安全态势和网络管理提供了新见解，可帮助研究人员和组织预判并缓解源自互联网的潜在网络威胁。</span></span></p><p cid="n94" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b677/26hiUt5QbnO" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b677/26hiUt5QbnO</a></span></span></p><h3 cid="n101" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">119、BridgeRouter: Automated Capability Upgrading of Out-Of-Bounds Write Vulnerabilities to Arbitrary Memory Write Primitives in the Linux Kernel</span></span></h3><p cid="n102" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">内存破坏漏洞对Linux内核构成重大威胁，其中越界（OOB）漏洞因其普遍性受到特别关注。现有内核OOB利用技术要么需要漏洞本身具备强能力，要么要求漏洞对象与受害对象位于同一内存分配器缓存中，或依赖大量页表操作。这些限制降低了完整利用链的成功率，并制约了其适用性。本文提出一种实用方法，能在有限能力下通过内核OOB漏洞实现任意内存写入。我们利用两种特殊内核对象，将不可控覆盖升级为可控覆盖，最终达成任意内存写入目标。开发了自动化系统来识别并运用这两类内核对象。通过对定制漏洞和14个典型真实漏洞的评估，以及与两种前沿工作的对比，验证了本方法的广泛适用性。</span></span></p><p cid="n103" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a772/26hiTVABDvG" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a772/26hiTVABDvG</a></span></span></p><h3 cid="n104" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">120、CHIMERA: Fuzzing P4 Network Infrastructure for Multi-Plane Bug Detection and Vulnerability Discovery</span></span></h3><p cid="n105" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">可编程网络数据平面（如P4）为定义网络转发行为提供了灵活性。然而这种可编程性也引入了新的攻击面，可能引发程序缺陷与安全漏洞。当前大多数P4安全研究仅聚焦数据平面，忽视了与控制平面的协同问题。我们通过分析开源P4实现中跨控制平面与数据平面的历史缺陷报告，发现许多P4网络漏洞源于双平面间的交互作用。为此我们提出CHIMERA——首个针对需要多平面输入/影响的缺陷的综合性P4模糊测试框架。与现有仅针对单一平面的网络模糊测试工具不同，CHIMERA采用混合执行技术捕获控制-数据平面交互，并创新性地提出两种跨平面及P4程序的输入变异策略：解析感知型数据包变异（PAPM）和头部引导型规则生成（HGRG）。在ONOS、Stratum和BMv2平台上的实验表明，CHIMERA共发现7个新漏洞（含3个高危漏洞、2个需多平面输入触发的缺陷及2个跨平面缺陷），其覆盖率与漏洞检出率分别达到当前最优单平面模糊测试工具的3.5倍。</span></span></p><p cid="n106" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c865/26hiVb0gXUA" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c865/26hiVb0gXUA</a></span></span></p><h3 cid="n113" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">121、CODEBREAKER: Dynamic Extraction Attacks on Code Language Models</span></span></h3><p cid="n114" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着基于大语言模型（LLM）的代码助手被快速采用以提升编程体验，针对私有训练数据提取攻击的担忧也日益加剧。这类攻击专门旨在提取代码生成模型（CodeLLM）训练数据中嵌入的个人信息（PI）。现有方法通过人工或半自动化技术，已成功从这些CodeLLM中提取出敏感数据。然而，当前提取攻击获取的数据量有限，可能严重低估训练数据泄露的真实程度。本文提出了一种针对基于LLM的代码助手的自动化PI数据提取攻击框架CODEBREAKER。该框架基于两个核心组件构建：（i）引入语义熵，用于评估提示触发模型返回训练数据的可能性；（ii）自动化动态变异机制，该机制与CODEBREAKER无缝集成，强化框架内的迭代过程，并促进单个响应中不同PI元素间更强的关联性，从而提升推理多样性、模型记忆能力，最终提高攻击性能。通过使用四个系列的开源CodeLLM（CodeParrot、StarCoder2、Code Llama、CodeGemma）和两款商业代码助手（CodeFuse与GPT），我们验证了所提框架的有效性：（i）CODEBREAKER以6.22%~44.9%（平均21.79%）的优势超越当前所有最先进提取攻击；（ii）当单个响应中的PI源自同一GitHub仓库时，我们的框架——通过考虑响应中的多重关联性——以3.88%~32.37%（平均15.31%）的优势领先其他方法。此外，我们探讨了潜在防御措施，强调亟需在基础模型层面采取更强手段防止PI泄露。</span></span></p><p cid="n115" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a522/26hiTLYepe8" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a522/26hiTLYepe8</a></span></span></p><h3 cid="n116" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">122、COINDEF: A Comprehensive Code Injection Defense for the Electron Framework</span></span></h3><p cid="n117" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着Electron等跨平台框架的日益普及，利用熟悉的Web技术开发桌面应用程序的吸引力愈发凸显。Electron将Web与原生环境融合为单一可执行文件，但这种融合也带来了独特的漏洞，并显著扩大了Electron应用的攻击面，使得传统Web防御机制失效——因为这些机制并非为同时覆盖Web与原生环境而设计。为应对这些挑战，我们提出COINDEF，这是一种通过执行上下文强化抽象语法树（AST）结构完整性的集中式防御机制。COINDEF运行于JavaScript引擎内部，能为Electron应用提供快速、防篡改且全面的代码注入攻击防护。该系统采用混合分析方法收集AST结构特征，建立预期行为基线，随后在代码解释执行时强制实施这些特征规范。通过对20款具有代表性的真实应用进行评估，我们证明COINDEF能有效阻断漏洞利用，仅产生3.96%的启动时运行开销，用户交互阶段的开销则可忽略不计。与现有最先进的Electron应用防御方案相比，COINDEF能通过DOM操作和动态代码执行检测，为复杂代码注入攻击提供全面防护。</span></span></p><p cid="n118" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c904/26hiVcCbLHi" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c904/26hiVcCbLHi</a></span></span></p><h3 cid="n119" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">123、CONnecting The EXtra doTS (CONTEXTS): Correlating External Information about Point of Interest for Attack Investigation</span></span></h3><p cid="n120" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">溯源分析是当前安全分析师调查安全事件的主要手段之一。为帮助分析师处理海量溯源图谱，学界已提出多种剪枝方案。这类方案依赖图论特征、异常检测等技术识别与安全事件无关的节点和边。尽管方法各异，现有方案通常将事件仅视为抽象起点，未深入挖掘其关联信息。然而我们发现，由于安全事件往往关联漏洞利用等外部信息，这种处理方式可能错失剪枝机会——这些外部信息能为高效剪枝提供额外上下文线索。基于此，我们提出CONTEXTS方案，通过利用事件的外部信息增强现有剪枝方法。该方案从外部源提取上下文信息，将其映射至溯源图谱节点，进而关联形成事件相关子图。基于真实攻击的实验表明：作为现有剪枝方案的前置处理器，其能将误报从15万以上降至个位数；作为独立方案，在20次攻击测试中，19次实现100%真正例率，16次将假正例率控制在0.6%以下。用户调研证实其实际价值，94.4%的参与者认可其对攻击调查的辅助作用。</span></span></p><p cid="n121" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a130/26hiTwqPPLa" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a130/26hiTwqPPLa</a></span></span></p><h3 cid="n122" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">124、CamLoPA: A Hidden Wireless Camera Localization Framework via Signal Propagation Path Analysis</span></span></h3><p cid="n123" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">隐蔽无线摄像头构成严重的隐私威胁，亟需有效的检测与定位方法。然而现有定位方案往往需要不切实际的活动空间、昂贵的专用设备或预先采集的训练数据，限制了实际部署。为此，我们提出CamLoPA——一种基于低成本商用现成设备（COTS）、在最小活动空间约束下运行的无训练无线摄像头定位框架。仅需树莓派开发板配合用户45秒的活动，CamLoPA即可完成检测定位。该框架通过分析无线流量与用户运动间的因果关系实现隐蔽摄像头检测，检测成功后采用基于无线信号传播路径分析的新型方位角定位模型：利用用户路径穿越第一菲涅尔区（FFZ）的时间占比确定摄像头方位角，继而通过象限识别精确定位。我们在多设备多环境中验证了CamLoPA的有效性，在显著降低活动空间需求且无需训练的条件下，实现95.37%的偷拍摄像头检测准确率与17.23°的平均定位误差。项目代码及演示见\url{</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/CamLoPA/CamLoPA-Code" target="_blank">https://github.com/CamLoPA/CamLoPA-Code</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">}。</span></span></p><p cid="n124" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d376/26hiVtI5Xoc" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d376/26hiVtI5Xoc</a></span></span></p><h3 cid="n125" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">125、Cauchyproofs: Batch-Updatable Vector Commitment with Easy Aggregation and Application to Stateless Blockchains</span></span></h3><p cid="n126" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">无状态区块链设计通过简洁的全局状态来解决区块链规模增长的挑战。先前研究已开发出支持证明更新与聚合的向量承诺方案作为此类状态载体。然而，为多用户维护证明仍需消耗大量计算资源，特别是在每笔交易时更新证明的场景。本文提出Cauchyproofs——一种支持批量更新的向量承诺方案，使证明服务节点能在与用户数及交易量呈拟线性关系的时间复杂度内高效更新证明。该方案采用优化的KZG框架，将计算复杂度从既有方案的O(|→α|⋅∣∣→β∣∣)降低至O((|→α|+∣∣→β∣∣)log²(|→α|+∣∣→β∣∣))，其中|α|为用户数，|β|为交易量。这一突破显著减轻了证明服务节点的计算负担，使其能在大规模用户群中高效维护证明。实验表明在以太坊级交易吞吐量下，每小时执行批量更新的方案比传统方法快约八倍。此外，我们提出基于柯西矩阵的KZG证明新型矩阵表示法，通过减少椭圆曲线运算实现更快的全量证明计算。最后，我们设计了历史证明查询算法，支持高效回溯性证明生成。这些贡献显著提升了无状态区块链框架中证明服务节点的可扩展性与实用性。</span></span></p><p cid="n127" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b947/26EkFVQ7mPC" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b947/26EkFVQ7mPC</a></span></span></p><h3 cid="n134" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">126、Characterizing the Usability and Usefulness of U.S. Ad Transparency Systems</span></span></h3><p cid="n135" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在线定向广告是指根据兴趣、人口统计特征或行为仅向特定用户展示的广告。由于定向广告引发诸多隐私担忧，许多平台提供了广告透明度系统（ATS）向用户说明这一做法。为理解当前ATS向用户传递的信息及其呈现方式，我们首先对美国地区22个最受欢迎英文网站的ATS设计与内容进行了分类研究。研究发现，不同ATS在透明度增强功能（如是否展示用户画像推断结果）和信息呈现方式（如术语使用、设置入口位置）上存在显著差异。但所有平台均存在对&#34;广告定位使用哪些数据&#34;和&#34;修改设置的实际影响&#34;表述模糊的共性问题。为评估不同设计选择对用户的影响，我们开展了一项在线用户研究：198名参与者使用个人账户探索八个代表性平台之一的ATS。研究发现，参与者希望ATS解答的许多问题在探索后仍无明确答案。更广泛而言，参与者认为现有ATS既复杂又缺乏关键细节。我们最终提炼出最能支持用户的ATS设计决策。</span></span></p><p cid="n136" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b214/26hiUbAFH7a" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b214/26hiUbAFH7a</a></span></span></p><h3 cid="n140" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">127、Click Without Compromise: Online Advertising Measurement via Per User Differential Privacy</span></span></h3><p cid="n141" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在线广告是互联网生态系统的基石，而广告效果衡量对优化效率至关重要。广告衡量需要将用户行为（如购买）归因于跨平台广告曝光，这要求收集用户在各平台的活动数据。随着隐私问题日益受到关注，此类实践面临越来越多限制，保护用户隐私变得势在必行。本研究首次针对广告活动中流式数据实时报告的实际挑战建立模型，提出AdsBPC——一种面向在线广告衡量结果的新型用户级差分隐私保护方案。该方法通过优化全局噪声功率，生成非均匀分布的噪声，在保持差分隐私的同时提升衡量准确性。基于真实广告活动与合成数据集的实验表明，相较于现有流式差分隐私机制，AdsBPC将广告衡量准确度提升了33%至95%。这证明我们的方法能在提供严格隐私保障的同时实现更优的准确性，从而推动隐私保护广告衡量技术的进步。</span></span></p><p cid="n142" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c696/26hiV4Ezkv6" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c696/26hiV4Ezkv6</a></span></span></p><h3 cid="n143" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">128、Clubcards for the WebPKI: smaller certificate revocation tests in theory and practice</span></span></h3><p cid="n144" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">CRLite是一种低带宽、低延迟且保护隐私的证书撤销数据分发机制。该系统通过CRLite聚合器定期将撤销数据编码为紧凑的静态哈希集合（即成员资格测试），供客户端下载并进行隐私查询。我们提出了一种名为clubcard的新型成员资格测试数据结构，并利用Mozilla CRLite基础设施的数据评估了其编码效率。截至2024年11月，WebPKI体系包含超过9亿张有效证书和逾800万张撤销证书。我们实现的CRLite版本将这些证书的撤销状态编码为6.7 MB的数据包，相较2017年IEEE安全与隐私研讨会上提出的初始方案体积缩小54%，比该论文宣称的理论下限还减少21%。通过串联多个clubcard，可对WebPKI撤销集等动态数据集进行编码。基于2024年末数据测算，编码WebPKI六小时增量更新的clubcard平均可压缩至26.8 kB——这一尺寸使CRLite真正具备实用价值。我们已扩展Mozilla的CRLite基础设施以支持clubcard生成，并在Firefox中实现了客户端支持。作为当前Firefox Nightly默认的撤销检查机制，本文汇报了该实现的性能表现，并提出了进一步降低CRLite带宽需求的优化策略。</span></span></p><p cid="n145" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a615/26hiTPD1U9G" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a615/26hiTPD1U9G</a></span></span></p><h3 cid="n146" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">129、CoBBl: Dynamic constraint generation for SNARKs</span></span></h3><p cid="n147" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">通用概率证明系统处理的程序通常表示为算术约束系统——这种表达形式并不友好。现有文献中将更友好的高级程序转换为适合证明系统的约束主要采用两种方法：直接翻译与CPU模拟。直接翻译器将程序编译为高度优化的约束，但这一过程需要穷举程序所有可能路径，导致编译时间与程序运行时长而非代码规模成正比。此外，证明者仍需为所有潜在路径（包括实际未执行的路径）承担计算开销。相比之下，CPU模拟器并不将程序编译为约束，而是在自身由约束构成的CPU模拟器上&#34;执行&#34;以CPU指令表示的程序。这种方式虽避免了路径爆炸问题，却无法实施针对程序特性的深度优化，可能需用数千条约束完成直接翻译仅需少量巧妙约束即可实现的功能。更严重的是，CPU模拟器沿袭了被模拟CPU不切实际的高成本程序状态表示机制。本文提出的CoBBl编译与证明系统融合了两种方法的优势：既能利用程序专属优化，又无需承担冗余状态表示或未执行计算的开销。实验表明，CoBBl在编译时间上以1-30倍优势超越前沿直接翻译器CirC，证明时间领先26-350倍；在与Jolt（先进CPU模拟器）兼容的基准测试中，证明性能提升1.1-1.8倍，在其他测试案例中最高可达100倍。</span></span></p><p cid="n148" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d106/26hiVjK9ddK" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d106/26hiVjK9ddK</a></span></span></p><h3 cid="n149" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">130、Code Speaks Louder: Exploring Security and Privacy Relevant Regional Variations in Mobile Applications</span></span></h3><p cid="n150" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">已知移动应用会针对不同地理区域分发差异化版本，以适应本地法规和市场偏好。尽管现有研究已考察过权限和隐私政策等元数据层面的差异，但针对可能影响安全的代码级地域差异仍缺乏系统性调查。本文首次在代码实现层面对安卓应用的地理特性差异（GFD）展开全面研究。我们开发了FreeLens框架，该创新方案攻克了代码混淆和分析可扩展性等关键技术挑战，能精准识别并刻画跨区域安全相关差异。借助FreeLens，我们对21,120款安卓应用展开大规模研究，这些应用分布于互联网自由度各异的十个国家。研究发现GFD现象普遍存在，广告投放、数据处理和认证机制等方面存在显著差异。这些差异经常破坏安全基线，导致不同区域的隐私保护水平失衡。研究揭示了GFD流行度上升的趋势，凸显了统一隐私与安全标准的紧迫性。基于实证发现，我们为开发者、平台提供商和监管机构提供了可操作的改进建议，以确保用户获得平等保护。</span></span></p><p cid="n151" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d952/26hiVS9iJIA" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d952/26hiVS9iJIA</a></span></span></p><h3 cid="n152" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">131、Comet: Accelerating Private Inference for Large Language Model by Predicting Activation Sparsity</span></span></h3><p cid="n153" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着基于云平台托管的大语言模型（LLM）提供推理服务的广泛应用，敏感信息潜在泄露的隐私问题日益凸显。安全多方计算（MPC）是保护LLM推理隐私的有效方案，但其频繁的服务器间通信会带来高昂性能开销。受LLM普遍存在的激活稀疏性启发（即多数神经元经过非线性激活函数后未被激活），我们提出高效隐私推理系统Comet。该系统通过精准快速的预测器预判激活函数输出的稀疏分布，并创新性地引入一种新型隐私推理协议，利用预测稀疏分布的空间局部性，安全高效地规避零值相关计算。尽管这种计算规避策略会影响KV缓存项的时空连续性，我们通过融合缺失请求与预取机制的低通信开销缓存重填策略解决了这一挑战。最终，我们在四种主流LLM上评估Comet并与六种前沿隐私推理系统对比，实验表明Comet实现了1.87-2.63倍加速和1.94-2.64倍的通信量削减。</span></span></p><p cid="n154" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c604/26hiV1n2WeQ" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c604/26hiV1n2WeQ</a></span></span></p><h3 cid="n155" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">132、Constant latency and finality for dynamically available DAG</span></span></h3><p cid="n156" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于有向无环图（DAG）的协议在提升区块链性能方面展现出巨大潜力。CAP定理表明，在网络分区场景下，单一系统无法同时实现活跃性（即动态可用性）与安全性。本文探索了两种分别优先保障活跃性或安全性的DAG协议：结构化传播协议与分级公共前缀（GCP）协议。针对前者，我们提出了首个具备恒定预期延迟的DAG协议，在睡眠模型下实现高吞吐量的动态可用性。该协议预期延迟为3∆，吞吐量随参与节点数量线性增长。通过在多台机器上运行各协议原型，我们验证了其相对于现有恒定延迟睡眠模型BFT协议的预期性能提升。后者GCP作为一种基础构件，在网络分区时提供弱于标准共识但具备安全性的保障，其构造仅需2轮通信步骤（现有部分同步低延迟BFT协议需4轮）。此外，GCP可轻松规避对单一领导者提案的依赖，从而提升抗崩溃能力。我们也通过实验验证了GCP的这些理论优势。基于这些发现，我们扩展了潮汐框架——该框架通过两种BFT子协议使同一系统中的不同客户端可分别优先选择活跃性或安全性。我们的扩展整合了上述两类DAG协议，形成一种混合型DAG协议，在网络分区时无需像现有方案那样重复运行标准共识协议，即可同时实现高吞吐量、动态可用性及终局性保障。</span></span></p><p cid="n157" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b910/26EkFUoHIRi" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b910/26EkFUoHIRi</a></span></span></p><h3 cid="n161" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">133、CountMamba: A Generalized Website Fingerprinting Attack via Coarse-Grained Representation and Fine-Grained Prediction</span></span></h3><p cid="n162" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Tor是领先的低延迟匿名通信网络，通过随机中继选择等机制广泛用于保护用户隐私。然而，尽管存在这些防御措施，Tor流量仍易受网站指纹识别（WF）攻击的影响——攻击者通过分析侧信道信息（如数据包大小、方向、包间时序）来推断访问的网站。虽然WF攻击在受控环境中显示出高成功率，但其依赖完整且未受干扰的流量，导致其在实际防御机制面前表现脆弱。传统WF方法通常采用机器学习（ML）或深度学习（DL）将数据包序列分类为单标签预测，难以在实际场景中泛化，尤其是在改变数据包模式的防御环境下或需要多标签早期分析的场景中。</span></span></p><p cid="n163" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出CountMamba，一种鲁棒且自适应的WF攻击框架，旨在应对现实防御、早期流量分析和多标签浏览带来的挑战。该框架通过窗口化流量计数矩阵（WTCM）在固定时间间隔内聚合数据包事件，构建抗干扰的粗粒度流量表征，从而抵御防御机制的中度扰动。此外，基于状态空间（SSO）的分类器能从部分流量数据中逐步生成细粒度预测，在保持高攻击精度的同时支持早期阶段和多标签攻击能力。与现有WF方法不同，CountMamba会随新数据到达迭代更新预测，无需完整流量捕获，即使在复杂的多标签环境中也能实现可靠推断。大量实验表明，CountMamba在鲁棒性、早期阶段和多标签场景中均优于最先进的WF攻击方法，凸显了其在Tor网络中实现现实自适应WF分析的适用性。源代码及实验数据详见</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/SJTU-dxw/CountMamba-WF" target="_blank">https://github.com/SJTU-dxw/CountMamba-WF</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n164" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b363/26hiUhap7xK" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b363/26hiUhap7xK</a></span></span></p><h3 cid="n165" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">134、DPolicy: Managing Privacy Risks Across Multiple Releases with Differential Privacy</span></span></h3><p cid="n166" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">差分隐私（DP）已成为一种强大的隐私保护数据发布框架，并已成功应用于多个高知名度案例（如2020年美国人口普查）。然而在组织环境中，DP的应用仍主要局限于孤立的数据发布场景。这种方式限制了DP作为组织级全面隐私风险管理框架的潜力。虽然理论上可以通过DP的组合性质评估多次独立发布的累积隐私风险，但实践中单个DP保证往往针对特定发布定制，导致难以分析其相互作用或综合影响。与此同时，更通用的DP保证虽然便于组合，却因产生过大的隐私预算而仅能提供有限洞见，这些预算的实际意义往往模糊不清。为应对这些局限性，我们提出了DPolicy系统——一个利用DP管理多数据发布场景下累积隐私风险的解决方案。不同于传统孤立处理每次发布或依赖单一（全局）DP保证的方法，我们的系统采用灵活框架同时考虑多个DP保证，以反映真实场景中多样化的上下文与范围。DPolicy通过高级策略语言形式化隐私保证，将传统上隐含的范围与上下文假设显式化。通过从这些高级策略推导执行复杂隐私语义所需的DP保证，DPolicy实现了组织级细粒度隐私风险管理。我们实现了该系统并进行评估，证明其能有效缓解因缺乏组织级全面隐私风险管理而引发的隐私风险。</span></span></p><p cid="n167" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d950/26EkHeURNi8" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d950/26EkHeURNi8</a></span></span></p><h3 cid="n168" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">135、Data to Infinity and Beyond: Examining Data Sharing and Reuse Practices in the Computer Security Community</span></span></h3><p cid="n169" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">分享高质量研究数据以供未来工作重复使用，有助于科学界在现有成果基础上推进研究、探索新问题，同时避免数据收集工作的重复。当前计算机安全领域对研究产物的讨论主要集中在源代码的可复现性和可用性，而数据的可重用性尚不明确。本研究通过分析计算机安全与测量领域的数据共享实践，为可重用数据共享提供资源与建议。我们对2019-2023五年间七个计算机安全与测量顶会的948篇贡献数据集的论文展开研究，重点评估了其中265个可获取数据集的可理解性与重用水平。研究发现，数据共享结构与文档实践存在不一致性，导致部分数据集未能有效共享。此外，数据集重用率较低，在数据特性天然不利于重用的领域尤为明显。基于实证发现，我们提出数据驱动的改进建议与共享资源，并呼吁研究者明确数据共享目标，使共享策略与之相匹配。</span></span></p><p cid="n170" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c455/26hiUWfYZWM" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c455/26hiUWfYZWM</a></span></span></p><h3 cid="n174" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">136、DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks</span></span></h3><p cid="n175" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">摘要——集成大语言模型（LLM）的应用与智能体易受提示注入攻击，攻击者通过向输入中注入恶意提示以诱导模型输出符合其意图的内容。现有检测方法旨在判断输入是否被注入提示污染，但对最先进攻击的防御效果有限，更难以应对自适应攻击。本研究提出DataSentinel，一种基于博弈论的提示注入攻击检测方法。该方法通过微调LLM来检测经过策略性适配以规避检测的污染输入。我们将此建模为极小极大优化问题，目标是通过微调LLM来检测强自适应攻击。此外，我们提出一种基于梯度的求解方法，通过交替处理内部极大化与外部极小化问题来解决该优化问题。在多个基准数据集和LLM上的评估结果表明，DataSentinel能有效检测现有及自适应的提示注入攻击。代码与数据详见：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/liu00222/Open-Prompt-Injection" target="_blank">https://github.com/liu00222/Open-Prompt-Injection</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n176" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c190/26EkG5ih2qQ" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c190/26EkG5ih2qQ</a></span></span></p><h3 cid="n177" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">137、Decentralization of Ethereum&#39;s Builder Market</span></span></h3><p cid="n178" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">区块链凭借去中心化原则所衍生的强大安全特性，守护着价值超5000亿美元的生态系统。当今的区块链是否真正去中心化？本文通过实证研究以太坊去中心化程度最薄弱的环节之一——构建者市场。该市场旨在公平分配最大可提取价值（MEV）以平衡验证者收益，并防止验证者中心化。然而截至本文撰写时，两家构建者垄断了以太坊85%以上的区块生产，形成令人担忧的中心化格局。尽管普遍观点认为这种中心化&#34;无伤大雅&#34;，声称构建者中心化不会导致验证者中心化，但本研究通过量化中心化构建者市场造成的显著提议者损失，对此观点提出了挑战。若放任这些重大提议者损失，将危及提议者-构建者分离（PBS）机制的设计初衷。更甚者，待采用的MEV缓解方案同样会受到影响——这些方案依赖构建者市场作为&#34;MEV预言机&#34;，而中心化会扭曲其准确性。本研究揭示了当前MEV供应链中的激励机制问题，及其对构建者中心化与提议者损失的影响。最后，我们论证现有缓解方案为何失效，并指出有效解决方案必须具备的两大核心特性。</span></span></p><p cid="n179" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b456/26hiUkhZyfK" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b456/26hiUkhZyfK</a></span></span></p><h3 cid="n180" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">138、Detecting Taint-Style Vulnerabilities in Microservice-Structured Web Applications</span></span></h3><p cid="n181" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">微服务架构因其可扩展性和可维护性优势，正日益成为构建应用程序的热门选择。采用微服务结构的Web应用（简称微服务应用）通过松耦合设计和强制安全隔离机制来增强安全性。然而，本研究揭示微服务应用仍面临最严重的安全威胁之一——污点式漏洞。我们提出新型安全分析方法MScan，可有效检测快速迭代的真实微服务应用中的此类漏洞。该方法包含三阶段：首先通过网关中心化分析识别外部恶意用户可触达的入口点；其次采用创新数据结构&#34;服务依赖图&#34;桥接跨服务通信；最终运用距离导向策略进行选择性上下文敏感污点分析以定位漏洞。通过在25个开源微服务应用及某全球领先金融科技企业的5个工业级应用上验证，MScan成功发现59个高危零日漏洞并完成负责任披露，目前已有31个漏洞获得CVE编号。</span></span></p><p cid="n182" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a934/26hiU1kyCCA" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a934/26hiU1kyCCA</a></span></span></p><h3 cid="n186" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">139、Differentially Private Selection using Smooth Sensitivity</span></span></h3><p cid="n187" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">差分隐私选择机制为基于数据集相关效用函数、从有限集合R中识别最高分元素r的查询提供了强有力的隐私保障。尽管选择查询在数据科学中至关重要，但现有机制鲜能有效确保其隐私性。此外，大多数方法依赖全局敏感度来实现差分隐私（DP），这可能导致噪声过度添加并损害下游推断。为解决这一局限，我们提出平滑噪声最大值（SNM）机制，该机制利用平滑敏感度，相比基于全局敏感度的方法，可证明获得更紧致的（上界）预期误差。实证结果表明，在百分位数选择、贪婪决策树和随机森林三类应用中，SNM机制比当前最先进的差分隐私选择方法具有更高准确性。</span></span></p><p cid="n188" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d637/26hiVCJQVTq" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d637/26hiVCJQVTq</a></span></span></p><h3 cid="n189" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">140、Disassembly as Weighted Interval Scheduling with Learned Weights</span></span></h3><p cid="n190" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">反汇编是多种二进制分析与转换技术（如逆向工程或二进制重写）的首要步骤。当前主流反汇编方法包含三个阶段：探索阶段（对二进制代码进行过近似处理）、分析阶段（为候选指令或基本块分配权重）以及冲突消解阶段（筛选最终指令集）。本文提出一种通用化反汇编算法，可适配多种指令集架构（包括x86、x64、arm32和aarch64）。该算法创新性地将冲突消解转化为加权区间调度问题，并设计了一种权重分配算法，能通过学习自动优化分析阶段各类启发式规则的权重值。实验表明，学习获得的权重在多数情况下优于人工调优结果，同时通过将40%的启发式规则权重置零实现了规则精简。基于Ddisasm构建的实现方案在多项指标上超越现有最优反汇编器，且在全部评测数据集中以显著优势实现了最高比例的完美反汇编二进制文件。</span></span></p><p cid="n191" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c810/26hiV8Wxtny" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c810/26hiV8Wxtny</a></span></span></p><h3 cid="n195" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">141、EUCLEAK</span></span></h3><p cid="n196" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本研究揭露了英飞凌科技（全球领先的安全元件制造商之一）加密库中的一个侧信道漏洞。该漏洞源于非恒定时间的模逆运算，已潜伏14年之久，期间约80次最高级别通用准则认证评估均未发现。攻击者需物理接触安全元件（仅需少量本地电磁侧信道采集，耗时约数分钟）即可提取ECDSA私钥。我们在Yubico的FIDO硬件令牌上实施攻击，成功克隆了该设备。Yubico确认所有固件版本低于5.7的YubiKey 5系列均受影响，事实上所有运行英飞凌加密库的安全微控制器（包括TPM芯片）均存在此漏洞。</span></span></p><p cid="n197" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d694/26hiVFn4hGw" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d694/26hiVFn4hGw</a></span></span></p><h3 cid="n204" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">142、Efficient Storage Integrity in Adversarial Settings</span></span></h3><p cid="n205" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">存储完整性对于使用不可信存储（如公共云、终端用户设备）的系统与应用至关重要。然而，现有的存储完整性保障方法要么存在高昂（甚至难以承受）的性能开销，要么仅能提供薄弱的完整性保障。本研究提出了一种混合式存储完整性方案，在降低开销的同时提供强完整性保证。我们设计的系统——部分异步完整性校验（PAC）允许延迟磁盘写入提交，同时仍确保读取完整性。相比现有最优方案，PAC实现了5.5倍的吞吐量提升与延迟降低，其吞吐量可达无完整性保障方案的85%。由此证明，不可信存储完全能在不显著牺牲性能的前提下，胜任对完整性要求严苛的工作负载。</span></span></p><p cid="n206" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c922/26hiVddndJK" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c922/26hiVddndJK</a></span></span></p><h3 cid="n207" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">143、Empc: Effective Path Prioritization for Symbolic Execution with Path Cover</span></span></h3><p cid="n208" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">符号执行是一种强大的程序分析技术，能够通过形式化方法验证程序行为的正确性并检测软件缺陷。该系统化技术可遍历被测程序的所有执行路径，但存在固有局限：路径爆炸问题。当符号执行遭遇需要推理的路径数量（与程序规模呈指数级增长）激增时，该问题会严重制约技术的可扩展性与性能表现。现有研究采用多种启发式方法对路径进行优先级排序，通过静态规则或启发式策略对指数级路径进行评级，仅探索高优先级路径。然而实践中，这些方法往往难以泛化至多样化程序场景。</span></span></p><p cid="n209" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出基于路径覆盖的新型优先级排序技术Empc，其核心思想在于：并非所有路径都需要符号化推理。与传统方法不同，我们采用最小路径覆盖集（MPC）作为程序代码区域的覆盖基准，并通过计算多个MPC集来增强路径多样性。该方法引导符号执行仅探索多个MPC集中的少量路径，而非指数级路径全集。我们在KLEE框架上实现了Empc，并从代码覆盖率、漏洞发现能力和运行时开销三方面进行全面评估。实验表明：Empc相较KLEE最优搜索策略可多覆盖19.6%基本块，较前沿工作cgs多覆盖24.4%代码行；相比KLEE最优策略多发现24个安全违规案例；同时内存占用最高降低93.5%，符号状态数量最高减少88.6%。</span></span></p><p cid="n210" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c772/26hiV7CvoMU" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c772/26hiV7CvoMU</a></span></span></p><h3 cid="n211" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">144、Eva: Efficient Privacy-Preserving Proof of Authenticity for Lossily Encoded Videos</span></span></h3><p cid="n212" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着虚假视频在信息操纵活动中的日益泛滥，如何在不泄露原始素材的前提下验证编辑视频的来源变得至关重要。本文首次形式化定义了视频真实性证明的概念与安全模型，并提出首个支持有损编解码器与任意编辑操作的密码学视频认证协议Eva，其安全性基于成熟的密码学假设。相较于现有密码学图像认证方案，Eva不仅能处理有损视频编码产生的大规模数据，更在证明者时间复杂度（线性增长）、内存占用（恒定）及证明体积（恒定）等关键指标上实现理论最优——这些突破源于我们在理论层面的两项创新：将查找参数与基于折叠的增量可验证计算（IVC）相结合，以及高效压缩IVC证明，这些创新可能具备独立研究价值。在Eva的实现中，我们通过整合Nova折叠方案（命名为Lova）来应用上述理论。具体性能方面，我们采用定制电路设计与GPU加速等优化手段：针对一段2分钟H.264编码的HD（1280×720@30fps）视频，Eva在消费级硬件上以2.6μs/像素的速度生成448字节证明，耗时约2.4小时，其证明者效率与证明体积均超越现有密码学图像认证方案一个数量级以上。</span></span></p><p cid="n213" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e257/26hiWcyIvAc" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e257/26hiWcyIvAc</a></span></span></p><h3 cid="n217" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">145、EveGuard: Defeating Vibration-based Side-Channel Eavesdropping with Audio Adversarial Perturbations</span></span></h3><p cid="n218" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于振动测量的侧信道构成了严重的隐私威胁，这些技术利用毫米波雷达、光线传感器和加速度计等传感器捕捉声源或邻近物体产生的振动，从而实现语音窃听。尽管已有多种防御方案被提出，但它们通常依赖成本高昂的硬件解决方案且存在固有物理限制。本文提出EveGuard——一种纯软件驱动的防御框架，通过生成对抗性音频在不影响人耳感知的前提下保护语音隐私免受侧信道攻击。我们利用侧信道与传统麦克风在传感机制上的本质差异：侧信道捕获物体振动信号，而麦克风记录空气压力变化，二者具有不同的频率响应特性。EveGuard首先设计扰动生成模型（PGM），该模型能有效抑制基于传感器的窃听行为，同时保持音频的高保真度；其次为实现PGM的端到端训练，我们提出名为Eve-GAN的新型域转换任务，用于从给定音频推断可能被窃听的信号。我们进一步采用小样本学习技术以降低Eve-GAN训练所需的数据收集开销。大量实验表明，EveGuard对音频分类器的防护率达到97%以上，并能显著阻碍窃听音频的重建。我们还针对三种自适应攻击机制验证了EveGuard的防护性能，并通过用户研究证实了扰动音频的感知质量。</span></span></p><p cid="n219" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e183/26hiW8J8fIc" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e183/26hiW8J8fIc</a></span></span></p><h3 cid="n220" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">146、EvilHarmony: Stealthy Adversarial Attacks against Black-box Speech Recognition Systems</span></span></h3><p cid="n221" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">自动语音识别（ASR）系统易受对抗样本（AEs）攻击，即在原始音频中添加精心设计的微小扰动，误导系统生成目标指令。现有对抗攻击通常将扰动初始化为零或目标指令的文本转语音片段。前者在扰动音频中累积指令特征，后者则持续削弱指令特征以生成对抗样本。尽管对抗样本中的目标指令大多难以被人耳察觉，但音频常出现明显失真或断续，暴露出篡改痕迹。本研究旨在仅保留对抗音频的核心特征，通过消除非必要元素造成的失真来提升音质并降低攻击可检测性。我们发现共振峰是黑盒对抗攻击的关键特征，据此开发了针对目标指令定制的共振峰滤波器组（FFB）。将音乐音频输入FFB后，利用滤波输出作为扰动种子——该种子既保留目标指令的共振峰特征，又融入原始音乐的某些特征。随后搜索扰动种子的最小增强因子以生成高质量对抗样本。我们的扰动可视为音乐信号的局部幅度调制，故将此类对抗样本命名为EvilHarmony。实验表明，该方法成功攻击了微软、谷歌、亚马逊、腾讯云、阿里云及OpenAI Whisper-V3等商用黑盒ASR模型。相比现有方法，我们的对抗样本隐蔽性显著提升，在六种ASR API服务中，53%至77%的参与者认为其与正常音频无法区分。此外，本方法在真实场景中成功攻击了Google Assistant和Surface Pro 9的语音助手。演示内容详见</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://sites.google.com/view/evilharmony" target="_blank">https://sites.google.com/view/evilharmony</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n222" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e569/26EkHIgVLjO" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e569/26EkHIgVLjO</a></span></span></p><h3 cid="n226" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">147、Extended Diffie-Hellman Encryption for Secure and Efficient Real-Time Beacon Notifications</span></span></h3><p cid="n227" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">每一种涉及通信的计算范式都需要采用密码学的新型安全协议。例如互联网催生了TLS/SSL协议，移动计算催生了端到端加密协议。本文针对一种新兴物联网范式展开研究，该范式涉及附着于物体的信标设备及其配套安全协议。具体而言，我们研究&#34;信标通知问题&#34;——这一关键物联网范式旨在为信标所有者提供安全高效的实时通知。由于该问题尚未被正式定义，我们首先通过分析实际应用场景中的自然需求，借助密码学博弈建立正确性、安全性与隐私性的形式化定义。为解决信标通知问题，我们提出名为XDHIES的新型密码学工具，该工具对现有Diffie-Hellman加密方案进行了显著扩展。随后我们基于XDHIES构建新型通知协议，并通过证明该密码协议具备安全性和隐私性，验证其完全满足上述所有问题需求。</span></span></p><p cid="n228" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e055/26hiVZ3lPRS" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e055/26hiVZ3lPRS</a></span></span></p><h3 cid="n232" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">148、Eyes on Your Typing: Snooping Finger Motions on Virtual Keyboards</span></span></h3><p cid="n233" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">增强现实（AR）与虚拟现实（VR）技术的快速发展，为金融、教育及专业领域用户带来了沉浸式数字体验。在这些场景中，头戴式显示器（HMD）通过头部与手部追踪技术实现用户与虚拟对象的交互。其中，虚拟键盘正逐渐成为核心输入方式——用户可直接用手部动作进行键入，既无需外接设备，又提升了便携式HMD的使用便利性。然而，这种直接手部键入方式引发了新的安全隐患：</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">直接手部键入时产生的细微头部动作可能无意间泄露隐私信息</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。本文提出新型侧信道攻击方法\textsc{SnoopFinger}，该技术利用无需额外权限即可获取的头部运动数据，推测虚拟键盘的输入内容。与现有方法不同，\textsc{SnoopFinger}创新性地采用</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">跨模态</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">分析策略，仅依赖</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">头部</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">运动数据即可推断</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">手部</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">键入内容，且无需控制器参与。此外，本方法无需预先获取受害者或其他用户的大量头部运动数据即可识别输入内容。在24名参与者的实验中，\textsc{SnoopFinger}实现了较高推断准确率：单词推断的平均\textit{Top-1准确率}达55.2\%，句子重构准确率达68.8\%。最后，我们探讨了针对此类攻击的潜在防御策略。本研究揭示了AR/VR环境中直接手部键入行为存在的重大隐私风险，证明了零权限传感器数据如何被恶意利用以窃取敏感信息。</span></span></p><p cid="n234" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d989/26hiVUfSdyg" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d989/26hiVUfSdyg</a></span></span></p><h3 cid="n235" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">149、FairZK: A Scalable System to Prove Machine Learning Fairness in Zero-Knowledge</span></span></h3><p cid="n236" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着机器学习技术的兴起，在关键应用中确保机器学习算法决策的公平性变得至关重要。然而，公平性度量通常需要完全访问模型参数，这会损害模型的机密性。本文提出了一种基于零知识证明的解决方案，使模型所有者能在保护模型机密性的同时向公众证明机器学习模型的公平性。为规避零知识环境下直接证明机器学习推理的效率瓶颈，我们的核心创新是提出了一种仅依赖模型参数和输入聚合信息（而非具体数据集）的公平性度量方法。为实现这一目标，我们针对逻辑回归和深度神经网络模型推导了比现有研究更严格、更能反映公平性的新边界。此外，我们开发了针对公平性度量中常见计算（包括矩阵谱范数、最大值、绝对值和定点运算）的高效零知识证明协议。我们完整实现了FairZK系统，首次在零知识环境下验证机器学习公平性。实验表明，FairZK相较直接验证方法和现有基于零知识推理子程序的方案有显著加速：证明时间随模型和数据集规模实现3.1~1789倍提升，首次支持4700万参数的大规模模型，其公平性证明生成仅需343秒，预估比仅支持数百至数千参数小模型的现有方案快4个数量级。</span></span></p><p cid="n237" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d219/26hiVnyjtrq" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d219/26hiVnyjtrq</a></span></span></p><h3 cid="n247" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">150、From Control to Chaos: A Comprehensive Formal Analysis of 5G’s Access Control</span></span></h3><p cid="n248" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们开发了CoreScan，一个用于分析5G核心网络访问控制机制的综合形式化分析框架。在此过程中，我们构建了首个考虑间接通信模式与5G漫游场景的5G核心网访问控制机制完整形式化模型。给定全局属性时，CoreScan采用基于假设-保证推理的组合验证技术，将系统模型分解为多个独立组件，并运用分割断言原则识别局部假设与保证。当且仅当从全局属性推导出的所有局部保证在各自组件中被验证时，模型全局安全属性方可成立。该框架具备可配置的对抗模型，支持评估不同攻击能力下的访问控制属性。我们使用CoreScan测试了61项访问控制属性，在5G标准中发现了五类新的可利用权限提升漏洞。此外，研究发现直接通信中已知的大多数过度授权漏洞同样存在于间接通信及漫游场景中。</span></span></p><p cid="n249" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b043/26hiU5s1BGE" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b043/26hiU5s1BGE</a></span></span></p><h3 cid="n250" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">151、From Easy to Hard: Building a Shortcut for Differentially Private Image Synthesis</span></span></h3><p cid="n251" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">差分隐私（DP）图像合成技术旨在通过敏感数据集生成合成图像，以缓解机构在共享和使用合成图像时的隐私泄露风险。尽管现有方法（尤其是采用差分隐私随机梯度下降法DP-SGD训练扩散模型的技术）已取得显著进展，但其合成效果仍不尽如人意。本研究受课程学习启发，提出了一种两阶段差分隐私图像合成框架，使扩散模型能够由易到难地学习生成差分隐私合成图像。与现有直接使用DP-SGD训练扩散模型的方法不同，我们在初始阶段设计了简易学习阶段——模型首先学习敏感图像的简单特征。为实现这一目标，我们引入&#34;中心图像&#34;概念，即对敏感数据集随机样本的简单聚合。这类中心图像虽不呈现细节特征，却能以极低的隐私代价展现所有图像的核心共性，从而有效辅助模型早期训练。实验表明，在四个主流图像数据集的平均测试中，本方法合成图像的保真度与实用性指标分别比当前最优方法提升33.1%和2.1%。复现材料与数据集已在线公开。</span></span></p><p cid="n252" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d656/26hiVDu7y5W" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d656/26hiVDu7y5W</a></span></span></p><h3 cid="n253" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">152、From One Stolen Utterance: Assessing the Risks of Voice Cloning in the AIGC Era</span></span></h3><p cid="n254" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">语音克隆技术的出现从根本上威胁了声音作为独特生物特征的角色。已有大量犯罪案例表明其身份伪造的重大风险。先前研究仅在受限场景下探讨语音克隆的风险，要求受害者语音要么已出现在克隆模型的训练数据中，要么需向攻击者泄露数十分钟的语音样本。然而随着AIGC（人工智能生成内容）时代语音克隆技术的快速发展，这些限制条件已基本消除，导致当前最先进语音克隆技术的真实风险仍笼罩在迷雾中。为揭示这一风险，本文在真实场景中开展大规模研究，评估先进语音克隆技术的威胁。该研究涵盖5种最先进语音克隆技术（开源与商业）、8种最先进语音认证系统（开源与现实场景）以及30名人类听评者，使用了超过7000名说话者（公开与定制）的语音数据。通过实验与理论分析，本研究揭示：1）最先进语音克隆技术对欺骗语音认证系统和人类听评者构成严重威胁；2）受害者年龄、性别等人口统计因素对克隆攻击存在微妙影响；3）人类听评者对语音克隆的主观认知与背景知识显著影响其受攻击程度；4）先进检测方法仍无法有效识别克隆语音样本。</span></span></p><p cid="n255" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e277/26hiWdqEiis" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e277/26hiWdqEiis</a></span></span></p><h3 cid="n256" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">153、From Randomized Response to Randomized Index: Answering Subset Counting Queries with Local Differential Privacy</span></span></h3><p cid="n257" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本地差分隐私（Local Differential Privacy, LDP）是当前保护个体数据隐私的主导模型。现有扰动机制通常需对原始值进行扰动以确保隐私性，但这不可避免地导致数值失真与效用下降。在本研究中，我们提出一种创新方法——不再扰动数值本身，而是对数值索引实施随机化处理，同时严格满足LDP保障。受随机化索引可否认性的启发，我们开发了CRIAD框架，用于处理集合值数据的子集计数查询。通过融合多虚拟值、多样本与多分组策略，CRIAD成为完全可扩展的解决方案，能灵活适应不同隐私需求与域规模，且查询结果精度超越现有所有方法。通过系统的理论分析与大量实验验证，我们证实了CRIAD的有效性，并证明其相较于传统数值扰动机制的显著优势。</span></span></p><p cid="n258" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d564/26hiVzSJeJa" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d564/26hiVzSJeJa</a></span></span></p><h3 cid="n259" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">154、Fun-tuning: Characterizing the Vulnerability of Proprietary LLMs to Optimization-based Prompt Injection Attacks via the Fine-Tuning Interface</span></span></h3><p cid="n260" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们揭示了一种针对闭源权重大语言模型（LLM）的新型威胁，该威胁使攻击者能够计算基于优化的提示注入。具体而言，我们阐述了攻击者如何利用远程微调接口返回的类损失信息来指导对抗性提示的搜索。该微调接口由LLM供应商托管，允许开发者针对特定任务微调LLM，从而提供实用功能，但同时也暴露了足够信息使攻击者能够计算对抗性提示。通过实验分析，我们解析了Gemini微调API返回的类损失值，并证明这些值为使用贪婪搜索算法进行对抗性提示的离散优化提供了有效信号。基于PurpleLlama提示注入基准测试，我们在谷歌Gemini系列LLM上实现了65%至82%的攻击成功率。这些攻击利用了经典的效用-安全权衡——微调接口为开发者提供了实用功能，同时也使LLM暴露于强大的攻击之下。</span></span></p><p cid="n261" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a374/26hiTGuaXoQ" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a374/26hiTGuaXoQ</a></span></span></p><h3 cid="n262" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">155、Fuzz-Testing Meets LLM-Based Agents: An Automated and Efficient Framework for Jailbreaking Text-To-Image Generation Models</span></span></h3><p cid="n263" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">文本到图像（T2I）生成模型通过将文本描述转化为高质量图像，彻底改变了内容创作方式。然而，这些模型存在越狱攻击漏洞——攻击者通过精心设计的提示词绕过安全机制，生成有害内容。尽管研究者已开发多种越狱攻击方法以揭示这一风险，但现有技术存在明显局限：包括不切实际的访问权限需求、易被识别的非自然提示词、受限的搜索空间以及对目标系统的高频查询需求。  </span></span></p><p cid="n264" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出JailFuzzer，一种由大语言模型（LLM）智能体驱动的模糊测试框架，可在黑盒环境下高效生成自然且语义连贯的越狱提示词。该框架基于模糊测试原理构建，包含三个核心组件：用于初始提示与越狱提示的种子池、生成语义化变体的引导变异引擎，以及评估越狱成功与否的预言函数。其中，引导变异引擎与预言函数均由基于LLM的智能体实现，确保了黑盒环境下的高效性与适应性。  </span></span></p><p cid="n265" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">实验表明，JailFuzzer在攻击T2I模型时具有显著优势：生成的提示词自然流畅且语义连贯，能有效规避传统防御机制的检测；同时以极低查询开销实现高越狱成功率，在所有关键指标上超越现有方法。本研究揭示了生成模型需强化安全机制的必要性，并为防御复杂越狱攻击的未来研究奠定基础。JailFuzzer已开源，项目地址：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/YingkaiD/JailFuzzer" target="_blank">https://github.com/YingkaiD/JailFuzzer</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n266" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a336/26hiTETXKow" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a336/26hiTETXKow</a></span></span></p><h3 cid="n267" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">156、GDPR in the Small: a field study of privacy and security challenges in schools</span></span></h3><p cid="n268" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">《通用数据保护条例》（GDPR）的出台旨在约束互联网巨头企业，但其监管范围随后扩展至所有规模的组织。本文报告了一项针对意大利学校的多地点实地研究结果，揭示了这些机构在缺乏专业法律合规团队的情况下，执行充满敏感问题的日常活动时落实GDPR所面临的挑战。研究样本包含一所幼儿园、十所小学、两所初中和两所高中。我们未发现&#34;隐私悖论&#34;（书面规范完善但实际执行疏漏）的证据，相反，教职员工往往因现实资源无法支撑教条式合规流程而陷入困境。本研究详述了实地观察到的现象：从可能危及学生安全的重大隐私事件，到因现实条件限制而被搁置的形式化合规问题，并探讨了基于风险管控的解决方案。</span></span></p><p cid="n269" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b197/26EkFrCpddK" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b197/26EkFrCpddK</a></span></span></p><h3 cid="n270" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">157、GPTracker: A Large-Scale Measurement of Misused GPTs</span></span></h3><p cid="n271" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">由大型语言模型（LLM）驱动的智能体，尤其是OpenAI的GPT系列，彻底改变了人工智能定制、部署和使用的方式。然而，在OpenAI的GPT商店中，GPT的滥用已成为一个至关重要却鲜少被深入探讨的问题。本文首次针对滥用GPT现象展开大规模实证研究。我们提出了GPTracker框架，该框架能够持续从官方GPT商店收集GPT实例，并自动化与它们的交互流程。截至本文投稿时，GPTracker已在八个月内收集了755,297个GPT实例和28,464条GPT对话流。通过结合LLM驱动的评分系统与人工审核，我们在十类禁止场景中识别出2,051个滥用GPT。通过静态与动态分析，我们系统探究了这些滥用GPT的生态现状，包括趋势特征、构建者群体、运作机制及实际效果。研究发现，滥用GPT的构建者采用多种策略规避OpenAI审核系统，例如集成外部API、在描述中隐藏意图、实施URL跳转等。值得注意的是，调用外部API的GPT相比其他滥用实例更倾向于响应不当查询，在&#34;非法活动&#34;场景中平均应答率高出22.81%。借助VirusTotal平台，我们在446个GPT上识别出50个恶意域名，其中33个被标记为钓鱼网站、28个为恶意软件、2个为垃圾网站（部分域名具有多重标签）。我们分别于2024年9月11日和11月12日向OpenAI提交了负责任披露报告。首次披露的1,804个GPT中有1,316个在9月25日前被下架。本研究揭示了新兴GPT市场中令人担忧的滥用现象，并为相关方提供了可操作的治理建议。</span></span></p><p cid="n272" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a317/26hiTE4RWYU" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a317/26hiTE4RWYU</a></span></span></p><h3 cid="n279" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">158、Gold OPRF: Post-Quantum Oblivious Power-Residue PRF</span></span></h3><p cid="n280" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们提出基于幂剩余伪随机函数（Power-Residue PRF，Damgård CRYPTO’88）的后量子（PQ）不经意伪随机函数（OPRF）的可行构造方案。对于安全参数λ，我们研究将模公开素数p=2^λ·g+1的整数x映射到元素(k+x)^g mod p的伪随机函数Gold_k(x)，其中g为公开参数且log g≈2λ。我们方案的核心是高效的新型两方计算评估方法（2PC-Gold），可满足不同安全需求：服务器P_s持有PRF密钥k，客户端P_c持有PRF输入x，双方通过两方计算协同评估Gold函数。2PC-Gold采用标准向量不经意线性评估（VOLE）关联，在(V)OLE混合模型下具有信息论安全性且为恒定轮次。具体成果包括：</span></span></p><p cid="n281" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">· 针对半诚实P_s与恶意P_c：仅需单次(V)OLE关联的2PC-Gold方案，通信复杂度为3个域元素（若仅需均匀采样密钥则为2个域元素），计算复杂度为O(λ)次域运算。该方案实现半恶意安全。</span></span></p><p cid="n282" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">· 针对恶意P_s与恶意P_c：仅需λ/4+O(1)次VOLE关联的2PC-Gold方案，通信复杂度为λ/4+O(1)个域元素，计算复杂度为O(λ)次域运算。</span></span></p><p cid="n283" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">这些构造支持批处理评估等扩展功能：当P_c需在相同密钥下重复评估PRF时，可显著降低均摊成本。此外，我们将2PC-Gold扩展为可验证OPRF，并采用Beullens等人（Eurocrypt’25）的方法，在通用可组合框架下实现强OPRF安全性。</span></span></p><p cid="n284" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">所有协议均具实际高效性。我们基于(PQ)VOLE实现了2PC-Gold并进行了基准测试。例如，当λ=128时，半恶意（对应恶意）n次批处理PQ OPRF（{2PC, O, UC}-Gold）的均摊通信量仅约100B（对应1.9KB）。</span></span></p><p cid="n285" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a259/26hiTBFyWyY" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a259/26hiTBFyWyY</a></span></span></p><h3 cid="n293" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">159、GuardAIn: Protecting Emerging Generative AI Workloads on Heterogeneous NPU</span></span></h3><p cid="n294" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">受大语言模型（LLM）近期进展的推动，生成式AI应用已成为现代云平台的主导工作负载。GPU、NPU和TPU等专用硬件加速器因其性能远超通用CPU，在AI应用落地中发挥着关键作用。AI模型与数据通常高度敏感且来自互不信任的各方。现有基于CPU的行业标准可信执行环境（如Intel SGX或AMD SEV）无法充分保护这些加速器。Nvidia-CC等设备级TEE仅通过专有方案解决紧耦合CPU-GPU系统问题，且需依赖主机CPU端的TEE支持。而现有学术方案则针对特定CPU-TEE平台。为填补这一空白，我们提出GuardAIn——一种面向独立NPU设备的机密计算架构，无需信任主机系统。GuardAIn通过认证加密保护数据、模型参数和算子二进制文件，采用基于委托的内存语义确保与主机软件栈的隔离，并通过任务认证提供强模型完整性保证。基于Llama2和Llama3等前沿大模型的实现与评估表明，GuardAIn在无需修改AI软件栈的前提下仅引入微小开销。</span></span></p><p cid="n295" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d823/26hiVLrJZi8" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d823/26hiVLrJZi8</a></span></span></p><h3 cid="n299" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">160、Half Spectre, Full Exploit: Hardening Rowhammer Attacks with Half Spectre Gadgets</span></span></h3><p cid="n300" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">尽管工业界和学术界已投入近十年的缓解努力，社区仍未找到针对Spectre和Rowhammer等顽固硬件漏洞的全面高效对策。当前Spectre缓解措施主要集中于修补Linux内核等高价值代码库中的危险泄露代码片段，而通过软件缓解Rowhammer仍具挑战性，其安全性往往取决于现实攻击的（不）可行性。事实上，某些Rowhammer攻击完全具有非确定性——通过触发随机比特翻转以期破坏受害者数据，但可能误改关键数据导致系统崩溃。更可靠的攻击需依赖内存模板构建与布局调整等技术，但在软硬件复杂内存管理抽象层面前，实现完全确定性行为仍非易事。  </span></span></p><p cid="n301" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文首次证实完全确定性的Rowhammer攻击具有可行性。为此，我们挖掘其与Spectre漏洞的协同效应，重点研究所谓&#34;半Spectre代码片段&#34;。这些片段因无法直接泄露敏感数据曾被认定在当代CPU上不可利用，但我们证明其能构建强大的泄露原语来增强Rowhammer等攻击。具体而言，我们利用半Spectre片段构建PRELOAD+TIME——这是一种无需与受害者共享内存、即可在缓存行粒度监控目标物理内存活动的通用原语。基于此，我们开发出ProbeHammer：首个无需模板构建/内存布局调整且全程零崩溃的端到端Rowhammer攻击方案。该方案通过喷洒物理内存（包含攻击者用户数据与受害者页表数据），并借助PRELOAD+TIME精确定位，从而选择安全的锤击模式规避可能引发系统崩溃的意外比特翻转。实验证实，ProbeHammer攻击在结构上杜绝误报（故无崩溃风险），可在数小时内攻陷真实系统。</span></span></p><p cid="n302" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d324/26hiVrIkQG4" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d324/26hiVrIkQG4</a></span></span></p><h3 cid="n303" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">161、Hash-Prune-Invert: Improved Differentially Private Heavy-Hitter Detection in the Two-Server Model</span></span></h3><p cid="n304" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">差分隐私（DP）下的高频项检测是数据分析中的重要基础任务。给定阈值Z_tt_Z和来自大小为Z_dd_Z域中Z_nn_Z个数据项的集合，此类检测算法会忽略出现次数少于Z_tt_Z次的项，同时识别出现次数超过Z_t+\Deltat+Δ</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Z次的项；我们称Z</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">\Delta_Z为误差边界。在集中式模型中，由数据管理者持有完整数据集时，Z</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">(\varepsilon,\delta)</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Z-DP算法可实现Z</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">\Theta(\frac 1 \varepsilon \log \frac 1 \delta)</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Z的误差边界，当Z_d\gg 1/\delta_Z时该结果最优。已有研究（如Poplar，S&amp;P 2021）提出了由两个或多个非共谋服务器根据Z_n_Z个客户端输入联合计算高频项的协议。但现有协议在服务器效率（计算、通信和轮次复杂度）和准确性（即误差边界）方面都存在对Z</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">\log d_Z的不良依赖，使其不适用于大域场景（例如当数据项为kB级字符串时，Z</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">\log d \approx 10^4_Z）。我们提出哈希-剪枝-反转（HPI）技术，可将任何具有上述Z</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">\log d_Z依赖性的高频项协议转化为新协议，实现全方位改进：计算、通信和轮次复杂度（大致）取决于Z</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">\log n_Z而非Z</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">\log d_Z，且误差边界与Z_d_Z无关。该转换能保持隐私性，可抵抗最多腐蚀一个服务器及任意数量客户端的主动敌手攻击。我们将HPI应用于Poplar的改进版本（本文亦提出该版本），其误差边界比原始Poplar提升约Z</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">\sqrt{n}_Z倍（与Z_d_Z无关）。实验证实最终协议在大Z_d_Z场景下显著提升了效率与准确性。</span></span></p><p cid="n305" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c680/26hiV41XSOk" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c680/26hiV41XSOk</a></span></span></p><h3 cid="n306" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">162、Hermes: Efficient and Secure Multi-Writer Encrypted Database</span></span></h3><p cid="n307" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">可搜索加密（SE）技术能在加密数据上实现隐私保护的关键词搜索。公钥可搜索加密（PKSE）支持多用户搜索，但由于高开销的公钥运算导致搜索延迟严重。对称可搜索加密（SSE）具备亚线性搜索效率，但主要局限于单用户场景。近期出现的混合可搜索加密（HSE）融合了SSE与PKSE的优势，实现了多写入方加密搜索功能、前向安全性以及相对于数据库规模的亚线性搜索。然而HSE仍存在关键安全缺陷：易受词典攻击，且搜索访问控制验证需对所有授权关键词执行高开销的公钥运算（如配对操作），导致显著性能损耗。此外，为维持前向安全性，其搜索访问控制组件需定期重构，给写入方带来沉重负担。本文提出新型HSE方案Hermes，在解决现有HSE设计安全问题的同时，保持最优搜索复杂度与用户效率。Hermes支持多写入方加密搜索功能，具备前向安全性及抗词典攻击能力。为此，我们设计了一种具有身份隐藏与密钥聚合特性的新型基于身份加密方案，该方案本身可能具有独立研究价值。我们还开发了创新的分区技术与周期编码方法，以最小化搜索复杂度，并降低用户维护前向安全性的开销。通过大规模实验对比评估，在商用硬件上Hermes的搜索性能比当前最优HSE方案快1-2个数量级，同时提供更强的安全保证以抵御词典攻击与注入攻击。</span></span></p><p cid="n308" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c642/26hiV2CP1Sw" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c642/26hiV2CP1Sw</a></span></span></p><h3 cid="n309" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">163、Hey, Your Secrets Leaked! Detecting and Characterizing Secret Leakage in the Wild</span></span></h3><p cid="n310" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">无论是结构化的API密钥还是非结构化的密码，密钥对于保护应用程序和服务安全至关重要。然而开源项目的广泛使用和快速开发周期加剧了密钥泄露风险。现有检测工具因依赖正则表达式和熵值检查等简单方法，存在误报率高、召回率低的问题，常遗漏非结构化密钥或将非敏感数据误判为密钥。本文提出KEYSENTINEL——一种通过机器学习、语义分析和前缀匹配技术突破现有局限的高级自动化密钥检测工具。为评估其性能，我们构建了首个跨平台基准数据集，涵盖GitHub、PyPI和微信的1,806,530个文件中的11,826条标注密钥，并与六种现有工具进行对比。实验表明KEYSENTINEL以91.18%的准确率、81.71%的召回率和0.86的F1值达到业界最优水平，显著优于行业标准工具并大幅降低误报率。相比GPT-4、o1等大语言模型，其在准确性和成本效益方面也更具优势。此外，我们通过对GitHub、PyPI和微信80,330,098个文件的大规模测量研究发现，高达30%的项目存在密钥泄露风险。我们还扫描了一家IT企业的代码库以评估实际密钥泄露风险。这些发现揭示了密钥泄露现象的普遍性，凸显了各平台加强密钥管理实践的紧迫性。</span></span></p><p cid="n311" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a412/26hiTHRCdyg" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a412/26hiTHRCdyg</a></span></span></p><h3 cid="n312" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">164、Highly Efficient Actively Secure Two-Party Computation with One-Bit Advantage Bound</span></span></h3><p cid="n313" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">安全两方计算（2PC）允许双方在保持输入隐私的前提下联合评估函数。尽管近期取得显著进展，主动安全协议与被动安全协议之间仍存在显著的效率差距。在S&amp;P&#39;12中，Huang、Katz和Evans形式化了允许单比特泄漏的主动安全概念，为弥合这一差距提供了可行路径。基于该概念的协议已成为设计高效主动安全2PC协议的基础。然而，Huang等人指出的关键挑战至今未被解决：当这些协议独立使用（而非作为大型协议的组成部分）时，在保障诚实方公平性方面存在重大缺陷。尽管作者提出了两种缓解方案，但二者成本过高且缺乏安全性保障的形式化定义。本文首先形式化定义了一种强化概念——单比特优势界定的主动安全，通过渐进式结果披露机制（逐比特释放计算结果），将敌手优势严格限制在至多比诚实方多获取一比特信息。此外，我们提出利用混淆电路中的标签结构设计高效常数轮2PC协议的新方法，实现单比特优势界定的主动安全。该协议在双工网络中的运行时性能接近被动安全混淆电路方案（如LAN环境下SHA256电路仅需1.033倍耗时），且渐进式结果披露开销极低（每比特释放仅需80字节通信量）。凭借强化的安全保证与极小开销，本协议非常适用于实际2PC应用场景。</span></span></p><p cid="n314" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c623/26hiV1ZVZ3G" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c623/26hiV1ZVZ3G</a></span></span></p><h3 cid="n315" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">165、HouseFuzz: Service-Aware Grey-Box Fuzzing for Vulnerability Detection in Linux-Based Firmware</span></span></h3><p cid="n316" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">迄今为止，灰盒模糊测试已成为检测基于Linux的固件中潜在漏洞的关键技术。然而，现有模糊测试方法普遍面临三个由固件服务特性引发的被忽视障碍，这些障碍极大阻碍了漏洞识别的效果与效率。首先，固件服务的多进程特性在仿真和模糊测试过程中被过度简化，限制了固件测试的范围。此外，固件服务通常包含定制化服务协议，这些协议具有丰富且严格的语义约束，为输入生成带来独特挑战。针对这些障碍，本文提出服务感知型灰盒模糊测试工具HouseFuzz。在固件仿真阶段，HouseFuzz通过精细遍历系统初始化流程，识别现有方法遗漏的网络服务与守护进程；在模糊测试阶段，其多进程测试框架能全面检测通过多进程激活的固件服务。此外，HouseFuzz结合离线和在线固件服务分析，捕获定制化服务协议的词法级语义约束，据此高效生成高质量测试用例。评估显示，相比最先进的灰盒固件模糊测试方案，HouseFuzz在相同固件数据集上多识别76%网络服务，代码覆盖率提升24.8%，零日漏洞检出量增加175%。</span></span></p><p cid="n317" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d507/26hiVy3bGHm" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d507/26hiVy3bGHm</a></span></span></p><h3 cid="n318" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">166、HydraProofs: Optimally Computing All Proofs in a Vector Commitment (with applications to efficient zkSNARKs over data from multiple users)</span></span></h3><p cid="n319" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在本工作中，我们提出了HydraProofs——首个同时满足以下两个特性的向量承诺（VC）方案：（一）证明者能在最优时间O(N)内为规模为N的向量生成所有元素（或连续子数组）的开放证明；（二）该方案可直接兼容以多线性多项式编码输入的zkSNARK家族，即在预映像上运行zkSNARK时无需在电路内&#34;开放&#34;整个向量预映像。据我们所知，现有VC方案或仅满足（一）但无法高效&#34;嵌入&#34;zkSNARK（如需在电路内重新计算整个哈希树的Merkle树承诺），或仅满足（二）但需要O(NlogN)时间。我们将HydraProofs与开创性GKR协议结合，将所得zkSNARK应用于多用户参与不可信服务器执行计算的场景，每个用户均可验证结果正确性及自身数据是否被包含。实验表明，该方案在通用电路上的证明时间较现有方案快4-16倍。最后，我们针对可验证秘密共享和可验证鲁棒聚合两个具体应用场景展开研究：前者首次实现Shamir秘密共享的线性时间证明（快于分发者计算所需时间）；后者提出抗恶意聚合者的方案，实验证明其能以极小性能损耗部署于现有系统。</span></span></p><p cid="n320" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d180/26hiVmh7o9q" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d180/26hiVmh7o9q</a></span></span></p><h3 cid="n321" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">167、HyperPianist: Pianist with Linear-Time Prover and Logarithmic Communication Cost</span></span></h3><p cid="n322" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，零知识证明（ZKP）技术取得了显著进展。其中，零知识简洁非交互式知识论证（SNARK）因其证明简洁且验证高效而备受瞩目，但存在证明生成成本高的问题。Wu等人（Usenix Security 2018）提出将证明任务分配到多台机器执行，显著缩短了证明生成时间。然而，现有分布式ZKP系统的证明生成成本仍呈准线性增长，且通信开销可能随电路规模线性增加。本文提出HyperPianist系统，受当前最优分布式ZKP系统Pianist（Liu等人，S&amp;P 2024）与多元证明系统HyperPlonk（Chen等人，EUROCRYPT 2023）启发，我们设计了一种分布式多元多项式交互式预言证明（PIOP）系统，其证明生成时间呈线性增长，通信开销仅为对数级。与Pianist不同，HyperPianist在应用于通用（非数据并行）电路时不会引入额外证明时间或通信开销。为实现该PIOP系统，我们将两种加法同态多元多项式承诺方案——多元KZG（Papamanthou等人，TCC 2013）和Dory（Lee等人，TCC 2021）适配至分布式环境，分别得到HyperPianist^K和HyperPianist^D。两个系统均具备线性证明复杂度和对数通信开销；此外HyperPianist^D无需可信初始化。我们还提出HyperPianist+，整合了基于Lasso（Setty等人，EUROCRYPT 2024）的优化查找论证方案，进一步降低证明成本。实验表明，在32台分布式机器上，HyperPianist^K和HyperPianist^D相比HyperPlonk分别实现63.1倍和40.2倍加速；与Pianist相比，在基础门电路和定制门电路上HyperPianist^K分别快2.9倍和4.6倍，HyperPianist^D分别快2.4倍和3.8倍。对于分层电路，HyperPianist^K在定制门电路上最高提速5.9倍，HyperPianist^D则实现4.7倍加速。</span></span></p><p cid="n323" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d142/26hiVl2c5TW" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d142/26hiVl2c5TW</a></span></span></p><h3 cid="n324" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">168、I Know What You Sync: Covert and Side Channel Attacks on File Systems via syncfs</span></span></h3><p cid="n325" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">操作系统通过进程、容器及隔离技术等抽象机制强制实现逻辑隔离，以保护系统免受恶意或缺陷代码的侵害。本文揭示了一类通过文件系统打破这种逻辑隔离的新型侧信道。文件系统作为操作系统的核心组件，负责管理应用层与物理存储设备间的所有I/O活动。我们发现文件系统实现存在共享性，导致使用常规I/O系统调用时会产生时序信息泄漏。具体而言，现代操作系统会利用任意刷新操作（将内存中的缓存块保存至SSD或磁盘）来刷新全部I/O缓冲区，包括其他隔离域使用的缓冲区。因此，攻击者通过测量\textit{syncfs}的延迟即可推断受害程序的I/O行为。我们在包括Linux原生文件系统和Windows文件系统在内的多种文件系统上实现了\textit{syncfs}隐蔽信道攻击，在Linux上达到5 Kbps的最大带宽（误码率0.15%），在Windows上达到7.6 Kbps（误码率1.9%）。此外，我们构建了针对Linux和Android设备的三类侧信道攻击：在Linux设备上，通过追踪临时缓冲文件的写入模式实现了网站指纹识别攻击和视频指纹识别攻击；在Android设备上，设计了可泄露启动阶段应用写入模式的应用指纹识别攻击。这些攻击的F1分数、精确率和召回率均超过90%。最后，我们通过容器检测技术和跨容器隐蔽信道攻击，证明了这些攻击可在容器间实施。</span></span></p><p cid="n326" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d359/26hiVt2mVgI" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d359/26hiVt2mVgI</a></span></span></p><h3 cid="n327" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">169、IUBIK: Isolating User Bytes in Commodity Operating System Kernels via Memory Tagging Extensions</span></span></h3><p cid="n328" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">强化操作系统内核以抵御内存错误，通常通过保护安全关键数据免受破坏和泄露来实现。然而，建立一套可靠的模型来识别需要保护的敏感内存对象十分困难，这导致攻击者可能利用新出现的攻击向量。本文提出重新思考内核加固方式，引入IUBIK实现内核内存隔离。IUBIK通过将攻击者控制的数据（常用于操纵安全关键数据）隔离在影子内存中，阻止其与敏感内核对象交互，从而防范内核利用。为实现这一目标，IUBIK利用ARM CPU的最新硬件特性MTE，该技术可高效缓解基于空间和时间内存错误的攻击。我们通过重写结构体定义，确保被隔离对象不包含指针等敏感字段。此外，我们开发了深度探索内核代码库的分析框架，记录攻击者控制对象的分配位置，使IUBIK能对其进行隔离；该分析器在多样化工作负载下记录了292个特权级和212个非特权级分配点。最后，我们在Linux内核上实现的IUBIK通过一系列微观和宏观基准测试评估，结果表明原型在多数测试中未引入运行时开销，且内存消耗增加可忽略不计。</span></span></p><p cid="n329" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a829/26hiTXrQMjS" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a829/26hiTXrQMjS</a></span></span></p><h3 cid="n330" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">170、Identifying Incoherent Search Sessions: Search Click Fraud Remediation Under Real-World Constraints</span></span></h3><p cid="n331" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">搜索引擎和广告主长期因点击欺诈蒙受巨额经济损失，这给现有检测算法带来了严峻挑战。更令人担忧的是，尽管技术持续进步，我们对点击欺诈的认知仍存在局限，致使高级欺诈手段得以绕过现有检测机制。本研究突破性地从分析单一搜索请求转向研究搜索会话——即同一用户连续发起的搜索查询序列。我们发现良性用户在这些会话中展现出连贯的行为模式，与欺诈者形成鲜明对比：正常用户通常围绕单一主题进行搜索，而欺诈者或自动化程序则常在会话中表现出杂乱、不合逻辑且缺乏连贯性的搜索行为。为量化这种行为差异，我们提出COSEC系统，通过整合字面语义、时序和广告点击行为特征，计算搜索会话的&#34;非连贯性指数&#34;。实验表明COSEC具有卓越效能，识别非连贯会话的精确率达95.79%，召回率达92.40%，充分彰显其提升现实世界点击欺诈检测能力的巨大潜力。</span></span></p><p cid="n332" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a093/26hiTuB0GBi" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a093/26hiTuB0GBi</a></span></span></p><h3 cid="n333" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">171、Impossibility Results for Post-Compromise Security in Real-World Communication Systems</span></span></h3><p cid="n334" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">现代安全通信系统（如iMessage、WhatsApp和Signal）通过复杂机制实现高强度安全特性。这些机制通常需要持续将新生成的密钥材料合并至会话密钥中，用于通信过程中的消息加密。现有研究已证明此类机制能实现某种形式的&#34;后泄密安全&#34;（PCS）：即使通信方完整状态曾在过去某时段遭泄露，仍能保障后续通信安全。然而最新研究表明，这些证明无法直接转化为终端用户层面的安全保障，可能源于可用性设计考量。这引发了一个根本问题：终端用户究竟能否获得PCS保障？在何种条件下才能实现？</span></span></p><p cid="n335" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文通过形式化证明揭示：需要抵御特定类型状态丢失（实际场景中可能发生）的通信系统，本质上无法为终端用户提供完整的PCS保障。前人工作仅指出Signal即时通讯软件因其现有会话管理层未能实现该目标，我们则精准分离出导致该缺陷的根本条件，并论证该问题无法通过简单更换会话管理层或完全重构协议来解决。此外，我们量化分析了用户间最大会话数（Signal设定为40）在容错能力与安全性之间的权衡关系。本研究对未来安全通信系统设计具有直接指导意义：既可推动简化冗余机制，也能促进会话管理层设计改进，从而在状态丢失/容错能力方面实现更优的安全权衡。</span></span></p><p cid="n336" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e040/26hiVXkCEXC" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e040/26hiVXkCEXC</a></span></span></p><h3 cid="n340" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">172、IncognitOS: A Practical Unikernel Design for Full-System Obfuscation in Confidential Virtual Machines</span></span></h3><p cid="n341" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近期研究不断证明，侧信道攻击能够有效破坏英特尔SGX等可信执行环境的保密性保障。与此同时，云环境中的可信执行正呈现出向机密虚拟机（CVM）迁移的趋势。遗憾的是，部分侧信道攻击不仅在此迁移过程中持续存在，甚至对CVM架构依然有效，此外还涌现出针对CVM架构的新型攻击。已有研究探索了针对用户空间飞地（如英特尔SGX）的侧信道防御措施，但基于CVM的混淆执行引擎设计空间仍属空白。本文提出名为IncognitOS的单内核设计，为基于CVM的云工作负载提供全系统混淆保护。IncognitOS严格遵循最小化可信计算基（TCB）和直接硬件访问等单内核原则，使全系统混淆成为可能。该系统通过改造调度器和内存管理两大核心OS组件，实现了一种新型自适应混淆方案。IncognitOS采用同步时钟信号传递机制，使调度系统摆脱对不可信Hypervisor定时器中断的依赖，从而可靠监控Hypervisor夺取执行控制权（即VMExit）的频率，并动态调整分页子系统执行内存重随机化的频率——该子系统通过直接访问内存管理单元（MMU）透明实现内存重随机化。最终设计论证了自混淆单内核作为安全CVM部署策略的可行性，其混淆技术较前人工作亦有显著提升。评估结果表明，IncognitOS能有效抵御CVM攻击，且自适应混淆方案在实际程序中展现出良好的性能表现。</span></span></p><p cid="n342" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d860/26hiVMUi1MI" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d860/26hiVMUi1MI</a></span></span></p><h3 cid="n349" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">173、Investigating Physical Latency Attacks against Camera-based Perception</span></span></h3><p cid="n350" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于摄像头的感知是自主系统视觉感知的核心组成部分。近期研究针对感知流程提出了延迟攻击，可导致自主系统遭受拒绝服务。然而现有攻击方案存在现实适用性缺陷：或依赖数字扰动，或需使用覆盖受害者视野的大型、不可扩展且高度显眼的干扰贴片。本文提出DetStorm——一种新型可物理实现的摄像头感知延迟攻击方案。该技术通过投影仪扰动生成大量对抗性目标物体，从而引发感知延迟。这些物体经过四重目标优化，可规避多种非极大值抑制（NMS）方法的过滤。为在动态物理环境中最大化生成目标数量，DetStorm采用独创的贪婪算法：将环境划分为包含不同物体类别的&#34;区域&#34;，并最大化每个区域的生成物体数量。系统能实时适应环境变化，通过区域缝合流程将扰动模式重组为连续、可物理投影的图像。仿真与实体实验表明，DetStorm平均使检测目标数增加506%，感知延迟最高达8.1秒，并能对现实世界自动驾驶系统造成物理级影响。</span></span></p><p cid="n351" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e202/26hiW9LzceQ" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e202/26hiW9LzceQ</a></span></span></p><h3 cid="n352" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">174、Is MPC Secure? Leveraging Neural Network Classifiers to Detect Data Leakage Vulnerabilities in MPC Implementations</span></span></h3><p cid="n353" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，随着《通用数据保护条例》（GDPR）等隐私保护法规的出台，多方计算协议（简称MPC）被企业与机构广泛采纳并应用于隐私数据联合分析与机器学习场景。然而，由于MPC协议本身的复杂性，其实现代码常存在数据泄露漏洞，严重威胁隐私保护效果。现有MPC协议安全分析多依赖理论证明，缺乏对实现层潜在漏洞的检测能力。因此，检测MPC实现中的数据泄露漏洞具有迫切必要性。</span></span></p><p cid="n354" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出MPCGuard框架，用于检测MPC实现中的数据泄露漏洞。与传统内存漏洞不同，MPC实现中的泄露漏洞无法通过现有检测工具识别。为此，我们首先构建包含两个神经网络分类器的泄露标识模块，通过分析MPC协议特性设计网络结构以提升检测效果；在识别漏洞后，采用差分分析方法辅助定位漏洞位置。为验证有效性，我们在三大主流MPC框架（Crypten、TF-Encrypted和MP-SPDZ）的29个常用实现上进行测试，发现其中12个存在数据泄露漏洞，部分可导致原始数据被重构。截至本文撰写时，所有漏洞均获确认，其中两个漏洞已分配CVE编号。据我们所知，这是首个针对MPC实现数据泄露漏洞颁发的CVE编号。</span></span></p><p cid="n355" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c586/26hiV0LzT4k" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c586/26hiV0LzT4k</a></span></span></p><h3 cid="n356" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">175、Is Nobody There? Good! Globally Measuring Connection Tampering without Responsive Endhosts</span></span></h3><p cid="n357" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">已有多种技术被引入以测量网络干扰——即由国家审查机构或企业防火墙实施的流量阻断行为。然而，几乎所有现有测量技术都需要研究目标国内部端点的某种程度参与：包括VPN服务商、云服务提供商或志愿者自愿承担风险在其个人设备上运行测量软件。但在实施连接干扰的国家中，这类端点并非始终可用，导致大量网络无法被测量。本文首次提出了一种无需研究目标国内部参与端点的全球化主动网络干扰测量方法。我们的技术基于两项最新研究进行扩展，通过发送特定数据包序列从境外触发网络干扰，诱使中间设备误判存在连接。所开发的Mint系统对这一原本仅应用于两个国家的方法进行通用化与自动化改造，使其能覆盖全球IPv4和IPv6互联网。借助Mint，我们首次在不依赖任何参与端点的情况下完成全球网络干扰测量，并实现了首个IPv6干扰全面扫描。实验表明，本方法能成功测量以往技术无法覆盖的网络、自治系统乃至整个国家。我们还通过多个案例研究，展示了该工具如何助力开展新型网络干扰测量研究。</span></span></p><p cid="n358" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b344/26hiUgw654A" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b344/26hiUgw654A</a></span></span></p><h3 cid="n359" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">176、JesseQ: Efficient Zero-Knowledge Proofs for Circuits over Any Field</span></span></h3><p cid="n360" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">向量不经意线性求值（VOLE）协议的最新进展实现了恒定轮次、快速且可扩展的（指定验证者）零知识证明，大幅降低了证明者的计算开销。现有协议如QuickSilver [CCS&#39;21]和LPZKv2 [CCS&#39;22]在布尔电路中每个AND门需消耗扩展域的4次乘法运算（其中一次乘法需执行O(κ log κ)位操作，安全参数κ=128），在大域算术电路中每个乘法门需3-4次域乘法运算。我们提出JesseQ协议套件，包含JQv1和JQv2两个VOLE协议，实现了技术突破：JQv1在布尔电路中每个AND门仅需扩展域的2次标量乘法（其中一次标量运算为O(κ)位操作），在大域算术电路中每个乘法门仅需2次域乘法；通信开销方面，JQv1每个门仅需1个域元素。JQv2通过将证明者计算量翻倍，进一步将通信开销减半。实验表明，在布尔电路在线阶段，JQv1和JQv2较现有技术至少提升3.9倍；在大域电路上，JQv1性能相当，JQv2提升1.3倍，两者通信成本与现有最优方案持平。值得注意的是，在最廉价的AWS实例上，JQv1仅需1美元即可证明9.2万亿个AND门（或61位域上的5.8万亿个乘法门）。JesseQ在内积计算、矩阵乘法和格问题等场景表现卓越，较QuickSilver性能提升40%-200%。该协议还可无缝集成亚线性批处理框架Batchman [CCS&#39;23]，为批量析取语句提供额外效率增益。</span></span></p><p cid="n361" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d161/26hiVlCOlGg" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d161/26hiVlCOlGg</a></span></span></p><h3 cid="n368" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">177、Let&#39;s Get Visual - Testing Visual Analogies and Metaphors for Conveying Privacy Policies and Data Handling Information</span></span></h3><p cid="n369" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着欧盟《通用数据保护条例》（GDPR）及相关法规的实施，隐私相关决策（如对数据处理实践做出知情同意）的责任主要落在用户身上。然而，当前冗长的隐私政策和常具误导性的Cookie通知很少能促成真正的知情同意。现有关于隐私图标或结构化隐私政策的研究旨在提升用户理解，但效果参差不齐。为此，我们通过一项N=379参与者的组间对照实验，探索了将隐私信息嵌入视觉隐喻与类比的潜力，以支持知情决策。此外，我们还探究了动态反馈是否有助于用户理解其决策的影响。结果显示，尽管视觉与文本信息及反馈均能帮助用户理解数据处理实践并与个人偏好保持一致（各实验条件间无显著差异），但用户认为可视化形式比文本更合适且更具美感。这表明利用视觉情境增强知情同意不仅适用于现有Cookie通知，在隐私助手等新兴工具或隐私增强技术中同样具有潜力。未来研究应比较当前部署方案的差异，并探索设计变体的美感感知对用户理解与决策的影响。</span></span></p><p cid="n370" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c117/26hiUJ8sD9S" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c117/26hiUJ8sD9S</a></span></span></p><h3 cid="n371" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">178、Liquefaction: Privately Liquefying Blockchain Assets</span></span></h3><p cid="n372" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">加密货币系统及其安全模型的核心假设在于私钥（即资产）由个人或单一实体掌控。本文提出&#34;液化&#34;钱包平台，通过系统性打破这一基础假设，揭示了其危险的脆弱性。液化平台利用可信执行环境（TEE）对私钥施加使用约束——即为私钥操作附加丰富的多用户策略，使得单个终端用户地址的数字货币凭证与资产能够被自由出租、共享或汇集，且整个过程不会在链上留下直接痕迹。该研究揭示了基于TEE的密钥约束机制对加密货币生态的深远影响：液化平台能在无链上痕迹、链外可视性极低的情况下，破坏锁仓代币、DAO投票、空投、忠诚度积分、灵魂绑定代币及二次方投票等众多应用场景的安全与经济模型。同时，我们也探讨了该技术的积极应用，如隐私保护型高性价比DAO及粉尘攻击对策。值得注意的是，我们介绍了一款现有基于TEE的工具，应用程序可借此防御液化攻击。本研究促使人们从根本上重新思考加密货币生态中现有模型及密钥资产所有权的执行机制。</span></span></p><p cid="n373" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b437/26hiUjFXiP6" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b437/26hiUjFXiP6</a></span></span></p><h3 cid="n374" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">179、Lombard-VLD: Voice Liveness Detection based on Human Auditory Feedback</span></span></h3><p cid="n375" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">语音活体检测（VLD）旨在通过判别语音来自真实说话者还是扬声器，以保护说话人认证系统免受语音欺骗攻击。现有方法主要关注信号层面的差异。本文提出首个基于人类听觉反馈机制（即隆巴德效应）的VLD方法Lombard-VLD，其核心思想是：真实说话者在噪声环境下会无意识地生理性调节发声模式，而扬声器则无法实现。我们设计了基于参考的双输入模式和差分SE-ResBlock模块，用于建模隆巴德效应引发的声学差异。实验表明，Lombard-VLD在两个数据集上分别实现0%和0.24%的等错误率，性能超越现有最优方法。该方法对距离、说话者姿态和环境噪声等多种干扰因素具有强鲁棒性，平均准确率达98.51%以上，对未知说话者、性别及数据集的泛化能力优异，等错误率分别低于2.68%、3.44%和7.32%。本研究揭示了隆巴德效应在VLD任务中的优势——用户限制更少且检测性能更佳。</span></span></p><p cid="n376" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d971/26hiVTeRgFW" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d971/26hiVTeRgFW</a></span></span></p><h3 cid="n377" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">180、Low-cost and Robust Global Time Synchronization</span></span></h3><p cid="n378" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">众多关键应用依赖于精确的时间同步，一旦同步中断便可能引发严重的安全后果。然而，在地理分散的设备间建立经济高效且鲁棒的时间同步机制具有挑战性。现有全球时间同步方案多要求信任单一实体或系统（例如全球导航卫星系统GNSS或租赁基础设施提供商），这既构成单点故障，又往往成本高昂。另一种经济可行的方案是通过互联网进行时间同步，但该方案面临三重挑战：（1）实现高精度时间同步；（2）对故障节点、配置错误节点或受入侵节点保持鲁棒性；（3）对抗拥塞相关问题（如流量型DDoS攻击）的鲁棒性。现有研究主要聚焦前两项挑战，但均未解决拥塞和DDoS攻击问题。我们通过Everdeen系统解决了上述挑战。该系统通过利用现有互联网基础设施降低成本，并采用节点间相互同步机制避免依赖单一实体。Everdeen的核心创新是其加权邻居同步（WNB）模式，参与者仅与直接相邻节点进行同步。实验表明：相比现有方案，Everdeen能以更低通信开销提供更优的时间同步质量，对故障/配置错误/受入侵节点具有显著更强的鲁棒性。最重要的是，我们通过实验验证了Everdeen保护的时间同步流量在网络拥塞（包括流量型DDoS攻击）下仍能保持不受影响。</span></span></p><p cid="n379" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b797/26hiUxNmdY4" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b797/26hiUxNmdY4</a></span></span></p><p><span leaf=""><br/></span></p><p style="display: none;"><mp-style-type data-value="3"></mp-style-type></p>



<p><a href="2247485972">阅读原文</a></p>
<p><a href="https://wechat2rss.xlab.app/link-proxy/?k=ea3b6920&amp;r=1&amp;u=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU0MzgzNTU0Mw%3D%3D%26mid%3D2247485972%26idx%3D1%26sn%3D4fdd65f48815b512a83d6bc087cc5989">跳转微信打开</a></p>
]]></content:encoded>
      <pubDate>Tue, 10 Jun 2025 22:39:00 +0800</pubDate>
    </item>
    <item>
      <title>网络安全顶会——SP 2025 论文清单与摘要（中）</title>
      <link>https://mp.weixin.qq.com/s?__biz=MzU0MzgzNTU0Mw==&amp;mid=2247485970&amp;idx=1&amp;sn=abe8fcc59c58b9e0dbbeba6dccb067c2</link>
      <description>SP 2025 论文 cycle 2的论文清单补上</description>
      <content:encoded><![CDATA[<p>
<span>漏洞战争</span> <span>2025-06-07 22:25</span> <span style="display: inline-block;">广东</span>
</p>

<p>SP 2025 论文 cycle 2的论文清单补上</p>
<p></p>



<p>
<img src="https://wechat2rss.xlab.app/img-proxy/?k=68ffba2b&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdXDTLj7fquKwYll6jFmqmCV9iaIaEkU6zauopBQaicnFUdj3bFgMrWNKu93sC4Kwyia6xDadBrmibIyRA%2F0%3Fwx_fmt%3Djpeg"/>
</p>


<p><span leaf="">上一篇 <a class="normal_text_link" target="_blank" style="" href="https://mp.weixin.qq.com/s?__biz=MzU0MzgzNTU0Mw==&amp;mid=2247485954&amp;idx=1&amp;sn=d361d90c096adcfc889b969fb4614c84&amp;scene=21#wechat_redirect" textvalue="网络安全顶会——SP 2025 论文清单与摘要" data-itemshowtype="0" linktype="text" data-linktype="2">网络安全顶会——SP 2025 论文清单与摘要</a> 只有cycle 1的论文，另一半的遗漏了（感谢网友_JIER提醒），在公众号一篇限制5万字，所有论文的摘要加起来超过了，因此只能分篇。</span></p><h3 cid="n0" mdtype="heading" style="box-sizing: border-box;" data-pm-slice="0 0 []"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">105、&#34;We can’t allow IoT vendors to pass off all such liability to the consumer&#34;: Investigating the U.S. Legal Perspectives on Liability for IoT Product Security</span></span></h3><p cid="n2" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着物联网（IoT）监管环境的发展，厂商正逐步推进产品的安全认证。因此，我们需要明确当认证失效导致损害时（即已认证产品存在漏洞并被利用，从而对用户造成伤害）的责任归属问题。本文探讨了一个具有基础性与时效性、且对认证产品漏洞检测具有重大意义的核心问题：谁应对认证产品漏洞引发的损害承担法律责任，以及谁应当承担此类责任？通过对20家物联网厂商合同文件的定性分析，本文研究了当前厂商与用户合同条款中的责任界定方式，并进一步结合对18位法律专业人士的专家调研，探究其在此背景下的责任认定观点。我们的分析得出14项关键发现（F1-F14），揭示了厂商如何通过（有时不合法的）免责条款最大限度规避责任，以及法律专家的观点与律师起草的合同条款之间存在的显著反差。最终，我们将研究发现归纳为三大核心主题，呼吁建立强健且清晰的责任框架，以此激励物联网厂商确保其产品符合适当的安全与隐私标准。</span></span></p><p cid="n3" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d452/26hiVwhU7Cw" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d452/26hiVwhU7Cw</a></span></span></p><h3 cid="n12" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">106、(Blind) Users Really Do Heed Aural Telephone Scam Warnings</span></span></h3><p cid="n13" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文报告了一项研究，探讨了两组人群——法定盲人（36名）与视力正常者（36名）——在自然情境下对电话诈骗语音警告的反应。由于伪造来电显示轻而易举，通过传达来电背景信息来警示接听者潜在诈骗风险成为更有效的防范方式。传统警告通常以视觉形式呈现，无法满足视障用户需求。为解决这一缺陷，我们开发了语音版电话诈骗警告，并在三种条件下进行测试：无警告（基线组）、简短警告组以及包含诈骗内容前导信息的场景化警告组。我们通过陌生来电模拟两种最常见诈骗场景（利率优惠欺诈与社会安全号盗用），记录参与者行为，事后进行回访并获取知情同意。仅有两名参与者按照诈骗要求&#34;按1键&#34;，均为接收社会安全号场景化警告的法定盲人组。深入调查发现，其中一人因屏幕阅读器无障碍功能问题误操作，另一人则因警告内容使其决定故意拖延骗子时间以保护弱势群体。盲人与视力正常参与者均认为场景化警告是高效的安全提示手段，若与&#34;疑似诈骗&#34;等STIR/SHAKEN标识结合，可形成针对各类诈骗的强效防护。研究还探讨了场景化警告潜在的隐私影响，并收集了关于无障碍实施方案的建议。</span></span></p><p cid="n14" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a074/26hiTtU9fXy" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a074/26hiTtU9fXy</a></span></span></p><h3 cid="n15" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">107、403 Forbidden? Ethically Evaluating Broken Access Control in the Wild</span></span></h3><p cid="n16" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">根据OWASP十大安全风险榜单，访问控制缺陷是当前Web应用中最普遍存在的漏洞。由于访问控制(AC)机制在服务端实现，而研究人员无法获取线上系统的代码，这限制了对实际环境中AC缺陷的研究。虽然已有研究在可控环境下部署的开源应用中发现了相关漏洞，但出于保护用户数据隐私的伦理和法律考量，该问题尚未在真实网络环境中进行过研究。我们提出了变量交换框架(VSF)——首个符合伦理规范、可规模化检测真实环境中AC缺陷的黑盒测试框架。该框架基于我们开展的深度伦理影响分析与风险收益评估，通过为每个目标站点创建两个测试账户并交换其身份标识，尝试用其中一个账户访问另一个账户的资源。在成功测试的100个Web应用中，共发现584个潜在AC敏感端点，其中7个站点的19个端点存在可被利用的漏洞，我们已对这些漏洞进行了负责任的披露。</span></span></p><p cid="n17" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d218/26EkGMYvSso" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d218/26EkGMYvSso</a></span></span></p><h3 cid="n18" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">108、A Big Step Forward? A User-Centric Examination of iOS App Privacy Report and Enhancements</span></span></h3><p cid="n19" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">移动应用的广泛使用凸显了理解其数据实践的重要性。在此背景下，透明度发挥着关键作用，确保用户在数据访问发生前知情并同意。苹果公司自iOS 15.2起推出新功能&#34;应用隐私报告&#34;，向用户展示应用数据访问与共享的详细情况。该功能延续了苹果以隐私为核心的创新趋势（继&#34;隐私营养标签&#34;之后），并被宣传为用户隐私领域的重大进步。然而，其对用户隐私和控制的实际影响尚未得到验证。为此，我们开展了一项端到端研究：系统评估应用隐私报告的实际效益与局限，结合大语言模型与多技术协同的增强方案，并从系统和用户双视角进行全面评估。通过对12名普通iOS用户开展结构化焦点小组研究，我们探究了其使用体验、理解认知，发现该功能因缺失关键细节导致实际影响有限。研究揭示两大核心用户关切：数据访问目的明确性与域名描述清晰度。针对这些问题，我们提出了包含目的推理框架和域名解析流程的增强方案，并验证了这些改进对移动应用用户的有效性与益处。本研究为提升用户隐私透明度提供了实践启示，并探讨了未来研究方向。</span></span></p><p cid="n20" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d878/26hiVNNmd1e" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d878/26hiVNNmd1e</a></span></span></p><h3 cid="n21" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">109、A Composability Analysis Framework for Web3 Wallet Recovery Mechanisms</span></span></h3><p cid="n22" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">现代Web3钱包提供混合恢复方案，通过结合多种密钥恢复方法来平衡安全性、可用性与易用性。这些方法包括钱包私钥的秘密共享、加密云存储以及基于智能合约的高级恢复功能。然109，这种组合方案可能引入独立恢复方案中不存在的新型攻击向量。本研究提出一个针对具备密钥或资产恢复功能的区块链/Web3钱包设计的正式安全分析框架。为评估钱包设计是否安全，我们的框架综合考虑以下因素：用户可用性及对恶意行为的响应能力、与外部方的共同托管关系、钱包管理的资产总价值，以及用户选择的用于支持支出或恢复功能的实体声誉。通过概率模型检测，该框架能识别钱包设计保持安全性的边界条件。我们还提供了两个采用复合恢复机制的Web3钱包设计案例（灵感源自现有方案），以验证框架的有效性。</span></span></p><p cid="n23" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b475/26hiUkWiAIU" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b475/26hiUkWiAIU</a></span></span></p><h3 cid="n30" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">110、A Wall Behind A Wall: Emerging Regional Censorship in China</span></span></h3><p cid="n31" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">长期以来，中国通过相对集中的政策和统一实施的网络审查机制——即&#34;国家防火墙&#34;（GFW）——来管控互联网。然而自2023年8月起，多方迹象表明河南省部署了区域性审查系统。本研究对河南省省级网络审查进行特征分析，并与国家级GFW进行对比。我们发现河南建立了基于TLS SNI和HTTP Host的审查机制，对出省流量实施检测拦截。尽管&#34;河南防火墙&#34;技术复杂度较低，对抗常规网络波动的稳定性较弱，但其对二级域名采取的不稳定激进拦截策略，曾导致其封禁网站数量一度达到GFW的十倍。基于观测到的协议解析漏洞和注入行为，我们提出几种简单的客户端方法可绕过该省审查。本研究记录了中国出现区域性审查这一值得警惕的新动向。</span></span></p><p cid="n32" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b307/26hiUf1hfxu" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b307/26hiUf1hfxu</a></span></span></p><h3 cid="n33" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">111、ALPACA: Anonymous Blocklisting with Constant-Sized Updatable Proofs</span></span></h3><p cid="n34" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，在线匿名性日益重要，但由于匿名空间内容审核的挑战，这一特性正面临威胁。一种名为匿名屏蔽列表的密码学解决方案展现出前景，它允许用户匿名发帖的同时支持内容审核。该机制的核心在于要求用户发布消息时附加密码学证明，证实其未创作过屏蔽列表中的任何内容。然而现有匿名屏蔽方案在应对大规模屏蔽列表时，其性能仍远未达到实用水平——这主要源于所有现有方案都要求用户对屏蔽条目进行多次（密码学）重复处理，进而导致验证时间与证明体量居高不下。</span></span></p><p cid="n35" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出ALPACA系统，首次实现用户对每个屏蔽条目仅需执行恒定计算量的匿名屏蔽方案，从而达成渐进最优性能。本方案同时开创性地使验证时间与证明体量完全独立于屏蔽条目数量。关键技术在于设计了一种新型增量可验证计算（IVC）变体，专门用于保障匿名性。在此过程中，我们建立了新的安全定义以形式化论证安全性。实验表明：在中端笔记本电脑上，ALPACA的证明生成时间恒定为6.15秒，证明体积恒为25.6KB；在服务器端验证时间恒定为400毫秒。</span></span></p><p cid="n36" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d123/26hiVkpj356" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d123/26hiVkpj356</a></span></span></p><h3 cid="n37" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">112、AccuRevoke: Enhancing Certificate Revocation with Distributed Cryptographic Accumulators</span></span></h3><p cid="n38" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">证书撤销对于维护公钥基础设施（PKI）的安全至关重要，它能确保及时废止已泄露或不可信的证书。传统撤销机制如证书撤销列表（CRL）和在线证书状态协议（OCSP）面临重大挑战，包括可扩展性问题、高带宽消耗、隐私隐患，以及依赖可能成为单点故障的集中式基础设施。本文提出AccuRevoke——一种基于密码累加器与边缘计算的新型撤销方案，能有效应对这些挑战。该方案使客户端无需每次验证都直接联系证书颁发机构（CA），即可高效核验证书撤销状态。通过分布式累加器与阈值密码学技术，AccuRevoke确保即使由第三方边缘计算提供商（ECP）生成响应，撤销信息的真实性与完整性仍能得到保障。本方案提供极简撤销证明（成员证明约21字节，非成员证明约61字节），较传统OCSP响应大幅缩减带宽消耗。针对非成员见证生成等性能瓶颈，我们采用GPU加速显著提升处理效率。与现有撤销机制对比实验表明，AccuRevoke在带宽效率、可靠性、可审计性及隐私增强潜力方面均具优势。评估显示该方案为TLS/PKI部署提供了可扩展的实用化撤销检查方案，能同时提升安全性与性能。我们将开源设计与实现以促进应用并推动该领域深入研究。</span></span></p><p cid="n39" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a627/26hiTQkK8bC" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a627/26hiTQkK8bC</a></span></span></p><h3 cid="n43" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">113、Alleviating the Fear of Losing Alignment in LLM Fine-tuning</span></span></h3><p cid="n44" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLM）已展现出理解复杂语境和执行多样化任务的革命性能力。然而，LLM也可能回答不道德或有害的问题，引发对其应用场景的担忧。为规范LLM对此类问题的响应，一种称为&#34;对齐&#34;的训练策略可发挥作用。但当下游任务微调LLM时，对齐可能意外失效。本文聚焦于恢复微调过程中丢失的对齐属性。  </span></span></p><p cid="n45" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们发现已对齐的LLM内存在两个固有方向：对齐方向与有害方向。LLM倾向于沿对齐方向回答问题，同时拒绝有害方向的查询。因此，我们提出恢复微调模型中受损的有害方向判断能力。具体而言，通过梯度下降从原始对齐模型中还原微调模型的部分权重参数子集，并引入回滚机制以避免激进恢复，保持下游任务性能。  </span></span></p><p cid="n46" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在125个微调LLM上的实验表明，本方法能将有害率（回答有害问题的百分比）从33.25%降至1.74%，且基本不影响任务表现。相比之下，现有方法要么仅有限降低有害率，要么严重损害模型正常功能。</span></span></p><p cid="n47" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c004/26hiUFlZXIA" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c004/26hiUFlZXIA</a></span></span></p><h3 cid="n48" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">114、An Attack on TON’s ADNL Secure Channel Protocol</span></span></h3><p cid="n49" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们针对开放网络（TON，当前市值排名第十的区块链）中使用的抽象数据报网络层（ADNL）协议提出了一种攻击方法。在TCP变体中，ADNL负责保障客户端与轻量服务器节点（liteservers）之间的通信安全，这些节点专门提供区块链数据访问服务。我们发现该协议存在两处密码学设计缺陷：允许会话密钥重放的握手过程，以及一种非标准完整性机制——其安全性高度依赖消息保密性。通过利用ADNL协议中允许跨重放会话进行消息重排序的两种通信模式，我们将这些漏洞转化为高效的明文恢复攻击。随后针对该场景构建明文模型，设计出仅需少量已知明文和数次会话重放即可恢复密钥流的算法。实验表明：攻击者只需拦截轻量服务器与广泛部署的ADNL客户端之间的通信，并向服务器发起八次连接重放，即可破解用于加密服务器响应的密钥流。此举能解密敏感数据（如账户余额和用户行为模式），还能篡改服务器响应以操控客户端显示的区块链信息（包括账户余额和资产价格）。</span></span></p><p cid="n50" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b854/26hiUzMy8q4" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b854/26hiUzMy8q4</a></span></span></p><h3 cid="n51" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">115、An Attack-Agnostic Defense Framework Against Manipulation Attacks under Local Differential Privacy</span></span></h3><p cid="n52" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">保护本地差分隐私（LDP）协议免受操纵攻击是一个重要且具有挑战性的问题。我们希望设计一种与攻击无关的框架，该框架不依赖于任何攻击者知识。早期研究通过将每个样本转换为二进制信号来限制攻击者能力，但信号压缩会导致严重的信息损失，从而造成不必要的效用牺牲，尤其在ε&gt;1时更为明显。本文提出了一种通用估计框架RobustLDP，用于实现LDP下的鲁棒估计。其核心思想是向所有用户发送精心设计的预定义信息，然后在服务器端聚合反馈结果。我们在保留信息与限制攻击者能力之间实现了更好的平衡。针对l1和l2支持域下的频率估计与均值估计任务，我们实现了RobustLDP的具体方案，这些方案可作为更高级任务的构建模块。同时，我们为所有可能的攻击建立了理论保证。结果表明，当ε&gt;1时，我们的方法显著优于现有方案。在多个真实数据集上的大量实验验证了该方法的有效性。</span></span></p><p cid="n53" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d858/26EkHbq0fUQ" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d858/26EkHbq0fUQ</a></span></span></p><h3 cid="n54" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">116、Analyzing Ad Prevalence, Characteristics, and Compliance in Alexa Skills</span></span></h3><p cid="n55" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着亚马逊Alexa等智能语音助手的快速普及，以及基于大语言模型的助手带来的增长潜力，加之Alexa平台内部引入“广告标识符”，广告内容在该类平台上的广泛传播已成必然（若尚未如此）。尽管Alexa允许第三方开发者在语音应用（即“技能”）中嵌入广告，并通过广告标识符实现精准投放，但其广告政策明确规定除非特定情况，否则禁止在技能响应、通知或提醒中插入广告。然而，目前尚不清楚所有开发者是否遵守这些政策，或是否存在试图绕过审核机制发布违规广告的行为。本文首次对Alexa平台广告生态开展大规模分析，研究广告渗透率、特征及其对平台政策的遵循情况。我们提出一种基于微调大语言模型（LLM）的自动化广告检测方法，准确率达88.92%；通过思维链（CoT）提示技术，对潜在违规广告的识别准确率提升至94.52%。通过对45,477个Alexa技能的分析，我们发现13.58%包含广告或推广内容，主题涉及旅游、娱乐等领域。值得注意的是，部分广告来自亚马逊合作机构（如&#34;Vixen Labs&#34;）开发的技能，另一些则由专注语音助手平台的机构（如Skilled Creative）生成。我们的模型识别出约29.18%的广告可能存在政策违规。相关发现已提交亚马逊并获得漏洞赏金。该系统能自动标记潜在广告违规行为以强化平台审核，同时证明微调后的大语言模型可有效支持语音平台的政策监管。</span></span></p><p cid="n56" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e321/26EkHw2tzLq" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e321/26EkHw2tzLq</a></span></span></p><h3 cid="n86" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">117、BaseBridge: Bridging the Gap between Emulation and Over-The-Air Testing for Cellular Baseband Firmware</span></span></h3><p cid="n87" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">当前蜂窝基带仿真方法的固有缺陷使其难以媲美空中测试，主要原因在于对现代基带复杂外设（如数字信号处理器、SIM卡及射频前端）的支持不足。提升此类支持是一项艰巨任务，需耗费大量时间进行深度逆向工程，导致进展缓慢。因此，模糊测试等技术仅能发现相对浅层的漏洞，因其无法触达基带核心功能所需的状态。为填补这一空白，我们提出BaseBridge系统，通过从真实设备内存转储中恢复关键状态，实现了更全面的基带行为仿真。原型系统支持联发科与三星两大厂商的基带固件，相较现有最优仿真器，能正确响应97%的测试用例（RRC/NAS协议消息），并将代码覆盖率平均提升2.41倍（三星）和5.54倍（联发科）。该系统还通过了多项LTE一致性测试。实证研究表明，仿真可扩展性带来的高保真度能加速发现更广泛的漏洞：模糊测试显示总体覆盖率提升2.3-5倍，针对特定功能的覆盖率更提升9.0-22.5倍。BaseBridge已发现5个新漏洞并提交给相关厂商。</span></span></p><p cid="n88" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b101/26EkFnSdkOY" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b101/26EkFnSdkOY</a></span></span></p><h3 cid="n92" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">118、Beyond the Horizon: Uncovering Hosts and Services Behind Misconfigured Firewalls</span></span></h3><p cid="n93" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">公共IP地址可能使设备和服务面临端口扫描及后续网络攻击等风险。因此，防火墙被广泛部署，在强制执行安全策略和防止未授权访问方面发挥着关键作用。然而，漏洞可能导致防火墙被绕过，使防护措施完全失效。本文首次对先前研究不足的攻击面进行全面研究：即防火墙配置错误导致受保护服务意外暴露在公共互联网中。具体而言，我们展示了存在缺陷的防火墙规则——这些规则允许来自特殊源端口的入站连接绕过防火墙，并探讨了其普遍性和安全隐患。为此，我们从两个特殊源端口对IPv4地址空间中15种常见高风险TCP和UDP服务进行扫描。测量结果表明此类错误配置广泛存在，共发现分布在15,837个自治系统中的超200万个原本不可达的服务，使多种协议的&#34;可观测互联网&#34;范围最高扩大12.60%。更重要的是，受影响服务通常比公开可访问服务表现出更高的安全风险，例如软件版本过时和配置薄弱。尽管该漏洞危害严重，但我们的蜜罐实验未发现野外主动利用的确凿证据。本研究为提升安全态势和网络管理提供了新见解，可帮助研究人员和组织预判并缓解源自互联网的潜在网络威胁。</span></span></p><p cid="n94" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b677/26hiUt5QbnO" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b677/26hiUt5QbnO</a></span></span></p><h3 cid="n101" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">119、BridgeRouter: Automated Capability Upgrading of Out-Of-Bounds Write Vulnerabilities to Arbitrary Memory Write Primitives in the Linux Kernel</span></span></h3><p cid="n102" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">内存破坏漏洞对Linux内核构成重大威胁，其中越界（OOB）漏洞因其普遍性受到特别关注。现有内核OOB利用技术要么需要漏洞本身具备强能力，要么要求漏洞对象与受害对象位于同一内存分配器缓存中，或依赖大量页表操作。这些限制降低了完整利用链的成功率，并制约了其适用性。本文提出一种实用方法，能在有限能力下通过内核OOB漏洞实现任意内存写入。我们利用两种特殊内核对象，将不可控覆盖升级为可控覆盖，最终达成任意内存写入目标。开发了自动化系统来识别并运用这两类内核对象。通过对定制漏洞和14个典型真实漏洞的评估，以及与两种前沿工作的对比，验证了本方法的广泛适用性。</span></span></p><p cid="n103" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a772/26hiTVABDvG" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a772/26hiTVABDvG</a></span></span></p><h3 cid="n104" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">120、CHIMERA: Fuzzing P4 Network Infrastructure for Multi-Plane Bug Detection and Vulnerability Discovery</span></span></h3><p cid="n105" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">可编程网络数据平面（如P4）为定义网络转发行为提供了灵活性。然而这种可编程性也引入了新的攻击面，可能引发程序缺陷与安全漏洞。当前大多数P4安全研究仅聚焦数据平面，忽视了与控制平面的协同问题。我们通过分析开源P4实现中跨控制平面与数据平面的历史缺陷报告，发现许多P4网络漏洞源于双平面间的交互作用。为此我们提出CHIMERA——首个针对需要多平面输入/影响的缺陷的综合性P4模糊测试框架。与现有仅针对单一平面的网络模糊测试工具不同，CHIMERA采用混合执行技术捕获控制-数据平面交互，并创新性地提出两种跨平面及P4程序的输入变异策略：解析感知型数据包变异（PAPM）和头部引导型规则生成（HGRG）。在ONOS、Stratum和BMv2平台上的实验表明，CHIMERA共发现7个新漏洞（含3个高危漏洞、2个需多平面输入触发的缺陷及2个跨平面缺陷），其覆盖率与漏洞检出率分别达到当前最优单平面模糊测试工具的3.5倍。</span></span></p><p cid="n106" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c865/26hiVb0gXUA" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c865/26hiVb0gXUA</a></span></span></p><h3 cid="n113" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">121、CODEBREAKER: Dynamic Extraction Attacks on Code Language Models</span></span></h3><p cid="n114" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着基于大语言模型（LLM）的代码助手被快速采用以提升编程体验，针对私有训练数据提取攻击的担忧也日益加剧。这类攻击专门旨在提取代码生成模型（CodeLLM）训练数据中嵌入的个人信息（PI）。现有方法通过人工或半自动化技术，已成功从这些CodeLLM中提取出敏感数据。然而，当前提取攻击获取的数据量有限，可能严重低估训练数据泄露的真实程度。本文提出了一种针对基于LLM的代码助手的自动化PI数据提取攻击框架CODEBREAKER。该框架基于两个核心组件构建：（i）引入语义熵，用于评估提示触发模型返回训练数据的可能性；（ii）自动化动态变异机制，该机制与CODEBREAKER无缝集成，强化框架内的迭代过程，并促进单个响应中不同PI元素间更强的关联性，从而提升推理多样性、模型记忆能力，最终提高攻击性能。通过使用四个系列的开源CodeLLM（CodeParrot、StarCoder2、Code Llama、CodeGemma）和两款商业代码助手（CodeFuse与GPT），我们验证了所提框架的有效性：（i）CODEBREAKER以6.22%~44.9%（平均21.79%）的优势超越当前所有最先进提取攻击；（ii）当单个响应中的PI源自同一GitHub仓库时，我们的框架——通过考虑响应中的多重关联性——以3.88%~32.37%（平均15.31%）的优势领先其他方法。此外，我们探讨了潜在防御措施，强调亟需在基础模型层面采取更强手段防止PI泄露。</span></span></p><p cid="n115" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a522/26hiTLYepe8" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a522/26hiTLYepe8</a></span></span></p><h3 cid="n116" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">122、COINDEF: A Comprehensive Code Injection Defense for the Electron Framework</span></span></h3><p cid="n117" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着Electron等跨平台框架的日益普及，利用熟悉的Web技术开发桌面应用程序的吸引力愈发凸显。Electron将Web与原生环境融合为单一可执行文件，但这种融合也带来了独特的漏洞，并显著扩大了Electron应用的攻击面，使得传统Web防御机制失效——因为这些机制并非为同时覆盖Web与原生环境而设计。为应对这些挑战，我们提出COINDEF，这是一种通过执行上下文强化抽象语法树（AST）结构完整性的集中式防御机制。COINDEF运行于JavaScript引擎内部，能为Electron应用提供快速、防篡改且全面的代码注入攻击防护。该系统采用混合分析方法收集AST结构特征，建立预期行为基线，随后在代码解释执行时强制实施这些特征规范。通过对20款具有代表性的真实应用进行评估，我们证明COINDEF能有效阻断漏洞利用，仅产生3.96%的启动时运行开销，用户交互阶段的开销则可忽略不计。与现有最先进的Electron应用防御方案相比，COINDEF能通过DOM操作和动态代码执行检测，为复杂代码注入攻击提供全面防护。</span></span></p><p cid="n118" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c904/26hiVcCbLHi" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c904/26hiVcCbLHi</a></span></span></p><h3 cid="n119" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">123、CONnecting The EXtra doTS (CONTEXTS): Correlating External Information about Point of Interest for Attack Investigation</span></span></h3><p cid="n120" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">溯源分析是当前安全分析师调查安全事件的主要手段之一。为帮助分析师处理海量溯源图谱，学界已提出多种剪枝方案。这类方案依赖图论特征、异常检测等技术识别与安全事件无关的节点和边。尽管方法各异，现有方案通常将事件仅视为抽象起点，未深入挖掘其关联信息。然而我们发现，由于安全事件往往关联漏洞利用等外部信息，这种处理方式可能错失剪枝机会——这些外部信息能为高效剪枝提供额外上下文线索。基于此，我们提出CONTEXTS方案，通过利用事件的外部信息增强现有剪枝方法。该方案从外部源提取上下文信息，将其映射至溯源图谱节点，进而关联形成事件相关子图。基于真实攻击的实验表明：作为现有剪枝方案的前置处理器，其能将误报从15万以上降至个位数；作为独立方案，在20次攻击测试中，19次实现100%真正例率，16次将假正例率控制在0.6%以下。用户调研证实其实际价值，94.4%的参与者认可其对攻击调查的辅助作用。</span></span></p><p cid="n121" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a130/26hiTwqPPLa" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a130/26hiTwqPPLa</a></span></span></p><h3 cid="n122" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">124、CamLoPA: A Hidden Wireless Camera Localization Framework via Signal Propagation Path Analysis</span></span></h3><p cid="n123" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">隐蔽无线摄像头构成严重的隐私威胁，亟需有效的检测与定位方法。然而现有定位方案往往需要不切实际的活动空间、昂贵的专用设备或预先采集的训练数据，限制了实际部署。为此，我们提出CamLoPA——一种基于低成本商用现成设备（COTS）、在最小活动空间约束下运行的无训练无线摄像头定位框架。仅需树莓派开发板配合用户45秒的活动，CamLoPA即可完成检测定位。该框架通过分析无线流量与用户运动间的因果关系实现隐蔽摄像头检测，检测成功后采用基于无线信号传播路径分析的新型方位角定位模型：利用用户路径穿越第一菲涅尔区（FFZ）的时间占比确定摄像头方位角，继而通过象限识别精确定位。我们在多设备多环境中验证了CamLoPA的有效性，在显著降低活动空间需求且无需训练的条件下，实现95.37%的偷拍摄像头检测准确率与17.23°的平均定位误差。项目代码及演示见\url{</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/CamLoPA/CamLoPA-Code" target="_blank">https://github.com/CamLoPA/CamLoPA-Code</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">}。</span></span></p><p cid="n124" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d376/26hiVtI5Xoc" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d376/26hiVtI5Xoc</a></span></span></p><h3 cid="n125" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">125、Cauchyproofs: Batch-Updatable Vector Commitment with Easy Aggregation and Application to Stateless Blockchains</span></span></h3><p cid="n126" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">无状态区块链设计通过简洁的全局状态来解决区块链规模增长的挑战。先前研究已开发出支持证明更新与聚合的向量承诺方案作为此类状态载体。然而，为多用户维护证明仍需消耗大量计算资源，特别是在每笔交易时更新证明的场景。本文提出Cauchyproofs——一种支持批量更新的向量承诺方案，使证明服务节点能在与用户数及交易量呈拟线性关系的时间复杂度内高效更新证明。该方案采用优化的KZG框架，将计算复杂度从既有方案的O(|→α|⋅∣∣→β∣∣)降低至O((|→α|+∣∣→β∣∣)log²(|→α|+∣∣→β∣∣))，其中|α|为用户数，|β|为交易量。这一突破显著减轻了证明服务节点的计算负担，使其能在大规模用户群中高效维护证明。实验表明在以太坊级交易吞吐量下，每小时执行批量更新的方案比传统方法快约八倍。此外，我们提出基于柯西矩阵的KZG证明新型矩阵表示法，通过减少椭圆曲线运算实现更快的全量证明计算。最后，我们设计了历史证明查询算法，支持高效回溯性证明生成。这些贡献显著提升了无状态区块链框架中证明服务节点的可扩展性与实用性。</span></span></p><p cid="n127" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b947/26EkFVQ7mPC" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b947/26EkFVQ7mPC</a></span></span></p><h3 cid="n134" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">126、Characterizing the Usability and Usefulness of U.S. Ad Transparency Systems</span></span></h3><p cid="n135" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在线定向广告是指根据兴趣、人口统计特征或行为仅向特定用户展示的广告。由于定向广告引发诸多隐私担忧，许多平台提供了广告透明度系统（ATS）向用户说明这一做法。为理解当前ATS向用户传递的信息及其呈现方式，我们首先对美国地区22个最受欢迎英文网站的ATS设计与内容进行了分类研究。研究发现，不同ATS在透明度增强功能（如是否展示用户画像推断结果）和信息呈现方式（如术语使用、设置入口位置）上存在显著差异。但所有平台均存在对&#34;广告定位使用哪些数据&#34;和&#34;修改设置的实际影响&#34;表述模糊的共性问题。为评估不同设计选择对用户的影响，我们开展了一项在线用户研究：198名参与者使用个人账户探索八个代表性平台之一的ATS。研究发现，参与者希望ATS解答的许多问题在探索后仍无明确答案。更广泛而言，参与者认为现有ATS既复杂又缺乏关键细节。我们最终提炼出最能支持用户的ATS设计决策。</span></span></p><p cid="n136" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b214/26hiUbAFH7a" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b214/26hiUbAFH7a</a></span></span></p><h3 cid="n140" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">127、Click Without Compromise: Online Advertising Measurement via Per User Differential Privacy</span></span></h3><p cid="n141" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在线广告是互联网生态系统的基石，而广告效果衡量对优化效率至关重要。广告衡量需要将用户行为（如购买）归因于跨平台广告曝光，这要求收集用户在各平台的活动数据。随着隐私问题日益受到关注，此类实践面临越来越多限制，保护用户隐私变得势在必行。本研究首次针对广告活动中流式数据实时报告的实际挑战建立模型，提出AdsBPC——一种面向在线广告衡量结果的新型用户级差分隐私保护方案。该方法通过优化全局噪声功率，生成非均匀分布的噪声，在保持差分隐私的同时提升衡量准确性。基于真实广告活动与合成数据集的实验表明，相较于现有流式差分隐私机制，AdsBPC将广告衡量准确度提升了33%至95%。这证明我们的方法能在提供严格隐私保障的同时实现更优的准确性，从而推动隐私保护广告衡量技术的进步。</span></span></p><p cid="n142" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c696/26hiV4Ezkv6" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c696/26hiV4Ezkv6</a></span></span></p><h3 cid="n143" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">128、Clubcards for the WebPKI: smaller certificate revocation tests in theory and practice</span></span></h3><p cid="n144" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">CRLite是一种低带宽、低延迟且保护隐私的证书撤销数据分发机制。该系统通过CRLite聚合器定期将撤销数据编码为紧凑的静态哈希集合（即成员资格测试），供客户端下载并进行隐私查询。我们提出了一种名为clubcard的新型成员资格测试数据结构，并利用Mozilla CRLite基础设施的数据评估了其编码效率。截至2024年11月，WebPKI体系包含超过9亿张有效证书和逾800万张撤销证书。我们实现的CRLite版本将这些证书的撤销状态编码为6.7 MB的数据包，相较2017年IEEE安全与隐私研讨会上提出的初始方案体积缩小54%，比该论文宣称的理论下限还减少21%。通过串联多个clubcard，可对WebPKI撤销集等动态数据集进行编码。基于2024年末数据测算，编码WebPKI六小时增量更新的clubcard平均可压缩至26.8 kB——这一尺寸使CRLite真正具备实用价值。我们已扩展Mozilla的CRLite基础设施以支持clubcard生成，并在Firefox中实现了客户端支持。作为当前Firefox Nightly默认的撤销检查机制，本文汇报了该实现的性能表现，并提出了进一步降低CRLite带宽需求的优化策略。</span></span></p><p cid="n145" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a615/26hiTPD1U9G" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a615/26hiTPD1U9G</a></span></span></p><h3 cid="n146" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">129、CoBBl: Dynamic constraint generation for SNARKs</span></span></h3><p cid="n147" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">通用概率证明系统处理的程序通常表示为算术约束系统——这种表达形式并不友好。现有文献中将更友好的高级程序转换为适合证明系统的约束主要采用两种方法：直接翻译与CPU模拟。直接翻译器将程序编译为高度优化的约束，但这一过程需要穷举程序所有可能路径，导致编译时间与程序运行时长而非代码规模成正比。此外，证明者仍需为所有潜在路径（包括实际未执行的路径）承担计算开销。相比之下，CPU模拟器并不将程序编译为约束，而是在自身由约束构成的CPU模拟器上&#34;执行&#34;以CPU指令表示的程序。这种方式虽避免了路径爆炸问题，却无法实施针对程序特性的深度优化，可能需用数千条约束完成直接翻译仅需少量巧妙约束即可实现的功能。更严重的是，CPU模拟器沿袭了被模拟CPU不切实际的高成本程序状态表示机制。本文提出的CoBBl编译与证明系统融合了两种方法的优势：既能利用程序专属优化，又无需承担冗余状态表示或未执行计算的开销。实验表明，CoBBl在编译时间上以1-30倍优势超越前沿直接翻译器CirC，证明时间领先26-350倍；在与Jolt（先进CPU模拟器）兼容的基准测试中，证明性能提升1.1-1.8倍，在其他测试案例中最高可达100倍。</span></span></p><p cid="n148" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d106/26hiVjK9ddK" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d106/26hiVjK9ddK</a></span></span></p><h3 cid="n149" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">130、Code Speaks Louder: Exploring Security and Privacy Relevant Regional Variations in Mobile Applications</span></span></h3><p cid="n150" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">已知移动应用会针对不同地理区域分发差异化版本，以适应本地法规和市场偏好。尽管现有研究已考察过权限和隐私政策等元数据层面的差异，但针对可能影响安全的代码级地域差异仍缺乏系统性调查。本文首次在代码实现层面对安卓应用的地理特性差异（GFD）展开全面研究。我们开发了FreeLens框架，该创新方案攻克了代码混淆和分析可扩展性等关键技术挑战，能精准识别并刻画跨区域安全相关差异。借助FreeLens，我们对21,120款安卓应用展开大规模研究，这些应用分布于互联网自由度各异的十个国家。研究发现GFD现象普遍存在，广告投放、数据处理和认证机制等方面存在显著差异。这些差异经常破坏安全基线，导致不同区域的隐私保护水平失衡。研究揭示了GFD流行度上升的趋势，凸显了统一隐私与安全标准的紧迫性。基于实证发现，我们为开发者、平台提供商和监管机构提供了可操作的改进建议，以确保用户获得平等保护。</span></span></p><p cid="n151" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d952/26hiVS9iJIA" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d952/26hiVS9iJIA</a></span></span></p><h3 cid="n152" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">131、Comet: Accelerating Private Inference for Large Language Model by Predicting Activation Sparsity</span></span></h3><p cid="n153" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着基于云平台托管的大语言模型（LLM）提供推理服务的广泛应用，敏感信息潜在泄露的隐私问题日益凸显。安全多方计算（MPC）是保护LLM推理隐私的有效方案，但其频繁的服务器间通信会带来高昂性能开销。受LLM普遍存在的激活稀疏性启发（即多数神经元经过非线性激活函数后未被激活），我们提出高效隐私推理系统Comet。该系统通过精准快速的预测器预判激活函数输出的稀疏分布，并创新性地引入一种新型隐私推理协议，利用预测稀疏分布的空间局部性，安全高效地规避零值相关计算。尽管这种计算规避策略会影响KV缓存项的时空连续性，我们通过融合缺失请求与预取机制的低通信开销缓存重填策略解决了这一挑战。最终，我们在四种主流LLM上评估Comet并与六种前沿隐私推理系统对比，实验表明Comet实现了1.87-2.63倍加速和1.94-2.64倍的通信量削减。</span></span></p><p cid="n154" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c604/26hiV1n2WeQ" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c604/26hiV1n2WeQ</a></span></span></p><h3 cid="n155" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">132、Constant latency and finality for dynamically available DAG</span></span></h3><p cid="n156" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于有向无环图（DAG）的协议在提升区块链性能方面展现出巨大潜力。CAP定理表明，在网络分区场景下，单一系统无法同时实现活跃性（即动态可用性）与安全性。本文探索了两种分别优先保障活跃性或安全性的DAG协议：结构化传播协议与分级公共前缀（GCP）协议。针对前者，我们提出了首个具备恒定预期延迟的DAG协议，在睡眠模型下实现高吞吐量的动态可用性。该协议预期延迟为3∆，吞吐量随参与节点数量线性增长。通过在多台机器上运行各协议原型，我们验证了其相对于现有恒定延迟睡眠模型BFT协议的预期性能提升。后者GCP作为一种基础构件，在网络分区时提供弱于标准共识但具备安全性的保障，其构造仅需2轮通信步骤（现有部分同步低延迟BFT协议需4轮）。此外，GCP可轻松规避对单一领导者提案的依赖，从而提升抗崩溃能力。我们也通过实验验证了GCP的这些理论优势。基于这些发现，我们扩展了潮汐框架——该框架通过两种BFT子协议使同一系统中的不同客户端可分别优先选择活跃性或安全性。我们的扩展整合了上述两类DAG协议，形成一种混合型DAG协议，在网络分区时无需像现有方案那样重复运行标准共识协议，即可同时实现高吞吐量、动态可用性及终局性保障。</span></span></p><p cid="n157" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b910/26EkFUoHIRi" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b910/26EkFUoHIRi</a></span></span></p><h3 cid="n161" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">133、CountMamba: A Generalized Website Fingerprinting Attack via Coarse-Grained Representation and Fine-Grained Prediction</span></span></h3><p cid="n162" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Tor是领先的低延迟匿名通信网络，通过随机中继选择等机制广泛用于保护用户隐私。然而，尽管存在这些防御措施，Tor流量仍易受网站指纹识别（WF）攻击的影响——攻击者通过分析侧信道信息（如数据包大小、方向、包间时序）来推断访问的网站。虽然WF攻击在受控环境中显示出高成功率，但其依赖完整且未受干扰的流量，导致其在实际防御机制面前表现脆弱。传统WF方法通常采用机器学习（ML）或深度学习（DL）将数据包序列分类为单标签预测，难以在实际场景中泛化，尤其是在改变数据包模式的防御环境下或需要多标签早期分析的场景中。</span></span></p><p cid="n163" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出CountMamba，一种鲁棒且自适应的WF攻击框架，旨在应对现实防御、早期流量分析和多标签浏览带来的挑战。该框架通过窗口化流量计数矩阵（WTCM）在固定时间间隔内聚合数据包事件，构建抗干扰的粗粒度流量表征，从而抵御防御机制的中度扰动。此外，基于状态空间（SSO）的分类器能从部分流量数据中逐步生成细粒度预测，在保持高攻击精度的同时支持早期阶段和多标签攻击能力。与现有WF方法不同，CountMamba会随新数据到达迭代更新预测，无需完整流量捕获，即使在复杂的多标签环境中也能实现可靠推断。大量实验表明，CountMamba在鲁棒性、早期阶段和多标签场景中均优于最先进的WF攻击方法，凸显了其在Tor网络中实现现实自适应WF分析的适用性。源代码及实验数据详见</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/SJTU-dxw/CountMamba-WF" target="_blank">https://github.com/SJTU-dxw/CountMamba-WF</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n164" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b363/26hiUhap7xK" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b363/26hiUhap7xK</a></span></span></p><h3 cid="n165" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">134、DPolicy: Managing Privacy Risks Across Multiple Releases with Differential Privacy</span></span></h3><p cid="n166" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">差分隐私（DP）已成为一种强大的隐私保护数据发布框架，并已成功应用于多个高知名度案例（如2020年美国人口普查）。然而在组织环境中，DP的应用仍主要局限于孤立的数据发布场景。这种方式限制了DP作为组织级全面隐私风险管理框架的潜力。虽然理论上可以通过DP的组合性质评估多次独立发布的累积隐私风险，但实践中单个DP保证往往针对特定发布定制，导致难以分析其相互作用或综合影响。与此同时，更通用的DP保证虽然便于组合，却因产生过大的隐私预算而仅能提供有限洞见，这些预算的实际意义往往模糊不清。为应对这些局限性，我们提出了DPolicy系统——一个利用DP管理多数据发布场景下累积隐私风险的解决方案。不同于传统孤立处理每次发布或依赖单一（全局）DP保证的方法，我们的系统采用灵活框架同时考虑多个DP保证，以反映真实场景中多样化的上下文与范围。DPolicy通过高级策略语言形式化隐私保证，将传统上隐含的范围与上下文假设显式化。通过从这些高级策略推导执行复杂隐私语义所需的DP保证，DPolicy实现了组织级细粒度隐私风险管理。我们实现了该系统并进行评估，证明其能有效缓解因缺乏组织级全面隐私风险管理而引发的隐私风险。</span></span></p><p cid="n167" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d950/26EkHeURNi8" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d950/26EkHeURNi8</a></span></span></p><h3 cid="n168" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">135、Data to Infinity and Beyond: Examining Data Sharing and Reuse Practices in the Computer Security Community</span></span></h3><p cid="n169" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">分享高质量研究数据以供未来工作重复使用，有助于科学界在现有成果基础上推进研究、探索新问题，同时避免数据收集工作的重复。当前计算机安全领域对研究产物的讨论主要集中在源代码的可复现性和可用性，而数据的可重用性尚不明确。本研究通过分析计算机安全与测量领域的数据共享实践，为可重用数据共享提供资源与建议。我们对2019-2023五年间七个计算机安全与测量顶会的948篇贡献数据集的论文展开研究，重点评估了其中265个可获取数据集的可理解性与重用水平。研究发现，数据共享结构与文档实践存在不一致性，导致部分数据集未能有效共享。此外，数据集重用率较低，在数据特性天然不利于重用的领域尤为明显。基于实证发现，我们提出数据驱动的改进建议与共享资源，并呼吁研究者明确数据共享目标，使共享策略与之相匹配。</span></span></p><p cid="n170" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c455/26hiUWfYZWM" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c455/26hiUWfYZWM</a></span></span></p><h3 cid="n174" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">136、DataSentinel: A Game-Theoretic Detection of Prompt Injection Attacks</span></span></h3><p cid="n175" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">摘要——集成大语言模型（LLM）的应用与智能体易受提示注入攻击，攻击者通过向输入中注入恶意提示以诱导模型输出符合其意图的内容。现有检测方法旨在判断输入是否被注入提示污染，但对最先进攻击的防御效果有限，更难以应对自适应攻击。本研究提出DataSentinel，一种基于博弈论的提示注入攻击检测方法。该方法通过微调LLM来检测经过策略性适配以规避检测的污染输入。我们将此建模为极小极大优化问题，目标是通过微调LLM来检测强自适应攻击。此外，我们提出一种基于梯度的求解方法，通过交替处理内部极大化与外部极小化问题来解决该优化问题。在多个基准数据集和LLM上的评估结果表明，DataSentinel能有效检测现有及自适应的提示注入攻击。代码与数据详见：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/liu00222/Open-Prompt-Injection" target="_blank">https://github.com/liu00222/Open-Prompt-Injection</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n176" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c190/26EkG5ih2qQ" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c190/26EkG5ih2qQ</a></span></span></p><h3 cid="n177" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">137、Decentralization of Ethereum&#39;s Builder Market</span></span></h3><p cid="n178" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">区块链凭借去中心化原则所衍生的强大安全特性，守护着价值超5000亿美元的生态系统。当今的区块链是否真正去中心化？本文通过实证研究以太坊去中心化程度最薄弱的环节之一——构建者市场。该市场旨在公平分配最大可提取价值（MEV）以平衡验证者收益，并防止验证者中心化。然而截至本文撰写时，两家构建者垄断了以太坊85%以上的区块生产，形成令人担忧的中心化格局。尽管普遍观点认为这种中心化&#34;无伤大雅&#34;，声称构建者中心化不会导致验证者中心化，但本研究通过量化中心化构建者市场造成的显著提议者损失，对此观点提出了挑战。若放任这些重大提议者损失，将危及提议者-构建者分离（PBS）机制的设计初衷。更甚者，待采用的MEV缓解方案同样会受到影响——这些方案依赖构建者市场作为&#34;MEV预言机&#34;，而中心化会扭曲其准确性。本研究揭示了当前MEV供应链中的激励机制问题，及其对构建者中心化与提议者损失的影响。最后，我们论证现有缓解方案为何失效，并指出有效解决方案必须具备的两大核心特性。</span></span></p><p cid="n179" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b456/26hiUkhZyfK" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b456/26hiUkhZyfK</a></span></span></p><h3 cid="n180" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">138、Detecting Taint-Style Vulnerabilities in Microservice-Structured Web Applications</span></span></h3><p cid="n181" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">微服务架构因其可扩展性和可维护性优势，正日益成为构建应用程序的热门选择。采用微服务结构的Web应用（简称微服务应用）通过松耦合设计和强制安全隔离机制来增强安全性。然而，本研究揭示微服务应用仍面临最严重的安全威胁之一——污点式漏洞。我们提出新型安全分析方法MScan，可有效检测快速迭代的真实微服务应用中的此类漏洞。该方法包含三阶段：首先通过网关中心化分析识别外部恶意用户可触达的入口点；其次采用创新数据结构&#34;服务依赖图&#34;桥接跨服务通信；最终运用距离导向策略进行选择性上下文敏感污点分析以定位漏洞。通过在25个开源微服务应用及某全球领先金融科技企业的5个工业级应用上验证，MScan成功发现59个高危零日漏洞并完成负责任披露，目前已有31个漏洞获得CVE编号。</span></span></p><p cid="n182" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a934/26hiU1kyCCA" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a934/26hiU1kyCCA</a></span></span></p><h3 cid="n186" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">139、Differentially Private Selection using Smooth Sensitivity</span></span></h3><p cid="n187" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">差分隐私选择机制为基于数据集相关效用函数、从有限集合R中识别最高分元素r的查询提供了强有力的隐私保障。尽管选择查询在数据科学中至关重要，但现有机制鲜能有效确保其隐私性。此外，大多数方法依赖全局敏感度来实现差分隐私（DP），这可能导致噪声过度添加并损害下游推断。为解决这一局限，我们提出平滑噪声最大值（SNM）机制，该机制利用平滑敏感度，相比基于全局敏感度的方法，可证明获得更紧致的（上界）预期误差。实证结果表明，在百分位数选择、贪婪决策树和随机森林三类应用中，SNM机制比当前最先进的差分隐私选择方法具有更高准确性。</span></span></p><p cid="n188" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d637/26hiVCJQVTq" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d637/26hiVCJQVTq</a></span></span></p><h3 cid="n189" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">140、Disassembly as Weighted Interval Scheduling with Learned Weights</span></span></h3><p cid="n190" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">反汇编是多种二进制分析与转换技术（如逆向工程或二进制重写）的首要步骤。当前主流反汇编方法包含三个阶段：探索阶段（对二进制代码进行过近似处理）、分析阶段（为候选指令或基本块分配权重）以及冲突消解阶段（筛选最终指令集）。本文提出一种通用化反汇编算法，可适配多种指令集架构（包括x86、x64、arm32和aarch64）。该算法创新性地将冲突消解转化为加权区间调度问题，并设计了一种权重分配算法，能通过学习自动优化分析阶段各类启发式规则的权重值。实验表明，学习获得的权重在多数情况下优于人工调优结果，同时通过将40%的启发式规则权重置零实现了规则精简。基于Ddisasm构建的实现方案在多项指标上超越现有最优反汇编器，且在全部评测数据集中以显著优势实现了最高比例的完美反汇编二进制文件。</span></span></p><p cid="n191" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c810/26hiV8Wxtny" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c810/26hiV8Wxtny</a></span></span></p><h3 cid="n195" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">141、EUCLEAK</span></span></h3><p cid="n196" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本研究揭露了英飞凌科技（全球领先的安全元件制造商之一）加密库中的一个侧信道漏洞。该漏洞源于非恒定时间的模逆运算，已潜伏14年之久，期间约80次最高级别通用准则认证评估均未发现。攻击者需物理接触安全元件（仅需少量本地电磁侧信道采集，耗时约数分钟）即可提取ECDSA私钥。我们在Yubico的FIDO硬件令牌上实施攻击，成功克隆了该设备。Yubico确认所有固件版本低于5.7的YubiKey 5系列均受影响，事实上所有运行英飞凌加密库的安全微控制器（包括TPM芯片）均存在此漏洞。</span></span></p><p cid="n197" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d694/26hiVFn4hGw" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d694/26hiVFn4hGw</a></span></span></p><h3 cid="n204" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">142、Efficient Storage Integrity in Adversarial Settings</span></span></h3><p cid="n205" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">存储完整性对于使用不可信存储（如公共云、终端用户设备）的系统与应用至关重要。然而，现有的存储完整性保障方法要么存在高昂（甚至难以承受）的性能开销，要么仅能提供薄弱的完整性保障。本研究提出了一种混合式存储完整性方案，在降低开销的同时提供强完整性保证。我们设计的系统——部分异步完整性校验（PAC）允许延迟磁盘写入提交，同时仍确保读取完整性。相比现有最优方案，PAC实现了5.5倍的吞吐量提升与延迟降低，其吞吐量可达无完整性保障方案的85%。由此证明，不可信存储完全能在不显著牺牲性能的前提下，胜任对完整性要求严苛的工作负载。</span></span></p><p cid="n206" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c922/26hiVddndJK" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c922/26hiVddndJK</a></span></span></p><h3 cid="n207" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">143、Empc: Effective Path Prioritization for Symbolic Execution with Path Cover</span></span></h3><p cid="n208" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">符号执行是一种强大的程序分析技术，能够通过形式化方法验证程序行为的正确性并检测软件缺陷。该系统化技术可遍历被测程序的所有执行路径，但存在固有局限：路径爆炸问题。当符号执行遭遇需要推理的路径数量（与程序规模呈指数级增长）激增时，该问题会严重制约技术的可扩展性与性能表现。现有研究采用多种启发式方法对路径进行优先级排序，通过静态规则或启发式策略对指数级路径进行评级，仅探索高优先级路径。然而实践中，这些方法往往难以泛化至多样化程序场景。</span></span></p><p cid="n209" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出基于路径覆盖的新型优先级排序技术Empc，其核心思想在于：并非所有路径都需要符号化推理。与传统方法不同，我们采用最小路径覆盖集（MPC）作为程序代码区域的覆盖基准，并通过计算多个MPC集来增强路径多样性。该方法引导符号执行仅探索多个MPC集中的少量路径，而非指数级路径全集。我们在KLEE框架上实现了Empc，并从代码覆盖率、漏洞发现能力和运行时开销三方面进行全面评估。实验表明：Empc相较KLEE最优搜索策略可多覆盖19.6%基本块，较前沿工作cgs多覆盖24.4%代码行；相比KLEE最优策略多发现24个安全违规案例；同时内存占用最高降低93.5%，符号状态数量最高减少88.6%。</span></span></p><p cid="n210" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c772/26hiV7CvoMU" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c772/26hiV7CvoMU</a></span></span></p><h3 cid="n211" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">144、Eva: Efficient Privacy-Preserving Proof of Authenticity for Lossily Encoded Videos</span></span></h3><p cid="n212" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着虚假视频在信息操纵活动中的日益泛滥，如何在不泄露原始素材的前提下验证编辑视频的来源变得至关重要。本文首次形式化定义了视频真实性证明的概念与安全模型，并提出首个支持有损编解码器与任意编辑操作的密码学视频认证协议Eva，其安全性基于成熟的密码学假设。相较于现有密码学图像认证方案，Eva不仅能处理有损视频编码产生的大规模数据，更在证明者时间复杂度（线性增长）、内存占用（恒定）及证明体积（恒定）等关键指标上实现理论最优——这些突破源于我们在理论层面的两项创新：将查找参数与基于折叠的增量可验证计算（IVC）相结合，以及高效压缩IVC证明，这些创新可能具备独立研究价值。在Eva的实现中，我们通过整合Nova折叠方案（命名为Lova）来应用上述理论。具体性能方面，我们采用定制电路设计与GPU加速等优化手段：针对一段2分钟H.264编码的HD（1280×720@30fps）视频，Eva在消费级硬件上以2.6μs/像素的速度生成448字节证明，耗时约2.4小时，其证明者效率与证明体积均超越现有密码学图像认证方案一个数量级以上。</span></span></p><p cid="n213" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e257/26hiWcyIvAc" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e257/26hiWcyIvAc</a></span></span></p><h3 cid="n217" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">145、EveGuard: Defeating Vibration-based Side-Channel Eavesdropping with Audio Adversarial Perturbations</span></span></h3><p cid="n218" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于振动测量的侧信道构成了严重的隐私威胁，这些技术利用毫米波雷达、光线传感器和加速度计等传感器捕捉声源或邻近物体产生的振动，从而实现语音窃听。尽管已有多种防御方案被提出，但它们通常依赖成本高昂的硬件解决方案且存在固有物理限制。本文提出EveGuard——一种纯软件驱动的防御框架，通过生成对抗性音频在不影响人耳感知的前提下保护语音隐私免受侧信道攻击。我们利用侧信道与传统麦克风在传感机制上的本质差异：侧信道捕获物体振动信号，而麦克风记录空气压力变化，二者具有不同的频率响应特性。EveGuard首先设计扰动生成模型（PGM），该模型能有效抑制基于传感器的窃听行为，同时保持音频的高保真度；其次为实现PGM的端到端训练，我们提出名为Eve-GAN的新型域转换任务，用于从给定音频推断可能被窃听的信号。我们进一步采用小样本学习技术以降低Eve-GAN训练所需的数据收集开销。大量实验表明，EveGuard对音频分类器的防护率达到97%以上，并能显著阻碍窃听音频的重建。我们还针对三种自适应攻击机制验证了EveGuard的防护性能，并通过用户研究证实了扰动音频的感知质量。</span></span></p><p cid="n219" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e183/26hiW8J8fIc" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e183/26hiW8J8fIc</a></span></span></p><h3 cid="n220" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">146、EvilHarmony: Stealthy Adversarial Attacks against Black-box Speech Recognition Systems</span></span></h3><p cid="n221" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">自动语音识别（ASR）系统易受对抗样本（AEs）攻击，即在原始音频中添加精心设计的微小扰动，误导系统生成目标指令。现有对抗攻击通常将扰动初始化为零或目标指令的文本转语音片段。前者在扰动音频中累积指令特征，后者则持续削弱指令特征以生成对抗样本。尽管对抗样本中的目标指令大多难以被人耳察觉，但音频常出现明显失真或断续，暴露出篡改痕迹。本研究旨在仅保留对抗音频的核心特征，通过消除非必要元素造成的失真来提升音质并降低攻击可检测性。我们发现共振峰是黑盒对抗攻击的关键特征，据此开发了针对目标指令定制的共振峰滤波器组（FFB）。将音乐音频输入FFB后，利用滤波输出作为扰动种子——该种子既保留目标指令的共振峰特征，又融入原始音乐的某些特征。随后搜索扰动种子的最小增强因子以生成高质量对抗样本。我们的扰动可视为音乐信号的局部幅度调制，故将此类对抗样本命名为EvilHarmony。实验表明，该方法成功攻击了微软、谷歌、亚马逊、腾讯云、阿里云及OpenAI Whisper-V3等商用黑盒ASR模型。相比现有方法，我们的对抗样本隐蔽性显著提升，在六种ASR API服务中，53%至77%的参与者认为其与正常音频无法区分。此外，本方法在真实场景中成功攻击了Google Assistant和Surface Pro 9的语音助手。演示内容详见</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://sites.google.com/view/evilharmony" target="_blank">https://sites.google.com/view/evilharmony</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n222" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e569/26EkHIgVLjO" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e569/26EkHIgVLjO</a></span></span></p><h3 cid="n226" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">147、Extended Diffie-Hellman Encryption for Secure and Efficient Real-Time Beacon Notifications</span></span></h3><p cid="n227" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">每一种涉及通信的计算范式都需要采用密码学的新型安全协议。例如互联网催生了TLS/SSL协议，移动计算催生了端到端加密协议。本文针对一种新兴物联网范式展开研究，该范式涉及附着于物体的信标设备及其配套安全协议。具体而言，我们研究&#34;信标通知问题&#34;——这一关键物联网范式旨在为信标所有者提供安全高效的实时通知。由于该问题尚未被正式定义，我们首先通过分析实际应用场景中的自然需求，借助密码学博弈建立正确性、安全性与隐私性的形式化定义。为解决信标通知问题，我们提出名为XDHIES的新型密码学工具，该工具对现有Diffie-Hellman加密方案进行了显著扩展。随后我们基于XDHIES构建新型通知协议，并通过证明该密码协议具备安全性和隐私性，验证其完全满足上述所有问题需求。</span></span></p><p cid="n228" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e055/26hiVZ3lPRS" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e055/26hiVZ3lPRS</a></span></span></p><h3 cid="n232" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">148、Eyes on Your Typing: Snooping Finger Motions on Virtual Keyboards</span></span></h3><p cid="n233" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">增强现实（AR）与虚拟现实（VR）技术的快速发展，为金融、教育及专业领域用户带来了沉浸式数字体验。在这些场景中，头戴式显示器（HMD）通过头部与手部追踪技术实现用户与虚拟对象的交互。其中，虚拟键盘正逐渐成为核心输入方式——用户可直接用手部动作进行键入，既无需外接设备，又提升了便携式HMD的使用便利性。然而，这种直接手部键入方式引发了新的安全隐患：</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">直接手部键入时产生的细微头部动作可能无意间泄露隐私信息</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。本文提出新型侧信道攻击方法\textsc{SnoopFinger}，该技术利用无需额外权限即可获取的头部运动数据，推测虚拟键盘的输入内容。与现有方法不同，\textsc{SnoopFinger}创新性地采用</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">跨模态</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">分析策略，仅依赖</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">头部</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">运动数据即可推断</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">手部</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">键入内容，且无需控制器参与。此外，本方法无需预先获取受害者或其他用户的大量头部运动数据即可识别输入内容。在24名参与者的实验中，\textsc{SnoopFinger}实现了较高推断准确率：单词推断的平均\textit{Top-1准确率}达55.2\%，句子重构准确率达68.8\%。最后，我们探讨了针对此类攻击的潜在防御策略。本研究揭示了AR/VR环境中直接手部键入行为存在的重大隐私风险，证明了零权限传感器数据如何被恶意利用以窃取敏感信息。</span></span></p><p cid="n234" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d989/26hiVUfSdyg" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d989/26hiVUfSdyg</a></span></span></p><h3 cid="n235" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">149、FairZK: A Scalable System to Prove Machine Learning Fairness in Zero-Knowledge</span></span></h3><p cid="n236" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着机器学习技术的兴起，在关键应用中确保机器学习算法决策的公平性变得至关重要。然而，公平性度量通常需要完全访问模型参数，这会损害模型的机密性。本文提出了一种基于零知识证明的解决方案，使模型所有者能在保护模型机密性的同时向公众证明机器学习模型的公平性。为规避零知识环境下直接证明机器学习推理的效率瓶颈，我们的核心创新是提出了一种仅依赖模型参数和输入聚合信息（而非具体数据集）的公平性度量方法。为实现这一目标，我们针对逻辑回归和深度神经网络模型推导了比现有研究更严格、更能反映公平性的新边界。此外，我们开发了针对公平性度量中常见计算（包括矩阵谱范数、最大值、绝对值和定点运算）的高效零知识证明协议。我们完整实现了FairZK系统，首次在零知识环境下验证机器学习公平性。实验表明，FairZK相较直接验证方法和现有基于零知识推理子程序的方案有显著加速：证明时间随模型和数据集规模实现3.1~1789倍提升，首次支持4700万参数的大规模模型，其公平性证明生成仅需343秒，预估比仅支持数百至数千参数小模型的现有方案快4个数量级。</span></span></p><p cid="n237" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d219/26hiVnyjtrq" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d219/26hiVnyjtrq</a></span></span></p><h3 cid="n247" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">150、From Control to Chaos: A Comprehensive Formal Analysis of 5G’s Access Control</span></span></h3><p cid="n248" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们开发了CoreScan，一个用于分析5G核心网络访问控制机制的综合形式化分析框架。在此过程中，我们构建了首个考虑间接通信模式与5G漫游场景的5G核心网访问控制机制完整形式化模型。给定全局属性时，CoreScan采用基于假设-保证推理的组合验证技术，将系统模型分解为多个独立组件，并运用分割断言原则识别局部假设与保证。当且仅当从全局属性推导出的所有局部保证在各自组件中被验证时，模型全局安全属性方可成立。该框架具备可配置的对抗模型，支持评估不同攻击能力下的访问控制属性。我们使用CoreScan测试了61项访问控制属性，在5G标准中发现了五类新的可利用权限提升漏洞。此外，研究发现直接通信中已知的大多数过度授权漏洞同样存在于间接通信及漫游场景中。</span></span></p><p cid="n249" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b043/26hiU5s1BGE" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b043/26hiU5s1BGE</a></span></span></p><h3 cid="n250" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">151、From Easy to Hard: Building a Shortcut for Differentially Private Image Synthesis</span></span></h3><p cid="n251" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">差分隐私（DP）图像合成技术旨在通过敏感数据集生成合成图像，以缓解机构在共享和使用合成图像时的隐私泄露风险。尽管现有方法（尤其是采用差分隐私随机梯度下降法DP-SGD训练扩散模型的技术）已取得显著进展，但其合成效果仍不尽如人意。本研究受课程学习启发，提出了一种两阶段差分隐私图像合成框架，使扩散模型能够由易到难地学习生成差分隐私合成图像。与现有直接使用DP-SGD训练扩散模型的方法不同，我们在初始阶段设计了简易学习阶段——模型首先学习敏感图像的简单特征。为实现这一目标，我们引入&#34;中心图像&#34;概念，即对敏感数据集随机样本的简单聚合。这类中心图像虽不呈现细节特征，却能以极低的隐私代价展现所有图像的核心共性，从而有效辅助模型早期训练。实验表明，在四个主流图像数据集的平均测试中，本方法合成图像的保真度与实用性指标分别比当前最优方法提升33.1%和2.1%。复现材料与数据集已在线公开。</span></span></p><p cid="n252" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d656/26hiVDu7y5W" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d656/26hiVDu7y5W</a></span></span></p><h3 cid="n253" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">152、From One Stolen Utterance: Assessing the Risks of Voice Cloning in the AIGC Era</span></span></h3><p cid="n254" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">语音克隆技术的出现从根本上威胁了声音作为独特生物特征的角色。已有大量犯罪案例表明其身份伪造的重大风险。先前研究仅在受限场景下探讨语音克隆的风险，要求受害者语音要么已出现在克隆模型的训练数据中，要么需向攻击者泄露数十分钟的语音样本。然而随着AIGC（人工智能生成内容）时代语音克隆技术的快速发展，这些限制条件已基本消除，导致当前最先进语音克隆技术的真实风险仍笼罩在迷雾中。为揭示这一风险，本文在真实场景中开展大规模研究，评估先进语音克隆技术的威胁。该研究涵盖5种最先进语音克隆技术（开源与商业）、8种最先进语音认证系统（开源与现实场景）以及30名人类听评者，使用了超过7000名说话者（公开与定制）的语音数据。通过实验与理论分析，本研究揭示：1）最先进语音克隆技术对欺骗语音认证系统和人类听评者构成严重威胁；2）受害者年龄、性别等人口统计因素对克隆攻击存在微妙影响；3）人类听评者对语音克隆的主观认知与背景知识显著影响其受攻击程度；4）先进检测方法仍无法有效识别克隆语音样本。</span></span></p><p cid="n255" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e277/26hiWdqEiis" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e277/26hiWdqEiis</a></span></span></p><h3 cid="n256" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">153、From Randomized Response to Randomized Index: Answering Subset Counting Queries with Local Differential Privacy</span></span></h3><p cid="n257" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本地差分隐私（Local Differential Privacy, LDP）是当前保护个体数据隐私的主导模型。现有扰动机制通常需对原始值进行扰动以确保隐私性，但这不可避免地导致数值失真与效用下降。在本研究中，我们提出一种创新方法——不再扰动数值本身，而是对数值索引实施随机化处理，同时严格满足LDP保障。受随机化索引可否认性的启发，我们开发了CRIAD框架，用于处理集合值数据的子集计数查询。通过融合多虚拟值、多样本与多分组策略，CRIAD成为完全可扩展的解决方案，能灵活适应不同隐私需求与域规模，且查询结果精度超越现有所有方法。通过系统的理论分析与大量实验验证，我们证实了CRIAD的有效性，并证明其相较于传统数值扰动机制的显著优势。</span></span></p><p cid="n258" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d564/26hiVzSJeJa" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d564/26hiVzSJeJa</a></span></span></p><h3 cid="n259" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">154、Fun-tuning: Characterizing the Vulnerability of Proprietary LLMs to Optimization-based Prompt Injection Attacks via the Fine-Tuning Interface</span></span></h3><p cid="n260" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们揭示了一种针对闭源权重大语言模型（LLM）的新型威胁，该威胁使攻击者能够计算基于优化的提示注入。具体而言，我们阐述了攻击者如何利用远程微调接口返回的类损失信息来指导对抗性提示的搜索。该微调接口由LLM供应商托管，允许开发者针对特定任务微调LLM，从而提供实用功能，但同时也暴露了足够信息使攻击者能够计算对抗性提示。通过实验分析，我们解析了Gemini微调API返回的类损失值，并证明这些值为使用贪婪搜索算法进行对抗性提示的离散优化提供了有效信号。基于PurpleLlama提示注入基准测试，我们在谷歌Gemini系列LLM上实现了65%至82%的攻击成功率。这些攻击利用了经典的效用-安全权衡——微调接口为开发者提供了实用功能，同时也使LLM暴露于强大的攻击之下。</span></span></p><p cid="n261" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a374/26hiTGuaXoQ" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a374/26hiTGuaXoQ</a></span></span></p><h3 cid="n262" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">155、Fuzz-Testing Meets LLM-Based Agents: An Automated and Efficient Framework for Jailbreaking Text-To-Image Generation Models</span></span></h3><p cid="n263" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">文本到图像（T2I）生成模型通过将文本描述转化为高质量图像，彻底改变了内容创作方式。然而，这些模型存在越狱攻击漏洞——攻击者通过精心设计的提示词绕过安全机制，生成有害内容。尽管研究者已开发多种越狱攻击方法以揭示这一风险，但现有技术存在明显局限：包括不切实际的访问权限需求、易被识别的非自然提示词、受限的搜索空间以及对目标系统的高频查询需求。  </span></span></p><p cid="n264" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出JailFuzzer，一种由大语言模型（LLM）智能体驱动的模糊测试框架，可在黑盒环境下高效生成自然且语义连贯的越狱提示词。该框架基于模糊测试原理构建，包含三个核心组件：用于初始提示与越狱提示的种子池、生成语义化变体的引导变异引擎，以及评估越狱成功与否的预言函数。其中，引导变异引擎与预言函数均由基于LLM的智能体实现，确保了黑盒环境下的高效性与适应性。  </span></span></p><p cid="n265" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">实验表明，JailFuzzer在攻击T2I模型时具有显著优势：生成的提示词自然流畅且语义连贯，能有效规避传统防御机制的检测；同时以极低查询开销实现高越狱成功率，在所有关键指标上超越现有方法。本研究揭示了生成模型需强化安全机制的必要性，并为防御复杂越狱攻击的未来研究奠定基础。JailFuzzer已开源，项目地址：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/YingkaiD/JailFuzzer" target="_blank">https://github.com/YingkaiD/JailFuzzer</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n266" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a336/26hiTETXKow" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a336/26hiTETXKow</a></span></span></p><h3 cid="n267" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">156、GDPR in the Small: a field study of privacy and security challenges in schools</span></span></h3><p cid="n268" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">《通用数据保护条例》（GDPR）的出台旨在约束互联网巨头企业，但其监管范围随后扩展至所有规模的组织。本文报告了一项针对意大利学校的多地点实地研究结果，揭示了这些机构在缺乏专业法律合规团队的情况下，执行充满敏感问题的日常活动时落实GDPR所面临的挑战。研究样本包含一所幼儿园、十所小学、两所初中和两所高中。我们未发现&#34;隐私悖论&#34;（书面规范完善但实际执行疏漏）的证据，相反，教职员工往往因现实资源无法支撑教条式合规流程而陷入困境。本研究详述了实地观察到的现象：从可能危及学生安全的重大隐私事件，到因现实条件限制而被搁置的形式化合规问题，并探讨了基于风险管控的解决方案。</span></span></p><p cid="n269" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b197/26EkFrCpddK" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b197/26EkFrCpddK</a></span></span></p><h3 cid="n270" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">157、GPTracker: A Large-Scale Measurement of Misused GPTs</span></span></h3><p cid="n271" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">由大型语言模型（LLM）驱动的智能体，尤其是OpenAI的GPT系列，彻底改变了人工智能定制、部署和使用的方式。然而，在OpenAI的GPT商店中，GPT的滥用已成为一个至关重要却鲜少被深入探讨的问题。本文首次针对滥用GPT现象展开大规模实证研究。我们提出了GPTracker框架，该框架能够持续从官方GPT商店收集GPT实例，并自动化与它们的交互流程。截至本文投稿时，GPTracker已在八个月内收集了755,297个GPT实例和28,464条GPT对话流。通过结合LLM驱动的评分系统与人工审核，我们在十类禁止场景中识别出2,051个滥用GPT。通过静态与动态分析，我们系统探究了这些滥用GPT的生态现状，包括趋势特征、构建者群体、运作机制及实际效果。研究发现，滥用GPT的构建者采用多种策略规避OpenAI审核系统，例如集成外部API、在描述中隐藏意图、实施URL跳转等。值得注意的是，调用外部API的GPT相比其他滥用实例更倾向于响应不当查询，在&#34;非法活动&#34;场景中平均应答率高出22.81%。借助VirusTotal平台，我们在446个GPT上识别出50个恶意域名，其中33个被标记为钓鱼网站、28个为恶意软件、2个为垃圾网站（部分域名具有多重标签）。我们分别于2024年9月11日和11月12日向OpenAI提交了负责任披露报告。首次披露的1,804个GPT中有1,316个在9月25日前被下架。本研究揭示了新兴GPT市场中令人担忧的滥用现象，并为相关方提供了可操作的治理建议。</span></span></p><p cid="n272" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a317/26hiTE4RWYU" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a317/26hiTE4RWYU</a></span></span></p><h3 cid="n279" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">158、Gold OPRF: Post-Quantum Oblivious Power-Residue PRF</span></span></h3><p cid="n280" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们提出基于幂剩余伪随机函数（Power-Residue PRF，Damgård CRYPTO’88）的后量子（PQ）不经意伪随机函数（OPRF）的可行构造方案。对于安全参数λ，我们研究将模公开素数p=2^λ·g+1的整数x映射到元素(k+x)^g mod p的伪随机函数Gold_k(x)，其中g为公开参数且log g≈2λ。我们方案的核心是高效的新型两方计算评估方法（2PC-Gold），可满足不同安全需求：服务器P_s持有PRF密钥k，客户端P_c持有PRF输入x，双方通过两方计算协同评估Gold函数。2PC-Gold采用标准向量不经意线性评估（VOLE）关联，在(V)OLE混合模型下具有信息论安全性且为恒定轮次。具体成果包括：</span></span></p><p cid="n281" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">· 针对半诚实P_s与恶意P_c：仅需单次(V)OLE关联的2PC-Gold方案，通信复杂度为3个域元素（若仅需均匀采样密钥则为2个域元素），计算复杂度为O(λ)次域运算。该方案实现半恶意安全。</span></span></p><p cid="n282" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">· 针对恶意P_s与恶意P_c：仅需λ/4+O(1)次VOLE关联的2PC-Gold方案，通信复杂度为λ/4+O(1)个域元素，计算复杂度为O(λ)次域运算。</span></span></p><p cid="n283" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">这些构造支持批处理评估等扩展功能：当P_c需在相同密钥下重复评估PRF时，可显著降低均摊成本。此外，我们将2PC-Gold扩展为可验证OPRF，并采用Beullens等人（Eurocrypt’25）的方法，在通用可组合框架下实现强OPRF安全性。</span></span></p><p cid="n284" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">所有协议均具实际高效性。我们基于(PQ)VOLE实现了2PC-Gold并进行了基准测试。例如，当λ=128时，半恶意（对应恶意）n次批处理PQ OPRF（{2PC, O, UC}-Gold）的均摊通信量仅约100B（对应1.9KB）。</span></span></p><p cid="n285" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a259/26hiTBFyWyY" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a259/26hiTBFyWyY</a></span></span></p><h3 cid="n293" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">159、GuardAIn: Protecting Emerging Generative AI Workloads on Heterogeneous NPU</span></span></h3><p cid="n294" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">受大语言模型（LLM）近期进展的推动，生成式AI应用已成为现代云平台的主导工作负载。GPU、NPU和TPU等专用硬件加速器因其性能远超通用CPU，在AI应用落地中发挥着关键作用。AI模型与数据通常高度敏感且来自互不信任的各方。现有基于CPU的行业标准可信执行环境（如Intel SGX或AMD SEV）无法充分保护这些加速器。Nvidia-CC等设备级TEE仅通过专有方案解决紧耦合CPU-GPU系统问题，且需依赖主机CPU端的TEE支持。而现有学术方案则针对特定CPU-TEE平台。为填补这一空白，我们提出GuardAIn——一种面向独立NPU设备的机密计算架构，无需信任主机系统。GuardAIn通过认证加密保护数据、模型参数和算子二进制文件，采用基于委托的内存语义确保与主机软件栈的隔离，并通过任务认证提供强模型完整性保证。基于Llama2和Llama3等前沿大模型的实现与评估表明，GuardAIn在无需修改AI软件栈的前提下仅引入微小开销。</span></span></p><p cid="n295" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d823/26hiVLrJZi8" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d823/26hiVLrJZi8</a></span></span></p><h3 cid="n299" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">160、Half Spectre, Full Exploit: Hardening Rowhammer Attacks with Half Spectre Gadgets</span></span></h3><p cid="n300" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">尽管工业界和学术界已投入近十年的缓解努力，社区仍未找到针对Spectre和Rowhammer等顽固硬件漏洞的全面高效对策。当前Spectre缓解措施主要集中于修补Linux内核等高价值代码库中的危险泄露代码片段，而通过软件缓解Rowhammer仍具挑战性，其安全性往往取决于现实攻击的（不）可行性。事实上，某些Rowhammer攻击完全具有非确定性——通过触发随机比特翻转以期破坏受害者数据，但可能误改关键数据导致系统崩溃。更可靠的攻击需依赖内存模板构建与布局调整等技术，但在软硬件复杂内存管理抽象层面前，实现完全确定性行为仍非易事。  </span></span></p><p cid="n301" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文首次证实完全确定性的Rowhammer攻击具有可行性。为此，我们挖掘其与Spectre漏洞的协同效应，重点研究所谓&#34;半Spectre代码片段&#34;。这些片段因无法直接泄露敏感数据曾被认定在当代CPU上不可利用，但我们证明其能构建强大的泄露原语来增强Rowhammer等攻击。具体而言，我们利用半Spectre片段构建PRELOAD+TIME——这是一种无需与受害者共享内存、即可在缓存行粒度监控目标物理内存活动的通用原语。基于此，我们开发出ProbeHammer：首个无需模板构建/内存布局调整且全程零崩溃的端到端Rowhammer攻击方案。该方案通过喷洒物理内存（包含攻击者用户数据与受害者页表数据），并借助PRELOAD+TIME精确定位，从而选择安全的锤击模式规避可能引发系统崩溃的意外比特翻转。实验证实，ProbeHammer攻击在结构上杜绝误报（故无崩溃风险），可在数小时内攻陷真实系统。</span></span></p><p cid="n302" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d324/26hiVrIkQG4" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d324/26hiVrIkQG4</a></span></span></p><h3 cid="n303" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">161、Hash-Prune-Invert: Improved Differentially Private Heavy-Hitter Detection in the Two-Server Model</span></span></h3><p cid="n304" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">差分隐私（DP）下的高频项检测是数据分析中的重要基础任务。给定阈值Z_tt_Z和来自大小为Z_dd_Z域中Z_nn_Z个数据项的集合，此类检测算法会忽略出现次数少于Z_tt_Z次的项，同时识别出现次数超过Z_t+\Deltat+Δ</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Z次的项；我们称Z</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">\Delta_Z为误差边界。在集中式模型中，由数据管理者持有完整数据集时，Z</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">(\varepsilon,\delta)</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Z-DP算法可实现Z</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">\Theta(\frac 1 \varepsilon \log \frac 1 \delta)</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Z的误差边界，当Z_d\gg 1/\delta_Z时该结果最优。已有研究（如Poplar，S&amp;P 2021）提出了由两个或多个非共谋服务器根据Z_n_Z个客户端输入联合计算高频项的协议。但现有协议在服务器效率（计算、通信和轮次复杂度）和准确性（即误差边界）方面都存在对Z</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">\log d_Z的不良依赖，使其不适用于大域场景（例如当数据项为kB级字符串时，Z</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">\log d \approx 10^4_Z）。我们提出哈希-剪枝-反转（HPI）技术，可将任何具有上述Z</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">\log d_Z依赖性的高频项协议转化为新协议，实现全方位改进：计算、通信和轮次复杂度（大致）取决于Z</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">\log n_Z而非Z</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">\log d_Z，且误差边界与Z_d_Z无关。该转换能保持隐私性，可抵抗最多腐蚀一个服务器及任意数量客户端的主动敌手攻击。我们将HPI应用于Poplar的改进版本（本文亦提出该版本），其误差边界比原始Poplar提升约Z</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">\sqrt{n}_Z倍（与Z_d_Z无关）。实验证实最终协议在大Z_d_Z场景下显著提升了效率与准确性。</span></span></p><p cid="n305" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c680/26hiV41XSOk" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c680/26hiV41XSOk</a></span></span></p><h3 cid="n306" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">162、Hermes: Efficient and Secure Multi-Writer Encrypted Database</span></span></h3><p cid="n307" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">可搜索加密（SE）技术能在加密数据上实现隐私保护的关键词搜索。公钥可搜索加密（PKSE）支持多用户搜索，但由于高开销的公钥运算导致搜索延迟严重。对称可搜索加密（SSE）具备亚线性搜索效率，但主要局限于单用户场景。近期出现的混合可搜索加密（HSE）融合了SSE与PKSE的优势，实现了多写入方加密搜索功能、前向安全性以及相对于数据库规模的亚线性搜索。然而HSE仍存在关键安全缺陷：易受词典攻击，且搜索访问控制验证需对所有授权关键词执行高开销的公钥运算（如配对操作），导致显著性能损耗。此外，为维持前向安全性，其搜索访问控制组件需定期重构，给写入方带来沉重负担。本文提出新型HSE方案Hermes，在解决现有HSE设计安全问题的同时，保持最优搜索复杂度与用户效率。Hermes支持多写入方加密搜索功能，具备前向安全性及抗词典攻击能力。为此，我们设计了一种具有身份隐藏与密钥聚合特性的新型基于身份加密方案，该方案本身可能具有独立研究价值。我们还开发了创新的分区技术与周期编码方法，以最小化搜索复杂度，并降低用户维护前向安全性的开销。通过大规模实验对比评估，在商用硬件上Hermes的搜索性能比当前最优HSE方案快1-2个数量级，同时提供更强的安全保证以抵御词典攻击与注入攻击。</span></span></p><p cid="n308" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c642/26hiV2CP1Sw" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c642/26hiV2CP1Sw</a></span></span></p><h3 cid="n309" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">163、Hey, Your Secrets Leaked! Detecting and Characterizing Secret Leakage in the Wild</span></span></h3><p cid="n310" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">无论是结构化的API密钥还是非结构化的密码，密钥对于保护应用程序和服务安全至关重要。然而开源项目的广泛使用和快速开发周期加剧了密钥泄露风险。现有检测工具因依赖正则表达式和熵值检查等简单方法，存在误报率高、召回率低的问题，常遗漏非结构化密钥或将非敏感数据误判为密钥。本文提出KEYSENTINEL——一种通过机器学习、语义分析和前缀匹配技术突破现有局限的高级自动化密钥检测工具。为评估其性能，我们构建了首个跨平台基准数据集，涵盖GitHub、PyPI和微信的1,806,530个文件中的11,826条标注密钥，并与六种现有工具进行对比。实验表明KEYSENTINEL以91.18%的准确率、81.71%的召回率和0.86的F1值达到业界最优水平，显著优于行业标准工具并大幅降低误报率。相比GPT-4、o1等大语言模型，其在准确性和成本效益方面也更具优势。此外，我们通过对GitHub、PyPI和微信80,330,098个文件的大规模测量研究发现，高达30%的项目存在密钥泄露风险。我们还扫描了一家IT企业的代码库以评估实际密钥泄露风险。这些发现揭示了密钥泄露现象的普遍性，凸显了各平台加强密钥管理实践的紧迫性。</span></span></p><p cid="n311" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a412/26hiTHRCdyg" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a412/26hiTHRCdyg</a></span></span></p><h3 cid="n312" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">164、Highly Efficient Actively Secure Two-Party Computation with One-Bit Advantage Bound</span></span></h3><p cid="n313" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">安全两方计算（2PC）允许双方在保持输入隐私的前提下联合评估函数。尽管近期取得显著进展，主动安全协议与被动安全协议之间仍存在显著的效率差距。在S&amp;P&#39;12中，Huang、Katz和Evans形式化了允许单比特泄漏的主动安全概念，为弥合这一差距提供了可行路径。基于该概念的协议已成为设计高效主动安全2PC协议的基础。然而，Huang等人指出的关键挑战至今未被解决：当这些协议独立使用（而非作为大型协议的组成部分）时，在保障诚实方公平性方面存在重大缺陷。尽管作者提出了两种缓解方案，但二者成本过高且缺乏安全性保障的形式化定义。本文首先形式化定义了一种强化概念——单比特优势界定的主动安全，通过渐进式结果披露机制（逐比特释放计算结果），将敌手优势严格限制在至多比诚实方多获取一比特信息。此外，我们提出利用混淆电路中的标签结构设计高效常数轮2PC协议的新方法，实现单比特优势界定的主动安全。该协议在双工网络中的运行时性能接近被动安全混淆电路方案（如LAN环境下SHA256电路仅需1.033倍耗时），且渐进式结果披露开销极低（每比特释放仅需80字节通信量）。凭借强化的安全保证与极小开销，本协议非常适用于实际2PC应用场景。</span></span></p><p cid="n314" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c623/26hiV1ZVZ3G" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c623/26hiV1ZVZ3G</a></span></span></p><h3 cid="n315" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">165、HouseFuzz: Service-Aware Grey-Box Fuzzing for Vulnerability Detection in Linux-Based Firmware</span></span></h3><p cid="n316" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">迄今为止，灰盒模糊测试已成为检测基于Linux的固件中潜在漏洞的关键技术。然而，现有模糊测试方法普遍面临三个由固件服务特性引发的被忽视障碍，这些障碍极大阻碍了漏洞识别的效果与效率。首先，固件服务的多进程特性在仿真和模糊测试过程中被过度简化，限制了固件测试的范围。此外，固件服务通常包含定制化服务协议，这些协议具有丰富且严格的语义约束，为输入生成带来独特挑战。针对这些障碍，本文提出服务感知型灰盒模糊测试工具HouseFuzz。在固件仿真阶段，HouseFuzz通过精细遍历系统初始化流程，识别现有方法遗漏的网络服务与守护进程；在模糊测试阶段，其多进程测试框架能全面检测通过多进程激活的固件服务。此外，HouseFuzz结合离线和在线固件服务分析，捕获定制化服务协议的词法级语义约束，据此高效生成高质量测试用例。评估显示，相比最先进的灰盒固件模糊测试方案，HouseFuzz在相同固件数据集上多识别76%网络服务，代码覆盖率提升24.8%，零日漏洞检出量增加175%。</span></span></p><p cid="n317" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d507/26hiVy3bGHm" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d507/26hiVy3bGHm</a></span></span></p><h3 cid="n318" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">166、HydraProofs: Optimally Computing All Proofs in a Vector Commitment (with applications to efficient zkSNARKs over data from multiple users)</span></span></h3><p cid="n319" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在本工作中，我们提出了HydraProofs——首个同时满足以下两个特性的向量承诺（VC）方案：（一）证明者能在最优时间O(N)内为规模为N的向量生成所有元素（或连续子数组）的开放证明；（二）该方案可直接兼容以多线性多项式编码输入的zkSNARK家族，即在预映像上运行zkSNARK时无需在电路内&#34;开放&#34;整个向量预映像。据我们所知，现有VC方案或仅满足（一）但无法高效&#34;嵌入&#34;zkSNARK（如需在电路内重新计算整个哈希树的Merkle树承诺），或仅满足（二）但需要O(NlogN)时间。我们将HydraProofs与开创性GKR协议结合，将所得zkSNARK应用于多用户参与不可信服务器执行计算的场景，每个用户均可验证结果正确性及自身数据是否被包含。实验表明，该方案在通用电路上的证明时间较现有方案快4-16倍。最后，我们针对可验证秘密共享和可验证鲁棒聚合两个具体应用场景展开研究：前者首次实现Shamir秘密共享的线性时间证明（快于分发者计算所需时间）；后者提出抗恶意聚合者的方案，实验证明其能以极小性能损耗部署于现有系统。</span></span></p><p cid="n320" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d180/26hiVmh7o9q" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d180/26hiVmh7o9q</a></span></span></p><h3 cid="n321" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">167、HyperPianist: Pianist with Linear-Time Prover and Logarithmic Communication Cost</span></span></h3><p cid="n322" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，零知识证明（ZKP）技术取得了显著进展。其中，零知识简洁非交互式知识论证（SNARK）因其证明简洁且验证高效而备受瞩目，但存在证明生成成本高的问题。Wu等人（Usenix Security 2018）提出将证明任务分配到多台机器执行，显著缩短了证明生成时间。然而，现有分布式ZKP系统的证明生成成本仍呈准线性增长，且通信开销可能随电路规模线性增加。本文提出HyperPianist系统，受当前最优分布式ZKP系统Pianist（Liu等人，S&amp;P 2024）与多元证明系统HyperPlonk（Chen等人，EUROCRYPT 2023）启发，我们设计了一种分布式多元多项式交互式预言证明（PIOP）系统，其证明生成时间呈线性增长，通信开销仅为对数级。与Pianist不同，HyperPianist在应用于通用（非数据并行）电路时不会引入额外证明时间或通信开销。为实现该PIOP系统，我们将两种加法同态多元多项式承诺方案——多元KZG（Papamanthou等人，TCC 2013）和Dory（Lee等人，TCC 2021）适配至分布式环境，分别得到HyperPianist^K和HyperPianist^D。两个系统均具备线性证明复杂度和对数通信开销；此外HyperPianist^D无需可信初始化。我们还提出HyperPianist+，整合了基于Lasso（Setty等人，EUROCRYPT 2024）的优化查找论证方案，进一步降低证明成本。实验表明，在32台分布式机器上，HyperPianist^K和HyperPianist^D相比HyperPlonk分别实现63.1倍和40.2倍加速；与Pianist相比，在基础门电路和定制门电路上HyperPianist^K分别快2.9倍和4.6倍，HyperPianist^D分别快2.4倍和3.8倍。对于分层电路，HyperPianist^K在定制门电路上最高提速5.9倍，HyperPianist^D则实现4.7倍加速。</span></span></p><p cid="n323" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d142/26hiVl2c5TW" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d142/26hiVl2c5TW</a></span></span></p><h3 cid="n324" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">168、I Know What You Sync: Covert and Side Channel Attacks on File Systems via syncfs</span></span></h3><p cid="n325" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">操作系统通过进程、容器及隔离技术等抽象机制强制实现逻辑隔离，以保护系统免受恶意或缺陷代码的侵害。本文揭示了一类通过文件系统打破这种逻辑隔离的新型侧信道。文件系统作为操作系统的核心组件，负责管理应用层与物理存储设备间的所有I/O活动。我们发现文件系统实现存在共享性，导致使用常规I/O系统调用时会产生时序信息泄漏。具体而言，现代操作系统会利用任意刷新操作（将内存中的缓存块保存至SSD或磁盘）来刷新全部I/O缓冲区，包括其他隔离域使用的缓冲区。因此，攻击者通过测量\textit{syncfs}的延迟即可推断受害程序的I/O行为。我们在包括Linux原生文件系统和Windows文件系统在内的多种文件系统上实现了\textit{syncfs}隐蔽信道攻击，在Linux上达到5 Kbps的最大带宽（误码率0.15%），在Windows上达到7.6 Kbps（误码率1.9%）。此外，我们构建了针对Linux和Android设备的三类侧信道攻击：在Linux设备上，通过追踪临时缓冲文件的写入模式实现了网站指纹识别攻击和视频指纹识别攻击；在Android设备上，设计了可泄露启动阶段应用写入模式的应用指纹识别攻击。这些攻击的F1分数、精确率和召回率均超过90%。最后，我们通过容器检测技术和跨容器隐蔽信道攻击，证明了这些攻击可在容器间实施。</span></span></p><p cid="n326" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d359/26hiVt2mVgI" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d359/26hiVt2mVgI</a></span></span></p><h3 cid="n327" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">169、IUBIK: Isolating User Bytes in Commodity Operating System Kernels via Memory Tagging Extensions</span></span></h3><p cid="n328" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">强化操作系统内核以抵御内存错误，通常通过保护安全关键数据免受破坏和泄露来实现。然而，建立一套可靠的模型来识别需要保护的敏感内存对象十分困难，这导致攻击者可能利用新出现的攻击向量。本文提出重新思考内核加固方式，引入IUBIK实现内核内存隔离。IUBIK通过将攻击者控制的数据（常用于操纵安全关键数据）隔离在影子内存中，阻止其与敏感内核对象交互，从而防范内核利用。为实现这一目标，IUBIK利用ARM CPU的最新硬件特性MTE，该技术可高效缓解基于空间和时间内存错误的攻击。我们通过重写结构体定义，确保被隔离对象不包含指针等敏感字段。此外，我们开发了深度探索内核代码库的分析框架，记录攻击者控制对象的分配位置，使IUBIK能对其进行隔离；该分析器在多样化工作负载下记录了292个特权级和212个非特权级分配点。最后，我们在Linux内核上实现的IUBIK通过一系列微观和宏观基准测试评估，结果表明原型在多数测试中未引入运行时开销，且内存消耗增加可忽略不计。</span></span></p><p cid="n329" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a829/26hiTXrQMjS" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a829/26hiTXrQMjS</a></span></span></p><h3 cid="n330" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">170、Identifying Incoherent Search Sessions: Search Click Fraud Remediation Under Real-World Constraints</span></span></h3><p cid="n331" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">搜索引擎和广告主长期因点击欺诈蒙受巨额经济损失，这给现有检测算法带来了严峻挑战。更令人担忧的是，尽管技术持续进步，我们对点击欺诈的认知仍存在局限，致使高级欺诈手段得以绕过现有检测机制。本研究突破性地从分析单一搜索请求转向研究搜索会话——即同一用户连续发起的搜索查询序列。我们发现良性用户在这些会话中展现出连贯的行为模式，与欺诈者形成鲜明对比：正常用户通常围绕单一主题进行搜索，而欺诈者或自动化程序则常在会话中表现出杂乱、不合逻辑且缺乏连贯性的搜索行为。为量化这种行为差异，我们提出COSEC系统，通过整合字面语义、时序和广告点击行为特征，计算搜索会话的&#34;非连贯性指数&#34;。实验表明COSEC具有卓越效能，识别非连贯会话的精确率达95.79%，召回率达92.40%，充分彰显其提升现实世界点击欺诈检测能力的巨大潜力。</span></span></p><p cid="n332" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a093/26hiTuB0GBi" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a093/26hiTuB0GBi</a></span></span></p><h3 cid="n333" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">171、Impossibility Results for Post-Compromise Security in Real-World Communication Systems</span></span></h3><p cid="n334" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">现代安全通信系统（如iMessage、WhatsApp和Signal）通过复杂机制实现高强度安全特性。这些机制通常需要持续将新生成的密钥材料合并至会话密钥中，用于通信过程中的消息加密。现有研究已证明此类机制能实现某种形式的&#34;后泄密安全&#34;（PCS）：即使通信方完整状态曾在过去某时段遭泄露，仍能保障后续通信安全。然而最新研究表明，这些证明无法直接转化为终端用户层面的安全保障，可能源于可用性设计考量。这引发了一个根本问题：终端用户究竟能否获得PCS保障？在何种条件下才能实现？</span></span></p><p cid="n335" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文通过形式化证明揭示：需要抵御特定类型状态丢失（实际场景中可能发生）的通信系统，本质上无法为终端用户提供完整的PCS保障。前人工作仅指出Signal即时通讯软件因其现有会话管理层未能实现该目标，我们则精准分离出导致该缺陷的根本条件，并论证该问题无法通过简单更换会话管理层或完全重构协议来解决。此外，我们量化分析了用户间最大会话数（Signal设定为40）在容错能力与安全性之间的权衡关系。本研究对未来安全通信系统设计具有直接指导意义：既可推动简化冗余机制，也能促进会话管理层设计改进，从而在状态丢失/容错能力方面实现更优的安全权衡。</span></span></p><p cid="n336" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e040/26hiVXkCEXC" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e040/26hiVXkCEXC</a></span></span></p><h3 cid="n340" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">172、IncognitOS: A Practical Unikernel Design for Full-System Obfuscation in Confidential Virtual Machines</span></span></h3><p cid="n341" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近期研究不断证明，侧信道攻击能够有效破坏英特尔SGX等可信执行环境的保密性保障。与此同时，云环境中的可信执行正呈现出向机密虚拟机（CVM）迁移的趋势。遗憾的是，部分侧信道攻击不仅在此迁移过程中持续存在，甚至对CVM架构依然有效，此外还涌现出针对CVM架构的新型攻击。已有研究探索了针对用户空间飞地（如英特尔SGX）的侧信道防御措施，但基于CVM的混淆执行引擎设计空间仍属空白。本文提出名为IncognitOS的单内核设计，为基于CVM的云工作负载提供全系统混淆保护。IncognitOS严格遵循最小化可信计算基（TCB）和直接硬件访问等单内核原则，使全系统混淆成为可能。该系统通过改造调度器和内存管理两大核心OS组件，实现了一种新型自适应混淆方案。IncognitOS采用同步时钟信号传递机制，使调度系统摆脱对不可信Hypervisor定时器中断的依赖，从而可靠监控Hypervisor夺取执行控制权（即VMExit）的频率，并动态调整分页子系统执行内存重随机化的频率——该子系统通过直接访问内存管理单元（MMU）透明实现内存重随机化。最终设计论证了自混淆单内核作为安全CVM部署策略的可行性，其混淆技术较前人工作亦有显著提升。评估结果表明，IncognitOS能有效抵御CVM攻击，且自适应混淆方案在实际程序中展现出良好的性能表现。</span></span></p><p cid="n342" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d860/26hiVMUi1MI" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d860/26hiVMUi1MI</a></span></span></p><h3 cid="n349" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">173、Investigating Physical Latency Attacks against Camera-based Perception</span></span></h3><p cid="n350" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于摄像头的感知是自主系统视觉感知的核心组成部分。近期研究针对感知流程提出了延迟攻击，可导致自主系统遭受拒绝服务。然而现有攻击方案存在现实适用性缺陷：或依赖数字扰动，或需使用覆盖受害者视野的大型、不可扩展且高度显眼的干扰贴片。本文提出DetStorm——一种新型可物理实现的摄像头感知延迟攻击方案。该技术通过投影仪扰动生成大量对抗性目标物体，从而引发感知延迟。这些物体经过四重目标优化，可规避多种非极大值抑制（NMS）方法的过滤。为在动态物理环境中最大化生成目标数量，DetStorm采用独创的贪婪算法：将环境划分为包含不同物体类别的&#34;区域&#34;，并最大化每个区域的生成物体数量。系统能实时适应环境变化，通过区域缝合流程将扰动模式重组为连续、可物理投影的图像。仿真与实体实验表明，DetStorm平均使检测目标数增加506%，感知延迟最高达8.1秒，并能对现实世界自动驾驶系统造成物理级影响。</span></span></p><p cid="n351" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e202/26hiW9LzceQ" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e202/26hiW9LzceQ</a></span></span></p><h3 cid="n352" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">174、Is MPC Secure? Leveraging Neural Network Classifiers to Detect Data Leakage Vulnerabilities in MPC Implementations</span></span></h3><p cid="n353" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，随着《通用数据保护条例》（GDPR）等隐私保护法规的出台，多方计算协议（简称MPC）被企业与机构广泛采纳并应用于隐私数据联合分析与机器学习场景。然而，由于MPC协议本身的复杂性，其实现代码常存在数据泄露漏洞，严重威胁隐私保护效果。现有MPC协议安全分析多依赖理论证明，缺乏对实现层潜在漏洞的检测能力。因此，检测MPC实现中的数据泄露漏洞具有迫切必要性。</span></span></p><p cid="n354" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出MPCGuard框架，用于检测MPC实现中的数据泄露漏洞。与传统内存漏洞不同，MPC实现中的泄露漏洞无法通过现有检测工具识别。为此，我们首先构建包含两个神经网络分类器的泄露标识模块，通过分析MPC协议特性设计网络结构以提升检测效果；在识别漏洞后，采用差分分析方法辅助定位漏洞位置。为验证有效性，我们在三大主流MPC框架（Crypten、TF-Encrypted和MP-SPDZ）的29个常用实现上进行测试，发现其中12个存在数据泄露漏洞，部分可导致原始数据被重构。截至本文撰写时，所有漏洞均获确认，其中两个漏洞已分配CVE编号。据我们所知，这是首个针对MPC实现数据泄露漏洞颁发的CVE编号。</span></span></p><p cid="n355" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c586/26hiV0LzT4k" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c586/26hiV0LzT4k</a></span></span></p><h3 cid="n356" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">175、Is Nobody There? Good! Globally Measuring Connection Tampering without Responsive Endhosts</span></span></h3><p cid="n357" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">已有多种技术被引入以测量网络干扰——即由国家审查机构或企业防火墙实施的流量阻断行为。然而，几乎所有现有测量技术都需要研究目标国内部端点的某种程度参与：包括VPN服务商、云服务提供商或志愿者自愿承担风险在其个人设备上运行测量软件。但在实施连接干扰的国家中，这类端点并非始终可用，导致大量网络无法被测量。本文首次提出了一种无需研究目标国内部参与端点的全球化主动网络干扰测量方法。我们的技术基于两项最新研究进行扩展，通过发送特定数据包序列从境外触发网络干扰，诱使中间设备误判存在连接。所开发的Mint系统对这一原本仅应用于两个国家的方法进行通用化与自动化改造，使其能覆盖全球IPv4和IPv6互联网。借助Mint，我们首次在不依赖任何参与端点的情况下完成全球网络干扰测量，并实现了首个IPv6干扰全面扫描。实验表明，本方法能成功测量以往技术无法覆盖的网络、自治系统乃至整个国家。我们还通过多个案例研究，展示了该工具如何助力开展新型网络干扰测量研究。</span></span></p><p cid="n358" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b344/26hiUgw654A" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b344/26hiUgw654A</a></span></span></p><h3 cid="n359" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">176、JesseQ: Efficient Zero-Knowledge Proofs for Circuits over Any Field</span></span></h3><p cid="n360" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">向量不经意线性求值（VOLE）协议的最新进展实现了恒定轮次、快速且可扩展的（指定验证者）零知识证明，大幅降低了证明者的计算开销。现有协议如QuickSilver [CCS&#39;21]和LPZKv2 [CCS&#39;22]在布尔电路中每个AND门需消耗扩展域的4次乘法运算（其中一次乘法需执行O(κ log κ)位操作，安全参数κ=128），在大域算术电路中每个乘法门需3-4次域乘法运算。我们提出JesseQ协议套件，包含JQv1和JQv2两个VOLE协议，实现了技术突破：JQv1在布尔电路中每个AND门仅需扩展域的2次标量乘法（其中一次标量运算为O(κ)位操作），在大域算术电路中每个乘法门仅需2次域乘法；通信开销方面，JQv1每个门仅需1个域元素。JQv2通过将证明者计算量翻倍，进一步将通信开销减半。实验表明，在布尔电路在线阶段，JQv1和JQv2较现有技术至少提升3.9倍；在大域电路上，JQv1性能相当，JQv2提升1.3倍，两者通信成本与现有最优方案持平。值得注意的是，在最廉价的AWS实例上，JQv1仅需1美元即可证明9.2万亿个AND门（或61位域上的5.8万亿个乘法门）。JesseQ在内积计算、矩阵乘法和格问题等场景表现卓越，较QuickSilver性能提升40%-200%。该协议还可无缝集成亚线性批处理框架Batchman [CCS&#39;23]，为批量析取语句提供额外效率增益。</span></span></p><p cid="n361" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d161/26hiVlCOlGg" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d161/26hiVlCOlGg</a></span></span></p><h3 cid="n368" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">177、Let&#39;s Get Visual - Testing Visual Analogies and Metaphors for Conveying Privacy Policies and Data Handling Information</span></span></h3><p cid="n369" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着欧盟《通用数据保护条例》（GDPR）及相关法规的实施，隐私相关决策（如对数据处理实践做出知情同意）的责任主要落在用户身上。然而，当前冗长的隐私政策和常具误导性的Cookie通知很少能促成真正的知情同意。现有关于隐私图标或结构化隐私政策的研究旨在提升用户理解，但效果参差不齐。为此，我们通过一项N=379参与者的组间对照实验，探索了将隐私信息嵌入视觉隐喻与类比的潜力，以支持知情决策。此外，我们还探究了动态反馈是否有助于用户理解其决策的影响。结果显示，尽管视觉与文本信息及反馈均能帮助用户理解数据处理实践并与个人偏好保持一致（各实验条件间无显著差异），但用户认为可视化形式比文本更合适且更具美感。这表明利用视觉情境增强知情同意不仅适用于现有Cookie通知，在隐私助手等新兴工具或隐私增强技术中同样具有潜力。未来研究应比较当前部署方案的差异，并探索设计变体的美感感知对用户理解与决策的影响。</span></span></p><p cid="n370" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c117/26hiUJ8sD9S" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c117/26hiUJ8sD9S</a></span></span></p><h3 cid="n371" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">178、Liquefaction: Privately Liquefying Blockchain Assets</span></span></h3><p cid="n372" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">加密货币系统及其安全模型的核心假设在于私钥（即资产）由个人或单一实体掌控。本文提出&#34;液化&#34;钱包平台，通过系统性打破这一基础假设，揭示了其危险的脆弱性。液化平台利用可信执行环境（TEE）对私钥施加使用约束——即为私钥操作附加丰富的多用户策略，使得单个终端用户地址的数字货币凭证与资产能够被自由出租、共享或汇集，且整个过程不会在链上留下直接痕迹。该研究揭示了基于TEE的密钥约束机制对加密货币生态的深远影响：液化平台能在无链上痕迹、链外可视性极低的情况下，破坏锁仓代币、DAO投票、空投、忠诚度积分、灵魂绑定代币及二次方投票等众多应用场景的安全与经济模型。同时，我们也探讨了该技术的积极应用，如隐私保护型高性价比DAO及粉尘攻击对策。值得注意的是，我们介绍了一款现有基于TEE的工具，应用程序可借此防御液化攻击。本研究促使人们从根本上重新思考加密货币生态中现有模型及密钥资产所有权的执行机制。</span></span></p><p cid="n373" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b437/26hiUjFXiP6" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b437/26hiUjFXiP6</a></span></span></p><h3 cid="n374" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">179、Lombard-VLD: Voice Liveness Detection based on Human Auditory Feedback</span></span></h3><p cid="n375" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">语音活体检测（VLD）旨在通过判别语音来自真实说话者还是扬声器，以保护说话人认证系统免受语音欺骗攻击。现有方法主要关注信号层面的差异。本文提出首个基于人类听觉反馈机制（即隆巴德效应）的VLD方法Lombard-VLD，其核心思想是：真实说话者在噪声环境下会无意识地生理性调节发声模式，而扬声器则无法实现。我们设计了基于参考的双输入模式和差分SE-ResBlock模块，用于建模隆巴德效应引发的声学差异。实验表明，Lombard-VLD在两个数据集上分别实现0%和0.24%的等错误率，性能超越现有最优方法。该方法对距离、说话者姿态和环境噪声等多种干扰因素具有强鲁棒性，平均准确率达98.51%以上，对未知说话者、性别及数据集的泛化能力优异，等错误率分别低于2.68%、3.44%和7.32%。本研究揭示了隆巴德效应在VLD任务中的优势——用户限制更少且检测性能更佳。</span></span></p><p cid="n376" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d971/26hiVTeRgFW" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d971/26hiVTeRgFW</a></span></span></p><h3 cid="n377" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">180、Low-cost and Robust Global Time Synchronization</span></span></h3><p cid="n378" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">众多关键应用依赖于精确的时间同步，一旦同步中断便可能引发严重的安全后果。然而，在地理分散的设备间建立经济高效且鲁棒的时间同步机制具有挑战性。现有全球时间同步方案多要求信任单一实体或系统（例如全球导航卫星系统GNSS或租赁基础设施提供商），这既构成单点故障，又往往成本高昂。另一种经济可行的方案是通过互联网进行时间同步，但该方案面临三重挑战：（1）实现高精度时间同步；（2）对故障节点、配置错误节点或受入侵节点保持鲁棒性；（3）对抗拥塞相关问题（如流量型DDoS攻击）的鲁棒性。现有研究主要聚焦前两项挑战，但均未解决拥塞和DDoS攻击问题。我们通过Everdeen系统解决了上述挑战。该系统通过利用现有互联网基础设施降低成本，并采用节点间相互同步机制避免依赖单一实体。Everdeen的核心创新是其加权邻居同步（WNB）模式，参与者仅与直接相邻节点进行同步。实验表明：相比现有方案，Everdeen能以更低通信开销提供更优的时间同步质量，对故障/配置错误/受入侵节点具有显著更强的鲁棒性。最重要的是，我们通过实验验证了Everdeen保护的时间同步流量在网络拥塞（包括流量型DDoS攻击）下仍能保持不受影响。</span></span></p><p cid="n379" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b797/26hiUxNmdY4" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b797/26hiUxNmdY4</a></span></span></p><p><span leaf=""><br/></span></p><p style="display: none;"><mp-style-type data-value="3"></mp-style-type></p>



<p><a href="2247485970">阅读原文</a></p>
<p><a href="https://wechat2rss.xlab.app/link-proxy/?k=06936046&amp;r=1&amp;u=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU0MzgzNTU0Mw%3D%3D%26mid%3D2247485970%26idx%3D1%26sn%3Dabe8fcc59c58b9e0dbbeba6dccb067c2">跳转微信打开</a></p>
]]></content:encoded>
      <pubDate>Sat, 07 Jun 2025 22:25:00 +0800</pubDate>
    </item>
    <item>
      <title>网络安全顶会——SP 2025 论文清单与摘要（下）</title>
      <link>https://mp.weixin.qq.com/s?__biz=MzU0MzgzNTU0Mw==&amp;mid=2247485970&amp;idx=2&amp;sn=f3dcab288fcbf3ee09a30065ad6461a5</link>
      <description></description>
      <content:encoded><![CDATA[<p>
<span>漏洞战争</span> <span>2025-06-07 22:25</span> <span style="display: inline-block;">广东</span>
</p>

<p></p>



<p>
<img src="https://wechat2rss.xlab.app/img-proxy/?k=c402dce6&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdXDTLj7fquKwYll6jFmqmCVTqZnvFDlhACZTaa8XBx7XWZsnWwee7DU94yo3JZKicL94ibibcpMMjY7g%2F0%3Fwx_fmt%3Djpeg"/>
</p>


<h3 cid="n386" mdtype="heading" style="box-sizing: border-box;" data-pm-slice="0 0 []"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">181、Machine Learning with Privacy for Protected Attributes</span></span></h3><p cid="n387" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">差分隐私（DP）已成为私有数据分析的标准方法。某些机器学习应用仅需对特定受保护属性提供隐私保护。在此类场景中直接使用差分隐私的原始变体会导致模型效用不必要的下降。本研究通过改进DP定义，构建了一个更通用灵活的框架——特征级差分隐私（FDP）。我们的模拟式定义同时支持添加/删除与替换两种隐私变体，并能处理受保护与非保护特征的任意自适应划分。我们证明了FDP的特性（如自适应组合），并阐明了其对限制属性推断攻击的意义。此外，我们改进标准DP-SGD算法使其满足FDP要求，同时保留子采样放大等优良特性。通过在多种机器学习任务中应用该框架，我们证明当存在公共特征时，FDP能显著提升DP训练模型的效用。例如在AFHQ动物面部数据集上训练扩散模型时，假设训练图像的模糊版本可作为公共特征，FID指标从DP的286.7大幅提升至101.9（Z_ε=8）。总体而言，本研究为私有数据分析提供了新范式，在保持强隐私保障的同时有效降低了DP的效用代价。</span></span></p><p cid="n388" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c417/26hiUUSxJNm" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c417/26hiUUSxJNm</a></span></span></p><h3 cid="n389" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">182、Make a Feint to the East While Attacking in the West: Blinding LLM-Based Code Auditors with Flashboom Attacks</span></span></h3><p cid="n390" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于大语言模型（LLM）的漏洞审计工具（如GitHub Copilot）在自动化代码分析领域实现了重大突破，能够精准检测安全漏洞。本文研究了一种通过转移LLM注意力机制聚焦点来规避此类审计工具的方法——通过设计使其注意力偏离真实漏洞代码段。这类基于LLM的审计工具本应通过注意力机制锁定潜在脆弱代码区域以识别安全问题。我们提出的方案是在被审查代码库中植入高注意力代码片段（专为吸引焦点设计的代码块），通过策略性转移模型对真实漏洞的关注，该技术能有效&#34;致盲&#34;LLM，导致漏检。</span></span></p><p cid="n391" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为实现规模化攻击，我们开发了Crazy-Ivan自动化系统，该系统能识别并无缝植入高注意力代码片段，将审计焦点从真实漏洞转移至诱饵函数。通过系统化的函数级优先级排序与优化，Crazy-Ivan可强化致盲效果，最终生成能削弱模型真实风险检测能力的Flashboom攻击样本。实验评估证实了Flashboom的有效性：在CodeLlama模型上实现96.3%的致盲成功率，在Gemma模型上达83.05%，且具有显著的跨模型迁移能力和多编程语言适用性。在GitHub Copilot的案例研究中，Flashboom导致该工具漏检了一个关键区块链漏洞，这既凸显了注意力转移攻击的安全威胁，也暴露出单纯依赖LLM自动化审计系统的风险。我们已向相关LLM代码审计厂商提交研究发现，对方确认问题存在并正在着手修复。</span></span></p><p cid="n392" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a539/26hiTMIdqiA" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a539/26hiTMIdqiA</a></span></span></p><h3 cid="n393" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">183、MatriGear: Accelerating Authenticated Matrix Triple Generation with Scalable Prime Fields via Optimized HE Packing</span></span></h3><p cid="n394" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">SPDZ协议族是主动敌手环境下非诚实多数参与方安全多方计算（MPC）的流行选择。过去十年间，一系列研究聚焦于改进其离线阶段——该阶段负责生成称为认证三元组的特殊加法份额。然而，为满足安全机器学习中矩阵运算与分布式RSA密钥生成中大整数算术的新需求，离线阶段亟需升级。本文提出新型SPDZ离线阶段协议TopGear 2.0，该协议改进了现有最优构造TopGear（Baum等人，SAC &#39;19）及其矩阵三元组变体（Chen等人，Asiacrypt &#39;20）。我们的协议旨在加速矩阵三元组生成，并支持更大规模素数域（最高4096位）。为此，我们设计了BFV方案的变体及专为此优化的新型同态矩阵乘法算法。实验表明：在1024位素数域中生成标量三元组速度提升约3.6倍，生成128×128矩阵三元组速度提升约34倍。此外，评估密钥体积从27.4 GB降至0.22 GB，MAC密钥生成的通信开销从816 MB降至16.6 MB。</span></span></p><p cid="n395" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c249/26hiUP0mnUA" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c249/26hiUP0mnUA</a></span></span></p><h3 cid="n402" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">184、MicroNova: Folding-based arguments with efficient (on-chain) verification</span></span></h3><p cid="n403" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们介绍了MicroNova的设计与实现，这是一种基于折叠的递归论证方案，用于生成增量计算证明，其形式为Z_y = F^{(\ell)}(x)</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">y=F(ℓ)(x)</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Z。其中Z_F_Z表示可能非确定性的计算（通过R1CS等约束系统编码），Z_x_Z为初始输入，Z_y_Z为输出，且Z</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">\ell &gt; 0_Z。该方案逐步生成Z</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">\ell_Z步计算的证明，其证明大小和验证时间均与Z</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">\ell_Z无关。最终迭代的证明会被进一步压缩，以实现更优的证明大小和验证时间简洁性。与现有基于折叠的论证方案相比，MicroNova的显著特点是验证者具备极高的实际效率——即使在以太坊区块链等资源受限环境中。具体而言，压缩后的证明仅包含Z_O(\log{N})</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Z个群元素，验证过程仅需Z_O(\log{N})_Z次群标量乘法和两次配对运算，其中Z_N_Z表示单次Z_F_Z调用的约束数量。MicroNova需要通用的可信设置，并能兼容现有为KZG单变量多项式承诺方案创建的所有设置材料。最后，我们实现了MicroNova并进行了实验评估。结果表明，MicroNova的证明可在以太坊区块链上以约2.2M gas高效验证，且其证明生成器在基线Nova方案上的开销极低。</span></span></p><p cid="n404" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b835/26hiUz9nuta" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b835/26hiUz9nuta</a></span></span></p><h3 cid="n405" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">185、Mind the Location Leakage in LEO Direct-to-Cell Satellite Networks</span></span></h3><p cid="n406" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，利用近地轨道（LEO）直连卫星（DTC）直接为地面手机提供通信服务的模式日益普及。然而，空对地通信中无线介质的独特特性，结合近地卫星的动态运行轨迹，催生了一种新型隐私泄露风险——攻击者通过窃听DTC广播信号可窃取活跃用户的物理位置。本文研究了新兴近地轨道直连卫星网络（DCSN）中位置信息泄露风险的分析技术，提出新型定位泄露分析工具DCator。该工具持续监控广播信道中的DTC信令消息，提取多维位置线索，并结合时变卫星轨道数据来推断活跃用户的实际位置。我们运用DCator模拟攻击者在三种典型DCSN场景（运营中的铱星系统、开发中的星链DTC系统、基于最新3GPP NTN标准的DCSN系统）中持续监控并处理广播DTC信令以推导同卫星覆盖范围内其他用户位置的后果。大量实验证明现实DCSN中确实存在位置泄露问题，最严重情况下攻击者可精准追踪数百米范围内其他用户的位置轨迹。最后，我们为DCSN提出了隐私增强防护方案。</span></span></p><p cid="n407" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b026/26hiU4FcBjy" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b026/26hiU4FcBjy</a></span></span></p><h3 cid="n408" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">186、Mixnets on a tightrope: Quantifying the leakage of mix networks using a provably optimal heuristic adversary</span></span></h3><p cid="n409" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">混洗网络被广泛认为能够隐藏个体的通信元数据。我们揭示了在设计混洗网络拓扑结构和路由策略时存在的诸多隐患，尤其是选择低延迟混洗网络时。本文提出了一种实证评估此类元数据泄漏的工具，并证明该工具能精确估算接收者匿名性的泄漏程度——其误差仅由采样过程引入。首先，我们提出了一种新颖的通用攻击策略，并证明该策略在破坏接收者匿名性方面具有理论最优性。与先前研究不同，我们的攻击策略通过所谓&#34;隐私损失&#34;量化了每次观测所泄露信息的严重程度。其次，该工具通过大规模采样观测数据，为攻击者对抗接收者匿名性的优势提供了下限：当检测到大量高隐私损失的观测值时，工具会通过计算隐私损失分布尾部的质量下限，输出泄漏量的下限值。基于现有文献，我们分析了Karaoke和Atom协议的拓扑结构与路由策略，量化了其元数据泄漏边界，并根据分析结果提出了改进建议。</span></span></p><p cid="n410" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e106/26hiW5O2aJ2" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e106/26hiW5O2aJ2</a></span></span></p><h3 cid="n411" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">187、Modifier Unlocked: Jailbreaking Text-to-Image Models Through Prompts</span></span></h3><p cid="n412" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">文本到图像模型前所未有的图像生成能力使其成为一把双刃剑。这些模型虽能让用户通过简单提示创作精美图像，却也给攻击者提供了生成不良内容（即越狱攻击）的可乘之机。尽管内置安全过滤器作为缓解措施，其漏洞及相关的安全隐患仍不容忽视。本研究提出ModX——首个基于修饰词的文本到图像模型越狱攻击框架。ModX采用启发式算法，通过两种启发函数（约束条件）识别修饰词，通过调整艺术流派微妙引入不安全元素，使生成图像趋向不良内容。该方法利用过滤器不太可能拒绝特定风格或艺术形式图像的特点，有效诱导模型生成不良内容。我们通过理论分析验证了基于修饰词的越狱可行性，并通过实验证明了ModX的有效性。结果显示，ModX在四种前沿文本到图像模型上的越狱成功率超越现有方法。此外，我们在更多不良内容类别、模型及版本上评估ModX，证明了其强大的可扩展性和泛化能力。</span></span></p><p cid="n413" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a355/26EkESqqGlO" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a355/26EkESqqGlO</a></span></span></p><h3 cid="n414" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">188、Mon CHÉRI: Mitigating Uninitialized Memory Access with Conditional Capabilities</span></span></h3><p cid="n415" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在C和C++等语言中，高达10%的内存安全漏洞源于未初始化变量。本研究针对未初始化内存问题的普遍性及现有软件缓解措施的不足，提出了硬件层面的架构级防护方案。基于能力寻址的技术（如剑桥大学的CHERI）已在架构层面有效缓解包括空间与时间安全性违规在内的多种内存缺陷，但无法处理未初始化变量导致的未定义行为。我们扩展了CHERI能力模型，引入&#34;条件能力&#34;机制，支持基于历史操作的存储器访问策略。该机制可强制实施&#34;内存写入前禁止读取&#34;（写先于读）等满足内存安全目标的策略。我们详细介绍了架构扩展方案、编译器支持，并在QEMU全系统模拟器与基于FPGA改进的CHERI-RISC-V软核上完成全面评估。实验表明条件能力机制具有实用性：在检测准确率保持高位的同时，仅产生约3.5%的性能开销，与基础CHERI能力的成本相当。</span></span></p><p cid="n416" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a791/26hiTWeltII" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a791/26hiTWeltII</a></span></span></p><h3 cid="n420" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">189、Myco: Unlocking Polylogarithmic Accesses in Metadata-Private Messaging</span></span></h3><p cid="n421" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着数十亿人依赖端到端加密通信，通信时间和参与者关系等元数据的暴露仍在持续削弱用户的匿名性。传统上，具备强加密保障的异步元数据隐藏方案因依赖私有信息检索（PIR）技术，其服务器计算复杂度始终受限于用户数量N的平方阶O(N²)。我们提出Myco系统——一种在保持强加密保障的同时，实现O(N log² N)效率的元数据私密通信框架。该方案摒弃了PIR技术，创新性地引入了一种 oblivious 数据结构来实现收发双方隐私通信。为彻底解耦读写操作，Myco采用非对称双服务器的分布式信任模型：客户端将消息写入负责 oblivious 传输的服务器A，再由服务器B向客户端提供读取服务。实测表明，Myco相比基于PIR的多服务器最优方案提升302倍吞吐量，较单服务器系统提升2,219倍。</span></span></p><p cid="n422" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e087/26hiW3jkMPS" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e087/26hiW3jkMPS</a></span></span></p><h3 cid="n423" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">190、Not All Edges are Equally Robust: Evaluating the Robustness of Ranking-Based Federated Learning</span></span></h3><p cid="n424" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">联邦排名学习（FRL）是一种先进的联邦学习框架，以其通信高效性和对投毒攻击的强韧性著称。该框架与传统联邦学习存在两大差异：1）采用离散排名而非模型更新进行协作，大幅降低通信成本并压缩恶意更新的潜在空间；2）在服务器端通过多数表决机制确定全局排名，由于每个客户端仅贡献单次投票，个体更新影响极为有限。这些特性提升了系统可扩展性，使FRL成为极具前景的联邦学习范式。然而，我们的分析表明FRL并非天然鲁棒，某些特定边对投毒攻击尤为脆弱。通过理论探究，我们证明了这些脆弱边的存在性，并为每层脆弱边的识别建立了上下界。基于此发现，我们提出一种新型针对FRL的本地模型投毒攻击——脆弱边操纵（VEM）攻击。该攻击通过识别并扰动每层最脆弱边，结合基于优化的方法实现攻击效果最大化。在基准数据集上的大量实验表明，我们的攻击总体影响率达到53.23%，攻击效果是现有方法的3.7倍。本研究揭示了基于排名的联邦学习系统存在重大安全漏洞，亟需开发新型鲁棒联邦学习框架。</span></span></p><p cid="n425" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c527/26EkGiHG8pO" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c527/26EkGiHG8pO</a></span></span></p><h3 cid="n426" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">191、OPERA: Achieving Secure and High-performance OLAP with Parallelized Homomorphic Comparisons</span></span></h3><p cid="n427" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">全同态加密（FHE）在在线分析处理（OLAP）系统中的采用日益广泛，以防范数据泄露。然而，现有基于FHE的OLAP系统在处理FHE密文查询时必须顺序执行计算密集型的同态比较操作，导致性能显著低于传统OLAP系统。我们提出OPERA——首个基于GPU的高性能FHE型OLAP系统。通过观察从头重复执行同态比较的冗余性，我们设计了HOMCACHE来创建GPU加速的并行查询执行流程：OPERA选择性缓存比较结果，允许后续比较复用这些结果，从而降低单次比较的计算开销，并支持在GPU上并发执行多个比较。然而，由于FHE密文体积庞大，HOMCACHE可能急剧膨胀，若直接套用传统面向明文的缓存管理策略（如LRU）会导致性能欠佳。为确保稳定的高性能，我们开发了专用于管理HOMCACHE中密文的密度驱动算法。与运行在CPU上的主流基线系统相比，OPERA在1.2GB缓存存储条件下将查询延迟降低高达9612倍，且不影响安全性。OPERA的源代码、完整基准测试套件及原始结果详见github.com/hku-systems/Opera。</span></span></p><p cid="n428" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c156/26hiULvMrFm" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c156/26hiULvMrFm</a></span></span></p><h3 cid="n429" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">192、On the (In)Security of LLM App Stores</span></span></h3><p cid="n430" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLM）应用商店的迅猛发展催生了大量定制化LLM应用，但这一扩张也引发了安全隐患。本研究提出三层风险框架以识别LLM应用的潜在安全威胁，包括：具有滥用潜力的LLM应用、存在恶意意图的LLM应用以及植入后门的LLM应用。在五个月期间，我们从GPT Store、FlowGPT、Poe、Coze、Cici和Character.AI六大应用商店收集了786,036个LLM应用。研究结合静态与动态分析，采用自优化基于LLM的有害内容检测器与基于规则的模式匹配互补方法识别违规内容，并构建了包含31,783个条目的大规模敏感词库（ToxicDict）。通过该方法，我们发现15,414个应用存在误导性描述，1,366个应用违反隐私政策收集敏感个人信息，15,996个应用生成仇恨言论、自残、极端主义等有害内容。此外，我们评估了LLM应用助长恶意活动的可能性，发现616个应用可被用于生成恶意软件、网络钓鱼等行为。相关风险已向OpenAI、Quora等平台披露并获得官方认可。截至本文提交，GPT Store已下架1,643个违规应用，各平台正在持续核查标记应用。</span></span></p><p cid="n431" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600f298/26hiTDjKxoc" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600f298/26hiTDjKxoc</a></span></span></p><h3 cid="n432" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">193、On the Conflict between Robustness and Learning in Collaborative Machine Learning</span></span></h3><p cid="n433" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">协作式机器学习（CML）允许参与者在保持训练数据私密性的前提下共同训练机器学习模型。在诸多将CML视为隐私问题解决方案的场景（如医疗健康应用）中，安全性同样至关重要。为确保CML流程产生的模型能输出正确可靠的决策——即使在存在潜在不可信参与者的情况下，研究者提出采用鲁棒聚合器来过滤对训练过程产生负面影响的恶意贡献。本文证明文献中两种主流鲁棒聚合器无法在保障学习效果的同时消除安全风险：参与者若要从协作中获益，就必须始终承担遭受有害对抗性操纵的风险。因此，这些鲁棒聚合器不适用于医疗健康或自动驾驶等高风险领域——此类应用中错误可能导致物理伤害。我们通过实验验证了理论发现，选取现有鲁棒聚合器和相关应用进行实证，包括端到端案例研究：结果表明使用现有鲁棒聚合器可能导致医疗误诊，或致使自动驾驶车辆错过转弯路口。</span></span></p><p cid="n434" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c171/26EkG4wS1I4" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c171/26EkG4wS1I4</a></span></span></p><h3 cid="n435" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">194、On the Effectiveness of Prompt Stealing Attacks on In-The-Wild Prompts</span></span></h3><p cid="n436" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLM）的兴起催生了对高质量提示词的需求，这类提示词现已成为提示词交易市场中的高价值商品。然而，这种需求也引发了提示词窃取攻击的出现——攻击者试图通过模型生成内容反推原始提示词，威胁着相关市场的知识产权与商业模式。现有研究主要基于学术数据集评估提示词窃取攻击，但核心问题仍未解决：此类攻击是否真正威胁到现实用户精心设计的真实场景提示词？本文首次系统研究了针对真实场景提示词的窃取攻击效果。分析表明，真实场景提示词在长度、语义和主题方面与学术数据集存在显著差异。评估结果显示，现有攻击方法在此类场景下表现欠佳。为提升攻击效果，我们采用基于文本梯度的方法迭代优化提示词以更精准复现输出内容，使得提示词还原的METEOR分数从0.207提升至0.253，输出还原分数从0.323提升至0.440。尽管取得这些进展，我们证明其仍存在本质性挑战，这凸显了未来需进一步研究以提升实际场景中提示词窃取攻击的效能评估。</span></span></p><p cid="n437" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a392/26hiTFMb8eQ" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a392/26hiTFMb8eQ</a></span></span></p><h3 cid="n438" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">195、Open Sesame! On the Security and Memorability of Verbal Passwords</span></span></h3><p cid="n439" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">摘要——尽管关于文本密码的研究已十分广泛，但语音密码（通过口述而非键入）的安全性与可记忆性仍缺乏深入探索。语音密码在键盘输入不可行（如智能音箱、可穿戴设备、车载系统）或用户存在运动障碍难以打字的情景中具有重要潜力。通过两项大规模用户研究，我们评估了语音密码的可行性。在第一项研究（N=2,085）中，发现自由设定的语音密码猜测空间有限，39.76%的密码在10^9次猜测内被破解。而在第二项研究（n=600）中，采用最小词数要求和禁用词表策略的语音密码创建方案显著提升了性能，其可记忆性和安全性均优于传统文本密码。具体而言，在长期测试中，65.6%的语音密码用户（采用最小词数+禁用词表策略）成功回忆出密码，而文本密码用户仅为54.11%。此外，采用强制策略的语音密码破解率（6.5%）低于文本密码（10.3%）。这些发现表明，在文本密码不可行的场景中，语音密码是一种实用且安全的替代方案，既能保持高可记忆性，又能有效抵抗猜测攻击。</span></span></p><p cid="n440" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a683/26hiTSjmQnu" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a683/26hiTSjmQnu</a></span></span></p><h3 cid="n444" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">196、Ownership and Gatekeeping vs. Safeguarding and Consent: How Migrant Parents Navigate Child Data Management Complexities</span></span></h3><p cid="n445" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">赴海外寻求发展机会的父母们，日益面临着在全新文化和法律环境中抚养子女的挑战。这一责任包括遵守陌生法规和保护子女数据——这些任务往往复杂且艰巨。本研究探讨移民父母如何认知、管理和保护与子女相关的数据。通过对英国17位移民父母及监护人的访谈，我们揭示了关于数据所有权与管理不断演变的微妙观点。移民父母对数据失控表现出深切忧虑，既担心本地共享数据被滥用，也害怕海外亲属误用信息可能伤害子女或危及移民身份。我们分析了他们在应对数据所有权与同意概念变迁时的管理策略与方法。研究发现强调，亟需提供文化适应性支持以协助移民家庭保护子女数据，同时为跨境数据共享的复杂性及其影响等未来研究方向提供了指引。</span></span></p><p cid="n446" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c023/26hiUFVLq6I" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c023/26hiUFVLq6I</a></span></span></p><h3 cid="n456" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">197、PEFTGuard: Detecting Backdoor Attacks Against Parameter-Efficient Fine-Tuning</span></span></h3><p cid="n457" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">微调是提升大语言模型（LLM）在特定领域性能的关键过程，其中参数高效微调（PEFT）因通过集成低秩适配器降低计算需求而广受欢迎。诸如LoRA的轻量级适配器可在开源平台共享使用，但攻击者可能利用该机制向适配器注入后门，导致错误或有害输出等恶意行为，对社区构成严重安全威胁。目前鲜有研究专注于分析适配器后门模式或检测其潜在后门。为此，我们率先构建并发布PADBench——一个包含13,300个良性及后门适配器的综合基准库，涵盖多样化数据集、攻击策略、PEFT方法与LLM组合的微调结果。此外，我们提出首个针对PEFT适配器的后门检测框架PEFTGuard。基于PADBench的大规模评估表明，PEFTGuard在多数情况下能以近完美准确率（100%）超越现有检测方法，并在攻击方式、PEFT方法及适配器秩三个维度上展现出零样本迁移能力。通过多种自适应攻击验证，PEFTGuard表现出极高鲁棒性。我们进一步探索多种后门缓解防御方案，发现细粒度混合方法最为有效。本研究期望通过基准库与检测框架为未来LLM后门检测研究提供启示。</span></span></p><p cid="n458" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b620/26hiUqOcltC" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b620/26hiUqOcltC</a></span></span></p><h3 cid="n459" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">198、PFORTIFIER: Mitigating PHP Object Injection through Automatic Patch Generation</span></span></h3><p cid="n460" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">PHP对象注入（POI）漏洞会导致PHP应用中类方法被意外执行，进而引发多种攻击。与此同时，为POI漏洞设计有效补丁需要耗费大量工程精力。现有研究主要集中于POI利用链的检测，而自动补丁生成仍是尚未充分探索的领域。本研究通过实证分析已知利用链，发现攻击者通常通过跳转到开发者未考虑的代码路径来构造利用链。这些被意外跳转执行的方法被称为潜在方法（PM）。基于此发现，我们提出了自动生成POI补丁的框架PFORTIFIER。该框架分两阶段运行：(i)利用链检测阶段：通过模拟PHP应用执行过程，识别将攻击者可控对象传递至危险接收器的利用链；(ii)补丁生成阶段：通过限制第一阶段检测到的PM跳转行为自动生成POI补丁。我们在31个PHP应用和框架上评估PFORTIFIER，实验结果表明其有效性：能为52.53%的利用链生成精准补丁，为45.45%的链提供潜在补丁方案，总体利用链覆盖率达97.98%。</span></span></p><p cid="n461" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a918/26hiU0IeM3S" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a918/26hiU0IeM3S</a></span></span></p><h3 cid="n462" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">199、PGUS: Pretty Good User Security for Thick MVNOs with a Novel Sanitizable Blind Signature</span></span></h3><p cid="n463" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">5G技术的兴起凸显了厚移动虚拟网络运营商（Thick MVNO）在提供定制化移动服务中的关键作用。然而，针对Thick MVNO特有的安全与隐私挑战仍未得到充分解决。本文提出面向Thick MVNO的PGUS（Pretty Good User Security）安全框架，其中创新性地引入了可净化盲签名（Sanitizable Blind Signature, SBS）这一密码学原语，并设计了名为PGUS-AKA的新型认证与密钥协商协议。此外，我们还开发了无缝切换协议PGUS-HO，旨在保障Thick MVNO环境中的所有通信安全。通过通用可组合（Universal Composability, UC）框架下的严格形式化安全分析，我们针对核心威胁提出了可靠解决方案，为下一代移动网络安全提供有力保障。基于5G测试平台的评估结果验证了PGUS框架的有效性。</span></span></p><p cid="n464" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b102/26hiU7onwQ0" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b102/26hiU7onwQ0</a></span></span></p><h3 cid="n474" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">200、Papercraft: Lattice-based Verifiable Delay Function Implemented</span></span></h3><p cid="n475" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">可验证延迟函数（VDF）需要按指定顺序执行若干计算步骤才能完成运算，但其输出结果的有效性可被高效验证，且验证速度远快于从头重新计算该函数。VDF是一种多功能密码学工具，在区块链共识协议、抽签系统和可验证随机数等诸多工业场景中具有广泛应用。然而目前所有已知的实用VDF方案无一例外均能被量子算法攻破。本研究探索了具有后量子安全潜力的VDF的实用性，提出完全基于格密码技术（因而具备后量子安全潜力）的VDF实现方案Papercraft。该方案基于对格基简洁论证系统的新发现，结合多项底层优化，首次实现了可在现有硬件上运行的格基VDF。例如，我们的Papercraft实现仅需7秒即可验证近6分钟的计算结果。本研究表明格基VDF不仅具有理论价值，更具备实际部署的可行性。</span></span></p><p cid="n476" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b510/26hiUmjaECc" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b510/26hiUmjaECc</a></span></span></p><h3 cid="n480" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">201、Peer2PIR: Private Queries for IPFS</span></span></h3><p cid="n481" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">星际文件系统（IPFS）是一种在分布式文件系统中存储数据的点对点网络，覆盖152个国家、拥有超过19万个节点。尽管其地位显著，IPFS为节点提供的隐私保护机制却存在严重局限——网络内的任何查询都会向其他节点泄露查询内容。我们针对IPFS在三大核心功能（节点路由、资源广告和内容检索）中的隐私泄露问题提出解决方案，最终使节点能够以隐私保护的方式在网络中导航并获取内容。本研究揭示并解决了在分布式系统中整合私有信息检索（PIR）技术时特有的新挑战，提出全新隐私协议，证明其通信与计算开销保持在合理较低水平，并对分布式系统环境下最先进的PIR协议进行了系统性对比。</span></span></p><p cid="n482" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e068/26hiW14wWek" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e068/26hiW14wWek</a></span></span></p><h3 cid="n483" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">202、Permissionless Verifiable Information Dispersal (Data Availability for Bitcoin Rollups)</span></span></h3><p cid="n484" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Rollup是一种运行在分布式状态机（即区块链）上的特殊应用，底层状态机仅记录交易而不执行交易。Rollup通过采用比底层区块链具有更高吞吐量和更低交易执行成本的辅助机器来提升扩展性。状态更新会定期提交至底层区块链，并通过简洁加密证明直接验证（零知识Rollup），或在规定时间内接受第三方以可验证方式发起挑战（乐观Rollup）。然而当计算瓶颈被突破后，通信很快成为新的性能制约因素。底层区块链除验证功能外，其核心服务是数据可用性保障——确保必要数据在请求时总能被恢复。虽然广播交易数据是实现该目标的一种方式，但这种方式需要随参与节点数量线性增长的通信开销。在以太坊这类所有节点均具备强公钥身份认证的模型中，可验证信息分散（VID）系统能实现亚线性开销增长。但在比特币这类无许可模型中，由于参与者是未经认证的动态群体，此前尚未找到实现方案。我们构建了一个在比特币相同模型下安全的VID系统，仅需额外满足&#34;存在可靠参与者&#34;这一最低要求。该系统将状态机复制协议（如比特币）作为黑盒使用，因而具有向后兼容性。我们在比特币核心的回归测试网络（regtest）上实现了该系统，分析表明对于特定参数选择，其通信成本和延迟可分别降低超过1,000倍和10倍。</span></span></p><p cid="n485" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b983/26EkFXhOBW0" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b983/26EkFXhOBW0</a></span></span></p><h3 cid="n489" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">203、Post-quantum Cryptographic Analysis of SSH</span></span></h3><p cid="n490" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">安全外壳（SSH）协议是互联网上首批升级自身以抵御未来量子计算机攻击的安全协议之一，自2022年4月起，OpenSSH默认采用了“量子安全（或经典安全）”的混合密钥交换机制。然而，文献中缺乏对这一抗量子版本SSH的全面安全分析：现有研究要么孤立地探讨混合密钥交换而未考虑整体协议安全性，要么在不适用于SSH的安全模型（尤其是“后量子”场景）中进行分析。本文通过系统性的后量子密码学分析弥补了这一空白。我们采用“自上而下”的研究方法：首先在更贴合SSH特性的模型（即我们对认证保密信道建立ACCE协议安全模型的后量子扩展）中证明协议安全性，该扩展模型能捕获“先窃取后解密”攻击，可能具有独立研究价值；其次基于协议层ACCE安全分析，确立SSH底层密码原语在实际部署中的具体安全性——例如在量子随机预言模型下，证明了OpenSSH与TinySSH最新版本采用的密钥封装机制（KEM）“流线型NTRU Prime”的相关密码学性质，并解决了文献中关于其分析的开问题。值得注意的是，我们对后量子SSH的ACCE安全分析仅依赖于混合密钥交换中临时KEM的IND-CPA安全性这一较弱条件，而现有研究均需依赖更强的IND-CCA安全临时KEM假设。基于此，我们最后探讨了在当前SSH后量子实现中用更简单快速的IND-CPA安全KEM替代IND-CCA安全KEM的可能性，并提供了相应的性能基准测试数据。</span></span></p><p cid="n491" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a558/26hiTNscrn2" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a558/26hiTNscrn2</a></span></span></p><h3 cid="n492" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">204、Practical Poisoning Attacks with Limited Byzantine Clients in Clustered Federated Learning</span></span></h3><p cid="n493" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">客户端间非独立同分布（non-IID）数据的存在，对联邦学习（FL）的实际部署构成了严峻挑战。为此，业界提出了最先进的集群联邦学习（CFL）解决方案（如FL+HC和PACFL），其核心创新在于将non-IID客户端聚类为IID客户端组，从而使适用于IID场景的技术得以直接应用。然而，CFL方案的鲁棒性研究仍属空白，现有拜占庭鲁棒防御机制在CFL方案和非IID数据环境下均表现不足。本文提出两种新型强效的CFL专属投毒攻击——Cluster-U-M与Cluster-U-D，旨在显著降低参与CFL方案的良性客户端的模型效用（以测试准确率为衡量指标）。值得注意的是，这些攻击无需掌握防御方案或良性客户端的先验知识。攻击策略主要包含两个阶段：集群投毒攻击和集群内客户端漂移利用。前者诱导训练数据分布相异的客户端被错误分组，后者则放大各客户端最优解与其所属集群平均聚合结果间的差异。我们基于FL+HC和PACFL方案进行了大规模和小规模的系统性评估，结果表明：攻击可影响高达54%的客户端，最大准确率损失达48%；即使仅攻陷0.1%的客户端（代表极低的实际攻击成本），仍可危害约4%的客户端。针对FLTrust和FLAME两种前沿拜占庭鲁棒防御机制的测试显示，攻击仍可危害38%的客户端，造成18-38%的准确率损失。</span></span></p><p cid="n494" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b658/26hiUsqoKoo" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b658/26hiUsqoKoo</a></span></span></p><h3 cid="n511" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">205、Prompt Inversion Attack against Collaborative Inference of Large Language Models</span></span></h3><p cid="n512" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLM）因其卓越的内容生成能力而得到广泛应用。然而，开源LLM的实际应用受限于高资源需求，导致部署成本高昂并阻碍了普及发展。协作推理是解决这一问题的可行方案——用户通过各自托管部分模型层并传输中间激活值来实现合作。目前众多企业正利用用户闲置的GPU构建协作推理平台以降低LLM服务成本。尽管产学研界对协作推理展现出广泛兴趣，但LLM协作推理涉及的隐私风险尚未得到充分研究，这主要源于LLM激活值因高度非线性特性导致的反向解析难题。  </span></span></p><p cid="n513" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文为验证LLM协作推理中隐私威胁的严重性，提出提示词逆向攻击（PIA）概念：恶意参与者试图通过前序节点传输的激活值还原输入提示词。具体而言，我们设计了两阶段攻击方法：第一阶段通过结合LLM嵌入矩阵的约束项优化输入嵌入，迫使优化结果逼近真实值；第二阶段引入激活校准与语义推测机制精确还原离散词元。该方法基于对现有逆向技术固有局限性的理论分析，指导我们设计出最优的激活值逆向攻击策略。大量实验表明，我们的PIA方法显著优于现有基线方案。例如在Skytrax数据集上使用Llama-65B模型逆向最大层数时，本方法词元准确率达88.4%，而最优基线方案仅22.8%。实验结果证实了PIA攻击的有效性，并凸显其对LLM协作推理系统的现实威胁。</span></span></p><p cid="n514" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b602/26hiUqbSuUU" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b602/26hiUqbSuUU</a></span></span></p><h3 cid="n515" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">206、Provably Robust and Secure Steganography in Asymmetric Resource Scenarios</span></span></h3><p cid="n516" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为规避网络空间中肆无忌惮且日益严苛的监控与审查，隐写技术因其能将私密信息藏匿于看似无害的载体中而备受关注。现有可证明安全的隐写方案需依赖编码器与解码器配对工作来隐藏和提取秘密信息，二者必须运行相同模型并输入相同数据以获得一致的概率分布。这些要求为隐写技术的实际应用带来了重大挑战：多数设备缺乏运行合格模型的计算资源，且模型输入的细微变化都可能导致提取失败。针对这一局限，我们提出面向非对称资源场景的隐写框架。该场景下编码器能运行合格模型生成隐写数据，而低资源解码器无需模型或其输入即可从隐写数据中提取隐藏信息。本文提出具有严格安全性与鲁棒性证明的新型隐写框架，通过对生成模型应用的全面评估验证了其有效性。实验证明该方案在存在错误的二进制对称信道传输中仍保持稳定。据我们所知，这是首个兼具实用性、可证明鲁棒性与安全性的隐写框架。</span></span></p><p cid="n517" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b382/26hiUhLAzAc" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b382/26hiUhLAzAc</a></span></span></p><h3 cid="n518" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">207、Proving Faster Implementations Faster: Combining Deductive and Circuit-Based Reasoning in EasyCrypt</span></span></h3><p cid="n519" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们提出一种混合形式化验证方法，该方法结合了高层演绎推理与电路级推理，并将其应用于高度优化的密码学汇编代码。该验证方法通过两个互补维度实现规模化扩展：1）针对计算逻辑被特定架构指令复杂运用所模糊的低层函数，可显著减少其证明工作量；2）通过等价性检验将已验证实现的保障特性，传播至采用不同优化策略或面向不同架构的同一计算的其他实现，从而分摊验证成本。我们通过扩展EasyCrypt证明辅助工具，并重新验证Jasmin中ML-KEM的形式化实现来展示该方法。最终，我们获得了首个经形式化验证的ML-KEM实现，其在x86-64架构上的性能可与最快的未经验证实现相媲美。</span></span></p><p cid="n520" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d526/26hiVyFN8o8" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d526/26hiVyFN8o8</a></span></span></p><h3 cid="n533" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">208、Rapid Reversing of Non-Linear CPU Cache Slice Functions: Unlocking Physical Address Leakage</span></span></h3><p cid="n534" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">微架构攻击对现代计算系统构成日益严重的威胁。CPU缓存作为多数微架构攻击中至关重要却又复杂的组件，其内部工作机制亟待深入理解。尽管逆向工程技术已取得进展，非线性缓存切片函数仍难以分析，尤其在英特尔最新混合微架构中表现突出。本文提出一种创新方法，专门针对现代英特尔混合架构CPU中的复杂非线性缓存切片函数进行逆向工程。通过解析微架构哈希函数的具体结构，我们的方法将逆向工程所需时间从数天缩短至分钟级，显著超越了现有技术。与传统方案不同，本技术成功支持512GB内存系统及多样化切片配置，新发现17种用于缓存切片寻址的函数，并将现有函数扩展至支持多代CPU的大容量DRAM系统。我们还提出一种无需特权的虚拟-物理地址预言机，这正是非线性切片函数复杂性的直接产物。该方法尤其适用于阿尔德湖和流星湖等现代英特尔混合CPU——在这些平台上，传统切片测量或物理地址泄露手段均已失效。通过三项案例研究，我们验证了该方案在非攻击者映射内存上执行定向Spectre攻击、实现DRAMA攻击以及构建缓存驱逐集方面的有效性。研究结果揭示：现代CPU中复杂的缓存切片函数正显著扩大系统攻击面。</span></span></p><p cid="n535" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d238/26hiVoj9hU4" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d238/26hiVoj9hU4</a></span></span></p><h3 cid="n536" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">209、Redefining Indirect Call Analysis with KallGraph</span></span></h3><p cid="n537" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">调用图构建是众多静态分析应用的关键前提。现有最先进方法通过回退至所谓的&#34;类型分析&#34;来减少精确但代价高昂的指针追踪，从而能良好扩展到Linux内核等大型程序。本文对基于类型的方法进行了深入评估与分析，揭示了由于其临时性质导致的新缺陷。首先，我们发现近期基于类型方法在多个案例中的可靠性声明并不成立，导致间接调用目标缺失。其次，该分析在多个方面过于保守，产生了大量虚假间接调用目标。基于这些发现，我们观察到此类基于类型的方法可转化为混合指针分析框架，统一传统指针追踪方法与类型分析方法。基于该框架，我们开发了一种实用的间接调用分析技术，同时解决了可靠性与精确性限制。实验结果表明其在可靠性与精确性方面均有显著提升：KallGraph通过削减高达90%的间接调用目标并消除数百至数千个遗漏的间接调用，同步提升了精确性与可靠性。此外，KallGraph具备完全并行化能力，可在数十分钟至数小时内完成Linux内核的分析。</span></span></p><p cid="n538" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c734/26hiV5YjNXG" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c734/26hiV5YjNXG</a></span></span></p><h3 cid="n546" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">210、Rigging the Foundation: Manipulating Pre-training for Advanced Membership Inference Attacks</span></span></h3><p cid="n547" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">计算能力的显著进步导致模型复杂性激增。当前训练此类模型日益依赖迁移学习，即在大规模数据集上预训练模型后针对不同领域进行微调，使预训练模型中的知识得以有效复用并适配特定领域。然而这种学习范式也为微调模型开辟了新的攻击面。尤其值得关注的是，攻击者通过影响预训练过程进而威胁下游用户微调模型时所用隐私数据的新型隐私风险：被操控的预训练模型会使其微调版本易受隐私攻击，例如成员推断攻击（MIA）——通过查询存在漏洞的模型即可判定特定样本是否存在于微调数据集中。理解该隐私风险的独特挑战在于如何放大成员信息泄露的同时确保微调模型性能。为此我们提出新技术&#34;主动鲁棒性过拟合&#34;（ARO），通过在预训练阶段主动诱发鲁棒性过拟合，在不影响下游任务准确性的前提下放大成员信息泄露，同时保持攻击的隐蔽性。我们在多种数据集和不同MIA场景下的广泛实验表明，该方法能有效放大成员信息泄露并保持理想的下游测试准确率，这有助于更深入理解迁移学习带来的隐私风险。</span></span></p><p cid="n548" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c305/26hiUQTSjLi" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c305/26hiUQTSjLi</a></span></span></p><h3 cid="n549" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">211、Ring Referral: Efficient Publicly Verifiable Ad hoc Credential Scheme with Issuer and Strong User Anonymity for Decentralized Identity and More</span></span></h3><p cid="n550" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出了一种“环推荐方案”，用户可公开证明其拥有来自临时授权签发者集合中某一位对私有消息的有效签名，同时不暴露具体签发者身份。该方案是传统环签名的自然扩展，允许证明者从第三方签署者处获取签名。本方案适用于多种应用场景，包括证书隐藏的去中心化身份认证、增强隐私的联合认证、匿名背书以及隐私保护的推荐营销。相较于现有隐藏签发者的凭证方案，我们的环推荐方案具备以下突出特性：（1）支持临时环的公开可验证性；（2）即使签发者与验证者共谋仍能确保用户强匿名性；（3）透明初始化设置；（4）消息隐藏功能；（5）高效的多消息对数级验证；（6）支持需要多位签发者联合签署的门限方案。最后，我们通过大量实证评估实现了该环推荐方案。</span></span></p><p cid="n551" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a184/26hiTyJTFjG" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a184/26hiTyJTFjG</a></span></span></p><h3 cid="n557" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">212、Robust Threshold ECDSA with Online-Friendly Design in Three Rounds</span></span></h3><p cid="n558" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">门限签名（尤其是ECDSA）通过解决单点故障问题增强了密钥保护能力。根据是否需要待签署消息，门限签名可分为离线阶段和在线阶段。在线阶段计算成本较低的方案被称为&#34;在线友好型&#34;。实际应用中门限ECDSA的另一关键特性是鲁棒性——只要满足半诚实参与者的门限数量t，即使存在恶意签名者，也能确保每次签名执行成功完成。Doerner等人在S&amp;P&#39;24提出的非鲁棒性在线友好型门限ECDSA方案仅需三轮交互。Wong团队在NDSS&#39;23（WMY+23）和NDSS&#39;24（WMC24）的工作虽实现了鲁棒性，但需要额外通信轮次（分别为7轮和4轮），或在在线阶段引入高成本操作（如基于同态加密方案的计算）。本文首次提出兼具鲁棒性和在线友好设计的三轮门限ECDSA方案，其在线阶段仅需若干椭圆曲线群运算，计算强度比基于线性同态加密的方案低2至3个数量级。我们实现了该协议并与WMY+23和WMC24进行全面对比，基准测试表明本方案的在线阶段速度分别是二者的2.5倍和数百倍。最后我们证明该技术可扩展用于构建在线友好且鲁棒的三轮门限BBS+方案。</span></span></p><p cid="n559" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a203/26hiTzqtuPm" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a203/26hiTzqtuPm</a></span></span></p><h3 cid="n560" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">213、Rushing at SPDZ: On the Practical Security of Malicious MPC Implementations</span></span></h3><p cid="n561" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">安全多方计算（MPC）允许多方在保持输入私密性的前提下联合计算函数。尽管MPC技术已取得显著进展并引发日益增长的行业关注，其开源实现仍处于早期阶段——既缺乏生产级代码，也鲜少有人真正理解其实际安全保证。本研究针对现代MPC实现方案的真实安全性展开分析，重点关注可抵御恶意敌手（当除一名参与者外其余皆可能被腐化时）的SPDZ协议（Damgård等人，CRYPTO 2012，ESORICS 2013）。我们发现了SPDZ协议MAC校验流程中存在新型MAC密钥泄漏漏洞，该漏洞可在多线程并发场景下被利用，破坏输出完整性，某些情况下还会危及输入隐私。通过对三种SPDZ实现（MP-SPDZ、SCALE-MAMBA和FRESCO）的分析，其中两种易受此攻击影响，同时我们还发现所有实现均存在其他问题与漏洞。我们提出了缓解策略，并为研究者、开发者及用户提供建议，希望借此提升业界对这些问题的认知，避免其未来重现。</span></span></p><p cid="n562" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c287/26hiUQfhGa4" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c287/26hiUQfhGa4</a></span></span></p><h3 cid="n563" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">214、SAECRED: A State-Aware, Over-the-Air Protocol Testing Approach for Discovering Parsing Bugs in SAE Handshake Implementations of COTS Wi-Fi Access Points</span></span></h3><p cid="n564" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">WPA3个人版引入基于状态的对等体同时认证（SAE）握手协议，旨在实现前向安全性并抵御Wi-Fi连接建立阶段的密码猜测攻击——这些特性正是WPA2个人版所缺失的。然而初始版WPA3个人版的SAE设计存在连接降级和拒绝服务（DoS）攻击风险，当前增强版本虽已引入防护机制，但这些安全增强机制导致数据包采用可变结构且高度依赖上下文环境，给正确解析带来挑战。对SAE握手数据包的误解析可能危及Wi-Fi协议安全。为发现商用现成（COTS）Wi-Fi接入点（AP）中的SAE握手包解析漏洞，我们提出SAECRED——一种基于数据包结构引导且感知SAE协议状态的黑盒模糊测试工具。该工具将误解析检测问题转化为二维搜索问题，即数据包结构与底层SAE协议状态两个维度，并通过迭代深化搜索（IDS）与基于上下文敏感文法的模糊测试方法相结合来解决该问题，其中后者依托语法引导合成（SyGuS）求解器实现。我们在6款COTS AP设备和广泛使用的开源hostapd上进行评估，发现4类漏洞共计数十个实例，其中两类漏洞直接破坏了SAE本应实现的两项核心保障（抗降级与抗DoS攻击）。相关发现已报告责任方并促成补丁发布及安全公告。</span></span></p><p cid="n565" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d414/26hiVv281YQ" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d414/26hiVv281YQ</a></span></span></p><h3 cid="n572" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">215、SV-TrustEval-C: Evaluating Structure and Semantic Reasoning in Large Language Models for Source Code Vulnerability Analysis</span></span></h3><p cid="n573" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着大语言模型（LLM）在代码理解与生成能力上的进步，准确评估其分析源代码漏洞的可靠性变得愈发关键。现有研究虽考察了LLM在漏洞检测与修复等任务中的表现，却普遍忽视了结构推理与语义推理这两项对可信漏洞分析至关重要的能力。为此，我们提出\textsc{SV-TrustEval-C}基准测试，通过两个核心维度评估LLM对C语言代码的漏洞分析能力：结构推理——衡量模型在不同数据流与控制流复杂度下识别代码元素间关系的能力；语义推理——检验其在代码结构和语义受干扰场景中的逻辑一致性。实验表明，当前LLM对复杂代码关系的理解远未达标，其漏洞分析更多依赖模式匹配而非严密逻辑推理。这些发现验证了\textsc{SV-TrustEval-C}基准的有效性，同时揭示了提升LLM在实际漏洞分析任务中推理能力与可信度的关键方向。初始基准数据集已发布于\textcolor{blue}{\url{</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://huggingface.co/datasets/LLMs4CodeSecurity/SV-TrustEval-C-1.0" target="_blank">https://huggingface.co/datasets/LLMs4CodeSecurity/SV-TrustEval-C-1.0</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">}}。</span></span></p><p cid="n574" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c791/26hiV8eg35u" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c791/26hiV8eg35u</a></span></span></p><h3 cid="n575" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">216、SYN Proof-of-Work: Improving Volumetric DoS Resilience in TCP</span></span></h3><p cid="n576" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出并评估了SYN PoW，这是一种利用微型工作量证明来缓解TCP SYN洪泛攻击的新方法。数十年来，SYN洪泛一直是互联网上的常见威胁，近年来其规模和频率更是急剧增长。目前，SYN Cookie作为防御措施被广泛部署，但我们证明其在应对大规模攻击时扩展性较差，且可能损害性能。SYN PoW具有相似作用，但具备以下关键优势：（1）通过丢弃恶意SYN包而不发送SYN-ACK响应来保护带宽；（2）支持网络内验证，使中间设备能在恶意数据包到达目标前检测并丢弃；（3）将防御的主要成本负担从受害者转移至攻击者自身；（4）无需验证源地址即可防范伪造攻击。我们阐述了如何在符合现行TCP标准的前提下为SYN数据包添加工作量证明，并通过受控测试实验证明SYN PoW在大规模SYN洪泛攻击下的性能优于SYN Cookie。</span></span></p><p cid="n577" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b783/26hiUx9kMCY" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b783/26hiUx9kMCY</a></span></span></p><h3 cid="n582" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">217、Scheduled Disclosure: Turning Power Into Timing Without Frequency Scaling</span></span></h3><p cid="n583" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在计算机安全研究中，功率侧信道攻击正重新引发广泛关注。其中新兴的攻击类型通过远程监测功耗变化实现——最典型的手段是观测与功耗相关的CPU频率波动。然而现有方法仅在被测试的（较旧）x86 CPU架构上得到验证，这些架构主要（甚至完全）依赖频率调节机制来维持系统安全运行。现代x86 CPU架构引入了更多复杂机制，远程功率侧信道攻击是否仍然可行尚不明确。我们证明此类攻击不仅在现代x86 CPU架构上依然可行，其效果反而更显著，甚至能在无频率侧信道泄漏的条件下实施。我们的攻击利用了线程导向器（Thread Director）这一硬件优化功能——该机制通过提供调度&#34;提示&#34;来提升现代英特尔处理器的性能与能效。研究表明，这些提示信号与处理器功耗密切相关，从而引发可被纯软件方式（甚至通过远程时序分析）观测到的功耗依赖性调度行为（例如活跃核心数量的波动）。我们通过两种场景验证攻击有效性：从恒定时间密码代码中泄漏密钥（速度较旧款x86 CPU上的同类攻击提升5倍），以及实施跨源像素窃取攻击。</span></span></p><p cid="n584" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d340/26hiVsoUGbK" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d340/26hiVsoUGbK</a></span></span></p><h3 cid="n585" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">218、Secure Transfer Learning: Training Clean Model Against Backdoor in Pre-Trained Encoder and Downstream Dataset</span></span></h3><p cid="n586" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于预训练编码器的迁移学习已成为现代机器学习的关键技术，能够高效实现跨任务的模型适配。然而这种预训练与下游适配的结合也扩大了攻击面，使模型面临编码器和数据集层面的复杂后门植入威胁——这一领域在先前研究中常被忽视。此外，与端到端的从头训练相比，预训练编码器用户通常有限的算力资源也制约了通用后门防御的效果。本研究致力于解决资源受限的迁移学习场景中如何降低后门风险的问题。我们首先系统分析了现有防御策略，发现多数方案遵循被动应对模式，其假设条件难以扩展至未知威胁、新型攻击或不同训练范式。为此，我们提出以识别清洁要素为核心的前摄性防御思路，开发了可信核心自举（T-Core）框架，强调通过定位可信数据和神经元来增强模型安全性。实验评估验证了T-Core的有效性和优越性：在5个基准数据集上针对3类潜在后门威胁的4种场景，系统评估了5种编码器投毒攻击、7种数据集投毒攻击以及14种基线防御方案。</span></span></p><p cid="n587" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b639/26hiUrJfICA" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b639/26hiUrJfICA</a></span></span></p><h3 cid="n600" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">219、Shark: Actively Secure Inference using Function Secret Sharing</span></span></h3><p cid="n601" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们研究预处理模型下主动安全的两方机器学习推理问题，其中参与方在离线阶段获取（与输入无关的）关联随机性，随后可在（输入相关的）在线阶段利用该随机性运行高效协议。现有最佳方案是Escudero等人（Crypto 2020）的工作，但该协议存在关联随机性需求量大、通信开销高、交互轮次多等缺陷，导致实际性能不佳。本文提出基于函数秘密共享（FSS）的新型协议，在各项参数上全面超越现有方案：所需关联随机性更少、交互轮次更低、通信与计算开销更优。我们通过两项创新实现这一突破：首次在FSS协议中支持布尔值与算术值的混合运算，并引入&#34;交互式FSS&#34;这一FSS的泛化形式。为验证方案有效性，我们构建了SHARK系统——首个基于FSS的主动安全推理框架，其性能较现有最佳方案提升最高达2300倍。</span></span></p><p cid="n602" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c268/26hiUPCGeti" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c268/26hiUPCGeti</a></span></span></p><h3 cid="n603" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">220、Signature-Free Atomic Broadcast with Optimal Z_O(n^2)O(n2)</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Z Messages and Z_O(1)O(1)</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Z Expected Time</span></span></h3><p cid="n604" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">拜占庭原子广播（ABC）是许可区块链及各类多方计算协议的核心技术。我们解决了ABC领域一个长期悬而未决的开放性问题，首次提出无需签名的异步ABC协议，在副本总数为Z</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">nn</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Z时实现最优的Z</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">O(n2)O(n^2)</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Z消息复杂度与Z</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">O(1)O(1)</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Z期望时间复杂度。该协议采用创新设计架构，其核心思想源自——或许出人意料——一个长期被忽视的称为多值拜占庭协议（MBA）的底层原语。</span></span></p><p cid="n605" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b547/26EkFF9L4Qw" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b547/26EkFF9L4Qw</a></span></span></p><h3 cid="n606" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">221、Slice+Slice Baby: Generating Last-Level Cache Eviction Sets in the Blink of an Eye</span></span></h3><p cid="n607" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">构建缓存攻击的关键步骤是寻找驱逐集——即在缓存空间上发生竞争的若干内存位置集合。在英特尔处理器上，识别竞争地址的主要挑战之一是其分片缓存设计：处理器通过对物理地址进行哈希运算来确定内存位置在缓存中的存储位置。虽然已有研究证明该哈希函数可被逆向推导，但同时也表明其依赖攻击者无法获取的物理地址位。</span></span></p><p cid="n608" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文在驱逐集查找技术上做出三项核心贡献：首先，我们利用微架构级竞态条件比较内存访问时间，从而识别地址映射的缓存分片；其次，我们运用已知哈希函数既降低了分片识别方法的错误率，又通过将分片映射外推至未测试内存地址来减少工作量；最后，针对此前未被研究的非线性哈希函数场景，我们提出了跨不同页偏移量传递驱逐集信息的方法。在采用非线性函数的英特尔i7-9850H和i9-10900K处理器上，我们的技术分别仅需0.7秒和1.6秒即可生成完整的末级缓存驱逐集，相比现有最优技术所需的9倍和10倍时间实现了显著提升。</span></span></p><p cid="n609" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d479/26EkGWP53fa" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d479/26EkGWP53fa</a></span></span></p><h3 cid="n610" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">222、Smaug: Modular Augmentation of LLVM for MPC</span></span></h3><p cid="n611" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">安全多方计算（MPC）是隐私保护计算的关键工具，但由于近期技术进展与优化，其复杂性日益增加。MPC编程工具使开发者无需精通密码学即可开发MPC应用，然而现有工具大多因缺乏文档维护、难以与传统代码库集成而未能吸引实际用户。本研究构建了Smaug——一个模块化的LLVM扩展框架。Smaug为MPC程序员无缝集成LLVM全部支持功能，包括错误提示、文档系统、代码优化，以及将多语言编译为LLVM中间表示（IR）的前端支持。该系统能高效地将非 oblivious LLVM IR转换为 oblivious 版本，同时应用LLVM代码转换中的主流优化技术。通过C++和Rust编写的基准测试程序，配合Yao与GMW协议后端，我们发现Smaug性能与采用领域专用语言的同类工具相当（某些情况下显著更优）。最后，我们使用Smaug编译了实现扫雷和二十一点的开源项目，轻松生成可用的双人游戏版本。</span></span></p><p cid="n612" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c715/26hiV5mz9F6" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c715/26hiV5mz9F6</a></span></span></p><h3 cid="n613" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">223、Sniffing Location Privacy of Video Conference Users Using Free Audio Channels</span></span></h3><p cid="n614" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">自COVID-19疫情爆发以来，视频会议应用被更广泛地用于连接异地人群的工作、学习与社交互动。这类应用通过流式音频模拟&#34;面对面&#34;会议，并赋予用户完全的隐私控制权。例如，用户可依据常识随时关闭麦克风以保护隐私：1）包含语义或上下文信息的音频信号存在隐私风险；2）麦克风仅涉及声学隐私；3）会议参与者无法主动侵犯他人隐私，仅能伺机利用偶然的隐私泄露或失误。本文研究了颠覆这些假设的隐私泄露现象。我们发现，即使禁用摄像头或使用虚拟背景隐藏位置，任何会议参与者仍能主动且隐蔽地探测他人的位置隐私。具体而言，视频会议合法的双向音频通道为远程声学传感提供了条件，使攻击者能探测用户物理环境并接收位置特定的回声信号。然而，所有视频会议系统都采用回声消除功能防止音频反馈，这本质上阻断了主动传感。为解决这一难题，我们开发了基于Transformer的算法，并利用生成式AI的编码器抵消回声消除效应，从严重失真的回声信号中提取稳定的位置特征。此外，我们提出两类主动声学传感攻击：通道内回声攻击通过精心设计的信号突破回声消除；通道外回声攻击则利用第三方媒体声音（如邮件提示音）规避消除机制。我们在Zoom、Teams和Skype等商业视频会议应用上测试这些攻击。仅使用单次探测声音时，我们的方法对重复场所的识别准确率达88.3%，对新场所（未见过或未标记）场景的识别准确率达88.5%。</span></span></p><p cid="n615" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e682/26EkHNTvb32" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e682/26EkHNTvb32</a></span></span></p><h3 cid="n619" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">224、SoK: A Privacy Framework for Security Research Using Social Media Data</span></span></h3><p cid="n620" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">社交媒体数据在研究中应用广泛，涵盖计算机科学、社会科学、人机交互及法律与犯罪学等多个领域。然而，此类数据常包含个人敏感信息。尽管已有研究探讨过相关伦理问题，但宽泛的伦理讨论难以揭示细粒度的隐私风险及缓解措施。本研究聚焦于利用社交媒体数据研究安全主题的学术论文，系统分析了16年间601篇跨学科论文。研究发现：仅35%的论文会提及数据匿名化、可用性或存储等考量事项，透明度严重不足。通过运用索洛夫的隐私风险分类法，我们发现该框架虽精准预见了数据聚合风险，但现代数据科学的规模性、时效性与微观细节特征催生了二十年前未曾预料的新风险。本文向研究者、伦理委员会和出版机构等利益相关方阐明了研究发现：尽管已有改进迹象，但学术界的细微行为改变或将对用户隐私产生重大影响。</span></span></p><p cid="n621" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b140/26hiU8UCm1q" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b140/26hiU8UCm1q</a></span></span></p><h3 cid="n622" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">225、SoK: Challenges and Paths Toward Memory Safety for eBPF</span></span></h3><p cid="n623" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Linux中的扩展伯克利包过滤器（eBPF）子系统无需修改内核代码即可扩展内核功能。除了在网络领域的应用外，eBPF还具备执行跟踪、添加安全检查等灵活性。为确保eBPF不会被攻击者利用来破坏内核，eBPF在执行每个程序前都通过验证器进行校验，其中包括防止eBPF程序因内存错误修改内核内存的检查。然而，eBPF子系统（包括验证器本身）已暴露出大量漏洞，严重违背设计预期，引发了人们对eBPF带来内存安全威胁的担忧。本文首次系统分析了eBPF生态中固有的内存安全风险，重点关注eBPF验证器局限性与现有内核防御机制面临的挑战。随后评估了采用隔离技术、运行时检查和静态验证的研究性缓解方案，阐明其贡献与不足。研究发现公开eBPF程序中仅1.62%-3.74%（37-85条）内存操作无法被全面证明符合内存安全，这为在兼顾性能与兼容性的前提下实现全面内存安全提供了可行方向。</span></span></p><p cid="n624" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a810/26hiTWPwVLa" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a810/26hiTWPwVLa</a></span></span></p><h3 cid="n628" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">226、SoK: Decoding the Enigma of Encrypted Network Traffic Classifiers</span></span></h3><p cid="n629" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">TLS 1.3等现代加密协议的广泛应用对传统网络流量分类（NTC）方法提出了严峻挑战。为此，研究者日益转向机器学习（ML）方法来突破这些障碍。本文通过构建设计决策分类体系、基准测试套件及影响分类器性能的常见假设，系统分析了基于ML的NTC研究。通过这种体系化梳理，我们揭示了普遍存在的过时数据集依赖、设计疏漏以及未经证实的假设所导致的后果。评估表明，由于使用陈旧数据集，大多数已提出的加密流量分类器错误地处理了未加密流量。此外，通过对前沿分类器进行348次特征遮蔽实验，我们论证了NTC设计疏漏如何引发过拟合，并用实证依据验证或反驳了主流假设。通过总结经验教训，本研究提出了战略见解，指明了新兴研究方向，并推荐最佳实践以支持开发具有实际应用价值的NTC方法。</span></span></p><p cid="n630" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b732/26hiUvcHgly" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b732/26hiUvcHgly</a></span></span></p><h3 cid="n634" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">227、SoK: Dlog-based Distributed Key Generation</span></span></h3><p cid="n635" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">分布式密钥生成（DKG）协议是门限密码学的核心组件，能够以去信任方式为门限加密、门限签名等一系列密码学操作生成密钥。其中基于离散对数的密码系统所采用的DKG协议尤为普及。本文通过系统化梳理，对离散对数场景下的现有DKG协议进行全面分析，旨在识别有助于开发安全、稳健协议的密码学技术与设计原则。为提供结构化文献综述，我们采用模块化方法，根据底层网络假设与密码学工具对DKG协议进行分类——这两个要素决定了协议如何管理秘密共享与达成共识这两项核心构建模块。文中还提炼了多项洞见，并提出了推动该领域持续发展的未来研究方向。</span></span></p><p cid="n636" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a577/26hiTO93S0M" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a577/26hiTO93S0M</a></span></span></p><h3 cid="n640" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">228、SoK: Self-Generated Nudes over Private Chats: How Can Technology Contribute to a Safer Sexting?</span></span></h3><p cid="n641" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">越来越多的人利用移动应用建立关系或进行随意接触，这有时会导致自拍裸照的分享。虽然这为性探索开辟了途径，但也引发了担忧。本文回顾了现有技术辅助的许可性方案/功能，这些方案/功能在在线分享裸照时能提供安全性、隐私性或可追责性优势。为此，我们进行了系统性文献综述，梳理了10,026条搜索结果和交叉引用，并通过调查操作系统功能及52款约会、通讯和社交应用，识别出现实解决方案。我们通过定义性讯威胁模型、构建方案/功能分类体系、讨论部分缺陷、整合隐私相关概念，并提炼未来研发方向的启示，实现了知识系统化。研究发现，学术方案和应用功能构成了高度多样化的生态，表明安全性讯远不止于裸照检测。现有技术均非应对所有威胁的终极解决方案，但各自以不同方式为更安全的性讯环境作出贡献。</span></span></p><p cid="n642" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e144/26hiW7ihO00" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e144/26hiW7ihO00</a></span></span></p><h3 cid="n646" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">229、SoK: Space Infrastructures Vulnerabilities, Attacks and Defenses</span></span></h3><p cid="n647" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">空间基础设施对全球社会与经济的重要性日益凸显。然而，尽管已有诸多研究尝试，其网络安全问题仍未得到充分探讨。这促使我们开展本次系统化研究（SoK），该研究基于包含五大要素的创新方法论：空间基础设施模型、任务、脆弱性、攻击与防御措施。该方法论通过引入受程序分析中控制流与数据流概念启发的&#34;任务控制流&#34;与&#34;任务数据流&#34;新范式，构建了空间基础设施的&#34;解剖结构&#34;。我们展示了文献中研究的空间基础设施脆弱性、攻击与防御措施如何映射到空间任务控制流和数据流，并得出以下关键发现：{\em 内存分配不当}与{\em 认证机制缺失}是文献报道中最常被利用的两大脆弱性；全球导航卫星系统（GNSS）安全研究最为集中，主要聚焦物理层安全；而攻击空间段的最有效途径是通过地面段实施横向渗透。</span></span></p><p cid="n648" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a990/26hiU3pZHW0" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a990/26hiU3pZHW0</a></span></span></p><h3 cid="n649" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">230、SoK: Watermarking for AI-Generated Content</span></span></h3><p cid="n650" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着生成式人工智能（GenAI）技术输出质量的提升，其内容与人类创作成果的区分日益困难。数字水印技术为解决AI生成内容与人类创作的鉴别问题提供了可行路径——该技术通过嵌入隐蔽信号实现对AI生成内容的可靠检测。尽管水印并非应对GenAI所有风险的万能方案，但它在打击虚假信息和欺骗行为、增强AI安全性与可信度方面具有关键作用。本文系统梳理了GenAI水印技术体系：从历史沿革与监管需求阐明水印的必要性，形式化定义水印方案及其理想特性，剖析现有方法的核心目标与威胁模型，并探讨实用化评估策略，为开发能抵抗各类攻击的鲁棒水印技术提供洞见。此外，我们综述了近期代表性成果，指出现存挑战并展望这一新兴领域的潜在发展方向。通过全面解析GenAI水印技术，本研究旨在为水印方法与应用的学术探索提供指引，并为政策制定者应对GenAI的广泛影响提供决策支持。</span></span></p><p cid="n651" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c398/26hiUUfn5Qs" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c398/26hiUUfn5Qs</a></span></span></p><h3 cid="n652" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">231、Space RadSim: Binary-Agnostic Fault Injection to Evaluate Cosmic Radiation Impact on Exploit Mitigation Techniques in Space</span></span></h3><p cid="n653" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">过去十年间，随着发射成本降低，近地轨道卫星激增，彻底改变了从通信到地球观测和气象预报等空间应用格局。这一趋势也引发了硬件变革：专业抗辐射硬件逐渐被更廉价的商用现成组件取代。作为现代基础设施的关键部分，卫星既面临网络攻击威胁，又受到地面和太空特有风险的影响，亟需有效的安全防护措施。然而当前在轨卫星固件中，密码学防护和漏洞利用缓解措施仍然有限。学术界对卫星安全的研究仅聚焦于密码学防护，这引发了一个关键问题：漏洞缓解策略是否适用于卫星环境？是否会受到宇宙辐射等太空特有因素的影响？本文首次系统分析了381个小型卫星设计方案，揭示了商用现成硬件平台在太空项目中的普及现状，以及卫星平台对现成漏洞缓解策略的适用性。鉴于缓解措施看似可用，我们通过开发RadSim（一种模拟单粒子效应的自动化工具）探究宇宙辐射对软件漏洞缓解策略的影响。本研究在采用不同加固措施的卫星固件二进制文件中模拟了超过210亿次故障，评估宇宙辐射环境下漏洞缓解策略的容错能力。结果表明：部分缓解措施几乎不影响容错性，而其他措施会使加固卫星固件的错误概率最高增加19%。这些发现为漏洞缓解效能与抗辐射能力之间的权衡提供了新见解，为卫星开发者优化天基系统安全性提供了指导。</span></span></p><p cid="n654" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b009/26hiU43Jy92" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b009/26hiU43Jy92</a></span></span></p><h3 cid="n661" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">232、Spoofing Eavesdroppers with Audio Misinformation</span></span></h3><p cid="n662" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">无线窃听电话通话已成为重大的安全威胁，尤其在5G及更高频段技术发展下，高频信号与高精度传感使窃听能力进一步提升。最新研究表明，攻击者甚至能利用商用毫米波雷达远程捕捉手机听筒发出的微米级声波振动，悄无声息地窃取音频信息。本文提出创新架构\sys，不仅能有效防御此类攻击，更能通过向窃听者注入虚假音频实施反制。针对物理介质（即声信号）这一数字加密无法保护、通信链中最脆弱环节的新型攻击，\sys通过系统性篡改窃听者的基础传感数据，在隐藏原始信号的同时编码合成替代信息。该系统集成超薄可重构超表面与双重推理机制，动态生成人工声振特征以植入欺骗性信息。我们完成\sys的全流程设计与实验验证，结果表明窃听者完全无法还原扬声器输出的原始语音，而注入的虚假信息平均词错误率低至2.29%。本研究首次实现兼具信号保护与主动诱骗的双重防御：既阻止攻击者解析真实信号，又使其误以为成功窃取虚假信息。该方案将防御策略从被动响应升级为主动欺骗，赋予防御者误导攻击者采信虚假信息的战略优势。</span></span></p><p cid="n663" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e553/26EkHGUUuOI" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e553/26EkHGUUuOI</a></span></span></p><h3 cid="n664" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">233、Stateful Analysis and Fuzzing of Commercial Baseband Firmware</span></span></h3><p cid="n665" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基带固件在蜂窝通信中起着至关重要的作用，但其专有、闭源的特性以及复杂的状态化处理逻辑使得系统性安全测试极具挑战性。现有方法往往未能考虑基带任务间的相互依赖关系及输入处理逻辑的状态性，从而限制了测试范围和效果。我们提出了LORIS——一个专为有效探索与分析基带固件实现而设计的状态化模糊测试框架。通过迭代式符号分析，我们逐步识别状态变量及其定义不同协议状态的谓词，同时缓解状态爆炸问题。这使得LORIS能够有针对性地探索和模糊测试具有高漏洞潜力的程序区域。我们在两大主流厂商的5款商用设备上评估了LORIS框架，覆盖4G长期演进（LTE）和5G新空口（NR）标准，证明了其广泛适用性。测试发现了7个可由无线攻击者利用的新漏洞，可能导致基带崩溃、远程代码执行及服务拒绝。</span></span></p><p cid="n666" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b120/26EkFox5zyg" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b120/26EkFox5zyg</a></span></span></p><h3 cid="n670" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">234、Supporting Family Discussions About Digital Privacy Through Perspective-Taking: An Empirical Investigation</span></span></h3><p cid="n671" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">尽管96%的美国青少年每日使用互联网，但大多数家庭在讨论隐私问题时面临挑战——父母感到准备不足，而青少年则不愿沟通。本研究基于换位思考理论，探讨了引导式家庭讨论如何促进相互理解并提升数字隐私素养。通过对13对亲子开展的定性研究，我们发现了三大沟通障碍：关于隐私的抽象讨论、对绝对化表述的依赖，以及青少年参与度的下降。这些障碍源于隐私素养的局限和适应性沟通的缺失。我们的换位思考引导方法通过反思实践将传统的家长主导对话转变为协作交流，并帮助家庭理解隐私的情境依赖性，从而解决了这些问题。我们为教育技术提出了支持家庭隐私讨论规模化推广的设计方案，包括支持换位思考的工具和突显非二元隐私选择的交互界面。</span></span></p><p cid="n672" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b232/26hiUcgXVuM" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b232/26hiUcgXVuM</a></span></span></p><h3 cid="n676" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">235、SwiftSweeper: Defeating Use-After-Free Bugs Using Memory Sweeper Without Stop-the-World</span></span></h3><p cid="n677" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在C和C++等内存不安全的语言中，释放后重用（UAF）漏洞会引发严重的安全风险。为缓解此类问题，先前研究借鉴保守式垃圾回收机制，采用了内存清扫技术。然而这类方法存在固有缺陷，包括全局停顿、可扩展性差及CPU占用率高，使其难以适用于对延迟敏感的现代应用。本文提出SwiftSweeper——一种无需修改二进制文件即可防御UAF漏洞的安全内存分配器。该方案通过消除全局停顿并提升可扩展性以支持高性能C/C++工作负载，重新设计了内存清扫机制。其核心是采用eBPF技术（XMP，高速内存路径）实现的高效安全内核态数据路径，以及与内核协同设计的用户态分配器。我们在Linux系统上实现SwiftSweeper，并通过SPEC CPU和WebServer等基准测试证明：该方案在单线程/多线程场景下均能提供顶尖性能、内存效率及可忽略的延迟开销。</span></span></p><p cid="n678" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a755/26hiTUVrNEk" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a755/26hiTUVrNEk</a></span></span></p><h3 cid="n685" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">236、Teaching Data Science Students to Sketch Privacy Designs through Heuristics</span></span></h3><p cid="n686" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近期研究表明，经验丰富的数据从业者常通过绘制草图来辅助隐私设计概念的沟通。然而，关于如何帮助初学者培养此类沟通技能的研究仍显不足。本文探讨了降低数据科学新手绘制高质量隐私草图门槛的方法。我们首先开展需求调研（N=12）以识别学生在绘制隐私设计时面临的障碍，随后采用以人为中心的设计方法开发出三条基于文本的简易启发式原则。通过对24名数据科学专业学生进行的用户研究表明，仅在研究初期向参与者展示这三条原则，就能显著提升草图中隐私相关设计决策的覆盖范围，降低绘制草图时的认知负荷，并改善最终草图的易读性。</span></span></p><p cid="n687" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b195/26hiUaVvRfO" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b195/26hiUaVvRfO</a></span></span></p><h3 cid="n688" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">237、The Digital Cybersecurity Expert: How Far Have We Come?</span></span></h3><p cid="n689" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLM）在网络安全领域的日益广泛应用凸显了有效模型选择与评估的必要性。然而传统评估方法往往忽视导致性能局限的特定网络安全知识盲区。为此，我们开发了CSEBenchmark——基于345个网络安全专家必备知识点的细粒度评估框架。借鉴认知科学理论，这些知识点被划分为事实性、概念性和程序性三类，据此设计出11,050道定制化选择题。我们对12个主流LLM进行测试发现：表现最佳模型整体准确率仅达85.42%，在专用工具和冷门命令使用方面存在明显知识缺口；不同模型存在独特的知识盲区，同系列大模型可能在较小模型擅长的知识点上表现不佳。通过识别并针对性补足各模型的特定知识盲区，我们在两项网络安全任务的三个现有基准测试中，将错误预测修正率最高提升84%。此外，通过评估各模型知识结构与具体网络安全岗位的匹配度，发现不同模型适配不同岗位角色，例如GPT-4o更契合谷歌高级情报分析师，而Deepseek-V3更适合亚马逊隐私工程师。这些发现证明：根据网络安全岗位的具体知识需求选择匹配的LLM，对实现最优性能至关重要。</span></span></p><p cid="n690" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d032/26hiVhc2DLO" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d032/26hiVhc2DLO</a></span></span></p><h3 cid="n695" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">238、The Importance of Being Earnest: Shedding Light on Johnny&#39;s (False) Sense of Privacy</span></span></h3><p cid="n696" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着隐私问题日益受到关注，各类组织与政策制定者积极推动隐私增强技术（PETs）的应用，以期提升用户信任并改善数据共享行为。然而，隐私增强技术通常具有技术复杂性和对普通用户的不透明性，如何向用户清晰传达诸如安全多方计算（MPC）等复杂PETs的功能原理存在显著挑战。现有研究普遍采用的方式是：先向用户提供技术的高层描述，再评估这种干预如何改变其态度或行为，相关结论直接影响商业决策与法规制定（参见高德纳新兴技术成熟度曲线）。本研究对此方法提出质疑，通过实验检验特定PETs的命名及通用描述是否会影响用户对服务提供商的信任度及数据共享意愿。我们在数据市场情境下对1,457名参与者开展三项随机对照试验：第一组接触真实PET（MPC）描述，第二组接触虚构PET描述，第三组作为对照组接触非PET描述。研究发现，MPC组和虚构PET组的用户信任度与数据共享意愿均显著提升，表明影响用户认知的关键在于高层描述而非技术名称。我们得出结论：仅宣称采用某项PET并不能有效衡量实际使用该技术产生的影响。但鉴于普通用户的心智模型限制，其既无法验证研究中呈现的技术描述，也无法判断服务提供商的隐私声明真伪，这将导致用户可能被诱导产生虚假隐私安全感，进而过度暴露本不愿分享的敏感数据。</span></span></p><p cid="n697" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b250/26hiUcThM3u" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b250/26hiUcThM3u</a></span></span></p><h3 cid="n698" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">239、The Inadequacy of Similarity-based Privacy Metrics: Privacy Attacks against Truly Anonymous&#39;&#39; Synthetic Datasets</span></span></h3><p cid="n699" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">生成模型产生的合成数据旨在提供一种保护隐私的数据发布方式。然而，只有当模型满足差分隐私（DP）时，其隐私保障才被视为可靠。遗憾的是，这并非普遍标准，因为许多领先企业（以及实际上的研究论文）仍在使用基于合成数据与真实数据统计相似性测试的临时隐私指标。本文通过多种方式验证了现实世界合成数据部署中隐私指标的不可靠性。首先，我们列举了隐私测试通过后仍发生严重隐私泄露的反例，并以极低成本实施了精确的成员推断和属性推断攻击。随后我们提出ReconSyn——一种重构攻击，该攻击能生成多个被隐私指标判定为安全、实则泄露个体记录独特信息的合成数据集。实验表明，仅需对单个已训练生成模型和隐私指标进行黑盒访问，ReconSyn就能恢复训练数据中78%-100%的异常值。在此过程中，我们证明仅对模型应用差分隐私无法抵御此攻击，因为隐私指标的使用破坏了端到端的差分隐私流程。</span></span></p><p cid="n700" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d675/26hiVEB64HC" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d675/26hiVEB64HC</a></span></span></p><h3 cid="n713" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">240、Towards Efficient and Practical Multi-party Computation under Inconsistent Trust in TEEs</span></span></h3><p cid="n714" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">安全多方计算（MPC）能在保障隐私与正确性的前提下实现对敏感数据的联合计算。近年来，为降低高开销密码技术带来的负担，一系列基于可信执行环境（TEE）辅助的MPC协议被提出。然而现有协议要么默认所有参与方对TEE持有一致信任，要么需要针对不同应用进行专门设计，导致协议难以实际部署。为解决这些问题，本文提出一种通用MPC协议，既不要求对TEE的一致性信任，又能充分利用异构TEE提升效率。为此，我们构建了刻画参与方对TEE非一致信任的安全模型，并在简化版UC框架（SUC框架）下完成协议安全性证明。此外，我们基于当前最先进的信息论安全协议SwiftAgg+实现了安全聚合场景下的协议实例。在Azure虚拟机部署的64方评估表明，本协议将SwiftAgg+运行时间降低66%，参与方运行时间最大降幅达91%。</span></span></p><p cid="n715" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c662/26hiV3fqtzi" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c662/26hiV3fqtzi</a></span></span></p><h3 cid="n716" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">241、Towards ML-KEM &amp; ML-DSA on OpenTitan</span></span></h3><p cid="n717" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出对OpenTitan硬件信任根的扩展方案，旨在支持高性能格基密码运算。我们首先针对OpenTitan大数运算加速器(OTBN)，对NIST选定标准化的两大核心算法——ML-KEM与ML-DSA——进行了细致的软件优化。基于这些实现方案的性能分析结果，我们提出深度集成化的OTBN扩展方案：包括OTBN与OpenTitan凯克哈希加速器(KMAC核心)的交互接口，以及支持256位向量运算的OTBN指令集扩展。我们在硬件层面实现了这些扩展，相比未修改OTBN的基准实现，ML-KEM和ML-DSA在不同操作及参数集上的性能提升了6至9倍。该加速效果仅导致OTBN单元数量增加不足17%，对应整个Earlgrey OpenTitan核心的增量不足3%。</span></span></p><p cid="n718" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d712/26hiVGf04oM" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d712/26hiVGf04oM</a></span></span></p><h3 cid="n725" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">242、Training Solo: On the Limitations of Domain Isolation Against Spectre-v2 Attacks</span></span></h3><p cid="n726" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Spectre-v2漏洞的影响力正持续扩大，其能够发起极具威胁的跨域瞬态执行攻击。攻击者可在某个保护域（如用户进程）内训练间接分支预测器，进而通过推测执行劫持控制流并泄露目标域（如内核）的数据。为应对此类攻击，厂商部署了日益强化的域隔离技术（如eIBRS和IBPB），以防止某域的预测器受其他域执行的影响。尽管近期BHI和Post-barrier Spectre等攻击暴露出（现已被修补的）技术实现缺陷，但业界普遍认为若无实现问题，域隔离技术在实际应用场景中能够消除攻击面。本文挑战了这一假设，证明即便完美的域隔离仍无法阻止实际攻击。为此，我们系统分析了自训练型Spectre-v2攻击——其训练阶段与推测性控制流劫持均发生在同一（受害）域内。虽然传统观点认为此类攻击仅限域内场景（攻击者可在eBPF等默认关闭的沙箱中运行任意代码并注入泄露指令），但我们的分析表明跨域变体实际可行。具体而言，我们揭示了针对Linux内核的三类新型攻击方式，并实现两个端到端漏洞利用程序，可在最新Intel CPU上以高达17KB/秒的速度泄露内核内存。研究过程中，我们还意外发现两个彻底破坏（用户域、客户机及虚拟机监控程序）隔离机制的Intel漏洞，使得经典Spectre-v2攻击重新成为可能。</span></span></p><p cid="n727" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d599/26EkH1yAhJS" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d599/26EkH1yAhJS</a></span></span></p><h3 cid="n731" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">243、Transport Layer Obscurity: Circumventing SNI Censorship on the TLS-Layer</span></span></h3><p cid="n732" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">HTTPS构成了当今互联网流量的重要组成部分，长期以来一直是各国审查的重点目标。尽管审查机构通过分析传输层安全（TLS）协议来阻断加密的HTTP流量，但规避审查的研究主要集中在TCP等其他协议上。本文提出假设：TLS协议中存在尚未被发现的审查规避技术空间。我们通过设计基于TLS协议的潜在规避技术验证该假设，并评估这些技术被主流TLS服务器接受的情况，最终成功在中国和伊朗的审查系统中实现流量突破。评估过程中共发现38种（部分符合标准规范的）独立规避技术，可归类为11种独特方法。研究还首次揭示了中国TLS流量审查机制的内部特征，通过实证数据证明至少存在三种不同的审查设备。我们推测中国其他审查模块及其他国家的审查系统具有类似架构，建议未来审查研究需预判此类结构。本工作旨在为受审查影响的群体提供技术支援，并推动基于加密协议的审查规避研究发展。</span></span></p><p cid="n733" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b288/26hiUekZ19S" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b288/26hiUekZ19S</a></span></span></p><h3 cid="n734" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">244、TreeKEM: A Modular Machine-Checked Symbolic Security Analysis of Group Key Agreement in Messaging Layer Security</span></span></h3><p cid="n735" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">消息层安全（MLS）协议标准提出了一种基于树形结构的新型协议，能够为数千名成员组成的大规模群组实现高效的端到端加密通信。其功能可分为三个核心组件：用于认证与同步群组状态的TreeSync、实现核心群组密钥协商的TreeKEM，以及处理群组消息加密的TreeDEM。尽管已有研究对TreeKEM的抽象模型进行过安全性分析，但均未涵盖协议标准中精确的低层实现细节。本研究首次为TreeKEM提供了机器验证的安全证明。我们的证明基于符号化Dolev-Yao模型，适用于该协议的比特级精确、可执行且支持互操作的具体规范。此外，我们针对TreeKEM的安全性定理能够与TreeSync的既有研究成果自然组合，从而为已发布的MLS标准提供强有力的模块化安全保障。</span></span></p><p cid="n736" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600e024/26hiVW8fKSI" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600e024/26hiVW8fKSI</a></span></span></p><h3 cid="n743" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">245、TypeForge: Synthesizing and Selecting Best-Fit Composite Data Types for Stripped Binaries</span></span></h3><p cid="n744" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">静态二进制分析是确保闭源软件安全性的常用方法。然而剥离二进制文件中类型信息的缺失（尤其是复合数据类型），给静态分析工具和逆向工程专家实现高效精准分析带来了重大挑战。现有方法在处理此类数据类型时往往面临准确率不足和可扩展性受限的问题。为此我们提出TypeForge——一种受逆向工程专家工作流程启发的新方法，采用两阶段合成-选择策略来自动化恢复剥离二进制文件中的复合数据类型。我们设计了一种新型图结构&#34;类型流图&#34;（TFG）来表征剥离二进制文件中的类型信息。第一阶段基于TFG的类型合成专注于高效精准地构建约束条件并从剥离二进制文件中合成可能的复合类型声明；第二阶段我们提出LLM辅助的双重淘汰框架，通过评估反编译代码的可读性从候选类型中筛选最佳匹配方案。与最先进方案的对比实验表明，TypeForge在复合数据类型识别和布局恢复任务中分别达到81.7%和88.2%的F1分数，显著优于现有方法；在关系恢复这一传统方法表现欠佳的任务中也取得了72.1%的F1分数。此外TypeForge的时间开销显著降低，仅需当前最佳方案OSPREY耗时约3.8%，使其成为现实逆向工程任务的高效解决方案。</span></span></p><p cid="n745" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c847/26hiVajYJwY" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c847/26hiVajYJwY</a></span></span></p><h3 cid="n749" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">246、Understanding Users&#39; Security and Privacy Concerns and Attitudes Towards Conversational AI Platforms</span></span></h3><p cid="n750" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">对话式AI平台的广泛采用带来了新的安全与隐私风险。尽管这些风险及其缓解策略已从技术角度得到广泛研究，但用户对这些平台安全与隐私的认知仍鲜少被探讨。本文通过对r/ChatGPT社区超250万条用户帖子的大规模分析，探究用户对对话式AI平台的安全隐私顾虑与态度。定性分析表明，用户对数据生命周期的每个阶段（即收集、使用与留存）均存在担忧，他们寻求安全漏洞的缓解措施、隐私法规的合规性以及数据处理过程中更高的透明度与控制权。研究还发现，用户在与平台互动时表现出差异化的行为与偏好：部分用户主动保护数据并调整隐私设置，另一些则优先考虑便利性而非隐私风险，或为获取服务效益而忽视隐私问题，甚至对不可避免的数据共享表现出无奈。通过定性内容与回归分析，我们发现用户的担忧会随AI生态演变而动态变化，并受到技术发展与重大事件的影响。基于研究结果，我们为用户、平台、企业和政策制定者提供建议，以增强透明度、完善数据控制机制，从而提升用户信任度与采纳意愿。</span></span></p><p cid="n751" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a298/26EkEQ4fgmA" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a298/26EkEQ4fgmA</a></span></span></p><h3 cid="n755" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">247、Unveiling Security Vulnerabilities in Git Large File Storage Protocol</span></span></h3><p cid="n756" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">作为Git版本控制系统的扩展，Git大文件存储（LFS）通过优化大文件和二进制内容的处理机制，已被几乎所有Git平台广泛采用。尽管Git LFS显著提升了大型文件的管理效率，但其引入的安全隐患至今尚未得到充分研究。本文首次对Git LFS进行全面安全分析，提炼出LFS服务器必须保障的11项关键安全属性。基于对这些属性破坏行为的分析，我们提出四种新型攻击向量：私有LFS文件泄露、LFS文件替换、基于配额的拒绝服务（DoS）以及配额逃逸。这些攻击利用实际LFS服务器实现中的缺陷，可能造成严重后果，包括敏感文件未授权访问、恶意代码注入、影响所有公共仓库的服务中断以及资源滥用。为评估LFS实现方案的安全性，我们开发了半自动化黑盒测试工具，并对14个主流Git平台进行测试，发现36个此前未知的漏洞。这些漏洞已通过负责任披露流程提交至各平台维护方，获得积极回应并累计收取超1800美元漏洞赏金。</span></span></p><p cid="n757" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a431/26hiTItEsYU" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a431/26hiTItEsYU</a></span></span></p><h3 cid="n758" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">248、VITARIT: Paying for Threshold Services on Bitcoin and Friends</span></span></h3><p cid="n759" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，区块链服务呈现快速增长态势。许多此类服务采用去中心化架构并设定对抗阈值，以消除单点故障并缓解密钥托管问题。虽然在支持智能合约的系统中向这类服务支付款项较为直接，但在比特币等采用UTXO模型且脚本功能受限的系统中实现公平性仍面临挑战。这一难题在缺乏智能合约时尤为突出——我们期望仅向提供服务的n个服务器中的t+1个阈值节点支付报酬，同时确保任何服务器无法重复申领报酬。本文提出VITARIT，一种专为比特币等UTXO系统中阈值密码服务设计的新型支付方案。该方案在保障可证明强安全性的同时支持实际部署，重点针对具有特定属性（如近期备受关注的阈值BLS签名）的n选t分布式可验证随机函数（VRF）服务。我们的协议允许客户端向阈值服务请求可验证随机函数（VRF）值，同时触发对分布式阈值VRF服务中至多t+1个服务器的支付。该高效设计方案基于签名验证脚本的简单交易，可直接应用于类比特币系统。我们在密码学层和交易层均引入了创新工具与技术，包括针对标准构造的新型签名-VRF交换协议（该协议可能具有独立研究价值）。此外，我们的交易流设计能阻止恶意服务器重复申领报酬，对去中心化支付系统具有更广泛的启示意义。原型系统测试表明，在双方交互中客户端耗时126.4毫秒，服务器耗时204毫秒，证实了该系统的实用性与可部署性。</span></span></p><p cid="n760" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b870/26hiUAx6lKE" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b870/26hiUAx6lKE</a></span></span></p><h3 cid="n773" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">249、Warning! The Timeout T Cannot Protect You From Losing Coins     PipeSwap: Forcing the Timely Release of a Secret for Atomic Cross-Chain Swaps</span></span></h3><p cid="n774" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">原子跨链交换技术有效缓解了现有加密货币面临的互操作性挑战，从而促进了互不信任用户之间的跨币种兑换与交易。尽管目前已有大量基于哈希时间锁定合约的原子交换协议被部署应用，但由于其本质上依赖于底层区块链支持的丰富脚本语言，这些协议远未实现普适性。近期提出的通用原子交换协议[IEEE S&amp;P&#39;22]通过巧妙地将脚本功能委托给密码学锁定机制（特别是适配器签名和定时承诺方案），在无脚本跨链交换领域取得了重大突破。然而，我们发现了一种新型的双重提款攻击，该攻击利用这些无脚本功能以高概率破坏原子性。这种攻击内生于现有无脚本跨链交换协议及支付通道网络的设计之中。我们基于主流去中心化交易所处理的真实交易数据量化了该攻击的严重性，揭示了设计通用原子交换协议面临的关键挑战。为在保障安全性和实际普适性的同时抵御双重提款攻击，我们提出名为PipeSwap的跨链交换协议。该协议通过创新的流水线式代币流动范式（采用两跳交换与两跳退款技术），有效防止冻结代币被双重提款。除在通用可组合框架下进行全面的安全性分析外，我们还基于Schnorr/ECDSA签名开发了PipeSwap的概念验证实现，并通过大量实验评估其性能开销。实验结果表明，PipeSwap可在商用设备上以低于1.7秒的时延完成交换，同时保持不超过7kb的通信开销。</span></span></p><p cid="n775" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b566/26EkFFS2v8A" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b566/26EkFFS2v8A</a></span></span></p><h3 cid="n780" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">250、What We Talk About When We Talk About Logs: Understanding the Effects of Dataset Quality on Endpoint Threat Detection Research</span></span></h3><p cid="n781" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">终端威胁检测研究依赖于优质评估基准的可用性，但实验人员对基准数据集内容的理解往往有限。通常，研究者仅关注攻击行为的真实性（这类数据仅占数据集审计日志的极小比例），而数据的其他特征则晦涩难解且鲜为人知。针对&#34;讨论日志（即数据集）时应探讨哪些问题&#34;，我们提出了一套新框架：数据集中包含哪些活动？我们引入了一种创新可视化方法，通过绘制溯源图邻域在时间序列中的出现情况，以简洁方式呈现超过100GB数据集的全貌。背景活动的合成程度如何？我们对训练集划分中的溯源邻域进行自相关分析，以识别测试集划分中按固定间隔出现的进程行为。最后，恶意活动的显著程度如何？我们量化了攻击行为在训练集中被视为良性邻域的比例，并与先前未见的攻击邻域进行对比。随后，我们通过分析前沿入侵检测系统（R-CAID、FLASH、KAIROS、GNN）在多个公共基准数据集（DARPA透明计算与OpTC、ATLAS、ATLASv2）上的分类性能来验证这些问题。所有分类器的实验结果均表明：合成背景活动会显著虚增真阴性率，而显眼的恶意活动则会人为拔高真阳性率。进一步地，通过明确控制这些因素，我们提供了更全面的分类器性能评估。这项工作将提升威胁检测数据集相关讨论的深度，并增强威胁检测实验的严谨性。</span></span></p><p cid="n782" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a112/26hiTvlQv3W" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a112/26hiTvlQv3W</a></span></span></p><h3 cid="n783" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">251、WireWatch: Measuring the security of proprietary network encryption in the global Android ecosystem</span></span></h3><p cid="n784" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们推出WireWatch，一个用于评估安卓应用网络安全的大规模测量框架。该工具能检测应用是否使用明文网络流量及非标准私有加密协议。测量发现，小米应用商店头部应用中47.6%采用无额外加密措施的私有协议，而谷歌Play商店该比例仅为3.51%。我们对WireWatch识别的18种主流协议（分属9个协议族）展开深度分析，这些协议来自阿里巴巴、爱奇艺、快手和腾讯等企业的加密方案。研究发现其中8个协议族的网络请求存在可被窃听者解密的风险，暴露浏览数据与设备元数据等问题，其他漏洞还包括协议可降级、TLS证书未验证、RSA未采用OAEP填充等。这些漏洞影响小米商店26.9%的受测应用，累计下载量达1300亿次。WireWatch最终揭示：大量流行应用正通过不安全的私有网络协议加密敏感用户数据。</span></span></p><p cid="n785" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d916/26hiVQjbZqE" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d916/26hiVQjbZqE</a></span></span></p><h3 cid="n789" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">252、Your Cable, My Antenna: Eavesdropping Serial Communication via Backscatter Signals</span></span></h3><p cid="n790" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出了一种新型反向散射侧信道攻击方法——线缆反向散射攻击（BTC），该技术能够以低成本实现高效的串行数据窃取。BTC攻击利用串行端口在传输不同比特位（&#39;0&#39;和&#39;1&#39;）时产生的阻抗变化，导致反向散射信号幅度发生波动，从而使敏感串行数据通过反向散射侧信道发生泄漏。串行线缆作为非预期天线，使得攻击者能够远程截获该信号。BTC攻击具有显著的低门槛特性：既无需修改目标设备的硬件或软件，也不要求预先掌握目标设备信息或串行通信配置。实验验证表明，在视距（LOS）环境下最远可实现14.5米的数据窃取，在非视距（NLOS）场景下即使存在两道墙体阻隔仍能达到4.5米的有效距离。该攻击可适应高速数据传输（1Mbps及以上速率），且适用于各类线缆类型（最短4厘米线缆仍有效）。为深入理解其作用机理并优化攻击参数，研究进一步建立了全波模型，用于分析目标设备线缆长度和载波频率对攻击效果的影响。仿真结果表明，BTC攻击在1厘米极短线缆条件下仍能保持有效性。</span></span></p><p cid="n791" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d710/26EkH5QQ1Ko" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d710/26EkH5QQ1Ko</a></span></span></p><h3 cid="n792" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">253、ZHE: Efficient Zero-Knowledge Proofs for HE Evaluations</span></span></h3><p cid="n793" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">同态加密（HE）允许在不解密的情况下对加密数据进行计算。当用户信息需由不可信服务器处理时，该技术能发挥作用，已成为隐私保护应用中的热门选择。然而，为获得有意义的结果，我们不得不假设服务器是诚实但好奇的——即它会严格遵循指令执行操作。若服务器存在恶意行为，则无法保证计算结果的正确性。可验证同态加密（vHE）概念的提出正是为了检测恶意服务器的行为，但现有vHE方案要么比基础HE操作慢四个数量级以上（Atapoor等人，CIC 2024），要么虽快却无法兼容服务器端隐私输入（Chatel等人，CCS 2024）。本文提出新型vHE框架ZHE：通过高效零知识证明（ZKPs）在保护服务器隐私输入的同时验证HE计算的正确执行。具体而言，我们首先针对HE计算的两项基础操作——模运算与（逆）数论变换（NTT）——设计了两种新型高效ZKP协议。继而构建了可扩展、证明速度快且具备非交互式在线阶段的定制化HE计算ZKP方案。该方案适用于所有基于环LWE的HE方案（如BGV和CKKS）。最后，我们为BGV和CKKS实现了协议，并在多种HE工作负载上开展大量实验。相比最先进方案，我们的证明时间和验证时间均有提升：尤其证明成本仅为基础HE操作的27-36倍，比现有最优方案降低两到三个数量级。</span></span></p><p cid="n794" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600d087/26hiVj5yzCw" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600d087/26hiVj5yzCw</a></span></span></p><h3 cid="n798" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">254、“It’s almost like Frankenstein”: Investigating the Complexities of Scientific Collaboration and Privilege Management within Research Computing Infrastructures</span></span></h3><p cid="n799" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">研究计算基础设施（RCI）集成了高性能计算、先进数据存储解决方案与复杂网络协议，通过连接人员、数据与计算资源，在当今数据驱动型世界中促进科研协作。在此类高度协作的环境中，访问控制对防止资源滥用、保障数据完整性及优化资源分配至关重要，从而确保不同用户间安全可信的交互。然而，要通过有效的访问控制充分释放RCI的协作研究潜力，仅靠技术探索远远不够——更需要从人本视角深入理解系统操作者与使用者的真实需求。本文首次开展质性研究，通过12所研究机构中24位关键利益相关方（包括研究人员与系统管理员）的深度访谈，探究RCI交互中的人因维度，重点剖析以访问控制为核心的协作实践、挑战与需求。研究发现运营复杂性及基于项目需求与信任关系的资源共享动态，揭示了安全性与可用性之间的深层矛盾。基于这些发现，我们提出以利益相关方为导向的适应性访问控制设计建议与需求，为推进RCI中人本安全实践奠定基础。</span></span></p><p cid="n800" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600c995/26hiVfWPKog" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600c995/26hiVfWPKog</a></span></span></p><h3 cid="n810" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">256、“Sorry for bugging you so much.” Exploring Developers’ Behavior Towards Privacy-Compliant Implementation</span></span></h3><p cid="n811" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">尽管保护用户数据至关重要，但软件开发人员往往难以满足隐私要求。然而，他们为何在实现隐私合规方面举步维艰，其原因尚不明确——究竟是知识储备不足，还是支持体系缺位？为探究这一领域的基础性问题，我们开展了一项为期5小时的定性编程研究，邀请30名专业开发者完成3项基于GDPR合规要求设计的隐私敏感型编程任务。为观察开发者实现隐私要求的方式与程度，参与者被分为三组：对照组、隐私提示组和隐私专家支持组。任务完成后，我们进行了后续访谈。</span></span></p><p cid="n812" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">令人警醒的是，近九成提交方案（79/90）不符合GDPR要求。具体而言，三项任务中没有任何一项被全部30名参与者合规完成，其中无提示组合规尝试数最低（3/30）。隐私提示和专家支持仅略微改善提交质量，合规尝试数分别为6/30和8/30。事实上，所有参与者都报告在应对目的限定、用户同意、数据最小化等常见隐私要求时存在严重障碍。反常的是，尽管多数开发者对自身方案信心不足，却极少寻求在线帮助或咨询专家——专家支持组中仅4/10明确请求合规确认。参与者更倾向于依赖现有实现方案，并优先聚焦功能与安全性的实现。</span></span></p><p cid="n813" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600b159/26hiU9ymces" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600b159/26hiU9ymces</a></span></span></p><p cid="n818" mdtype="paragraph" style="box-sizing: border-box;"><span leaf=""><br/></span></p><p><span leaf=""><br/></span></p><p style="display: none;"><mp-style-type data-value="3"></mp-style-type></p>



<p><a href="2247485970">阅读原文</a></p>
<p><a href="https://wechat2rss.xlab.app/link-proxy/?k=808a44d6&amp;r=1&amp;u=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU0MzgzNTU0Mw%3D%3D%26mid%3D2247485970%26idx%3D2%26sn%3Df3dcab288fcbf3ee09a30065ad6461a5">跳转微信打开</a></p>
]]></content:encoded>
      <pubDate>Sat, 07 Jun 2025 22:25:00 +0800</pubDate>
    </item>
    <item>
      <title>错误考试中的高分：打假AI挖洞的虚假繁荣</title>
      <link>https://mp.weixin.qq.com/s?__biz=MzU0MzgzNTU0Mw==&amp;mid=2247485963&amp;idx=1&amp;sn=b0d187d7483788886d60a1007124ed04</link>
      <description></description>
      <content:encoded><![CDATA[<p>
原创 <span>riusksk</span> <span>2025-05-31 13:07</span> <span style="display: inline-block;">广东</span>
</p>

<p></p>



<p>
<img src="https://wechat2rss.xlab.app/img-proxy/?k=42e4ea67&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUOj7B7GbvKvSNraqqPibltIqgLqHlrXnicKQPN4OmODbwjNK6FcJL9Yic7iaZvYsM0UE5faSfopCNx5w%2F0%3Fwx_fmt%3Djpeg"/>
</p>


<p><span leaf="">早上读到一篇论文《Top Score on the Wrong Exam: On Benchmarking in Machine Learning for Vulnerability Detection》 ，来自德国马普所，发表在今年软件测试顶会ISSTA 2025。</span></p><p><span leaf="">这是一篇少见的“打假学术界”的论文，作者洞察2020~2024年顶会论文中关于使用机器学习检测漏洞的相关论文，人工筛选后得到81篇论文。我简单总结下结论：</span></p><ol style="list-style-type: decimal;" class="list-paddingleft-1"><li><p><span leaf="" data-pm-slice="1 1 [&#34;para&#34;,{&#34;tagName&#34;:&#34;section&#34;,&#34;attributes&#34;:{},&#34;namespaceURI&#34;:&#34;http://www.w3.org/1999/xhtml&#34;}]"><span textstyle="" style="font-weight: bold;">大多论文出现的高分评测存在虚假特征的引入，仅使用词频统计也可获取高分。</span>作者使用梯度提升分类器，在完全忽略代码结构和语义的情况下，基于词频统计也可以主流漏洞数据集上实现高性能。</span></p><p><span leaf=""><img class="rich_pages wxw-img" data-imgfileid="100002308" data-ratio="0.3141542002301496" data-w="869" data-type="jpeg" src="https://wechat2rss.xlab.app/img-proxy/?k=da11afa5&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUOj7B7GbvKvSNraqqPibltIcVXicYUp5JKS0icPR7d4CjxEBvOxLFnQlPibVFfvh5XT5GXfe6pSSOcWA%2F640%3Fwx_fmt%3Djpeg%26from%3Dappmsg"/></span></p></li><li><p><span leaf=""><span textstyle="" style="font-weight: bold;">主流漏洞数据集存在不少标签错误，在错误数据集上评测本身就意义不大。</span>Devign中至少20%标签是错误的，BigVul至少45.7%是错误的。错误标签的原因主要是自动识别补丁commit时仅基于安全关键词来识别，而有些补丁就不是针对漏洞函数进行修复的，甚至有些只是仅仅只是样式上的调整，如删除空格或添加注释。</span></p><p><span leaf=""><img class="rich_pages wxw-img" data-imgfileid="100002309" data-type="jpeg" src="https://wechat2rss.xlab.app/img-proxy/?k=73dc6233&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUOj7B7GbvKvSNraqqPibltILy5HfU0RdUxxNk6W1wQnLwABr0orFxibduXicictqh1Y1H1gHTicLVlaNw%2F640%3Fwx_fmt%3Djpeg%26from%3Dappmsg"/></span></p></li><li><p><span leaf=""><span textstyle="" style="font-weight: bold;">机器学习漏洞检测（ML4VD）无法在函数级别上被合理地评估为经典的二元分类问题。</span>研究案例缺少漏洞上下文，绝大部分都是单函数识别，作者研究中的所有 151 个易受攻击函数都需要额外的上下文才能准确识别漏洞，没有一个函数可以在不考虑函数本身之外的任何额外上下文（上下文无关）的情况下被检测到。在实际漏洞场景中，很难抛开上下文代码来检测漏洞，这导致其很难实际应用。</span></p><p><span leaf=""><img class="rich_pages wxw-img" data-imgfileid="100002310" data-type="jpeg" src="https://wechat2rss.xlab.app/img-proxy/?k=f6e2d2a1&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUOj7B7GbvKvSNraqqPibltIuWL6ogyicEXe0VsxkR3lcKEYOVKfIibCqVVnJ8bT5znFqbglpkSKl6Jg%2F640%3Fwx_fmt%3Djpeg%26from%3Dappmsg"/></span></p></li></ol><p><span leaf="">    </span></p><p><span leaf="">所以，之前各种顶会上利用AI挖洞获取高分的情况，存在诸多“虚假繁荣”的景象。感兴趣的同学可以看看原文：<a href="https://arxiv.org/abs/2408.12986" target="_blank">https://arxiv.org/abs/2408.12986</a></span></p><p><span leaf="">最后谈谈个人对AI挖洞的看法：</span></p><p><span leaf="">LLM辅助漏洞挖掘存在潜力，但个人认为目前还无法替换传统方法，当前Fuzzing都比LLM更靠谱，但是二者可以相互协同，而非二选一，非得比个高下。</span></p><p><span leaf="">也许，你会说之前project zero用LLM挖到sqlite漏洞，最近深蓝用LLM挖到linux kernel漏洞，先不管真假，这毕竟是少数现象。此问题有如造芯片一般，实验室搞出3nm芯片，跟流片量产是另一回事，不可相提并论。</span></p><p><span leaf="">故而，对于AI挖洞，应该重视潜力，严谨探索，理性看待，不要被当前虚假繁荣蒙蔽双眼。</span></p><p style="display: none;"><mp-style-type data-value="3"></mp-style-type></p>


<p><img src="https://wechat2rss.xlab.app/img-proxy/?k=9535c1af&amp;u=https%3A%2F%2Fmmbiz.qlogo.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUOj7B7GbvKvSNraqqPibltIcVXicYUp5JKS0icPR7d4CjxEBvOxLFnQlPibVFfvh5XT5GXfe6pSSOcWA%2F0%3Fwx_fmt%3Djpeg"/></p>
<p><img src="https://wechat2rss.xlab.app/img-proxy/?k=9c506551&amp;u=https%3A%2F%2Fmmbiz.qlogo.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUOj7B7GbvKvSNraqqPibltILy5HfU0RdUxxNk6W1wQnLwABr0orFxibduXicictqh1Y1H1gHTicLVlaNw%2F0%3Fwx_fmt%3Djpeg"/></p>
<p><img src="https://wechat2rss.xlab.app/img-proxy/?k=b599c928&amp;u=https%3A%2F%2Fmmbiz.qlogo.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUOj7B7GbvKvSNraqqPibltIuWL6ogyicEXe0VsxkR3lcKEYOVKfIibCqVVnJ8bT5znFqbglpkSKl6Jg%2F0%3Fwx_fmt%3Djpeg"/></p>



<p><a href="2247485963">阅读原文</a></p>
<p><a href="https://wechat2rss.xlab.app/link-proxy/?k=ef6e69f0&amp;r=1&amp;u=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU0MzgzNTU0Mw%3D%3D%26mid%3D2247485963%26idx%3D1%26sn%3Db0d187d7483788886d60a1007124ed04">跳转微信打开</a></p>
]]></content:encoded>
      <pubDate>Sat, 31 May 2025 13:07:00 +0800</pubDate>
    </item>
    <item>
      <title>网络安全顶会——SP 2025 论文清单与摘要</title>
      <link>https://mp.weixin.qq.com/s?__biz=MzU0MzgzNTU0Mw==&amp;mid=2247485954&amp;idx=1&amp;sn=d361d90c096adcfc889b969fb4614c84</link>
      <description></description>
      <content:encoded><![CDATA[<p>
原创 <span>漏洞战争</span> <span>2025-05-09 20:41</span> <span style="display: inline-block;">广东</span>
</p>

<p></p>



<p>
<img src="https://wechat2rss.xlab.app/img-proxy/?k=dd995cb4&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUzQMPM1AcjRibRoxS3ktcWqo17vqhLFq2AjEiaEXVyMz72lC9Uh330IpRImm0TwZ6PziaeEl67DpDyg%2F0%3Fwx_fmt%3Djpeg"/>
</p>


<h3 cid="n0" mdtype="heading" style="box-sizing: border-box;text-align: left;" data-pm-slice="0 0 []"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">1、&#34;Check-Before-you-Solve&#34;: Verifiable Time-lock Puzzles</span></span></h3><h3 cid="n0" mdtype="heading" style="box-sizing: border-box;text-align: left;" data-pm-slice="0 0 []"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n2" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">时间锁谜题是一种密码学原语，它向</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">生成者</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">保证该谜题无法在少于T个顺序计算步骤内被破解。近年来，该技术已在公平合约签署和密封投标拍卖等场景中得到广泛应用。然而，</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">求解者</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在破解前无法获得关于谜题解的任何先验保证——例如该解在特定应用场景中的&#34;实用性&#34;。本研究提出</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">可验证时间锁谜题（VTLP）</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">来解决这一问题：生成者会发布一个简洁证明，表明该解满足特定属性（同时不泄露其他信息），从而激励求解者投入资源&#34;承诺&#34;破解谜题。我们设计的VTLP支持对谜题解验证任意NP关系R。在技术层面，为避免&#34;直接通过SNARK验证关系Z_RR_Z并同步求解谜题&#34;这种低效方案，我们的方案将Rivest、Shamir和Wagner提出的经典RSA时间锁谜题，与能将昂贵模群幂运算和乘法运算移出SNARK电路的新构件相结合。随后我们提出第二个专门用于验证RSA签名和可验证随机函数（VRF）的VTLP方案。该方案不依赖SNARK，可应用于分布式随机数生成等场景。研究过程中，我们还提出了针对隐藏阶群模幂关系的新型常数规模证明方案，该方案可能具有独立研究价值。最后，我们通过实验评估方案性能，汇报结果并与现有方法进行对比分析。</span></span></p><p cid="n3" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a053/21B7R0jYIKs" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a053/21B7R0jYIKs</a></span></span></p><h3 cid="n4" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">2、&#34;It&#39;s been lovely watching you&#39;&#39;: Institutional Decision-Making on Online Proctoring Software</span></span></h3><h3 cid="n4" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n5" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为维护在线监考考试的学术诚信，高校普遍引入了远程监考软件。然而该软件的使用引发了隐私、安全与伦理争议，包括对学生卧室的监控、个人数据处理以及存在种族偏见的监测等问题。此类软件通常还需获取本地计算机的高级权限。现有研究主要关注师生对该软件的认知与使用，但针对院校高层管理者如何决策是否采用这类工具的机制研究仍属空白。本文通过访谈20位来自美国和澳大利亚的高校管理者，揭示了院校层面集中部署（或拒绝）远程监考软件的决策动因与流程。研究发现，即使在新冠疫情初期的紧急状态下，学术治理流程仍包含高层管理者、法务和IT团队的参与，但学生群体往往在制度性安排中被排除于决策过程之外。我们探讨了管理者如何权衡学术诚信需求与隐私安全、伦理道德及长期运营成本等矛盾因素，发现高校虽对隐私安全问题存疑，仍选择部署远程监考系统，有时会尝试采取缓解措施。随着学术界持续探索混合教学模式，本研究可为教育机构的技术采纳决策与学习评估体系构建提供参考。</span></span></p><p cid="n6" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a018/21B7Q9z8UV2" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a018/21B7Q9z8UV2</a></span></span></p><h3 cid="n7" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">3、&#34;Only as Strong as the Weakest Link&#34;: On the Security of Brokered Single Sign-On on the Web</span></span></h3><h3 cid="n7" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n8" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">单点登录（SSO）是一种认证机制，允许用户凭一组凭证访问多项服务。尽管SSO提升了用户体验，却迫使开发者面临安全实现复杂认证协议的挑战。外部服务（即中介平台）可简化SSO的集成流程。本文聚焦新兴的中介化SSO生态体系，重点研究新参与者——中介平台的安全性。我们系统性评估了中介化SSO的发展现状，揭示了既往研究中的重大盲区：研究发现25%采用SSO的网站通过中介平台进行认证，这一领域尚未被任何前人研究涵盖。通过全面安全评估，我们识别出中介化SSO相关的三类威胁：(1) 重定向链验证不足导致注入攻击，(2) 未授权数据访问引发账户劫持，(3) 违反当前安全最佳实践。我们在50余个中介平台中发现漏洞，危及超2000家网站的安全。这些发现仅揭示了严峻形势的下限，凸显亟需加强安全措施与协议以保障中介化SSO系统的完整性。</span></span></p><p cid="n9" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a024/21B7Qfd8kiA" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a024/21B7Qfd8kiA</a></span></span></p><h3 cid="n10" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">4、&#34;Why would money protect me from cyber bullying?&#34;: A Mixed-Methods Study of Personal Cyber Insurance</span></span></h3><h3 cid="n10" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n11" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">个人可能成为安全事件、隐私侵犯、网络诈骗及社交媒体滥用的受害者。除预防措施外，用户还应制定遭遇不幸时的应对策略。为深入理解数字危害应对机制，我们首次针对英美两国的个人网络安全保险开展研究。通过内容分析法对24份网络安全保险条款进行供给侧调研，结果显示：个人网络安全保险主要覆盖安全事件、隐私泄露及欺诈事件，略超半数的保单也涵盖网络霸凌。与德国现有研究对比发现，英美两国的保险覆盖范围存在显著差异。在需求侧研究中，我们对584名英美比例均衡的受访者开展调查，仅1.6%的受访者已购买该保险，8.5%知晓此类产品。研究提出&#34;风险不确定性&#34;与&#34;保障不确定性&#34;概念，发现二者在个人网络安全保险领域普遍存在。分析保障不确定性时，我们发现保险公司与用户认知存在差异：网络诈骗领域的认知差距最大，身份盗窃和网络霸凌领域的差距最小。针对风险不确定性，整体而言用户对不同事件发生频率的预估相对准确。受访者认为欺诈事件影响最大，其次是安全和隐私事件，网络霸凌的预估影响程度最低。关于购买保险的决策，参与者对合同细则、报案要求、受害统计数据及安全解决方案获取途径等方面存在疑虑。</span></span></p><p cid="n12" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a027/21B7Qhx2Xfi" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a027/21B7Qhx2Xfi</a></span></span></p><h3 cid="n13" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">5、&#34;You Have to Ignore the Dangers&#34;: User Perceptions of the Security and Privacy Benefits of WhatsApp Mods</span></span></h3><h3 cid="n13" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n14" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">WhatsApp是最受欢迎的社交消息平台，其官方应用的修改版本（或称“模组”）正日益流行。这些模组以额外功能和自定义选项为卖点，然而部分功能（例如保留已删除消息和状态更新）使得模组用户能够侵犯他人隐私，可能引发严重的安全与隐私问题。本研究通过对肯尼亚（WhatsApp模组使用率最高的国家之一）20名模组用户的访谈，探讨了用户对WhatsApp模组的认知。许多用户为“高级”功能转向模组以自我保护（如用“反删除”功能规避法律责任），但也有人承认利用模组功能隐藏自身行为或窥探他人。为验证用户预期与模组实际行为的匹配度，我们分析了一款主流模组（GB WhatsApp）的13个实例。虽然WhatsApp模组确实提供了宣称的功能，但部分用户误认为官方应用现有功能仅为模组独有。此外，尽管参与者认为模组申请的权限与官方应用相同，但多个模组存在明显的过度权限索取。近半数受访者表示比官方应用更信任模组，但我们发现其中两个模组含有恶意软件。WhatsApp模组的使用既给用户及其联系人带来风险，也提供了官方应用未能实现的用户赋权。我们提醒开发者和模组用户在使用或分发前务必履行审慎义务。</span></span></p><p cid="n15" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a087/21Tfery3gcM" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a087/21Tfery3gcM</a></span></span></p><h3 cid="n16" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">6、A Deep Dive Into How Open-Source Project Maintainers Review and Resolve Bug Bounty Reports</span></span></h3><h3 cid="n16" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n17" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">研究者们已从平台、项目和漏洞猎手的角度对漏洞赏金生态进行了考察。然而，对漏洞赏金报告审核者视角的理解——尤其是那些缺乏安全背景且几乎不为漏洞猎手提供资金支持的群体——目前仍研究不足。本文重点调研了开源软件（OSS）维护者使用huntr平台（该平台向发现GitHub项目安全漏洞并促成有效补丁的猎手支付赏金）的体验。我们通过三项研究展开探讨：通过清单调查识别特征（样本量n=51）、利用李克特量表数据评估特征重要性排序（n=90），以及开展半结构化访谈深入挖掘实际经验（n=17）。最终我们将40项特征归类为收益、挑战、实用功能和期望功能。研究发现，非公开披露和项目曝光是最重要的收益，而猎手过度关注金钱/CVE指标以及审核压力是最难克服的挑战。出人意料的是，与猎手缺乏沟通被视作最不具挑战性的问题，CVE创建支持在维护者审核报告时被列为第二不实用的功能。我们提出了优化开源维护者审阅流程的建议，并指明了未来研究方向。</span></span></p><p cid="n18" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a063/21B7R8nQkO4" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a063/21B7R8nQkO4</a></span></span></p><h3 cid="n19" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">7、A Low-Cost Privacy-Preserving Digital Wallet for Humanitarian Aid Distribution</span></span></h3><h3 cid="n19" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n20" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">人道主义组织向受武装冲突或自然灾害影响的人群分发援助物资。数字化有望提升援助分发系统的效率和公平性，Wang等人的近期研究表明，实现这些益处的同时可避免对受助者隐私造成侵害。然而，他们的研究仅针对受助者领取预设物资包的特定场景提供解决方案。事实上，许多情况下需要允许受助者根据自身需求随时选择所需物品。我们将这些需求形式化为功能性、部署性、安全性和隐私性要求，并设计了一款隐私保护的援助分发数字钱包。基于智能卡的解决方案使受助者能在不同供应商处使用预设预算获取所需物品。我们证明了该方案的安全性与隐私性，并验证其具备大规模实践可行性。</span></span></p><p cid="n21" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a069/21B7RdlxvO0" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a069/21B7RdlxvO0</a></span></span></p><h3 cid="n22" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">8、Adversarial Robust ViT-based Automatic Modulation Recognition in Practical Deep Learning-based Wireless Systems</span></span></h3><h3 cid="n22" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n23" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">先进的无线通信系统采用深度学习（DL）方法实现自动调制识别（AMR），以支持频谱监测与管理，尤其在承载多种共存无线协议的频段中。实际无线环境中，信号极易受恶意噪声、蓄意干扰和对抗攻击的影响，导致AMR效能下降。攻击者通过利用DL模型漏洞，在无线信号中添加不可察觉的扰动即可引发误分类，造成解码错误、吞吐量下降乃至通信中断等严重后果。针对现有抗无线对抗攻击研究的局限性，本研究创新性地改造Transformer模型，通过挖掘时序无线信号的时间相关性，设计出具有对抗鲁棒性的AMR系统。不同于直接应用视觉Transformer（ViT），我们首先创新设计了针对射频（RF）信号的时频域联合特征提取模块，并为Transformer编码器引入自适应位置编码以提升AMR精度。为降低实际无线通信中的噪声影响，我们进一步提出基于白盒攻击者生成的对抗样本，对开发的Transformer模型进行噪声自适应对抗训练。为验证方案的效率、有效性和鲁棒性，我们通过自建的真实世界数据集（包含室内外场景下21种调制类型的超3000万条无线信号样本）进行全面评估。实验结果显示：在AMR分类中最高准确率达94.17%，对抗攻击下仍保持71.2%的准确率。此外，我们首次实时验证了该设计在真实无线对抗攻击场景中的鲁棒性。数据集与代码详见</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/coulsonlee/Robust-ViT-for-AMR-SP2025" target="_blank">https://github.com/coulsonlee/Robust-ViT-for-AMR-SP2025</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n24" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a030/21B7Qkjltcs" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a030/21B7Qkjltcs</a></span></span></p><h3 cid="n25" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">9、Analyzing the iOS Local Network Permission from a Technical and User Perspective</span></span></h3><h3 cid="n25" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n26" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">过去，恶意应用常通过本地网络通信攻击路由器或定位用户位置。为降低此类访问带来的安全与隐私风险，苹果在iOS 14中引入了新权限机制。该权限需有效抵御技术威胁，同时要求用户能做出知情决策——后者因&#34;本地网络&#34;概念的技术复杂性而存在实施障碍。本文首次通过四个关键维度对本地网络权限展开全面分析：通过系统化访问测试其实现安全性；对10,862个iOS/Android应用进行大规模动态分析以探查访问行为；解析权限弹窗中的概念呈现（用户决策的唯一依据）；基于这些概念开展在线调研（N=150），评估用户认知水平、威胁感知及常见误解。研究发现：存在两种通过Webview绕过权限的方法，且受保护的本地网络地址范围不足；揭示了跨平台应用访问本地网络的时机与方式差异；同时呈现用户认知的双面性——83.11%的参与者至少能识别一种威胁，但误解率更高达84.46%。</span></span></p><p cid="n27" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a045/21B7QxJBmzC" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a045/21B7QxJBmzC</a></span></span></p><h3 cid="n28" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">10、Anix: Anonymous Blackout-Resistant Microblogging with Message Endorsing</span></span></h3><h3 cid="n28" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n29" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在政治动荡期间，专制政府越来越多地通过切断互联网来控制信息流动。作为应对，基于移动网状网络构建的通信应用已成为公民与活动人士的重要联络工具。尽管现有应用形态各异，但具备微博客功能的应用因其能快速传递信息、动员人群而备受青睐。然而，大多数应用无法在保障用户匿名性的同时，提供安全途径让用户建立对他人及网状网络信息的信任。我们推出抗断网应用Anix，其具备远程信任建立与匿名消息背书两大创新功能，并采用身份撤销原语实现细粒度信任关系管理，提供增强的匿名性保护。通过全面微基准测试与模拟实验，我们验证了Anix在断网场景下的实用性与抗逆能力。</span></span></p><p cid="n30" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a015/21B7Q6QfAwE" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a015/21B7Q6QfAwE</a></span></span></p><h3 cid="n31" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">11、Architectural Neural Backdoors from First Principles</span></span></h3><h3 cid="n31" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n32" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">以往研究通过修改神经网络参数植入后门，而近期工作揭示了一种更隐蔽的威胁：潜伏在网络架构定义中的后门。这类后门通过注入常见架构组件（如激活函数和池化层）微妙地植入模型后门，即使经过（完全）重新训练仍持续存在——这是其他后门类型无法实现的。Bober-Irizar等人[2023]首次提出架构后门设计方案，具体演示了如何为棋盘格模式创建后门。但架构后门的整体影响范围与潜在威胁仍未被充分探索，部分源于原始设计的局限性：无法针对自定义触发器、需人工参与检测器构建、且缺乏性能保障。本研究重新审视架构后门并论证其现实威胁。首先改进原始设计，构建可无监督植入任意架构的通用触发器检测器；其次对12种架构后门进行系统分类与性能评估。为评估检测难度，我们开展人类实验发现：ML开发者仅能识别37%常见模型定义中的可疑后门组件，却有33%案例中更倾向选择含后门模型。对比实验显示，语言模型在检测后门任务上表现优于人类。最后探讨防御方案，强调需建立鲁棒全面的策略来保障ML系统安全。</span></span></p><p cid="n33" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a060/21B7R5Paz60" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a060/21B7R5Paz60</a></span></span></p><h3 cid="n34" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">12、Asymmetric Mempool DoS Security: Formal Definitions and Provable Secure Designs</span></span></h3><h3 cid="n34" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n35" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">内存池是公有区块链中一个安全性至关重要的子系统。近期出现的非对称拒绝服务等内存池攻击已证明其能对以太坊网络造成严重破坏。本文致力于解决这一开放性研究难题：如何设计具有可证明安全性的、原则性且非侵入式的防御机制来应对非对称内存池拒绝服务攻击。研究首次提出了基于内存池可观测条件的经济安全定义，并推出saferAd框架——该框架通过安全的内存池设计方案，可提供针对非对称拒绝服务攻击的可证明安全性。为防御通过驱逐和锁定受害者内存池的双重攻击，saferAd采用创新设计：在锁定攻击下强制执行攻击损害上限，在驱逐攻击下确保攻击成本下限。通过在Geth上的原型实现及真实交易轨迹评估，结果表明saferAd在延迟和区块收益方面开销极低，印证了其非侵入特性和实用价值。</span></span></p><p cid="n36" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a061/21B7R6HnWWk" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a061/21B7R6HnWWk</a></span></span></p><h3 cid="n37" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">13、Augmented Shuffle Protocols for Accurate and Robust Frequency Estimation under Differential Privacy</span></span></h3><h3 cid="n37" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n38" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">差分隐私（DP）的混洗模型通过引入混洗器随机打乱用户发送的噪声数据，从而提供较高的实用性。然而，近期研究表明，现有混洗协议存在以下两大缺陷：首先，它们易受本地数据投毒攻击的影响，此类攻击通过发送精心构造的数据操纵输入数据的统计特性，尤其在隐私预算ε较小时更为显著；其次，数据收集者与用户合谋的串通攻击会导致ε的实际值增大。本文通过深入探索增强型混洗模型的潜力（该模型允许混洗器执行额外操作，如随机抽样和虚拟数据注入），解决了上述两个问题。具体而言，我们提出一个免本地噪声协议的通用框架，其中用户直接向混洗器发送（加密的）输入数据而无需添加噪声。我们证明，若对二进制输入数据执行相同处理的简化机制能满足差分隐私，则该通用协议不仅能提供DP保障，还能抵御上述两种攻击。基于此框架，我们设计了三种具体协议，在提供DP保障的同时兼具抗攻击鲁棒性。第一项协议采用二项分布生成每个项的虚拟值数量，其效用优于多种先进混洗协议；第二项协议通过引入新型虚拟值计数分布——非对称双侧几何分布，显著提升了首项协议的效用；第三项协议作为第二项协议的特例，提供纯ε-DP保障。我们通过理论分析与全面实验验证了所提协议的有效性。</span></span></p><p cid="n39" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a019/21B7QagR8WY" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a019/21B7QagR8WY</a></span></span></p><h3 cid="n40" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">14、BAIT: Large Language Model Backdoor Scanning by Inverting Attack Target</span></span></h3><h3 cid="n40" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n41" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近期研究表明，大型语言模型（LLM）易受后门攻击影响，恶意攻击者通过向训练提示中注入特定令牌序列（即触发器），强制模型响应包含预设目标序列。与判别式自然语言处理模型（如情感分析模型）有限的输出空间不同，LLM作为生成模型，其输出空间随响应长度呈指数级增长，这给现有后门检测技术（如触发器逆向分析）带来巨大挑战。本文在特定假设下对LLM后门学习过程进行理论分析，发现因果语言模型的自回归训练范式会自然强化后门目标令牌间的强因果关系。基于此，我们提出新型LLM后门扫描技术BAIT（通过逆向攻击目标实现的大型语言模型后门扫描）。与现有非LLM扫描技术逆向分析触发器不同，BAIT通过逆向分析后门目标并利用目标令牌间异常强烈的因果关系来判定模型是否被植入后门。该方法大幅缩减搜索空间，无需任何关于触发器或目标的先验知识即可有效识别后门。基于搜索的特性使BAIT仅需黑盒访问即可扫描LLM。我们在6种攻击类型、8种架构的153个LLM上进行评估，结果表明该方法优于5种基线方案。其卓越性能使我们在TrojAI竞赛（一项持续多年的多轮后门扫描赛事）LLM赛段中位列榜首。</span></span></p><p cid="n42" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a103/22K50yIvWta" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a103/22K50yIvWta</a></span></span></p><h3 cid="n43" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">15、BPSniff: Continuously Surveilling Private Blood Pressure Information in the Metaverse via Unrestricted Inbuilt Motion Sensors</span></span></h3><h3 cid="n43" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n44" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">血压（BP）是多种疾病最关键的生物标志物之一。根据《健康保险可携性与责任法案》（HIPAA），血压被视为受保护的医疗信息，通常需用户授权方可获取。本研究发现元宇宙应用中存在一项隐蔽的隐私泄露风险：虚拟现实（VR）头显中的无限制运动传感器可被用于窃取用户血压数据。其核心在于运动传感器能捕捉主要动脉中血流引发的细微振动，这些振动与用户心动周期及血压高度相关。由于攻击者可在未经用户同意的情况下持续获取VR头显的运动传感器数据，他们能通过元宇宙应用或网站推算并收集用户血压信息，进而导致歧视、剥削、定向骚扰等严重后果。</span></span></p><p cid="n45" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为验证这一重大隐私泄露风险，我们开发了实用攻击工具BPSniff，该工具可根据VR头显运动传感器数据重建精细血流波形并推算血压值。BPSniff是首个无需专用设备即可实现元宇宙血压泄露的实用攻击方案。与以往需要用户特定校准的移动传感方案不同，BPSniff突破了这一限制，实现了真正隐蔽的大规模被动血压攻击。该攻击首先采用变分自编码器从运动传感器数据重建高保真血流波形，继而开发基于Adam优化器的长短期记忆（LSTM）回归模型，通过连续血流波形中的血压特征点实现持续血压估算。</span></span></p><p cid="n46" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们通过大量实验和为期8周的纵向研究（涉及37名参与者及两种VR头显型号）评估BPSniff。结果显示，BPSniff的收缩压（SBP）和舒张压（DBP）平均误差分别低至1.75 mmHg和1.34 mmHg，性能媲美商用血压监测设备，且满足美国FDA下属AAMI协议规定的标准（即平均误差≤5.0 mmHg）。</span></span></p><p cid="n47" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a049/21B7QX0bxrG" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a049/21B7QX0bxrG</a></span></span></p><h3 cid="n48" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">16、BadRAM: Practical Memory Aliasing Attacks on Trusted Execution Environments</span></span></h3><h3 cid="n48" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n49" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">云计算日益普及引发了人们对信任和数据隐私的深切忧虑。可信执行环境（TEE）作为一种前景广阔的解决方案被提出，其在CPU内部实现了严格的访问控制和透明的内存加密。尽管初代TEE（如Intel SGX）仅能隔离小型内存区域，但当前技术趋势已转向保护完整虚拟机，例如AMD SEV-SNP、Intel TDX和Arm CCA等方案。本文质疑规模化内存加密背后的信任假设，证明攻击者通过短暂接触嵌入式SPD芯片即可在物理地址空间制造别名，从而绕过CPU访问控制机制。我们设计了一套低成本实操方案，可在DDR4/DDR5内存模块中构造别名，攻破AMD SEV-SNP最新引入的完整性保障。该技术能操控内存映射、篡改或重放密文，最终形成破坏性端到端攻击，甚至可攻陷SEV-SNP的认证功能。此外，我们探究了其他TEE方案的类似问题：在经典Intel SGX中实现了细粒度无噪写的模式泄露，同时发现可扩展SGX和TDX因采用专用别名检测机制而能抵御当前攻击。本研究瓦解了SEV-SNP生态的安全承诺，迫使AMD发布固件补丁，并为可扩展TEE设计中的DRAM信任假设提供了新的考量维度。</span></span></p><p cid="n50" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a104/22K50zzAVNe" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a104/22K50zzAVNe</a></span></span></p><h3 cid="n51" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">17、Benchmarking Attacks on Learning with Errors</span></span></h3><h3 cid="n51" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n52" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于错误学习（LWE）困难性假设的格密码方案已被美国国家标准与技术研究院（NIST）选为后量子密码系统标准，同时被HomomorphicEncryption.org组织采纳为敏感数据加密计算方案。因此，准确评估其实际安全性至关重要。现有关于LWE安全性的研究多聚焦于攻击性能的理论预估，这类工作虽具价值，但可能忽视现实部署中产生的攻击细节差异。目前唯一的实际基准测试项目——达姆施塔特格挑战赛（Darmstadt Lattice Challenge）并未涵盖标准化LWE参数选择相关的基准测试，例如小秘密/小错误分布场景，以及环LWE（RLWE）和模LWE（MLWE）变体。为深化对LWE实际安全性的认知，我们首次针对标准化参数（含小权重/稀疏秘密）的LWE秘密恢复任务建立了基准测试体系。我们评估了四种LWE攻击方法作为基线：Search-LWE类攻击uSVP、SALSA与Cool &amp; Cruel，以及Decision-LWE类攻击Dual Hybrid Meet-in-the-Middle（MitM）。我们对SALSA和Cool &amp; Cruel攻击进行了重大改进，并首次实现并扩展了MitM攻击。实验表明：针对KYBER（κ=2）参数的汉明权重9-11二项分布秘密，SALSA与Cool &amp; Cruel可在28-36小时内成功恢复；MitM攻击可在1小时内解决Kyber参数下汉明权重≤4的Decision-LWE实例，而uSVP攻击运行超1100小时后仍未能恢复任何秘密。我们还将实际性能与理论预估进行了对比，最后开源了代码以促进后续研究。</span></span></p><p cid="n53" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a058/21B7R4wyu9G" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a058/21B7R4wyu9G</a></span></span></p><h3 cid="n54" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">18、Born with a Silver Spoon: On the (In)Security of Native Granted App Privileges in Custom Android ROMs</span></span></h3><h3 cid="n54" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n55" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">安卓生态系统的定制化与碎片化推动了其繁荣发展，同时也凸显了对这些定制系统进行安全审计日益增长的重要性。这种重要性源于原始设备制造商（OEM）为提升设备性能和用户体验所采取的特殊策略，这些策略对其竞争差异化至关重要。其中关键策略包括对超级应用及其他流行应用进行系统级优化，这已成为OEM厂商间的竞争趋势。授予此类应用特权通常基于对其的信任，但若缺乏对应用身份的有效验证，则可能导致严重的隐式信任漏洞，为恶意应用仿冒特权应用并获取其访问权限提供便利途径。对恶意开发者而言，利用这些漏洞不仅成本低廉，还可能带来极高收益。</span></span></p><p cid="n56" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本研究对来自46家OEM厂商的686个定制安卓ROM进行了全面分析，旨在揭示应用中隐式信任漏洞相关的潜在安全风险。调查发现ROM内嵌入了3085个第三方应用包名实例，其中仅有7例实施了充分认证机制以降低风险，暴露出3078个随时间推移呈增长趋势的潜在漏洞。我们已向7家相关OEM厂商报告了22个经人工确认的案例。截至本文撰写时，已有4个漏洞获得厂商明确确认，其中1个被分配了CVE编号。</span></span></p><p cid="n57" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a017/21B7Q8CX9fO" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a017/21B7Q8CX9fO</a></span></span></p><h3 cid="n58" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">19、Breaking the Barrier: Post-Barrier Spectre Attacks</span></span></h3><h3 cid="n58" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n59" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">瞬态执行防御机制的有效性依赖于对特定型号处理器中晦涩操作的准确实现，这些操作必须通过微码正确执行并由软件调用。本文针对x86处理器的间接分支预测屏障（IBPB）——这一防御跨上下文和跨权限Spectre攻击的核心机制——展开分支预测器失效研究，揭示了其在微码实现和软件调用层面的新型漏洞。具体而言，我们在英特尔和AMD处理器上成功演示了两种屏障后推测返回目标劫持攻击：首先，我们构建了一个跨进程端到端攻击模型，在启用IBPB的最新代英特尔处理器上，由于微码实现缺陷，攻击者仍能从suid进程中窃取root密码哈希值；其次，我们发现由于Linux内核调用IBPB的方式存在缺陷，非特权攻击者可在AMD Zen 1(+)/2处理器上突破IBPB防护窃取特权内存。针对受影响英特尔处理器，我们提出通过鸡血位禁用可被利用的返回预测功能；对于受影响的AMD处理器，则为Linux内核提供了安全调用IBPB的软件补丁方案。</span></span></p><p cid="n60" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a089/21TfesXLjoI" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a089/21TfesXLjoI</a></span></span></p><h3 cid="n61" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">20、CHLOE: Loop Transformation over Fully Homomorphic Encryption via Multi-Level Vectorization and Control-Path Reduction</span></span></h3><h3 cid="n61" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n62" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本研究提出一种多层次编译器框架，可将含循环结构的程序转化为全同态加密（FHE）下的高效算法。我们发现，当循环操作作用于密文时，准确解析循环内部的控制结构并为循环主体构建运算符成本模型变得极具挑战性。这导致现有编译器框架对包含非平凡循环的程序支持不足，削弱了FHE编程的表达能力。为实现FHE环境下高效且通用的程序执行，我们提出CHLOE——一种具备多层次控制流分析的新型编译器框架，可有效优化复合重复控制结构。通过研究发现，FHE循环可根据循环条件是否加密分为两类：透明循环与茫然循环。对于透明循环，我们可直接检查控制结构并建立运算符成本模型，从而精细实施FHE专用的循环分段与向量化；而对于茫然循环，则采用闭式表达式与静态分析技术来减少潜在循环路径和条件分支数量。实验表明，相较于最先进的FHE编译器生成的程序，CHLOE能将含复杂循环结构的程序编译为高效的FHE可执行代码，性能提升幅度达1.5至54倍（含茫然循环的程序最高可达10的5次方倍）。</span></span></p><p cid="n63" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a035/21B7QoGZAGc" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a035/21B7QoGZAGc</a></span></span></p><h3 cid="n64" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">21、CMASan: Custom Memory Allocator-aware Address Sanitizer</span></span></h3><h3 cid="n64" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n65" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">自定义内存分配器（CMA）可替代标准内存分配器以实现多种目标，例如提升内存效率或增强安全性。然而CMA分配的内存对象仍会遭受与标准分配器类似的内存错误威胁。遗憾的是，现有内存错误检测方案（包括地址消毒剂ASan）无法适配这些CMA，因其主要针对标准内存分配器设计。本文提出首个CMA感知型地址消毒剂CMASan，无需专业知识、人工代码修改或改变CMA内部逻辑，即可有效检测ASan遗漏的CMA对象内存错误。实验表明，CMASan成功发现了19个ASan未能检测的历史CMA内存错误（其中部分漏洞已存在9年），相较于ASan仅产生9.63%的额外性能开销。</span></span></p><p cid="n66" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a074/21B7RisjQY0" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a074/21B7RisjQY0</a></span></span></p><h3 cid="n67" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">22、Ceviche: Capability-Enhanced Secure Virtualization of Caches</span></span></h3><h3 cid="n67" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n68" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">现代系统广泛采用资源虚拟化技术以提高硬件利用率并降低总体拥有成本。然而，物理资源的共享不可避免地会引发旁路攻击风险——共置的攻击者可暗中窥探受害者的行为或窃取敏感信息。即使应用程序之间不存在数据共享，它们仍会争夺共享的物理资源（尤其是缓存容量）。由于缓存查找具有数据/地址依赖性，缓存中数据的存在与否都可能泄露机密信息。本文提出Ceviche，这是一种创新的硬件虚拟化策略，能够为属于不同信任域的线程实现物理缓存资源的安全分配与使用。该方案通过将地址-域ID对转换为能力凭证（该凭证编码了访问权限及对目标物理缓存行的可操作集合），实现了基于能力凭证的缓存查找机制。通过限定缓存查找必须基于能力凭证执行，Ceviche能以缓存行为粒度实现精细划分，在最大化缓存利用率的同时，提供包括机密性、可用性和公平性在内的全方位保障。本文详述了设计机制、策略及优化方案，并通过大量实验验证了将安全虚拟化层集成至现代多核缓存架构的可行性。Ceviche缓存可为各级缓存提供保护，与不安全基线相比平均仅产生2.4%的性能损耗，较当前最先进的安全缓存方案Mirage和ScatterCache仅额外增加1.8%的性能开销。</span></span></p><p cid="n69" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a008/21B7Q18hNkc" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a008/21B7Q18hNkc</a></span></span></p><h3 cid="n70" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">23、Characterizing Robocalls with Multiple Vantage Points</span></span></h3><h3 cid="n70" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n71" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">多年来，电话骚扰始终是用户最关注的网络安全问题之一。为应对此问题，业界与政府已部署新技术并出台法规加以遏制，学术界与产业界研究者也提出了多种方法来分析机器人电话的特征。这些努力是否取得成效？研究结论是否可靠？预防与威慑机制是否奏效？本文通过分析多个独立运营的监测节点数据（包括来自企业界与学术界的语音蜜罐、公共执法记录及消费者投诉数据，部分数据时间跨度超过五年）对上述问题展开研究。我们首先阐述了如何解决跨数据源对比的方法学挑战——包括对约300万通电话的音频与文本记录进行比对，进而详细论证了这些多元化视角的高度一致性。这种一致性极大强化了我们关于机器人电话特征分析与防治措施的结论可信度，同时凸显了各类方法的独特优势。研究发现显示：尽管投诉量与通话量仍处高位，但非邀约电话正呈缓慢下降趋势；此外，机器人电话已成功规避了强制呼叫认证体系STIR/SHAKEN的约束。总体而言，本研究为未来治理电话骚扰的特征分析与拦截技术指明了最具前景的发展方向。</span></span></p><p cid="n72" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a096/22K50t9UUyQ" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a096/22K50t9UUyQ</a></span></span></p><h3 cid="n73" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">24、CipherSteal: Stealing Input Data from TEE-Shielded Neural Networks with Ciphertext Side Channels</span></span></h3><h3 cid="n73" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n74" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">利用可信执行环境（TEE）保护神经网络（NN）免受不可信主机攻击的做法日益普及。然而，本文揭示：TEE中最新披露的密文侧信道会向恶意主机泄露受TEE保护的神经网络内存写入模式，导致神经网络和用户数据的机密性遭到破坏。尽管近期研究已利用密文侧信道恢复加密密钥位，但该技术不适用于更复杂且仅部分信息泄露的神经网络输入。我们提出首个自动化输入恢复框架CipherSteal，首次证实密文侧信道对神经网络输入构成的严重威胁。CipherSteal创新性地将输入恢复重构为&#34;信息转换-重建&#34;两步流程，并通过优化技术充分利用密文侧信道泄露的部分输入信息。我们在多样化神经网络（如Transformer）和图像/视频输入上评估CipherSteal，在不同攻击者对目标神经网络及其输入预知程度的条件下，均成功恢复视觉一致的输入。我们全面评估TensorFlow和PyTorch两大主流框架，以及TVM和Glow两款新型编译器生成的神经网络可执行文件，分析其不同攻击面。此外，我们进一步利用恢复输入训练替代神经网络窃取目标网络功能，并基于替代网络生成&#34;白盒&#34;对抗样本，有效操控目标神经网络的预测结果。</span></span></p><p cid="n75" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a079/21B7Rmh3jrO" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a079/21B7Rmh3jrO</a></span></span></p><h3 cid="n76" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">25、DataSeal: Ensuring the Verifiability of Private Computation on Encrypted Data</span></span></h3><h3 cid="n76" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n77" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">全同态加密（FHE）允许直接对加密数据执行计算而无需预先解密。这种&#34;使用中加密&#34;特性对于医疗、金融等隐私敏感领域的安全计算外包至关重要。然而在基于FHE的云计算场景中，客户常担忧结果的完整性与准确性。这种担忧源于恶意服务器或服务端漏洞可能导致数据、计算过程及结果被篡改的风险。现有方案尚未实现低开销的完整性验证，这仍是待解难题。为解决这一挑战并确保加密数据上FHE私有计算的验证能力，我们提出DataSeal方案，该方案将基于算法的容错技术（ABFT）的低开销特性与FHE的保密性相结合，兼具高效性与可验证性。通过多场景测试验证，相比包含MAC、ZKP和TEE在内的其他技术，DataSeal为FHE提供计算可验证性时产生的开销显著降低。随着问题规模增大，其空间与计算开销可降至近乎可忽略水平。</span></span></p><p cid="n78" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a078/21B7RlxV5Ly" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a078/21B7RlxV5Ly</a></span></span></p><h3 cid="n79" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">26、Differentially Private Release of Israel’s National Registry of Live Births</span></span></h3><h3 cid="n79" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n80" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">2024年2月，以色列卫生部发布了2014年全国活产婴儿的微观数据集。该数据集基于以色列国家活产登记系统，在科研与政策制定等多个领域具有重要价值，同时为2014年产妇及新生儿群体提供了ε=9.98的纯粹差分隐私保障。本次数据发布由本文作者团队与卫生部内外相关方共同设计完成。本文详述了实现此次发布的技术方案——据我们所知，这是全球首个同类实践。整个设计过程充满挑战，要求各方保持灵活开放的态度，并实现了重大技术创新。我们特别提出了微观数据发布的新需求标准，以及基于Liu与Talwar（STOC 2019）提出的私有选择算法，将多重量化需求整合至差分隐私发布的方法。期待本文的经验能为未来差分隐私数据发布提供参考。</span></span></p><p cid="n81" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a101/22K50wXvYwo" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a101/22K50wXvYwo</a></span></span></p><h3 cid="n82" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">27、EPScan: Automated Detection of Excessive RBAC Permissions in Kubernetes Applications</span></span></h3><h3 cid="n82" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n83" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">作为主流的容器编排系统，Kubernetes拥有庞大的第三方应用生态。这些第三方应用通过访问各类集群资源来扩展集群功能，而Kubernetes采用RBAC机制管理资源访问权限。近期研究显示，第三方应用常被授予过量权限，由此催生出过量权限攻击——攻击者可利用某些关键过量权限突破工作节点隔离，进而控制整个Kubernetes集群。然而该攻击需以攻陷工作节点（通过容器逃逸实现）为前提，实际场景中较难达成。为此，本文提出攻击条件更简单的新型过量权限攻击：当攻击者仅需攻陷单个Pod（难度低于攻陷工作节点）时，即可利用其他过量权限接管工作节点，或破坏其他Pod的可用性与数据机密性。尽管第三方应用的过量权限对Kubernetes集群安全构成重大威胁，目前仍缺乏有效检测手段。本文提出创新方案EPScan，可自动检测第三方应用中的可滥用过量权限。该方案采用面向Pod的程序分析技术，通过多项创新方法精准识别各Pod内程序的资源访问行为，进而将这些行为所需权限与Pod配置文件声明的权限进行比对，最终报告可被用于发起过量权限攻击的隐患权限。我们在CNCF项目的108个第三方应用上验证EPScan，从50个应用的106个Pod中检出先前未知的可利用过量权限，检测精度达94.6%，并获得9个CVE编号。</span></span></p><p cid="n84" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a011/21B7Q3t3dF6" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a011/21B7Q3t3dF6</a></span></span></p><h3 cid="n85" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">28、Edge Unlearning is Not &#34;on Edge&#34;! An Adaptive Exact Unlearning System on Resource-Constrained Devices</span></span></h3><h3 cid="n85" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n86" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">被遗忘权要求机器学习模型能够从训练好的模型中删除数据所有者的数据及信息。仅从数据集中移除数据是不够的，因为机器学习模型可能记忆训练数据中的信息，从而增加用户的潜在隐私风险。为此，多种机器遗忘技术被开发并应用。其中近似遗忘是主流解决方案，但近期研究表明其遗忘效果无法完全保证。另一种精确遗忘方法通过丢弃数据并从头重新训练模型来解决该问题，但需耗费大量计算和内存资源。然而并非所有设备都具备执行此类重训练的能力。在边缘设备、物联网（IoT）、移动设备和卫星等众多机器学习应用中，资源受限使得现有精确遗忘方法的部署面临挑战。本研究提出一种面向网络边缘的约束感知自适应精确遗忘系统CAUSE，旨在资源受限设备上实现精确遗忘。CAUSE通过将子模型存储在资源受限设备上来最小化重训练开销，创新性地应用基于斐波那契的替换策略，并在基于用户的数据分区过程中自适应更新分片数量。为进一步提升内存使用效率，CAUSE利用模型剪枝的优势，通过压缩在精度损失最小化的情况下节省内存。实验结果表明，在资源受限设备上实现精确遗忘时，CAUSE在遗忘速度、能耗和精度方面分别以9.23%-80.86%、66.21%-83.46%和5.26%-194.13%的幅度显著优于其他代表性系统。</span></span></p><p cid="n87" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a095/22K50sl6Ihi" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a095/22K50sl6Ihi</a></span></span></p><h3 cid="n88" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">29、Efficient Proofs of Possession for Legacy Signatures</span></span></h3><h3 cid="n88" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n89" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">数字签名是现代计算机系统中身份认证、真实性与信任的基石。密码学研究表明，可以在不泄露消息或签名本身的前提下，证明持有者对特定公钥的有效消息及签名具有所有权。此类所有权证明仅适用于特殊设计的签名方案。尽管这类证明在提升安全性、隐私保护及匿名性方面具有广泛应用前景，但目前尚无法适用于RSA、ECDSA和Ed25519等广泛部署的传统签名方案。要实现这些传统签名方案的实用性所有权证明，必须跨越巨大的效率鸿沟。本研究使传统签名方案的所有权证明几乎触达实用门槛。我们的设计策略是将签名验证算法编码为秩一约束系统（R1CS），再通过zkSNARK技术证明解的存在性。为此我们：（1）设计并分析支持随机化计算的新型zkSNARK方案Dorian；（2）提出哈希运算、椭圆曲线运算及模运算的全新编码技术；（3）开发新方法将ECDSA和Ed25519验证中最耗时的计算移出R1CS系统；（4）构造新型椭圆曲线以极高效实现Ed25519曲线运算。这些技术使R1CS规模缩减达200倍，证明生成时间缩短超20倍。我们仅需3秒即可生成240字节的所有权证明，该证明可验证典型TLS证书尺寸（2KB）消息的RSA签名有效性。</span></span></p><p cid="n90" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a080/21B7RmZTW00" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a080/21B7RmZTW00</a></span></span></p><h3 cid="n91" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">30、Evaluating the Effectiveness of Memory Safety Sanitizers</span></span></h3><h3 cid="n91" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n92" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">C和C++是专为开发高性能应用（如网页浏览器和操作系统）而设计的编程语言。这种高性能部分是通过牺牲内存安全性实现的，从而引入了内存漏洞的风险——这些漏洞正是当今许多最严重安全问题的根源。目前已有大量解决方案被提出用于检测和防范内存漏洞，其中最有效的方法采用动态程序分析技术来净化内存访问操作。这些内存安全净化器在功能上差异显著，涵盖不同内存区域并能检测不同类型的内存漏洞。虽然现有研究对这些净化器进行了概念性分类，但实际量化评估主要聚焦于性能指标而非其真实漏洞发现能力。</span></span></p><p cid="n93" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为填补这一空白，我们推出MSET评估工具，并对当前最强大、应用最广泛的内存安全净化器展开全面功能评估。我们系统地将内存安全漏洞解构为多个独立属性，包括内存区域、内存破坏方式以及目标缓冲区的访问类型等。基于该体系化框架，我们的工具通过组合精简且独特的代码模板生成测试用例，覆盖所有典型内存漏洞（含多种形式的缓冲区溢出、下溢和释放后使用等情况）。功能评估结果不仅揭示了净化技术理论检测潜力与实际漏洞发现能力之间的差异，还发现多个净化器因实现不完整或存在缺陷而未能达到其理论潜力。本工具已作为开源软件发布，研究人员和开发者可利用其测试净化器，从而发现未实现的潜力、概念性缺陷及实施错误。</span></span></p><p cid="n94" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a088/21TfesaEHTy" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a088/21TfesaEHTy</a></span></span></p><h3 cid="n95" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">31、Exploring Parent-Child Perspectives on Safety in Generative AI: Concerns, Mitigation Strategies, and Design Implications</span></span></h3><h3 cid="n95" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n96" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">生成式人工智能（GAI）在青少年中的广泛使用引发了严重的滥用与安全隐患。为识别风险并理解家长管控面临的挑战，我们对Reddit平台展开内容分析，并访谈了20名参与者（7名青少年与13名家长）。研究发现：家长对孩子使用GAI的多样场景（如通过角色化聊天机器人获取情感支持或建立虚拟关系）存在显著认知盲区。家长与青少年对GAI风险的认知存在差异——家长主要担忧数据收集、错误信息接触和不良内容暴露；而青少年更忧虑沉迷与GAI的虚拟关系、GAI被滥用于社交群体传播有害内容，以及个人数据在GAI应用中的未授权使用导致隐私侵犯。由于GAI平台缺乏家长控制功能，父母不得不依赖系统内置管控、手动检查记录、共享账户和主动干预等措施。尽管如此，家长仍难以全面掌握GAI相关风险，也无法实现有效的实时监控、干预与教育。我们提出设计建议以改善亲子沟通并提升GAI使用安全性。</span></span></p><p cid="n97" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a090/224AompDDwc" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a090/224AompDDwc</a></span></span></p><h3 cid="n98" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">32、Fight Fire with Fire: Combating Adversarial Patch Attacks using Pattern-randomized Defensive Patches</span></span></h3><h3 cid="n98" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n99" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">目标检测技术已在各类任务中得到广泛应用，但其同样易受对抗补丁攻击的影响。理想的防御方案应具备高效性、实时性、易部署性及抵御自适应攻击的能力。本文采用反制策略，提出一种新颖且通用的对抗攻击防御方法。我们设计并注入了两类防御性补丁——&#34;金丝雀&#34;与&#34;啄木鸟&#34;，通过主动探测或抵消潜在对抗补丁来保护模型输入。该方法仅需分析模型输出即可有效检测对抗补丁攻击，且无需修改目标模型。此外，我们采用随机化的补丁注入模式以抵御针对防御机制的攻击。综合实验表明：所提方法在保持较低时间开销的同时，即使面对未知攻击方式仍能保持优异性能；自适应攻击实验进一步证实，本方案对防御感知型攻击同样展现出足够的鲁棒性。</span></span></p><p cid="n100" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a006/21B7PZgtsfS" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a006/21B7PZgtsfS</a></span></span></p><h3 cid="n101" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">33、FirmRCA: Towards Post-Fuzzing Analysis on ARM Embedded Firmware with Efficient Event-based Fault Localization</span></span></h3><h3 cid="n101" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n102" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">尽管模糊测试已证明其在暴露嵌入式固件漏洞方面的有效性，但发现导致崩溃的测试用例仅是提升这些关键系统安全性的第一步。后续的故障定位过程旨在精确定位观察到的崩溃根源，是模糊测试后至关重要却耗时的工作。遗憾的是，嵌入式固件崩溃的自动化根因分析仍是研究不足的领域，这面临多方面的挑战：(1)针对嵌入式固件的模糊测试缺乏足够的调试机制，难以自动提取关键运行时信息进行分析；(2)嵌入式固件固有的原始二进制特性常导致过度污染且包含大量噪声的可疑指令，为分析人员手动调查根源和修复潜在漏洞提供的指导有限。为应对这些挑战，我们设计并实现了FirmRCA——一个专为嵌入式固件量身定制的实用故障定位框架。FirmRCA引入了基于事件的内存访问足迹收集方法，利用崩溃复现过程中的具体内存访问来辅助并大幅加速逆向执行。其次，为解决复杂的内存别名问题，FirmRCA提出历史驱动方法，通过追踪执行轨迹中的数据传播，实现深层崩溃根源的精确定位。最后，FirmRCA提出创新策略来突出与根因相关的关键指令，为最终调查提供实用指导。为验证FirmRCA的有效性，我们使用合成目标和真实目标（涵盖17个固件镜像中的41个崩溃测试用例）进行评估。结果表明，FirmRCA能高效（92.7%成功率）在前10条指令内识别崩溃测试用例的根因。与最先进方案相比，FirmRCA在全执行轨迹分析能力上提升27.8%，整体效率实现多项式级加速，且在前10条指令定位成功率上高出73.2%。</span></span></p><p cid="n103" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a002/21B7PVDny6I" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a002/21B7PVDny6I</a></span></span></p><h3 cid="n104" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">34、Follow My Flow: Unveiling Client-Side Prototype Pollution Gadgets from One Million Real-World Websites</span></span></h3><h3 cid="n104" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n105" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">原型污染漏洞常引发更深远的后果——例如跨站脚本攻击（XSS）和Cookie篡改——这些后果通过所谓的&#34;小工具&#34;（即恶意篡改受害程序控制流或数据流的代码片段）实现。现有研究在寻找此类后果的原型污染小工具时面临挑战，因为控制流或数据流的改变有时需要通过原型污染注入复杂属性值来替换原有未定义值，而这类值可能前所未见或超出现有约束求解器的处理能力。本文设计了一个名为GALA的动态分析框架，用于自动检测真实网站中的客户端原型污染小工具，并实现了开源版本。我们的核心思路是从非漏洞网站&#34;借用&#34;已定义的属性值，将其注入到目标网站中原本未定义的属性位置，从而引导属性注入流向小工具中的敏感接收点。对百万个网站的评估中，GALA发现了133个零日小工具（包括Meta旗下软件和Vue框架中的案例），其中Meta向我们支付了漏洞赏金，Vue为此分配了CVE-2024-6783编号。评估还显示，23个曾被认定不存在衍生后果的原型污染漏洞网站，因GALA发现的小工具实际存在攻击风险。除Meta和Vue案例外，我们已将所有零日小工具及新发现的原型污染后果向相关开发者进行了负责任的披露。</span></span></p><p cid="n106" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a016/21B7Q7OZKms" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a016/21B7Q7OZKms</a></span></span></p><h3 cid="n107" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">35、GRID: Protecting Training Graph from Link Stealing Attacks on GNN Models</span></span></h3><h3 cid="n107" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n108" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">图神经网络（GNN）在图结构数据的各类分类任务中展现出卓越性能。然而，其面临链接窃取攻击的潜在威胁——攻击者通过测量GNN模型生成的相邻节点预测向量相似度，可推断两节点间是否存在链接。此类攻击对GNN模型所用训练图数据的安全性与隐私性构成严重威胁。本研究提出创新解决方案&#34;图链接伪装&#34;（GRID），在保证GNN模型预测准确性的前提下，提供针对链接窃取攻击的防御能力。GRID的核心思想是向节点预测向量添加精心设计的噪声，使相邻节点的相似度表现与n跳间接邻居节点一致。我们基于图拓扑结构选择覆盖所有链接的核心节点子集施加噪声，既可避免噪声抵消效应，又能降低失真损失与计算成本。所设计的噪声可确保：1）任意相邻节点的含噪预测向量相似度与非相邻节点相当；2）模型预测结果保持不变，实现零效用损失。在五个数据集上的实验表明，GRID在转导式与归纳式场景下均能有效抵御不同代表性链接窃取攻击及两种基于影响力的攻击方案。当扩展至其他GNN模型时，其隐私-效用平衡性显著优于现有方法。</span></span></p><p cid="n109" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a059/21B7R5azVuM" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a059/21B7R5azVuM</a></span></span></p><h3 cid="n110" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">36、GoSonar: Detecting Logical Vulnerabilities in Memory Safe Language Using Inductive Constraint Reasoning</span></span></h3><h3 cid="n110" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n111" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着全球社会倡导采用内存安全编程语言，一个重要的研究空白依然存在：如何识别随之而来的关键漏洞。在缺乏缓冲区溢出等内存安全相关漏洞的情况下，逻辑漏洞成为这些程序面临的最严峻威胁。Go作为云应用程序中广泛使用的内存安全语言（这类场景中资源可用性至关重要），尤其容易受到非终止性资源耗尽漏洞的影响。我们提出了一种创新解决方案——归纳约束推理方法，用于评估复杂现实程序中的非终止性问题，在标准数据集上展现出优于当代工具的性能。该方法采用二进制级欠约束符号执行来收集多次递归迭代所需的约束条件，通过对这些约束施加一阶导数运算，我们对各类递归函数进行建模分类，判定其子目标是否收敛于全局目标。本研究不仅解决了Go程序分析中的诸多挑战，同时开发并实现了一种实用方案来检测失控递归问题，该方案已在Go标准库中发现了5个全新漏洞。</span></span></p><p cid="n112" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a043/21B7QweuVUs" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a043/21B7QweuVUs</a></span></span></p><h3 cid="n113" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">37、Groundhog: A Restart-based Systems Framework for Increasing Availability in Threshold Cryptosystems</span></span></h3><h3 cid="n113" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n114" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">阈值密码系统（Threshold Cryptosystems, TCs）旨在消除密钥管理即服务、签名方案、加密数据存储乃至区块链应用中的单点故障问题，其安全性依赖于&#34;攻击者无法攻陷网络中超过预设数量的节点&#34;这一假设。一旦该假设被打破，整个系统将面临全面沦陷的风险。本文提出一种系统级解决方案——基于重启机制的Groundhog框架，该框架能在阈值密码系统（及其他系统）之上额外构建一层弹性防护，确保系统即使面对几乎攻陷全网设备（仅余一台未受感染）的恶意（移动）攻击者时仍能维持安全。Groundhog通过持续保障足够数量的诚实设备在线，维护整个系统的可用性。</span></span></p><p cid="n115" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本框架具备广泛适用性：我们通过将其与分布式对称密钥加密系统（DiSE）及Boneh-Lynn-Shacham分布式签名系统（BLS）这两大经典TC协议集成验证了这一点。事实上，Groundhog的适用范围可能超越阈值密码领域——我们通过自研的轻量级加密协议PassAround进一步证实了这一可能性。我们开发了可通用的容器化框架，可将Groundhog及其安全保障机制与各类密码协议相结合，并通过以下方式完成系统评估：(a) 真实攻击案例研究；(b) 在Groundhog上实现DiSE、BLS及PassAround协议并进行大规模实测。实验表明，Groundhog能以极低开销（低于7%）保障系统高可用性，某些场景下甚至能提升TC方案的性能表现。</span></span></p><p cid="n116" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a056/21B7R2Aua8o" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a056/21B7R2Aua8o</a></span></span></p><h3 cid="n117" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">38、Growlithe: A Developer-Centric Compliance Tool for Serverless Applications</span></span></h3><h3 cid="n117" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n118" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">无服务器应用由多种编程语言编写的函数构成，使用多样化的数据存储和通信服务，且迭代迅速。这使得无服务器租户难以防范因代码缺陷、配置错误和人为失误导致的应用数据意外泄露。云安全工具（如身份与访问管理IAM）缺乏对租户应用的可观测性，而现有数据流追踪工具既需要云平台支持又会带来高昂运行时开销。我们提出Growlithe工具，它能无缝集成至无服务器应用开发工具链，通过设计实现数据策略的持续合规。Growlithe支持基于语言与平台无关的无服务器应用数据流图抽象，以声明式方式定义访问控制与数据流控制策略，并通过静态分析和运行时强制执行的组合机制实施这些策略。我们在支持AWS Lambda和Google云函数平台的Python/JavaScript函数应用上验证了Growlithe，实证表明该工具具有横切性、可移植性和高效性，能帮助开发者轻松适应应用需求与策略的演进。</span></span></p><p cid="n119" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a099/22K50vuoJLG" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a099/22K50vuoJLG</a></span></span></p><h3 cid="n120" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">39、HARMONYCLOAK: Making Music Unlearnable for Generative AI</span></span></h3><h3 cid="n120" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n121" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">生成式人工智能的最新进展已显著拓展至艺术与音乐领域。这一发展为人类创造力开辟了广阔疆域，将其边界推向未知前沿。然而随着生成式AI持续进化，其不仅能复刻艺术风格，还能创作全新作品，这对艺术家创作成果的稀缺性与价值认知构成了严峻挑战。为应对这些问题，建立并实施保护措施以防止艺术家版权作品遭生成式AI模型未经授权利用，正变得愈发重要。本文提出首个防御机制HARMONYCLOAK，专门针对生成式AI模型在音乐领域的剥削性使用进行防护。该机制通过植入难以察觉的误差最小化噪声，使模型对这些扰动音乐数据的生成损失趋近于零，从而诱使模型判定无知识可提取，以此破坏其复制音乐结构与风格的企图。基于一套音轨内与音轨间客观指标及主观用户研究，我们在三大前沿音乐生成AI模型（MuseGAN、SymphonyNet和MusicLM）上开展的实验验证了HARMONYCLOAK在白盒与黑盒场景下的有效性和适用性。</span></span></p><p cid="n122" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a085/21B7RrbCU12" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a085/21B7RrbCU12</a></span></span></p><h3 cid="n123" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">40、Improved Constructions for Distributed Multi-Point Functions</span></span></h3><h3 cid="n123" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n124" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">分布式点函数（DPF）是一种密码学原语，用于在两方之间压缩秘密单位向量的加法秘密份额。许多DPF应用需要稀疏权重-t向量（即分布式多点函数DMPF）的压缩份额。尽管存在强烈动机和先前的优化努力，但在大多数应用场景中，DMPF的最佳实现仍为简单粗暴地组合t个独立DPF。我们针对不同参数范围提出了新的DMPF构造方案及优化实现，相比现有方法显著提升了效率。我们在伪随机相关性生成器（PCG）和两服务器私有集合求交（PSI）应用中展示了新方案的效果。将我们的工具集成至当前最先进的&#34;静默&#34;生成二进制乘法三元组的PCG方案（FOLEAGE，Bombar等人，ePrint&#39;24）后，吞吐量提升至2.68倍，而种子大小仅膨胀1.4倍。在基准测试机器的单核上，我们的实现每秒可静默生成2210万个三元组，甚至超越了最佳&#34;非静默&#34;协议（Roy，CRYPTO&#39;22）每秒1600万个三元组的性能。</span></span></p><p cid="n125" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a044/21B7Qx0bxLi" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a044/21B7Qx0bxLi</a></span></span></p><h3 cid="n126" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">41、Inspecting Virtual Machine Diversification Inside Virtualization Obfuscation</span></span></h3><h3 cid="n126" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n127" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">虚拟化混淆器常被用于保护专有代码或阻碍恶意软件分析。尽管过去十年间对抗此类混淆器的努力从未间断，代码虚拟化仍是一种极其有效的混淆技术。现代虚拟化混淆器的核心在于虚拟机（VM），其采用多种多样化技术使内部结构复杂化。由于这种错综复杂且高度差异化的特性，逆向单个虚拟机不仅耗时费力，且对其他虚拟机的破解毫无助益。然而，尽管这些虚拟机成效显著，学界却始终缺乏对其多样化技术的系统性研究，这一知识缺口亟待填补以提升虚拟机反混淆能力。本研究旨在弥合上述缺口：首先，我们从虚拟机解释机制、字节码组织方式及处理函数置换/重定位三个维度，对VM多样化技术进行分类与揭示。这套关于现代虚拟化的系统化知识是本领域的重要贡献；其次，我们开发了自动化工具来识别顶尖虚拟化混淆器采用的VM多样化技术，实证结果揭开了这些方法在实际部署中的神秘面纱；最后，我们基于新发现的VM多样化知识对现有反混淆工具进行补强以克服其缺陷。这一成果彰显了本研究如何为下一代虚拟机反混淆技术开辟道路。</span></span></p><p cid="n128" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a071/21B7ReZrvva" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a071/21B7ReZrvva</a></span></span></p><h3 cid="n129" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">42、Invade the Walled Garden: Evaluating GTP Security in Cellular Networks</span></span></h3><h3 cid="n129" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n130" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">蜂窝回程网与核心网历来被视为&#34;封闭花园&#34;，其安全性依赖于物理隔离。因此，既往安全研究主要聚焦无线接入网，对回程网与核心网接口的关注有限。本文对现实世界中GPRS隧道协议(GTP)的部署进行了安全评估。作为从3G到5G时代基站与核心网(封闭花园内部)用户流量管理的基础协议，GTP通常被认为无法从互联网访问且不可利用。然而，我们的研究首次揭示了实际部署中GTP访问控制的严峻现状。借助半自动化工具，我们在162个国家的1,176家服务商中发现约749,000个可通过公共互联网访问的有效GTP主机。结果表明移动核心网基础设施可能暴露于外部威胁之下。我们进一步评估了暴露GTP基础设施的攻击面，发现多达38种GTP消息可被滥用于发起拒绝服务、会话劫持等攻击。通过在隔离实验室环境中使用开源4G/5G项目的实验，我们证实了这些基于GTP攻击的可行性，包括远程劫持通过蜂窝核心网传输的用户流量。除威胁蜂窝网络及其用户外，暴露的GTP设备还可能被武器化用于发起大规模反射型拒绝服务(RDoS)攻击。我们希望这些发现能提升运营商与安全社区对GTP漏洞的认知，凸显加强蜂窝核心网安全防护的紧迫性。</span></span></p><p cid="n131" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a028/21B7QiopxHq" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a028/21B7QiopxHq</a></span></span></p><h3 cid="n132" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">43、Learning from Censored Experiences: Social Media Discussions around Censorship Circumvention Technologies</span></span></h3><h3 cid="n132" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n133" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在严格的网络审查时期，保持对在线信息和通信的访问变得至关重要。然而，用户往往需要通过各种复杂途径才能找到有效的规避审查技术（CCT）。我们利用2022年9月18日至2023年1月31日伊朗抗议高潮期间从Twitter和Telegram收集的超过5000万条帖子的实时数据，研究了VPN、代理和其他替代性连接解决方案等CCT对数字权利、隐私和互联网治理的影响。通过混合方法分析，我们的研究揭示了当社区协作分享和讨论知识与资源时，用户所展现的韧性和适应能力。首先，我们开发了一个考虑英语和（首次纳入）波斯语帖子的讨论编码手册，突出了用户在尝试绕过互联网限制时遇到的主要问题。这些讨论中普遍存在一些共同关切，例如可追踪性、可识别性以及意外使用恶意配置。我们为期20周的时间研究表明，由于审查条件的变化，用户对VPN的偏好发生了转变，那些更注重隐私和具备更强可访问性功能的VPN获得了更高的采用率。此外，我们还发现了一些专门分享伪装成免费VPN服务的恶意文件的流行VPN频道。</span></span></p><p cid="n134" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a062/21B7R7E8URG" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a062/21B7R7E8URG</a></span></span></p><h3 cid="n135" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">44、MANTIS: Detection of Zero-Day Malicious Domains Leveraging Low Reputed Hosting Infrastructure</span></span></h3><h3 cid="n135" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n136" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">网络不法分子日益利用短时效的临时域名发起各类攻击。现有检测机制或因信息有限且域名存活周期短暂而难以及时捕获，或因规避技术（如内容伪装和验证码）而彻底失效。本研究探索了一种内容无关的早期恶意域名检测方法。我们发现，由于自动化程度提升和规模经济效应，攻击者常重复使用或轮换托管基础设施来承载多个恶意域名。这为防御者提供了通过监控此类基础设施识别新托管恶意域名的机会。然而，此类基础设施多为共享托管环境，同时承载着良性域名，可能导致误报率居高不下。因此，亟需创新机制在共享托管场景下有效区分恶意与良性域名。本文构建了高精度实用系统MANTIS，不仅能生成每日恶意域名拦截列表，还可实现按需预测。我们设计了基于托管基础设施的网络图谱，其准确性与时效泛化能力俱佳。系统模型持续保持99.7%的精确率、86.9%的召回率及0.1%的超低误报率，日均检测1.9万个新型恶意域名，超过VirusTotal每日标记量的5倍。此外，MANTIS能比主流拦截列表提前数天至数周预测恶意域名。</span></span></p><p cid="n137" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a067/21B7RbeY1Yk" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a067/21B7RbeY1Yk</a></span></span></p><h3 cid="n138" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">45、MOCGuard: Automatically Detecting Missing-Owner-Check Vulnerabilities in Java Web Applications</span></span></h3><h3 cid="n138" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n139" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Java Web应用程序已被广泛用于托管和驱动高价值的商业网站。然而，其错综复杂的特性使其易受一种名为&#34;缺失所有者检查&#34;（MOC）的关键安全漏洞影响，可能导致网站面临未授权访问与数据泄露风险。多年来，针对MOC漏洞的识别与分析研究始终较为有限。本研究提出了一种新型端到端漏洞分析方法MOCGuard，可有效检测Java Web应用中的MOC问题。与现有技术不同，MOCGuard创新性地采用以数据库为中心的分析视角定位漏洞：首先通过数据库结构分析推断用户表及用户所属数据，继而在Java与SQL双层面实施不安全访问检查。为全面评估MOCGuard的有效性，我们与全球顶尖科技企业展开合作。通过对30个知名开源及7个工业级Java Web应用的测试验证，该方法展现出自动化与高效性特质，成功发现161个（已确认）零日MOC漏洞，并促成73个CVE编号的分配。</span></span></p><p cid="n140" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a010/21B7Q2KLNn2" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a010/21B7Q2KLNn2</a></span></span></p><h3 cid="n141" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">46、Meeting Utility Constraints in Differential Privacy: A Privacy-Boosting Approach</span></span></h3><h3 cid="n141" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n142" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">数据工程通常要求结果满足准确性（效用）约束，这给差分隐私（DP）机制的设计带来了巨大挑战，尤其是在严格的隐私参数Z</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">εε</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Z下。本文提出一种兼容多数噪声添加型DP机制的隐私增强框架。该框架通过提高输出落在支持集偏好子集内的概率以满足效用需求，同时扩大总体方差以减少隐私泄露。我们刻画了框架的隐私损失分布，并给出了Z</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">(ε,δ)(ε,δ)</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Z-DP和Rényi DP（RDP）保证的隐私剖面公式。我们研究了包含数据相关与数据无关效用公式的特殊案例。通过大量实验证明，在效用约束下，本框架相较标准DP机制实现了更低的隐私损失。值得注意的是，当查询敏感度远大于真实答案时，我们的方法能显著降低隐私损失，为满足特定效用约束的差分隐私机制设计提供了更实用灵活的解决方案。</span></span></p><p cid="n143" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a064/21B7R96pmec" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a064/21B7R96pmec</a></span></span></p><h3 cid="n144" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">47、My Model is Malware to You: Transforming AI Models into Malware by Abusing TensorFlow APIs</span></span></h3><h3 cid="n144" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n145" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">人工智能技术的快速发展显著提升了各行业对AI模型的需求。虽然模型共享降低了成本并促进了创新，但也带来了安全风险——攻击者可能将恶意代码嵌入模型，导致模型运行时发起难以察觉的攻击。尽管存在这些风险，模型共享的安全性（尤其是TensorFlow框架）仍未得到充分研究。为应对这些安全问题，我们对TensorFlow API相关的安全风险进行了系统分析，提出了&#34;TensorAbuse&#34;攻击：该攻击利用TensorFlow API的隐藏能力（如文件访问和网络通信）构建强隐蔽性的攻击链。为此，我们开发了两项新技术：一是识别TensorFlow中的持久化API，二是利用大语言模型精确分析API功能并分类。我们将这些技术应用于TensorFlow v2.15.0，识别出1,083个具有五大核心功能的持久化API，并利用其中20个API开发出五种攻击原语和四类组合攻击（包括文件泄露、IP暴露、任意代码执行和Shell访问）。测试表明Hugging Face、TensorFlow Hub和ModelScan均未能检测到这些攻击。我们已向Google、Hugging Face和ModelScan报告了这些发现，目前正协同各方解决相关问题。</span></span></p><p cid="n146" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a012/21B7Q4kpO7e" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a012/21B7Q4kpO7e</a></span></span></p><h3 cid="n147" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">48、P2C2T: Preserving the Privacy of Cross-Chain Transfer</span></span></h3><h3 cid="n147" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n148" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于区块链的数字货币系统通常孤立运行，缺乏无缝互联的必要机制。因此，跨不同货币系统的资产转移仍面临严峻挑战，现有方案往往难以兼顾安全性、隐私性与实用性。本文提出P2C2T——一种隐私保护的跨链转移方案。这是首个能同时满足原子性、不可关联性、不可区分性、无抵押要求，并适配多样化货币系统功能的解决方案。P2C2T基于我们提出的&#34;门限匿名原子锁&#34;（TAZ_22_ZL）技术构建，该技术通过隐匿用户间支付关系，成为实现原子化跨链转移的基石。通过将TAZ_22_ZL与可验证定时离散对数方案相结合，P2C2T使得跨链交易与常规链内交易无法区分。值得注意的是，P2C2T免除了发送方的抵押要求，且对底层区块链仅需最低限度的签名验证能力。我们基于提出的新型密码学概念&#34;门限盲条件签名&#34;论证了TAZ_22_ZL的安全性，并通过完备证明验证了P2C2T的安全属性。性能对比显示：相较于特性最接近的现有方案，P2C2T在完成跨链转移时，其运行时间、通信开销与存储成本均降低至少85.488%。我们进一步在比特币测试网与莱特币测试网上实现了跨链转移与链内支付实验，验证了P2C2T的隐私保护能力与实用价值。</span></span></p><p cid="n149" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a051/21B7QYE5x8Q" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a051/21B7QYE5x8Q</a></span></span></p><h3 cid="n150" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">49、PAC-Private Algorithms</span></span></h3><h3 cid="n150" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n151" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">可证明的隐私通常需要复杂的分析，且往往伴随难以接受的准确性损失。虽然已有许多经验性验证或近似方法被提出，如成员推断攻击（MIA）和差分隐私审计（DPA），但这些方法无法提供严格的隐私保障。本文应用最新提出的&#34;概率近似正确&#34;（PAC）隐私框架，为一系列实用黑盒算法（K均值、支持向量机（SVM）、主成分分析（PCA）和随机森林）提供了基于形式化、机械化模拟的隐私证明。为实现这些证明，我们提出一种新型模拟算法，可高效确定任意给定隐私等级所需的各向异性噪声扰动。我们给出了该算法的正确性证明，并证实各向异性噪声较各向同性噪声具有显著优势。稳定算法更易实现隐私化，我们通过在这些算法中引入正则化来展示隐私放大效应——仅需承受微小精度损失即可获得有意义的隐私保障。为降低算法输出的不稳定性，我们将难以处理的几何稳定性验证转化为高效确定性验证，并提出新技术方案。实验部分包含全面验证，我们通过最先进的实证攻击测试，证实了所提方法在对抗推断鲁棒性方面的可证明优势。</span></span></p><p cid="n152" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a034/21B7QnCR3na" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a034/21B7QnCR3na</a></span></span></p><h3 cid="n153" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">50、PEARTS: Provable Execution in Real-Time Embedded Systems</span></span></h3><h3 cid="n153" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n154" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">嵌入式设备正日益普及且至关重要，通常承担着安全关键功能。然而受限于严格的成本与能耗约束，这类设备普遍采用缺乏高级架构安全特性的微控制器单元（MCU）实现。近期研究提出了能在潜在受攻击MCU上生成软件执行证明（PoX）的低成本架构，通过将传感结果与边缘传感器MCU上不可伪造的密码学执行证明绑定，从源头确保传感器数据的完整性。但现有PoX方案要求被证明的执行必须原子性（即不可中断）完成，这导致其无法应用于(1)分时系统及(2)具有实时性约束的场景，造成执行完整性与嵌入式系统实时需求间的直接冲突。本文提出名为实时执行证明（RT-PoX）的新安全目标，在保留经典PoX完整性保障的同时，使其适用于现有实时系统。该目标通过放宽PoX的原子性要求，同时禁止设备上其他潜在恶意任务（或受攻击操作系统）的干扰来实现。为实现RT-PoX目标，我们开发了实时系统可验证执行架构（PEARTS）。据我们所知，PEARTS是首个可直接部署于商用嵌入式实时操作系统（FreeRTOS）旁的PoX系统，能在商用MCU上同时提供实时调度与执行完整性保障。为验证该能力，我们在单核ARM Cortex-M33处理器上基于FreeRTOS开发了PEARTS开源原型，并据此评估报告了其安全性与（可控的）性能开销。</span></span></p><p cid="n155" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a047/21B7QzkFmY8" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a047/21B7QzkFmY8</a></span></span></p><h3 cid="n156" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">51、PORTAL: Fast and Secure Device Access with Arm CCA for Modern Arm Mobile System-on-Chips (SoCs)</span></span></h3><h3 cid="n156" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n157" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">移动Arm系统芯片(SoC)中多样化协处理器与外设的深度集成，为安全高效的设备I/O带来了重大挑战。现有基于内存加密的方案会引入显著的性能与功耗开销，而移动平台对实时数据处理和严格能效的要求进一步加剧了这些问题。这阻碍了旨在提供强安全保证的Arm机密计算架构(CCA)的广泛应用。为此，我们提出PORTAL——一种面向移动Arm SoC上Arm CCA的安全高效设备I/O接口。PORTAL通过严格内存隔离实现安全I/O，无需内存加密。借助Arm CCA的内存隔离机制，PORTAL实施硬件级访问控制，确保仅指定安全域虚拟机与外设可访问受保护的明文内存区域。该设计消除了加密开销，支持动态外设集成，同时保持强安全保证。评估表明PORTAL仅产生9.8%的极低一次性开销，同时提升了可扩展性与能效，为在移动及资源受限环境中推广即将到来的Arm CCA提供了关键解决方案。</span></span></p><p cid="n158" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a013/21B7Q5c3ZHq" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a013/21B7Q5c3ZHq</a></span></span></p><h3 cid="n159" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">52、PQ-Hammer: End-to-end Key Recovery Attacks on Post-Quantum Cryptography Using Rowhammer</span></span></h3><h3 cid="n159" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n160" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着后量子密码学（PQC）逐渐接近标准化及最终部署阶段，深入理解所选方案实现的安全性变得愈发重要。本文针对NIST后量子密码标准化竞赛的多个决赛方案展开研究，揭示了令人担忧的安全问题。我们具体演示了基于Rowhammer攻击技术对Kyber与BIKE密钥交换机制以及Dilithium数字签名方案的完整密钥恢复攻击——这些攻击无需超级计算机或长达数月的预计算，仅需中等程度攻击成本即可实现。此外，我们通过结合Rowhammer、性能降级和内存操控技术进行了实验验证，证明攻击具有现实可行性。研究结果表明，此类侧信道攻击构成重大威胁，在密码新方案标准化、标准实现开发及实际部署时均需重点考量。文末我们提出了可增强密码方案抵御Rowhammer攻击能力的实现技术建议。</span></span></p><p cid="n161" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a048/21B7QQRP39e" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a048/21B7QQRP39e</a></span></span></p><h3 cid="n162" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">53、PYLINGUAL: Toward Perfect Decompilation of Evolving High-Level Languages</span></span></h3><h3 cid="n162" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n163" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Python是工业界开发者和恶意软件作者中最受欢迎的编程语言之一。尽管存在对Python反编译器的需求，但Python激进的版本迭代与不稳定的字节码规范阻碍了社区维护自动化反编译工具的努力。每年都有新语言特性加入，代码生成机制发生重大变化，操作码不断新增、删除和修改。本研究将自然语言处理技术与经典程序语言理论相结合，旨在构建一个能适应语言特性演变和字节码规范变更、且需最少人工维护的Python反编译器。PyLingual在版本无关的核心架构中植入数据驱动的NLP组件，可自动吸纳字节码表层变化与编译器改动，同时通过程序化组件重建抽象控制流。为确保反编译结果可信度，我们基于&#34;完美反编译&#34;（一种可静态验证的语义等价强化标准）提出了严格正确性度量。我们在真实世界的良性/恶意Python源码及其编译后的PYC二进制文件数据集上验证了方法的有效性。本研究有三项主要贡献：(1)提出PyLingual——一个支持Python 3.6至3.12各版本、具备顶尖性能的可扩展数据驱动反编译框架，在四个数据集上将完美反编译率较现有最优反编译器平均提升45%；(2)提供基于完美反编译的Python反编译器验证框架；(3)将PyLingual部署为公开在线服务。</span></span></p><p cid="n164" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a052/21B7QZB86cg" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a052/21B7QZB86cg</a></span></span></p><h3 cid="n165" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">54、Peek-a-Walk: Leaking Secrets via Page Walk Side Channels</span></span></h3><h3 cid="n165" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n166" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">微架构侧信道攻击对程序安全构成隐蔽威胁。其中一类新兴攻击通过构造间接访问数据内存内容的攻击组件，其成因在于推测执行和数据内存预取等优化机制可能（错误地）猜测程序正在执行指针追踪。理论上这对安全性具有毁灭性影响，因为对秘密数据的间接访问会通过基于内存的侧信道（如缓存）造成泄露。但实践中并非如此——由于多数秘密数据不符合有效指针特征，其间接访问通常失败而不会泄露信息。本文提出页表遍历侧信道（PWSC），这种新型攻击能在无效指针解引用场景下仍泄露信息：当64位秘密数据通过地址规范化检查时，PWSC无需对剩余比特位做任何假设即可泄露除低6位外的所有比特位。我们展示了PWSC如何增强推测执行与数据内存预取场景下的信息泄露：在推测执行场景中，PWSC结合Intel的LAM特性可泄露近乎全部物理内存；即使未启用LAM，PWSC也能泄露Dilithium算法的密钥；在数据内存预取场景中，我们逆向工程了Intel数据内存依赖预取器（DMP）的语义，证明DMP与PWSC结合可突破进程内沙箱的安全防护。</span></span></p><p cid="n167" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a023/21B7QepK7Fm" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a023/21B7QepK7Fm</a></span></span></p><h3 cid="n168" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">55、Phecda: Post-Quantum Transparent zkSNARKs from Improved Polynomial Commitment and VOLE-in-the-Head with Application in Publicly Verifiable AES</span></span></h3><h3 cid="n168" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n169" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们提出Phecda框架——一种在随机预言机模型中构建抗量子透明zkSNARK的新方案。该框架创新性地融合了多线性多项式承诺方案与VOLE-in-the-Head零知识论证协议，为现实场景中的多样化计算验证提供了通用解决方案。特别地，我们设计出新型AES验证电路，配合Phecda框架可在Linux个人电脑的单线程程序上实现10毫秒内完成计数器模式下1024个AES分组的验证。</span></span></p><p cid="n170" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a055/21B7R1Oem1q" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a055/21B7R1Oem1q</a></span></span></p><h3 cid="n171" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">56、Predator: Directed Web Application Fuzzing for Efficient Vulnerability Validation</span></span></h3><h3 cid="n171" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n172" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Web应用漏洞仍是重大安全挑战。当前静态分析是该领域主流解决方案，动态分析技术相比之下尚未得到广泛应用，但二者均存在明显局限：现有静态分析工具误报率高，需依赖精细人工分析与专业知识；而动态分析工具发展尚不成熟，基于模糊测试的方案常因难以深入代码位置导致效率低下，先进灰盒模糊测试工具亦常无法有效捕获用户界面参数，致使输入空间探索低效。本文提出Predator——一种配备选择性动态插桩的定向模糊测试框架，可实现高效Web应用漏洞检测与验证。我们通过动静分析技术互补：轻量级静态分析为定向模糊测试提供目标URL及相关参数，从而辅助静态分析报告的动态验证；此外针对PHP等解释型语言的动态特性，提出运行时距离补偿机制与定制化变异策略。评估表明Predator能有效触发更多漏洞，其漏洞暴露时间较先进灰盒模糊测试工具最高提升43.8倍，并在真实应用中检出26个未知漏洞（截至撰稿时已有7个获厂商确认并修复），进一步验证了其有效性。</span></span></p><p cid="n173" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a066/21B7Ray6BkA" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a066/21B7Ray6BkA</a></span></span></p><h3 cid="n174" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">57、Preference Poisoning Attacks on Reward Model Learning</span></span></h3><h3 cid="n174" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n175" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">从成对比较中学习奖励模型是多个领域（包括自主控制、对话代理和推荐系统）的基础组成部分，其核心目标在于使自动化决策与用户偏好保持一致。这类方法需要从人类收集偏好信息，而反馈通常以匿名形式提供。由于偏好具有主观性，不存在可供对照的黄金标准；然而，高影响力系统对偏好学习的依赖，为恶意行为者提供了强烈动机，使其能够通过操纵此类数据收集来实现自身目的。我们通过假设攻击者能翻转少量偏好比较数据以提升或压制特定目标结果，系统研究了该漏洞的本质与影响范围。针对此类攻击，我们提出两类算法框架：基于梯度的攻击方法，以及多种基于距离排序的变体方法。随后，我们在三个领域（自主控制、推荐系统和文本提示-响应偏好学习）的数据集上评估了这两类最优攻击方案的有效性。实验表明，最优攻击往往具有极高成功率，极端情况下仅需污染0.3%数据即可实现100%攻击成功率，但最优攻击方案的选择会随领域不同存在显著差异。此外，我们发现更简单且可扩展性更强的基于距离排序方法，其性能往往与基于梯度的方法相当，有时甚至显著优于后者。最后，我们证明当前针对其他类型投毒攻击的最先进防御方案在本研究场景中效果有限。</span></span></p><p cid="n176" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a094/22K50qfo1PO" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a094/22K50qfo1PO</a></span></span></p><h3 cid="n177" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">58、Preprocessing for Life: Dishonest-Majority MPC with a Trusted or Untrusted Dealer</span></span></h3><h3 cid="n177" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n178" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们提出了一种预处理模型下安全多方计算（MPC）的新范式：通过可行的一次性设置，即可支持持续高效的在线安全计算。我们的协议在安全性与成本方面对标最经济的MPC解决方案类别（即抗单方恶意攻击的三方协议3PC），同时具备两项质性优势——其中一方仅需传输电路规模亚线性的数据量，且发送初始消息后即可离线。这种&#34;2+1&#34;参与方架构也可通过（非可信）协助方的支持在两方之间实现。相较于现有同类协议，我们在保持相当在线性能的同时，将存储需求与离线阶段协助方至参与方的通信开销降低了三个数量级以上。在技术层面，我们基于Boyle等人（CRYPTO 2021）提出的全线性交互式预言证明（FLIOP）协议框架进行构建，通过系统化的算法与实现优化，设计了针对复杂FLIOP关联数据完备性的高效分布式证明机制，并实现其电路无关性。我们实现了完整的端到端系统，并与当前&#34;2+1&#34;模式的最先进方案（基于SPDZ的布尔电路协助方变体）进行性能对比。此外，我们将技术扩展至(n+1)参与方场景，使协助方能支持普遍的非诚实多数MPC，并给出支持&#34;可识别中止&#34;安全性的协议变体。</span></span></p><p cid="n179" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a041/21B7QuzaWyY" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a041/21B7QuzaWyY</a></span></span></p><h3 cid="n180" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">59、Prevalence Overshadows Concerns? Understanding Chinese Users&#39; Privacy Awareness and Expectations Towards LLM-based Healthcare Consultation</span></span></h3><h3 cid="n180" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n181" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLMs）在医疗健康领域的应用日益广泛，但也加剧了敏感健康信息被轻易泄露和未经授权访问的威胁。在中国等隐私意识相对薄弱的地区，此类隐私风险尤为突出。尽管已有部分研究针对医疗场景下LLMs的用户体验展开调查，但用户对隐私的认知仍未被充分探索。为填补这一空白，本文首次在中国开展了一项基于LLM医疗咨询场景的用户研究（n=846），聚焦隐私意识与期望。研究通过部署医疗聊天机器人实证考察用户的实际隐私意识，并基于情境完整性的信息流框架量化用户的隐私期望。研究发现：LLMs的普及通过激发用户使用此类服务的好奇心与意愿（77.3%参与者倾向使用，72.9%表示会采纳生成建议），反而弱化了隐私顾虑，从而放大了健康隐私风险。值得注意的是，用户呈现出矛盾的&#34;认知错觉&#34;——其隐私知识与担忧程度与隐私期望相背离，最终导致更高的健康隐私暴露风险。本文的深入讨论为未来基于LLM的医疗隐私研究及保护技术发展提供了重要启示。</span></span></p><p cid="n182" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a092/22K50ou6sKY" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a092/22K50ou6sKY</a></span></span></p><h3 cid="n183" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">60、Query Provenance Analysis: Efficient and Robust Defense against Query-based Black-box Attacks</span></span></h3><h3 cid="n183" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n184" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于查询的黑盒攻击已成为机器学习系统面临的重大威胁，攻击者通过操纵输入查询生成对抗样本，导致系统误分类。为应对此类攻击，研究者提出BlackLight、PIHA等状态化防御模型（SDM），通过拒绝与历史查询&#34;相似&#34;的查询实现防护。然而最新研究表明，现有防御方案在更强适应性的预言机引导自适应拒绝采样攻击（OARS）面前存在脆弱性。OARS可结合现有攻击算法，利用SDM泄露的决策边界信息精细调节扰动方向与步长，从而规避防御。本文提出查询溯源分析（QPA）方法，旨在实现对查询型黑盒攻击的鲁棒防御（同时抵抗非适应性与适应性攻击）与实时高效防护。核心思路在于：通过分析查询序列特征（称为查询溯源）而非孤立查询，能更有效区分恶意与良性查询。我们构建查询溯源图来表征新查询与历史查询的关联关系，并设计高效算法基于该图进行恶意查询检测。在四个数据集上针对六种查询攻击的评估表明，QPA在防御鲁棒性和效率上均优于最先进的SDM方案。具体而言，QPA将OARS攻击成功率（ASR）降至4.08%，较基线方法降低约20倍；同时实现更高吞吐量（最高达7.67倍）与更低延迟（最高达11.09倍）。</span></span></p><p cid="n185" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a072/21B7RgFCieQ" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a072/21B7RgFCieQ</a></span></span></p><h3 cid="n186" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">61、RGFuzz: Rule-Guided Fuzzer for WebAssembly Runtimes</span></span></h3><h3 cid="n186" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n187" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">WebAssembly运行时内置编译器，用于将WebAssembly代码编译为机器码执行。这些编译器通过多种编译规则来定义如何优化和降低WebAssembly代码层级。然而，现有测试工具因规则复杂性难以有效探索这些规则，且受限于生成方式单一，可能导致潜在漏洞未被发现。本文提出差异化模糊测试工具RGFuzz，通过两项创新技术突破现有局限：首先采用规则引导的模糊测试方法，从wasmtime运行时提取编译规则并指导测试用例生成，从而高效探索复杂规则；其次利用逆向基于栈的生成技术实现多样化测试用例生成。这些技术使RGFuzz能有效发现WebAssembly运行时中的漏洞。我们在wasmtime、Wasmer、WasmEdge、V8、SpiderMonkey和JavaScriptCore六大引擎上实现并评估RGFuzz，共发现20个新漏洞（其中1个获CVE编号）。实验表明，RGFuzz通过规则提取与多样化测试用例生成，性能显著优于现有模糊测试工具。</span></span></p><p cid="n188" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a003/21B7PWv1JGU" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a003/21B7PWv1JGU</a></span></span></p><h3 cid="n189" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">62、RaceDB: Detecting Request Race Vulnerabilities in Database-Backed Web Applications</span></span></h3><h3 cid="n189" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n190" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">数据库驱动的Web应用中的请求竞争漏洞构成重大安全威胁。这类漏洞可能导致数据不一致、异常行为甚至未授权访问。现有自动化检测技术常因竞争条件的复杂性及应用逻辑与数据库交互的错综关联而失效。本文提出RACEDB系统，通过两项关键创新应对这些挑战：应用感知型请求竞争检测（ARD）通过综合分析数据依赖关系，同时考量数据库模式与应用代码，从而识别现有方法可能遗漏的隐蔽竞争条件；此外，RACEDB采用基于回放的自动化验证技术，高效区分真实竞争与误报，并为确认漏洞生成确定性利用方案。我们在14个真实PHP Web应用数据集上评估RACEDB，结果表明其检测效果显著优于现有工具——成功识别21个已知漏洞并发现18个新漏洞，同时保持更低误报率。所有新发现漏洞均已负责任地报告给相应开发者，其中7个漏洞已获得CVE编号。</span></span></p><p cid="n191" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a029/21B7QjzVEo8" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a029/21B7QjzVEo8</a></span></span></p><h3 cid="n192" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">63、RankGuess: Password Guessing Using Adversarial Ranking</span></span></h3><h3 cid="n192" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n193" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">对密码安全性的理解高度依赖于我们对攻击者如何猜测密码的认知，这使得构建密码猜测攻击模型成为一项关键任务。为最大化猜测效率，攻击者通常按概率降序进行尝试，这与推荐系统中生成式检索学习排序（generative retrieval learning-to-rank）的工作机制类似——后者根据预测相关性向目标用户优先推送信息。本文提出了一种基于对抗排序的密码猜测框架RankGuess。我们将密码创建过程视为序列化决策轨迹，在此框架下假设攻击者训练一个智能体：当前状态由已生成的密码片段表示，采取的动作是生成下一字符，排序器给出的评估分数则作为获得的奖励信号。由此，我们将密码猜测问题建模为马尔可夫决策过程，并运用对抗排序技术予以解决。得益于框架的通用性，RankGuess可适配多种猜测场景（包括撒网式猜测、基于个人身份信息PII的定向猜测，以及条件式密码猜测）。通过12个大规模密码数据集和6个PII数据集的实验验证，我们证明：（1）RankGuess全面超越现有最优模型，相较基于生成对抗网络的方法提升26.29%~43.69%（平均34.80%）；（2）当掌握目标站点Z_AA_Z的用户PII（记为PIIZ_AA_Z）时，基于PIIZ_AA_Z的定向猜测模型RankGuess-PII在10^12次尝试内可破解58.21%~91.95%的普通用户密码，较最优竞品提升6.32%~17.09%；（3）在10^7次尝试内，针对用户部分已知密码（如d</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">l</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">02</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">）的掩码猜测模型RankGuess-Mask，其破解成功率较现有最优方案提升7.70%~14.85%（平均8.21%）。本研究为密码猜测领域这一经典难题提供了新的技术路径。</span></span></p><p cid="n194" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a040/21B7Qt9Kuv6" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a040/21B7Qt9Kuv6</a></span></span></p><h3 cid="n195" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">64、Resolution Without Dissent: In-Path Per-Query Sanitization to Defeat Surreptitious Communication Over DNS</span></span></h3><h3 cid="n195" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n196" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">作为互联网最基础的组件之一，DNS服务于多种用途，因此DNS流量通常呈现多样化模式，且极少被网络管理员拦截。这些特性使得DNS成为攻击者建立隐蔽通信（即DNS隧道）的理想渠道。事实上，此类隐蔽通道已被广泛滥用于命令控制（C2）和企业未授权的虚拟专用网络（VPN）。现有检测方法仅依赖DNS查询序列的统计特征来识别DNS隧道。然而，这些方法本质上无法实现零数据泄露，且当窃取数据通过多个根域名外传时可能被绕过。因此，现有先进方案更适用于威胁调查与取证分析，而非DNS隧道防御。</span></span></p><p cid="n197" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为填补这一防护空白，我们提出TunTight——首个实现逐查询实时拦截的DNS隧道防御系统。我们的核心发现是：DNS隧道域名在其权威名称服务器、使用方式和命名模式上具有独特特征。基于这些特征，我们定义并提取了一组判别性指标输入机器学习模型。为验证有效性，我们将系统集成至某顶级安全厂商的企业级防火墙云平台。在实际部署的两个月中，TunTight在首条查询即成功拦截349个已确认隧道，误报与漏报可忽略不计。我们还首次开展了大规模DNS隧道活动研究，发现企业网络中多数隧道流量源自公开隧道工具和未授权VPN服务。</span></span></p><p cid="n198" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a004/21B7PXuUi2Y" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a004/21B7PXuUi2Y</a></span></span></p><h3 cid="n199" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">65、Restricting the Link: Effects of Focused Attention and Time Delay on Phishing Warning Effectiveness</span></span></h3><h3 cid="n199" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n200" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">钓鱼警告研究人员提出了两种降低钓鱼点击率的超链接限制形式：一是聚焦注意力机制，即阻止用户访问可疑网址，直至其点击警告内被遮盖的链接；二是时间延迟机制，即在短时间内禁用链接点击功能。这两种措施均旨在吸引用户关注警告内容，促使其仔细核查链接网址。然而迄今为止，这两种措施的有效性尚未得到对比评估。我们通过混合方法的在线实验（样本量=1,320）来探究聚焦注意力与时间延迟机制单独及联合使用的效果差异。研究采用模拟电子邮箱环境，要求参与者评估邮件及邮件超链接。研究发现：虽然两种机制均能独立降低点击率，但聚焦注意力的效果显著优于时间延迟；当两种机制联用时，点击率进一步下降。此外，相较于聚焦注意力警告组，时间延迟警告组的参与者更倾向于长时间悬停查看超链接。本文最后讨论了研究结果对反钓鱼警告设计的启示。</span></span></p><p cid="n201" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a007/21B7Q0jLcaI" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a007/21B7Q0jLcaI</a></span></span></p><h3 cid="n202" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">66、Ringtail: Practical Two-Round Threshold Signatures from Learning with Errors</span></span></h3><h3 cid="n202" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n203" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">阈值签名方案将签名密钥分散在l个参与方之间，使得任意t个参与方的子集都能联合对给定消息生成签名。设计具体高效的后量子阈值签名是当前紧迫课题，这一点从NIST最近的倡议中可见一斑。本研究提出、实现并评估了一种基于格的阈值签名方案Ringtail，首次实现了以下理想特性的组合：1）签名协议仅需两轮交互，其中首轮与消息无关，可离线预处理；2）方案具备具体高效性且可扩展至t≤1024个参与方。在128比特安全强度且t=1024参与方时，我们实现了13.4KB的签名大小和10.5KB的在线通信量；3）安全性基于随机预言机模型下的标准容错学习（LWE）假设。相较于现有方案——要么需要三轮签名协议（Eurocrypt&#39;24），要么依赖新的非标准假设（Crypto&#39;24）——本方案实现了显著改进。为验证方案的实用性，我们首次在横跨5大洲8个国家的广域网上部署基于格的阈值签名方案进行实验。结果表明端到端延迟主要由网络延迟主导，这凸显了对轮次优化方案的迫切需求。</span></span></p><p cid="n204" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a070/21B7Re2GxzO" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a070/21B7Re2GxzO</a></span></span></p><h3 cid="n205" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">67、SCAD: Towards a Universal and Automated Network Side-Channel Vulnerability Detection</span></span></h3><h3 cid="n205" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n206" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">网络侧信道攻击因其严重性和隐蔽性近来备受关注。例如，SADDNS攻击允许路径外攻击者利用网络侧信道实施缓存投毒攻击。由于网络侧信道的微妙特性，识别此类侧信道具有挑战性。迄今为止，鲜有针对此类漏洞的自动化漏洞发现技术。遗憾的是，现有方法均缺乏足够的通用性和自动化程度，使其影响力和长期应用受限。本文提出首个填补这一空白的解决方案。具体而言，我们开发了SCAD系统，旨在检测违反非干涉属性的情况——该属性被普遍认为是网络侧信道的根本成因。由于非干涉属性属于超属性，需要进行跨多执行轨迹的推理，这促使我们基于欠约束动态符号执行技术构建解决方案。现有最先进方案SCENT采用模型检测技术，需对网络协议部分内容进行建模或简化以实现可扩展性，但此类建模过程耗时、易错且可能遗漏关键细节，导致漏洞漏报。例如，据报道使用SCENT构建自包含模型需耗费2.5人周工作量，而SCAD仅需1人日即可完成秘密信息标注、攻击者可观测项标记及分析范围界定。通过将SCAD应用于Linux、FreeBSD和lwIP等TCP/UDP协议栈实现，我们发现了14个网络侧信道（其中7个为首次披露），误报率仅为17.6%。分析结果揭示了包括可使已修复的Linux/FreeBSD内核重新遭受SADDNS攻击或路径外TCP攻击在内的严重漏洞。研究表明，受限于现有技术的固有缺陷，大多数侧信道无法被当前方案发现。</span></span></p><p cid="n207" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a068/21B7RcuK7C0" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a068/21B7RcuK7C0</a></span></span></p><h3 cid="n208" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">68、SLAP: Data Speculation Attacks via Load Address Prediction on Apple Silicon</span></span></h3><h3 cid="n208" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n209" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">自2018年Spectre漏洞首次披露以来，由于硬件层面完全缓解推测执行攻击的困难性，过去六年中已涌现出多种新变体与攻击面。大多数衍生攻击沿袭了原始Spectre攻击的核心思路——即CPU在处理控制冒险（如条件分支、间接分支及返回语句）时可能短暂执行错误控制流，并通过侧信道痕迹泄露敏感信息。本文突破性地将研究范畴扩展到（推测式）影响控制流之外，提出一种源于微架构优化机制的新型数据推测原语，该机制旨在缓解数据冒险。具体而言，我们发现苹果CPU配备了负载地址预测器（LAP）。该组件通过监控同一加载指令的历史地址来推测性加载预测地址，而该地址可能错误指向静态敏感数据（即CPU从未在架构层面读取过的数据）。一旦获取秘密数据，LAP提供的宽泛推测窗口足以让攻击者实施计算操作（例如通过隐蔽信道泄露数据）。我们在M2、A15及更新款苹果CPU上验证了LAP的存在性，并通过越界读取、推测性调用恶意函数、攻破地址空间布局随机化（ASLR）以及入侵Safari浏览器等场景评估其安全影响。特别地，我们利用LAP实现了跨站敏感数据（如Gmail收件箱内容）向远程网络攻击者的泄露。</span></span></p><p cid="n210" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a098/22K50uO6vo4" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a098/22K50uO6vo4</a></span></span></p><h3 cid="n211" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">69、Sailfish: Towards Improving the Latency of DAG-based BFT</span></span></h3><h3 cid="n211" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n212" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于有向无环图（DAG）的拜占庭容错（BFT）协议能在不同参与方间均衡共识负载，即使部分指定节点失效仍能保持高吞吐量。然而现有DAG-BFT协议存在决策确认延迟高的问题，其根源在于每两轮或更多轮次才设置一个\emph{领导者}。Shoal（FC&#39;23）和Mysticeti等近期研究认为，每轮支持领导顶点（leader vertex）的实现难度极大甚至不可行。因此即便领导者诚实，这些协议仍需较高延迟（或通信复杂度）来确认领导者提交的提案（领导顶点），并需额外延迟确认其他提案（非领导顶点）。本文提出\name，首个实现每轮支持领导顶点的DAG-BFT协议。在领导者诚实场景下，\name仅需1轮可靠广播（RBC）时延加上Z_1δ1δ</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Z（Z</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">δδ</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Z为消息实际传输延迟）即可确认领导顶点，非领导顶点仅需额外1轮RBC时延。我们进一步扩展为\multiname，支持单轮多领导者机制，可在1轮RBC时延加Z_1δ1δ</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Z的延迟内确认轮次内所有领导顶点。实验表明，在吞吐量相当的情况下，本协议相较现有DAG协议显著降低了延迟开销。</span></span></p><p cid="n213" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a021/21B7QcFAX6M" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a021/21B7QcFAX6M</a></span></span></p><h3 cid="n214" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">70、Security Analysis of Master-Password-Protected Password Management Protocols</span></span></h3><h3 cid="n214" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n215" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">密码管理器（PM）是帮助用户管理登录凭证的实用工具，能减轻记忆日益增多密码的负担。主密码保护的密码管理（M3PM）协议定义了客户端与密码管理器服务器之间的交互流程：客户端使用主密码进行认证，服务器则协助跨设备检索凭证。鉴于当前密码管理器数据泄露事件频发且用户担忧服务器可能滥用数据，确保服务器无法获知主密码及凭证内容至关重要。M3PM协议的核心地位凸显了对其进行系统化形式化安全分析的必要性。</span></span></p><p cid="n216" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文首次对M3PM协议展开全面形式化分析。我们通过定义包含文档分析、流量分析和逆向工程的方法论，从工业界与学术界的43个密码管理器中识别出实际应用的M3PM协议。为形式化M3PM协议的安全属性，我们在通用可组合（UC）框架下提出一组理想功能。根据攻击者掌握的信息差异，我们将针对主密码的离线猜测攻击划分为四类。分析表明，43个密码管理器中有38个至少对其中一类攻击存在漏洞，揭示了单主密码保护机制在不同M3PM协议中抵抗此类攻击的失效场景。此外，我们发现知名开源密码管理器Passbolt存在预言机攻击漏洞——被攻陷的服务器可获取其加密密钥，同时论证了1Password的双密钥机制能为用户主密码及凭证提供强力保护。</span></span></p><p cid="n217" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a050/21B7QXQpJny" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a050/21B7QXQpJny</a></span></span></p><h3 cid="n218" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">71、Security Attacks Abusing Pulse-level Quantum Circuits</span></span></h3><h3 cid="n218" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n219" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本研究首次系统探究了门级与脉冲级量子电路接口及脉冲级量子电路本身所面临的攻击。通常，量子计算机执行的量子电路与程序通过门级原语定义，但为提升量子电路表达力并实现更优优化，脉冲级电路现已被广泛采用。本工作所揭示的攻击利用自定义门在门级描述与实际底层脉冲实现之间的不一致性，通过操纵自定义门规范提出了多种攻击方式：量子比特劫持、量子比特阻塞、量子比特重排、时序失配、频率失配、相位失配以及波形失配。研究在真实量子计算机与模拟器上验证了这些攻击，并证明当前多数量子软件开发工具包均易受此类新型攻击影响。最后，本研究提出了一套防御框架。对新兴脉冲级量子电路安全与隐私问题的探索，为未来开发安全的量子软件开发工具包及量子计算机系统提供了重要启示。</span></span></p><p cid="n220" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a083/21B7Rp53qbm" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a083/21B7Rp53qbm</a></span></span></p><h3 cid="n221" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">72、Security Perceptions of Users in Stablecoins: Advantages and Risks within the Cryptocurrency Ecosystem</span></span></h3><h3 cid="n221" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n222" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">稳定币是一种与另一种资产挂钩以维持价格稳定的加密货币，现已成为加密货币生态的重要组成部分。现有研究主要从技术和理论角度分析稳定币的安全性，但对用户在实际使用中的风险认知与安全行为缺乏深入探讨。为填补这一研究空白，我们采用混合方法展开研究：基于文献构建稳定币交互框架指导访谈设计，开展半结构化访谈（n=21）并分析Reddit平台数据（9,326条帖子）。研究发现，参与者认为相较于其他加密货币，稳定价值与监管合规是稳定币的核心安全优势。但参与者同时指出法币抵押型稳定币存在中心化风险，加密资产抵押型稳定币因无法完全依赖自动化执行而面临挑战，算法稳定币则因机制复杂引发理解困惑。我们建议通过加强用户教育和优化机制设计来解决这些问题，从而促进稳定币的更安全使用。</span></span></p><p cid="n223" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a042/21B7QvjJ9Ty" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a042/21B7QvjJ9Ty</a></span></span></p><h3 cid="n224" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">73、Security and Privacy Experiences of First- and Second-Generation Pakistani Immigrants to the US: Perceptions, Practices, Challenges, and Parent-Child Dynamics</span></span></h3><h3 cid="n224" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n225" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本研究探讨了巴基斯坦裔美国移民在安全与隐私方面的认知、实践及面临的挑战，同时分析了亲子互动如何影响他们对美国安全与隐私规范的学习与适应。通过对25名巴基斯坦移民的半结构化访谈，我们发现：第一代移民因穆斯林身份普遍存在对歧视、监控和社会隔离的强烈风险感知，并报告了网络环境中自我表达与自我审查之间的张力；而第二代移民能快速适应美国生活，大多未感知到此类挑战。研究发现两代移民在技术使用和威胁应对方面形成了互助机制。研究结果凸显了针对高风险群体的特殊需求制定数字安全措施与设计的紧迫性，通过识别并应对这些挑战，可构建更具包容性的数字环境，增强移民群体的适应力与自主权。</span></span></p><p cid="n226" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a031/21B7Qlaqsww" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a031/21B7Qlaqsww</a></span></span></p><h3 cid="n227" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">74、SoK: A Framework and Guide for Human-Centered Threat Modeling in Security and Privacy Research</span></span></h3><h3 cid="n227" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n228" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">以人为中心的威胁建模是研究人员用于识别人们面临的安全与隐私威胁及其缓解方法的一种实践。这通常是理解特定群体或社区在安全与隐私方面的需求、观点、体验及行为模式的第一步，从而帮助研究者探索如何更有效地提升其整体安全性。然而相较于发展成熟的系统威胁建模领域，该领域研究仍较为零散，导致学界对研究者应如何开展此类工作缺乏系统认知。本研究旨在通过分析该领域研究者的实践方法，系统化以人为中心的威胁建模流程，提炼其核心要素。我们收集了该领域78篇论文构成语料库，通过定性分析解析研究者构建威胁模型的实践方法。研究成果包括：一个以人为中心的威胁建模框架、基于最佳实践的框架使用指南，以及该范式与系统威胁建模的差异分析。本工作可为领域内新老研究者提供指导，助其在实际工作中聚焦人类安全这一核心要义。</span></span></p><p cid="n229" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a033/21B7QmTreyQ" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a033/21B7QmTreyQ</a></span></span></p><h3 cid="n230" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">75、SoK: Dataset Copyright Auditing in Machine Learning Systems</span></span></h3><h3 cid="n230" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n231" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着机器学习（ML）系统的应用日益广泛，尤其是大型ML模型的兴起，市场对海量数据的需求急剧增长。然而，这不可避免地引发了数据侵权与滥用问题，例如未经授权使用在线艺术作品或人脸图像训练ML模型。为解决该问题，学术界已投入大量努力审查模型训练数据集的版权。但现有解决方案的审计假设与能力各异，难以系统比较其优劣。此外，现有鲁棒性评估通常仅针对ML流程的局部环节，难以反映算法在真实ML应用中的表现。因此，有必要从实际部署视角审视当前数据集版权审计工具，剖析其有效性与局限性。具体而言，我们根据是否需修改原始数据集，将版权审计研究分为两大方向：侵入式与非侵入式方法。随后将侵入式方法按水印注入方式细分，并基于不同指纹特征分析非侵入式方法。通过整理研究成果，我们提供了详细的参考对照表，提炼核心观点并指出当前研究中的未解难题。结合ML系统流程与既有研究分析，我们进一步提出若干未来研究方向，以使审计工具更契合实际版权保护需求。</span></span></p><p cid="n232" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a025/21B7QfZXkFG" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a025/21B7QfZXkFG</a></span></span></p><h3 cid="n233" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">76、SoK: Digging into the Digital Underworld of Stolen Data Markets</span></span></h3><h3 cid="n233" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n234" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">过去几十年间，数据窃取问题已从少数投机者制造的麻烦，演变为一个繁荣、高度组织化且利润丰厚的经济体系。这催生了一系列试图记录和解析地下经济的研究。我们回顾了过去15年关于被盗数据市场的研究成果，以揭示学者们所记录的潜在模式与趋势。通过分析该经济体系，我们发现无论是热门被盗数据类型还是交易平台载体都发生了显著变化。此外，我们观察到市场存续周期与研究观察期均呈现持续缩短态势。研究揭示了若干模式与潜在缺陷，特别是现有研究对市场的覆盖范围有限，且市场语言多样性不足。最后，我们提出未来研究的若干方向：需更准确评估该经济体系的真实成本，探究数据泄露与市场数据间的断层成因。后续研究还应紧跟行业变化，及时识别跨平台的新趋势与社群迁移动态。</span></span></p><p cid="n235" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a037/21B7QqhuoOA" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a037/21B7QqhuoOA</a></span></span></p><h3 cid="n236" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">77、SoK: Integrity, Attestation, and Auditing of Program Execution</span></span></h3><h3 cid="n236" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n237" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文对控制流完整性（CFI）与控制流验证（CFA）机制进行了系统性探讨，剖析二者的差异与关联。研究针对CFI与CFA的目标定位、前提假设、特性表现及设计空间等核心问题展开论述，包括二者在同一平台上共存的可行性。通过对现有防御方案的全面梳理，本文将CFI与CFA置于运行时防御体系的宏观格局中进行定位，批判性评估其优势、局限性与设计权衡。研究结果强调，需通过进一步研究弥合CFI与CFA的现存缺口，从而推动运行时防御领域的发展。</span></span></p><p cid="n238" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a077/21B7RkMetUI" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a077/21B7RkMetUI</a></span></span></p><h3 cid="n239" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">78、SoK: Software Compartmentalization</span></span></h3><h3 cid="n239" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n240" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">将大型系统分解为权限受限的小型组件，长期以来被视为降低漏洞影响的有效手段。尽管这一理念历史悠久、优势显著，且学术界与工业界投入了大量研究，软件隔离技术仍未成为主流实践。本文探究了这一现状的成因及改进路径。针对现有方法在术语体系和分析框架上存在的割裂问题，我们提出了一个统一模型，用于系统化分析、比较和引导隔离技术发展方向。基于该模型，我们梳理了211项研究成果，剖析了61个主流隔离系统，通过对比研究揭示了科研与工程实践的双重局限。研究发现：主流方案严重依赖手工方法、定制化抽象和传统机制，与前沿研究形成鲜明反差。我们据此提出改进建议：应系统化解决隔离问题；需简化隔离策略的定义流程；必须基于&#34;混淆代理&#34;和硬件限制重新审视威胁模型；亟待弥合科研需求与主流应用之间的断层。本文不仅绘制了隔离技术的历史与现状图谱，更为推动其演进与落地建立了系统性框架。</span></span></p><p cid="n241" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a075/21B7Rj8C5lC" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a075/21B7Rj8C5lC</a></span></span></p><h3 cid="n242" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">79、Sparta: Practical Anonymity with Long-Term Resistance to Traffic Analysis</span></span></h3><h3 cid="n242" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n243" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">现有元数据隐私保护通信系统要么无法扩展，要么易受长期流量分析攻击。现有抗流量分析方案往往依赖不切实际或难以实现的假设，或施加全局带宽限制，导致可用性和性能下降。本研究提出新型元数据隐私通信模型——延迟检索机制，该模型在现实可行的用户假设下确保抗流量分析能力。我们设计出可分布式部署、支持高吞吐量且允许多会话并行无消息丢失的实用化系统Sparta，实现了延迟检索机制的可扩展实例化。具体而言，我们提出三种针对不同场景优化的Sparta架构：(i)低延迟场景；(ii)共享内存环境（多线程实现）的高吞吐场景；(iii)无共享（分布式）环境的高吞吐场景。实验表明，低延迟版Sparta可实现亚毫秒级延迟，而高吞吐版在48核单服务器上每秒可传输超过70万条100字节消息。</span></span></p><p cid="n244" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a065/21B7R9OGMwg" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a065/21B7R9OGMwg</a></span></span></p><h3 cid="n245" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">80、Speedrunning the Maze: Meeting Regulatory Patching Deadlines in a Large Enterprise Environment</span></span></h3><h3 cid="n245" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n246" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">许多企业难以及时应用安全补丁以消除安全漏洞风险。补丁延迟可归因于技术依赖、过时的资产清单以及规模性问题。各国政府已开始推行通过法规强制要求在极严格期限内修补高度精选的严重漏洞的策略。我们与一家大型组织合作，研究了此类监管期限下的补丁修复时间线。我们分析了七年内81份安全公告的补丁工单系统记录，涵盖944个CVE漏洞，并辅以对补丁管理相关专业人士的九次访谈。研究发现：40.2%的公告需要采取补丁措施，其中位完成时间为13.2天；无需最终打补丁的公告处理中位时间为1.4天。符合行业最佳实践推荐的48小时修复周期仅占16.2%的案例。对于荷兰BIO法规规定的一周期限，达标率为32.4%；而针对CISA KEV典型期限的表现稍显乐观：两周内修复率为56.8%，三周内达62.2%。我们发现，延迟差异部分源于协调工作量（以涉及团队和人员数量衡量）。总体而言，针对精选优先级漏洞设定监管期限的策略显著加速了企业补丁修复。尽管期限常被突破，但需在现实性与风险暴露间权衡——三周KEV期限比48小时更可行，但也意味着更长的漏洞可利用窗口期。</span></span></p><p cid="n247" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a081/21B7RnD4zWU" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a081/21B7RnD4zWU</a></span></span></p><h3 cid="n248" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">81、Study Club, Labor Union or Start-Up? Characterizing Teams and Collaboration in the Bug Bounty Ecosystem</span></span></h3><h3 cid="n248" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n249" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">中国已发展出一个独特的漏洞悬赏生态体系。平台允许黑客以团队形式注册并获取团体奖励，但外界对这些团队的普及程度、产出效率及成员协作方式知之甚少。为填补这一研究空白，我们采用混合方法展开调查。第一阶段从生态系统顶层视角对团队特征进行分析：通过采集85个平台的漏洞悬赏排行榜数据，运用模糊匹配技术识别出2100个独立团队及5900名猎手。数据显示46%的用户以团队成员身份注册，组队猎手的产出效率达到独立猎手的2倍以上。典型团队规模不足10人且仅活跃于少数平台，但我们也发现参与超50个平台、成员数百人的超级团队。  </span></span></p><p cid="n250" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">第二阶段通过自下而上的视角解析黑客组队动机及团队协作机制。18场半结构化访谈表明，漏洞猎捕团队具有多重属性——既是学习社群，也是工会组织，更兼具初创企业特征。作为学习社群，团队促进知识共享与技能提升；作为工会组织，团队协助成员与漏洞悬赏平台及厂商谈判；而在收益分配与规则制定方面，团队又展现出公司化运作模式。研究表明，这种组织形式能有效应对漏洞猎手面临的三大核心挑战：技能发展、与科技巨头的议价博弈以及收入不稳定性。</span></span></p><p cid="n251" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a020/21B7Qbxu1YQ" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a020/21B7Qbxu1YQ</a></span></span></p><h3 cid="n252" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">82、Supporting Human Raters with the Detection</span></span><span md-inline="escape" style="box-sizing: border-box;"><span leaf="">\</span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">of Harmful Content using Large Language Models</span></span></h3><h3 cid="n252" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n253" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文探讨了利用大语言模型（LLMs）自动化或辅助人工审核员识别有害内容（包括仇恨言论、骚扰、暴力极端主义和选举虚假信息）的可行性。基于50,000条用户评论数据集，我们证明LLMs相较人工判定可达到90%的准确率。我们研究了如何最大化利用这些能力，提出五种将LLMs与人工审核相结合的设计模式，例如预过滤合规内容、检测人工审核中的潜在错误，或呈现关键上下文以支持人工判定。我们阐述了如何通过单一优化提示实现所有这些设计模式。除模拟实验外，我们在真实审核队列中试点所提技术，使可用人工审核效率提升41.5%，违规内容检测的精确率与召回率绝对值分别提高9%-11%。</span></span></p><p cid="n254" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a082/21B7Roh61i0" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a082/21B7Roh61i0</a></span></span></p><h3 cid="n255" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">83、TSQP: Safeguarding Real-Time Inference for Quantization Neural Networks on Edge Devices</span></span></h3><h3 cid="n255" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n256" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">量化神经网络（QNNs）因其实时能力与低资源需求，已被广泛应用于资源受限的边缘设备。然而，部署后的模型以白盒形式暴露于模型窃取威胁的问题引发关注。针对此问题，基于可信执行环境（TEE）的防护式安全推理被提出作为一种高效安全方案。但现有方法忽视了对8位量化计算的兼容性，导致推理过程中出现严重的整数溢出问题，可能使QNN性能急剧退化至随机猜测水平，彻底破坏模型效用。此外，有限的数据表示空间也对模型机密性与推理完整性构成重大威胁。</span></span></p><p cid="n257" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为保障QNN的精确高效推理，本文提出TEE防护式QNN分区框架（TSQP），其核心创新包括：首先，设计量化管理器将白盒推理转换为黑盒模式，通过TEE屏蔽关键缩放因子，并采用降值域方法有效解决溢出问题；其次，基于信息瓶颈理论增强模型训练，提出参数去相似性机制以防御现有方法难以抵抗的强模型窃取攻击；最后，引入具备隐匿特性的完整性监测器检测推理违规行为，而现有方案因缺乏隐匿性可被绕过。实验表明，TSQP在保持高精度的同时能准确检测违规行为，相比全TEE推理实现8倍加速，并将模型窃取攻击准确率从3.99倍降至1.29倍。据我们所知，这是首个在QNN上同时实现模型机密性、推理完整性与模型效用的TEE防护式安全推理方案。</span></span></p><p cid="n258" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a001/21B7PUpAEnu" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a001/21B7PUpAEnu</a></span></span></p><h3 cid="n259" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">84、The File That Contained the Keys Has Been Removed: An Empirical Analysis of Secret Leaks in Cloud Buckets and Responsible Disclosure Outcomes</span></span></h3><h3 cid="n259" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n260" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着云服务在存储和部署领域的日益普及，保障云环境安全变得至关重要。AWS S3、Google云存储和Azure Blob Storage等云存储解决方案被广泛用于海量数据存储，包括软件开发过程中使用的敏感配置文件。这些文件往往包含API密钥和凭证等机密信息。配置错误的云存储桶可能意外泄露这些机密，导致服务遭受未授权访问及安全漏洞。本研究探讨了因云存储配置不当导致文件机密泄露的问题。我们分析了开发中常用的多种文件格式，重点关注具有不同影响类型的各类机密信息，以及非侵入式验证的可能性。通过对大量可公开访问的云存储桶进行系统扫描，我们发现了215个敏感凭证暴露实例。这些泄露的机密可导致数据库、云基础设施及第三方API等服务遭受未授权访问，存在重大安全隐患。</span></span></p><p cid="n261" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">发现这些泄露后，我们以负责任的方式向相关组织和云服务提供商进行了报告，并评估了披露流程的结果。通过负责任的披露工作，我们促成了95个问题的修复。其中20家组织向我们直接反馈了整改措施，及时解决了问题；其余修复则在未向披露者直接反馈的情况下完成。本研究揭示了云存储机密泄露现象的全球普遍性，并强调了不同组织在应对这些关键安全风险时的差异化响应。</span></span></p><p cid="n262" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a009/21B7Q1Ug0j6" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a009/21B7Q1Ug0j6</a></span></span></p><h3 cid="n263" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">85、TikTag: Breaking ARM&#39;s Memory Tagging Extension with Speculative Execution</span></span></h3><h3 cid="n263" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n264" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">ARM内存标记扩展（MTE）是ARMv8.5-A架构引入的新硬件特性，旨在检测内存破坏漏洞。MTE的低开销使其成为缓解现代软件系统中内存破坏攻击的理想方案，并被视为提升C/C++软件安全性的最具前景的技术路径。本文揭示了针对MTE的推测执行攻击可能引发的安全隐患：首次发现一类新型TikTag攻击原语，能够通过推测执行从任意内存地址泄露MTE标记。利用TikTag原语，攻击者可突破MTE的概率性防御机制，将攻击成功率提升至近100%。我们证实TikTag原语可实际绕过Google Chrome浏览器和Linux内核等真实系统中基于MTE的防护机制。实验表明，TikTag原语能在4秒内以超过95%的成功率泄露MTE标记。最后，我们提出了新的防御机制以消除TikTag原语带来的安全风险。</span></span></p><p cid="n265" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a039/21B7QrWwN20" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a039/21B7QrWwN20</a></span></span></p><h3 cid="n266" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">86、TokenWeaver: Privacy Preserving and Post-Compromise Secure Attestation</span></span></h3><h3 cid="n266" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n267" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于可信执行环境（TEE）的现代认证技术能显著降低密钥泄露风险，使用户可安全执行敏感计算（例如跨服务运行认证所需的加密协议）。然而这也使TEE成为高价值攻击目标，引发了新型入侵攻击与持续TEE更新之间的军备竞赛。理想情况下，我们希望实现入侵后安全（PCS）：即使TEE遭入侵，仍能通过更新恢复至安全状态。但与此同时，还需保障用户隐私，特别是防止供应商（如英特尔、谷歌或三星）或服务商跨平台追踪用户。这就要求实现不可关联性，而这似乎与标准恢复机制存在矛盾。</span></span></p><p cid="n268" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a093/22K50p9xTKo" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a093/22K50p9xTKo</a></span></span></p><h3 cid="n269" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">87、Towards Reliable Verification of Unauthorized Data Usage in Personalized Text-to-Image Diffusion Models</span></span></h3><h3 cid="n269" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n270" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">文本到图像扩散模型正在突破生成式人工智能在我们生活中所能实现的应用边界。除了生成通用图像的能力外，新型个性化技术被提出用于定制预训练基础模型，以创作具有特定主题或风格的图像。这种轻量级解决方案使AI从业者和开发者能够轻松构建自己的个性化模型，同时也引发了对这些模型是否使用未经授权数据进行训练的新担忧。一种可行的解决方案是主动在生成模型中实现数据可追溯性，即数据所有者在发布数据集前将外部标记（如图像水印或后门触发器）嵌入数据。随后基于这些数据集训练的模型也会学习这些标记，并在生成的仿制品中无意识地重现它们，这些标记可被提取并作为数据使用证据。然而，我们发现现有标记在个性化任务中无法被有效学习，导致相应验证的可靠性降低。本文提出SIREN，一种创新方法用于主动追踪黑盒个性化文本到图像扩散模型中的未授权数据使用。我们的方法通过精细优化标记，使其被模型识别为与个性化任务相关的特征，从而显著提升其可学习性。我们还采用人类感知感知约束、超球面分类技术和假设检验引导的验证方法，以增强标记的隐蔽性和检测准确性。SIREN的有效性通过在多样化基准数据集、模型和学习算法上的大量实验得到验证。该方法在各种现实场景中均表现优异，并能有效应对潜在的对抗措施。代码已开源：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/AntigoneRandy/SIREN" target="_blank">https://github.com/AntigoneRandy/SIREN</a></span></span></p><p cid="n271" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a073/21B7RhriU5G" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a073/21B7RhriU5G</a></span></span></p><h3 cid="n272" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">88、TrafficFormer: An Efficient Pre-trained Model for Traffic Data</span></span></h3><h3 cid="n272" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n273" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">流量数据蕴含深厚的领域专业知识，使得标注工作极具挑战性，而标注数据的匮乏会严重影响基于学习的流量分析准确性。预训练技术在视觉与自然语言领域被广泛采用以应对标注数据不足的问题，然而在流量分析领域的探索仍不充分。本文提出一种高效的流量数据预训练模型TrafficFormer：在预训练阶段，通过引入细粒度多分类任务增强流量数据的表征能力；在微调阶段，提出利用字段随机初始化特征的流量数据增强方法，促使流量模型聚焦关键信息。我们通过流量分类任务和协议理解任务对TrafficFormer进行评估。实验结果表明，TrafficFormer在六个流量分类数据集上取得最优性能，F1分数最高提升10%，且相较于现有流量预训练模型展现出显著优越的协议理解能力。</span></span></p><p cid="n274" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a102/22K50xTq93y" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a102/22K50xTq93y</a></span></span></p><h3 cid="n275" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">89、Transparency in Usable Privacy and Security Research: Scholars’ Perspectives, Practices, and Recommendations</span></span></h3><h3 cid="n275" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n276" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">研究过程的透明报告是良好科研实践的关键要素，有助于建立可信的科学成果。透明度既能帮助理解研究流程、评估研究成果的有效性，也能促进研究及报告结果的复现。面对其他领域出现的可复现性危机，安全与隐私（SP）研究界——尤其是可用隐私与安全（UPS）领域——目前仍缺乏明确的研究透明报告标准。为深入理解UPS领域当前研究透明度实践及相关挑战与障碍，我们通过对24位UPS研究者进行半结构化访谈，报告了相关发现。研究表明，研究者普遍重视研究透明度，并已采用多种透明报告实践。然而，由于缺乏能抵消挑战与弊端的激励机制，仅依靠隐性的社区标准似乎阻碍了研究透明度的进一步提升。基于研究发现，我们最终提出针对透明实践的建议，并为出版平台提供指导建议：通过优化激励措施（例如调整对UPS典型研究产物如研究材料的成果评估机制）和消除阻碍因素（例如取消附录页数限制）来促进研究透明度。我们期待这些发现能推动学界讨论，通过更透明的研究报告共同提升科研质量。</span></span></p><p cid="n277" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a038/21B7Qr5aczS" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a038/21B7Qr5aczS</a></span></span></p><h3 cid="n278" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">90、TreePIR: Efficient Private Retrieval of Merkle Proofs via Tree Colorings with Fast Indexing and Zero Storage Overhead</span></span></h3><h3 cid="n278" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n279" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">批量私有信息检索（batch-PIR）方案允许客户端从数据库中获取多个数据项，同时避免向存储服务器泄露这些项的具体内容。现有大多数批量PIR方案基于批量编码技术，尤其是概率批量编码（PBC）（Angel等人，S&amp;P&#39;18），这类方法会带来显著的存储开销。本文证明，对于树形结构数据库，存储开销可降为零。我们提出TreePIR——一种专为梅克尔树中任意根到叶路径节点集合的隐私检索而设计的新方法，该方法完全无需冗余存储。此类树结构已广泛应用于亚马逊DynamoDB、谷歌证书透明度系统及区块链等现实系统，其根到叶路径上的节点集合即著名的梅克尔证明。通过创新的树着色技术，TreePIR在所有指标上均优于现有批量PIR方案（Angel等人S&amp;P&#39;18、Mughees-Ren S&amp;P&#39;23、Liu等人S&amp;P&#39;24）的核心组件PBC：总存储量降低3×3倍，计算与通信成本减少1.5×1.5至3×3倍。最突出的是，TreePIR的初始化时间缩短88×88至160×160倍，其多对数复杂度的索引算法在处理2^10^10至2^24^24个叶子的树时，速度比PBC快19×19至160×160倍。</span></span></p><p cid="n280" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a032/21B7Qm2mfeM" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a032/21B7Qm2mfeM</a></span></span></p><h3 cid="n281" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">91、Trust Nobody: Privacy-Preserving Proofs for Edited Photos with Your Laptop</span></span></h3><h3 cid="n281" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n282" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">互联网上存在大量由机密原始图像经变换（如缩放、模糊）生成的衍生图像。在多种应用场景（例如网络图像交易、打击虚假信息、检测深度伪造内容）中，能够验证某图像是否源自机密真实图像变换的系统将发挥重要作用。本文致力于构建可证明并验证真实图像变换正确性的系统，该系统需满足：1) 机密性（原始图像保持私密）；2) 高效证明生成（即使对高分辨率图像，也能用普通笔记本电脑计算验证变换正确性的证明）；3) 真实性（仅允许声明范围内的变换操作）；4) 快速识别欺诈证明。我们的贡献包括：建立保密性与自适应敌手的新定义模型、优化零知识简洁非交互式论证（ZK-snark）证明者效率的技术、基于定制化签名与哈希的高效构建方案，以及符合C2PA规范标准签名与哈希的较低效替代方案。实验结果证实了该方案的可行性，可在普通计算机上完成高分辨率图像的真实性变换验证。此前研究要么需要昂贵计算资源，要么无法提供令人满意的保密性。</span></span></p><p cid="n283" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a014/21B7Q66yaAg" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a014/21B7Q66yaAg</a></span></span></p><h3 cid="n284" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">92、UnMarker: A Universal Attack on Defensive Image Watermarking</span></span></h3><h3 cid="n284" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n285" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">关于滥用生成式人工智能（GenAI）制作深度伪造内容的报道屡见不鲜。防御性水印技术可使GenAI提供商在生成图像中嵌入隐藏指纹，后续用于深度伪造检测。然而其潜力尚未得到充分挖掘。本文提出UnMarker——首个针对防御性水印的实用化通用攻击方案。与现有攻击不同，UnMarker无需检测器反馈、不依赖不切实际的水印方案先验知识或同类模型、也不采用可能难以获取的高级去噪流程。通过对水印范式的深入分析，我们发现鲁棒性方案必须在频谱振幅中构建水印特征，因此UnMarker采用两种新型对抗优化手段破坏含水印图像的频谱结构从而实现水印擦除。针对前沿水印方案的评估证实了UnMarker的有效性：不仅以优于现有攻击的质量击败传统方案，更能破解通过改变图像结构实现语义水印的方案——将最佳检测率降至43%使其完全失效。据我们所知，这是首个针对被视为防御性水印未来方向的语义水印的实用攻击。本研究证明防御性水印无法有效抵御深度伪造，我们呼吁学术界探索替代方案。</span></span></p><p cid="n286" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a005/21B7PYmgSv6" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a005/21B7PYmgSv6</a></span></span></p><h3 cid="n287" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">93、Understanding the Efficacy of Phishing Training in Practice</span></span></h3><h3 cid="n287" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n288" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文通过实证研究评估了两种普遍采用的企业安全培训形式的有效性：年度网络安全意识培训和嵌入式反钓鱼培训演练。具体而言，我们分析了一项为期8个月的随机对照实验结果，该实验向某大型医疗机构的19,500余名员工发送了十次模拟钓鱼攻击。研究结果表明，这些培训措施的实际效果有限。首先，我们发现用户近期是否完成网络安全意识培训与其在钓鱼模拟测试中的失败概率无显著关联。其次，在评估嵌入式钓鱼培训接受者时，发现经过培训与未培训用户之间的失败率绝对差异在各种培训内容中均极低。第三，我们观察到大多数用户在真实环境中与嵌入式钓鱼培训材料的互动时间极少；且对于某些特定类型的培训内容，接受并完成更多培训实例的用户反而可能在后继钓鱼模拟中表现出更高的失败概率。综合来看，当前普遍部署的反钓鱼培训项目在降低钓鱼风险方面难以提供显著的实用价值。</span></span></p><p cid="n289" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a076/21B7RjYyG9q" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a076/21B7RjYyG9q</a></span></span></p><h3 cid="n290" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">94、VerITAS: Verifying Image Transformations at Scale</span></span></h3><h3 cid="n290" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n291" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">验证图像来源已成为重要课题，尤其在新闻媒体领域。为应对这一问题，内容来源与真实性联盟（C2PA）制定了依赖相机数字签名的图像来源验证标准。然而照片在发布前通常经过编辑，仅凭已发布的编辑后图像无法验证原始照片的签名。本研究提出VerITAS系统，利用零知识证明（zk-SNARKs）验证签名照片仅经过特定编辑操作。尽管已有研究实现照片编辑证明，VerITAS首次支持实际大尺寸图像（3000万像素）的验证。实现这一突破的核心创新是设计新型证明系统，可对海量见证数据中的有效签名进行知识证明。我们在比先前研究大一个数量级的实际尺寸图像上进行实验：对于计算能力较弱的签署方（如相机），可在13分多钟内为90MB图像生成有效编辑证明，AWS成本约0.54美元/张；对于高性能签署方，仅需3分多钟，成本降至0.13美元/张。两种场景下验证时间均不足1秒。本技术方案可广泛应用于需要证明海量签名私有数据被正确实施高效转换的场景。</span></span></p><p cid="n292" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a097/22K50u66Ge4" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a097/22K50u66Ge4</a></span></span></p><h3 cid="n293" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">95、Verifiable Boosted Tree Ensembles</span></span></h3><h3 cid="n293" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n294" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">可验证学习致力于训练适用于高效安全验证的机器学习模型。先前研究表明，一类特殊的决策树集成模型——称为大间隔集成——可在多项式时间内完成针对任意基于范数攻击者的鲁棒性验证。本研究将可验证学习的研究范畴从基于硬多数投票的基础集成方法，扩展至最先进的提升树集成方法（如通过XGBoost或LightGBM训练的模型）。形式化分析表明：当攻击者基于Z_L∞范数时，大间隔提升集成的鲁棒性验证可在多项式时间内完成；但对于其他基于范数的攻击者，该问题仍为NP难问题。尽管如此，我们提出了一种伪多项式时间算法，可验证针对Z_Lp范数攻击者的鲁棒性（其中Z_p∈\N∪{0}），该算法在实际应用中表现出卓越性能，其验证方法在分析时效上超越了现有技术水平。在公开数据集上的实验评估表明，大间隔提升集成模型兼具实用级精度与高效安全验证特性。此外，我们的技术可扩展至具有挑战性的安全数据集，并能处理先前研究中提出的相关安全属性。</span></span></p><p cid="n295" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a022/21B7QdnSnoQ" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a022/21B7QdnSnoQ</a></span></span></p><h3 cid="n296" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">96、Verifiable Secret Sharing Simplified</span></span></h3><h3 cid="n296" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n297" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">可验证秘密共享（VSS）是密码学领域的基础构件。尽管其重要性已得到广泛研究，但现有VSS协议往往复杂低效。多数方案既不支持双阈值，也缺乏公开可验证性，或在异步网络中无法正确终止。本文提出一种设计同步与异步网络VSS协议的全新简明方法：我们的VSS协议具备最优容错能力——可分别抵御同步网络中1/2和异步网络中1/3的恶意节点，仅需依托离散对数难题与公钥基础设施即可实现。该协议支持双阈值特性，且共享过程全程公开可验证。我们在跨地域分布式环境中对协议进行了256节点规模的实现评估，结果表明：在保持与现有无此特性方案相当性能的同时，本协议兼具异步终止与公开可验证优势。与具备相似保障的现有方案相比，本方法可降低高达90%的带宽消耗与延迟。</span></span></p><p cid="n298" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a046/21B7QyuIMak" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a046/21B7QyuIMak</a></span></span></p><h3 cid="n299" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">97、Volatile and Persistent Memory for zkSNARKs via Algebraic Interactive Proofs</span></span></h3><h3 cid="n299" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n300" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在可验证外包计算中，不可信的服务器执行一项昂贵计算，并为结果生成简洁证明（称为SNARK）。许多场景下，该计算会访问一个RAM：服务器可能维护其承诺（持久化RAM），或该RAM初始为零值（易失性RAM）。然而，此类场景的SNARK性能受限于现有RAM验证技术的高昂开销。我们针对易失性RAM、持久化RAM及稀疏持久化RAM开发了新型证明方案，显著降低了SNARK生成时间。研究成果包含渐进性与实质性改进——持久化RAM的证明时间最高缩短51.3倍。研究过程中，我们运用了两项可能具有独立价值的工具：首先，我们将现有构造推广为通用框架，可将任何代数交互式证明（AIP）转化为SNARK。AIP是一种非简洁的公开掷币交互证明，其验证过程由算术电路完成。其次，我们应用多项式贝祖定理构建了新颖的AIP方案，用于验证唯一性与不相交性，这对证明不同地址访问的独立性至关重要。</span></span></p><p cid="n301" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a054/21B7R0YQXtK" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a054/21B7R0YQXtK</a></span></span></p><h3 cid="n302" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">98、Watermarking Language Models for Many Adaptive Users</span></span></h3><h3 cid="n302" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n303" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">零比特水印语言模型生成的文本与底层模型输出无异，但可通过密钥被检测为机器生成。然而仅能识别AI生成的垃圾信息（例如）并不能阻止未来滥用行为。若进一步将文本溯源至垃圾信息发送者的API令牌或账户，我们便可切断其访问权限或采取法律行动。此外，现有方案在对抗性自适应提示选择下缺乏可证明的保障。我们提出多用户水印方案，即使在自适应提示攻击下，仍能将模型生成文本追踪至个体用户或共谋用户群组。该方案基于不可检测、自适应、零比特水印系统构建（我们同时证明了Christ、Gunn和Zamir提出的不可检测零比特方案具备抗自适应提示的鲁棒性）。关键创新在于同步提供零比特与多用户双重保障：对短文本片段保持与原方案相同的检测能力，对长文本实现个体级溯源。在此过程中，我们提出一种通用架构，可将长消息嵌入生成文本。这是首个语言模型水印方案间的黑盒归约方法。</span></span></p><p cid="n304" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">研究面临的核心挑战是缺乏统一的鲁棒性抽象框架——即经编辑后的标记文本仍可被检测。现有工作基于对语言模型输出和用户编辑的特殊要求，提供不可直接比较的鲁棒性保证。我们提出称为AEB-鲁棒性的新统一框架，其核心在于：只要编辑文本&#34;充分近似足够多的&#34;模型生成输出块，水印即可被检测。通过明确定义&#34;近似&#34;、&#34;足够多&#34;和&#34;块&#34;三个要素来具体化鲁棒性条件。基于该抽象框架，我们以黑盒方式将消息嵌入方案和多用户方案的鲁棒性关联至底层零比特方案。</span></span></p><p cid="n305" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a084/21B7RqlGjde" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a084/21B7RqlGjde</a></span></span></p><h3 cid="n306" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">99、You Can’t Judge a Binary by Its Header: Data-Code Separation for Non-Standard ARM Binaries using Pseudo Labels</span></span></h3><h3 cid="n306" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n307" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">静态二进制分析对于漏洞发现和恶意软件检测等各类安全任务至关重要。近年来，随着物联网（IoT）和工业控制系统（ICS）厂商持续推出定制化或非标准二进制格式（现有工具难以直接处理），二进制分析面临新的挑战。逆向解析每种新格式成本高昂，需要大量专业知识和分析人员时间投入。本文研究了自动化分析非标准二进制文件的第一步——识别字节流中的&#34;代码&#34;与&#34;数据&#34;（即数据代码分离）。我们提出Loadstar系统，其核心思想是利用标准二进制文件中丰富的标注数据训练分类器，并将其适配于处理未标注的非标准二进制文件。我们采用基于伪标签的领域自适应方法，并利用知识启发的规则进行伪标签校正，为自适应过程提供防护机制。该系统关键优势在于无需对任何非标准二进制文件进行标注。通过三个非标准PLC二进制数据集评估表明，Loadstar在准确性和处理速度上均优于现有工具。我们将向社区开源该工具。</span></span></p><p cid="n308" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a036/21B7QpveAHC" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a036/21B7QpveAHC</a></span></span></p><h3 cid="n309" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">100、Zero-Knowledge Location Privacy via Accurate Floating-Point SNARKs</span></span></h3><h3 cid="n309" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n310" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们提出零知识位置隐私（ZKLP）方案，使用户能向第三方证明自己处于特定地理区域，同时不泄露精确位置信息。该方案支持多级地理粒度，可根据应用场景灵活定制。为实现ZKLP，我们首次开发出完全符合IEEE 754浮点运算标准的零知识证明（ZKP）电路组。实验表明我们的浮点电路具有高效摊销特性，单精度浮点乘法运算在2^15次操作中仅需64个约束条件。基于该浮点实现，我们构建了ZKLP范式。相比基准方案，优化实现的单精度浮点值约束量降低15.9倍，双精度浮点值约束量降低12.2倍。为验证ZKLP实用性，我们开发了隐私保护的点对点邻近性检测协议——Alice通过接收单条消息即可检测与Bob的邻近性，双方均无需透露其他位置信息。在该场景下，Bob生成邻近性（非邻近）证明仅需0.26秒，而Alice每秒可验证与约470个对等节点的距离。</span></span></p><p cid="n311" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a057/21B7R3HsGK4" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a057/21B7R3HsGK4</a></span></span></p><h3 cid="n312" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">101、“It’s time. Time for digital security.”: An End User Study on Actionable Security and Privacy Advice</span></span></h3><h3 cid="n312" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n313" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">数字安全建议是许多研究的焦点，但结果不尽如人意：终端用户并未遵循专家的安全建议，且用户与专家都难以对现有建议进行优先级排序。多项研究表明，海量的安全建议令用户不堪重负，并提出了改进建议的方案。然而，我们仍不清楚如何有效传递安全建议。受日常习惯类应用启发，我们开发了30条简短可行的安全建议集，以及一款名为&#34;安全助手&#34;的安卓应用，旨在降低用户认知负担并培养安全习惯。通过为期30天的在线终端用户研究（N=74），我们评估了建议集的可操作性、用户采纳度以及应用对安全意识和行为的影响。结果表明，该应用是向终端用户传递安全建议的有效工具：参与者认为大多数任务易于理解、便于执行且实用有效，研究证实应用确实能促使用户形成安全行为。本研究为未来安全建议研究、安全习惯培养及有效行为教学提供了基础。</span></span></p><p cid="n314" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a100/22K50wcoyVG" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a100/22K50wcoyVG</a></span></span></p><h3 cid="n315" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">102、“I’m pretty expert and I still screw it up”: Qualitative Insights into Experiences and Challenges of Designing and Implementing Cryptographic Library APIs</span></span></h3><h3 cid="n315" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n316" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">密码学库是软件系统中至关重要的安全组件，但其误用已导致多起安全事件。已有研究表明，密码学库的误用现象普遍存在，开发者难以正确使用其API接口。然而，目前关于密码学库API设计与实现决策的形成过程仍属未知领域。为探究密码学库API设计实现过程中的决策机制与相关挑战，我们对21位资深密码学库开发者进行了半结构化访谈，并通过主题分析法识别出核心议题与共性挑战。研究发现：设计决策涉及多层级抽象概念，且深受密码学标准、其他库实现、遗留代码及开发者直觉的影响；开发者在确定密码学API抽象层级时面临平衡安全性、易用性与灵活性的挑战，且缺乏系统化知识来界定易用性标准并实现这种平衡，因而主要依赖自主可用性测试、个人经验与主观判断。基于研究发现，我们提出具体建议以推动未来研究，为密码学库API设计与实现决策提供更完善的实证支撑。此外，我们主张将基于研究的可用性指南纳入密码学标准化进程，从而尽早促成社区讨论，更好地支持构建安全、易用且灵活的密码学库API。</span></span></p><p cid="n317" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a026/21B7QgMMl2M" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a026/21B7QgMMl2M</a></span></span></p><h3 cid="n318" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">103、“Not the Right Question?” A Study on Attitudes Toward Client-Side Scanning with Security and Privacy Researchers and a U.S. Population Sample</span></span></h3><h3 cid="n318" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n319" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">数十年来，执法部门与隐私倡导者始终难以在监控与隐私问题上达成共识，引发了所谓的&#34;加密战争&#34;。2021年苹果公司宣布计划实施客户端扫描（CSS）技术，作为检测已知儿童性虐待材料（CSAM）的隐私保护折衷方案时，遭遇了强烈反对——尤其是来自IT专家的抵制，导致该计划数周内即被撤回。然而ECPAT针对欧洲人口的调研[1]与Geierhaas等人对德国人口的研究[2]显示，尽管存在顾虑，多数受访者仍表示支持使用CSS检测CSAM。这凸显出&#34;大众&#34;与&#34;专家&#34;之间可能存在的认知差异。为深入探究各方对CSS的不同态度，我们从两个维度拓展了Geierhaas的研究：首先在两大顶级信息安全会议（可用隐私与安全研讨会SOUPS及USENIX安全研讨会）上对19位IT安全与隐私学者进行定性访谈；其次采用年龄、性别和地域具有代表性的美国样本复现了德国问卷调查，既为考察德美文化差异，也为将美国公众观点与访谈研究形成对照。本文系统分析了德美样本间的关键异同，并与研究人员的专业观点进行对比。</span></span></p><p cid="n320" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a086/21TfeqTKdJC" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a086/21TfeqTKdJC</a></span></span></p><h3 cid="n321" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">104、“We can’t change it overnight”: Understanding Industry Perspectives on IoT Product Security Compliance and Certification</span></span></h3><h3 cid="n321" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n322" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近期，监管机构与标准组织针对物联网产品提出了多项安全合规倡议。这些新兴标准与法规试图通过合规认证为物联网产品提供安全保障。然而，即便经过认证的物联网产品仍暴露出普遍漏洞，这表明认证生态系统中存在潜在挑战。本文首次采用定性访谈研究方法（样本量17人），通过采访物联网从业者来理解行业对产品安全认证的认知与实践经验，从而揭示阻碍物联网产品认证标准有效实施与采纳的潜在因素及挑战。通过对访谈文本的反思性主题分析，我们提炼出16项关键发现，揭示了实践中影响合规执行的核心因素。最终将这些发现与观察归纳为4大主题，它们代表了要使产品认证在物联网领域切实可行所必须解决的关键缺陷。</span></span></p><p cid="n323" mdtype="paragraph" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.computer.org/csdl/proceedings-article/sp/2025/223600a091/224Aon4Ntny" target="_blank">https://www.computer.org/csdl/proceedings-article/sp/2025/223600a091/224Aon4Ntny</a></span></span></p><img class="rich_pages wxw-img" data-imgfileid="100000515" data-ratio="0.3649122807017544" data-s="300,640" type="block" data-type="png" data-w="1710" src="https://wechat2rss.xlab.app/img-proxy/?k=84c3571f&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_png%2FicNlicgdbzSdUsr3zlDy5jvuhf6dz33SqB8w9ao4Xt0eGRD7LY9kyckjfOFI1zt8kgMr8eZsYl4JWB19eN2CowlQ%2F640%3Fwx_fmt%3Dpng"/><span leaf=""><br/></span><mp-style-type data-value="3"></mp-style-type>


<p><img src="https://mmbiz.qpic.cn/mmbiz_png/icNlicgdbzSdUsr3zlDy5jvuhf6dz33SqB8w9ao4Xt0eGRD7LY9kyckjfOFI1zt8kgMr8eZsYl4JWB19eN2CowlQ/0?wx_fmt=png"/></p>



<p><a href="2247485954">阅读原文</a></p>
<p><a href="https://wechat2rss.xlab.app/link-proxy/?k=23fd7a48&amp;r=1&amp;u=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU0MzgzNTU0Mw%3D%3D%26mid%3D2247485954%26idx%3D1%26sn%3Dd361d90c096adcfc889b969fb4614c84%26subscene%3D0">跳转微信打开</a></p>
]]></content:encoded>
      <pubDate>Fri, 09 May 2025 20:41:00 +0800</pubDate>
    </item>
    <item>
      <title>计算机系统顶会——ASPLOS 2025 网络安全议题清单与摘要</title>
      <link>https://mp.weixin.qq.com/s?__biz=MzU0MzgzNTU0Mw==&amp;mid=2247485949&amp;idx=1&amp;sn=601e1989e7b21fe7e952de7b3088eedf</link>
      <description></description>
      <content:encoded><![CDATA[<p>
<span>漏洞战争</span> <span>2025-04-26 20:35</span> <span style="display: inline-block;">广东</span>
</p>

<p></p>



<p>
<img src="https://wechat2rss.xlab.app/img-proxy/?k=0b036189&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdWXRniaicLPUbsIflW5JxAia8DBcfU7gayGvWtGorib23QorAd9MQBZtmUV0wNNMKRu5cXdCyT5t35dFw%2F0%3Fwx_fmt%3Djpeg"/>
</p>


<blockquote class="js_blockquote_wrap"><section class="js_blockquote_digest"><p><span leaf="">ASPLOS（ACM International Conference on Architectural Support for Programming Languages and Operating Systems）是计算机系统领域的顶会，创办于1982年，由ACM SIGARCH、SIGPLAN和SIGOPS联合主办。它聚焦于计算机体系结构、编程语言和操作系统的交叉研究，是CCF推荐的A类会议，Core Conference Ranking的A*类会议，H-5指数为66，具有极高的学术和工业影响力。ASPLOS推动了多项重大技术革新，如RISC、RAID、深度学习处理器等。</span></p></section><section class="blockquote_info js_blockquote_source" data-json="%7B%22type%22%3A%22out%22%2C%22article%22%3A%7B%7D%2C%22from%22%3A%22deepseek%22%7D"><span class="blockquote_other">deepseek</span></section></blockquote><section><span leaf="">今年ASPLOS相比往年多了好多篇安全议题（共计21篇，见后面的论文清单），相比四大安全顶会，ASPLOS的网络安全议题整体偏系统底层的防御，常与硬件安全</span><span leaf="">（如Intel SGX enclave安全）、系统架构（如存算一体加速器的安全设计）结合，强调硬件/软件协同防护，也会包含一些</span><span leaf="">前沿技术导向，常见到机密计算（如Occlum LibOS）、对抗样本防御（如DNN Guard弹性异构架构）、零知识证明加速（如BatchZK系统）等新兴领域。</span></section><section><span leaf="">最近改用deepseek读论文了，自动爬虫并翻译摘要，然后再挑选感兴趣的论文保存到自己的论文管理平台上，现在依然还是用Scholaread，不过没开会员，而是直接用沉浸式翻译配置deepseek来翻译，因为deepseek太便宜了，一篇论文翻译可能不到1毛多，比现在的各大论文平台便宜多了。再写个油猴脚本优化下界面，支持中英文显示，手机上用edge插件实现相同功能。整体翻译质量比scholaread官方好太多了，估计scholaread用的是一些参数小些的模型，翻译质量不高。对于一些需要精读，或中文翻译不畅的，我会去读英文原文，读论文的效率大幅提升，但感觉英文水平好像在下降了。所以，如果你是在校生，或者经常要写论文，还是多读点英文原文。我读论文只是为了解决问题，开拓思路，所以更追求效率和实用性，偷了点懒！</span></section><section style="text-align: center;" nodeleaf=""><img class="rich_pages wxw-img" data-imgfileid="100002297" data-ratio="0.8523166023166023" data-s="300,640" type="block" data-type="png" data-w="1036" src="https://wechat2rss.xlab.app/img-proxy/?k=07e4ed44&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_png%2FicNlicgdbzSdWXRniaicLPUbsIflW5JxAia8D913nlslO9K2Q2iaaFPdiabUgevPrD1IV9YRnNFHicDd6CtkLGVqDHmqvA%2F640%3Fwx_fmt%3Dpng%26from%3Dappmsg"/></section><h3 cid="n0" mdtype="heading" style="box-sizing: border-box;" data-pm-slice="0 0 []"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 20px;font-weight: bold;">1、AMuLeT: Automated Design-Time Testing of Secure Speculation Countermeasures</span></span></span></h3><p cid="n2" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></p><p cid="n2" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，多项旨在缓解Spectre攻击的硬件防护措施被证实存在安全隐患。为开发有效的安全推测防护机制，我们需要在早期设计阶段配备易用工具，以自动化测试其安全性能，从而加速原型迭代。本文提出AMuLeT——首个能在模拟器设计阶段检测推测泄漏漏洞的安全推测防护测试工具。其核心创新在于：将基于模型的关联测试技术（原用于检测商用CPU推测漏洞）适配至微架构模拟器，用以验证防护机制有效性。我们攻克了三大挑战：在模拟器中构建高表现力且符合现实的攻击者观测模型、突破模拟速度瓶颈，以及在海量微架构状态空间中定位潜在漏洞。相比原始设计，AMuLeT将测试吞吐量提升10倍以上，并采用漏洞放大技术以有限测试资源暴露隐患。借助该工具，我们首次对2018至2024年间四大防护方案（InvisiSpec、CleanupSpec、STT和SpecLFB）展开系统性大规模测试，仅用3小时即发现3个已知与6个未知漏洞。研究还首次证实开源版SpecLFB存在安全缺陷。</span></span></p><p cid="n3" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3676641.3716247" target="_blank">https://doi.org/10.1145/3676641.3716247</a></span></span></p><h3 cid="n50" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 20px;font-weight: bold;">2、CIPHERMATCH: Accelerating Homomorphic Encryption-Based String Matching via Memory-Efficient Data Packing and In-Flash Processing</span></span></span></h3><p cid="n51" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></p><p cid="n51" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">同态加密（HE）允许在加密数据上安全地进行计算而无需泄露原始数据，为隐私敏感型应用提供了显著优势。许多云计算应用（如DNA序列比对、生物特征匹配、网络搜索）将精确字符串匹配作为核心操作。然而，现有基于同态加密的字符串匹配算法受限于复杂运算导致的高计算延迟，以及加密数据体积庞大引发的数据传输瓶颈。本文提出一种高效的算法-硬件协同设计方案，以加速基于HE的安全精确字符串匹配。我们提出CIPHERMATCH方案，其特点包括：（1）通过优化的软件端数据打包方案降低加密后内存占用的增长；（2）避免使用高成本同态运算（如乘法和旋转）；（3）通过设计新型闪存内处理（IFP）架构减少数据迁移。CIPHERMATCH改进了现有HE方案的软件端数据打包方法，仅使用同态加法实现安全字符串匹配。该打包方法既降低了加密后的内存占用，又提升了算法性能。为减少数据迁移开销，我们设计了IFP架构，利用基于NAND闪存的固态硬盘（SSD）的阵列级与比特级并行性来加速同态加法运算。我们通过两个案例研究验证CIPHERMATCH的优势：（1）精确DNA字符串匹配；（2）加密数据库搜索。实验表明，采用内存优化打包方案的纯软件实现相比当前最优软件基线，性能提升42.9倍，能耗降低17.6倍；而集成IFP架构后，较纯软件实现进一步实现136.9倍性能提升和256.4倍能耗降低。</span></span></p><p cid="n52" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3676641.3716251" target="_blank">https://doi.org/10.1145/3676641.3716251</a></span></span></p><h3 cid="n70" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 20px;font-weight: bold;">3、Cinnamon: A Framework for Scale-Out Encrypted AI</span></span></span></h3><p cid="n71" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></p><p cid="n71" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">全同态加密（FHE）作为一种支持密文计算的密码学解决方案前景广阔，但其性能开销过高导致实际应用仍面临挑战。尽管近期FHE架构为缩小性能差距做出了重要尝试，但这些设计不仅采用庞大的单片芯片架构，且仅能处理轻量级机器学习任务。我们提出Cinnamon框架——一种用于加速基于FHE加密的前沿机器学习任务的解决方案。该框架通过程序全层级并行化设计，结合创新算法、编译技术与硬件方案，构建了与单片芯片截然不同的FHE横向扩展架构。在小型程序测试中，Cinnamon相较现有最优设计实现了2.3倍的性能提升。我们首次通过该框架验证了BERT等大型机器学习模型在FHE环境下的可扩展性，相较CPU将推理时间从17小时缩短至1.67秒，实现36,600倍加速，为隐私保护机器学习开辟了新途径。此外，Cinnamon的并行化策略与架构扩展降低了单芯片资源需求，其性价比分别达到现有单片架构和芯粒架构的5倍与2.68倍。</span></span></p><p cid="n72" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3669940.3707260" target="_blank">https://doi.org/10.1145/3669940.3707260</a></span></span></p><h3 cid="n73" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 20px;font-weight: bold;">4、ClosureX: Compiler Support for Correct Persistent Fuzzing</span></span></span></h3><h3 cid="n73" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n74" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">模糊测试作为一种广泛采用且实用的漏洞挖掘方法，是软件强化的重要手段。研究表明，提升模糊测试吞吐量可直接提高漏洞发现率。性能最优的模糊测试策略是持久化模糊测试，该方法通过循环执行而非退出进程来复用单一进程处理所有测试用例，从而完全消除了进程创建、初始化和销毁的开销——这些开销与执行成本相当。然而，持久化模糊测试会导致语义不一致的程序状态，因为前序测试用例引发的进程状态变化会影响后续测试用例。这种语义不一致会造成崩溃漏报、误报等整体性错误，严重影响测试有效性。</span></span></p><p cid="n75" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们发现现有模糊测试执行机制构成一个连续谱系，其差异体现在测试用例间状态清除与恢复的程度。本文提出ClosureX执行机制，该机制在状态恢复谱系中开辟了新维度：仅重置测试用例专属的执行状态。这种细粒度状态恢复技术既保持了接近持久化测试的性能，又实现了重量级状态恢复的正确性。我们基于LLVM编译通道构建ClosureX，并与AFL++集成。在十个主流开源测试对象上的评估表明，相比AFL++，ClosureX在保持语义正确性的同时，平均提升测试用例执行速率3.5倍以上，漏洞发现速度提升1.9倍且更稳定，共发现15个零日漏洞（含4个CVE编号漏洞）。</span></span></p><p cid="n76" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3669940.3707281" target="_blank">https://doi.org/10.1145/3669940.3707281</a></span></span></p><h3 cid="n94" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 20px;font-weight: bold;">5、Controlled Preemption: Amplifying Side-Channel Attacks from Userspace</span></span></span></h3><h3 cid="n94" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n95" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">微架构侧信道是当今系统中持续存在的威胁。然而，许多侧信道方法受限于低时间分辨率测量，这可能导致攻击无法实施或显著增加攻击难度。本文提出&#34;受控抢占&#34;攻击原语，使单个无特权（用户级）攻击者线程在与受害者线程共置于同一逻辑核心后，能重复抢占受害者线程。在每次抢占间隔中，受害者线程仅执行零至数条指令——该数量足以支持高分辨率侧信道测量。</span></span></p><p cid="n96" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">&#34;受控抢占&#34;的核心思想是利用调度器的公平性启发式策略。具体而言，现代线程调度器会允许线程A抢占线程B，直至触发公平性阈值（表明A正在使B处于饥饿状态）。我们证明该机制可在触发公平性阈值前实现数百次短时抢占，且具有抗噪性，适用于Linux CFS和EEVDF两种调度器。我们还开发了一种技术，可协助将攻击者与受害者线程共置于同一逻辑核心——这一攻击能力被先前研究忽视。</span></span></p><p cid="n97" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">评估环节在多种受害者程序、不同特权级别（包括Intel SGX内外）及多种侧信道选择下测试了&#34;受控抢占&#34;。每次攻击均取得与现有研究相当的效果，但所需假设更少（例如仅需用户级权限或更少的共置攻击线程）。</span></span></p><p cid="n98" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3676641.3715985" target="_blank">https://doi.org/10.1145/3676641.3715985</a></span></span></p><h3 cid="n176" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 20px;font-weight: bold;">6、FLEXPROF: Flexible, Side-Channel-Free Memory Access</span></span></span></h3><h3 cid="n176" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n177" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">安全处理器必须防范各类微架构侧信道攻击，包括由共享内存控制器引发的威胁。已有研究提出通过为每个并行虚拟机(VM)分配内存控制器内的&#34;轮次&#34;，并在VM轮次间插入间隔来避免资源冲突和侧信道泄露。尽管安全内存调度技术不断进步，但完全消除侧信道仍会导致2倍的性能下降。我们发现性能损失的部分原因在于：内存控制器调度需适应最坏情况，即必须同时准备处理读写请求。本研究的关键洞见在于，若为每个轮次固定读写模式，调度效率将显著提升。</span></span></p><p cid="n178" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">具体而言，我们设计了读优化轮次与写优化轮次。通过粗粒度应用画像确定两类轮次的调用频率，该过程不会泄露敏感信息。同时引入灵活性机制，允许读优化轮次适时处理写请求，反之亦然。这种设计在限制与灵活、吞吐与利用率之间实现了良好平衡。实验表明，相较于前沿方案，FlexProf内存控制器在混合工作负载下最高可提升33%性能（几何平均增益8%）。超过半数内存密集型程序的性能提升幅度超过10%。</span></span></p><p cid="n179" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3676641.3715997" target="_blank">https://doi.org/10.1145/3676641.3715997</a></span></span></p><h3 cid="n253" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 20px;font-weight: bold;">7、HyperHammer: Breaking Free from KVM-Enforced Isolation</span></span></span></h3><h3 cid="n253" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n254" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">硬件辅助虚拟化是现代云计算的关键推动者。它将虚拟机执行与底层硬件解耦，通过动态硬件资源调配和实时迁移等服务提升了灵活性。这种灵活性的基础在于安全承诺——客户虚拟机之间彼此隔离。然而，由于虚拟机间存在资源共享，硬件漏洞对此构成了严重威胁。Rowhammer便是此类漏洞之一，攻击者可借此篡改其无权访问的内存内容。尽管该攻击已知存在十余年，但已公开的攻击案例仅限于危害同驻虚拟机，而无法攻破虚拟机监控程序（hypervisor）。此外，出于安全考虑，该攻击的关键组件已被禁用，使得该攻击在当代虚拟化环境中不再适用。</span></span></p><p cid="n255" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文研究了Rowhammer对虚拟化系统的影响。我们提出HyperHammer攻击，该攻击能突破hypervisor强制执行的内存隔离，进而攻陷hypervisor本身。由于利用Rowhammer位翻转需要高度特定的系统条件，HyperHammer仅在特定系统配置下验证成功。因此，当前它更多是概念验证，而非对计算机系统的直接威胁。尽管如此，我们的工作表明：硬件辅助虚拟化并不能完全保护hypervisor，且攻击者通过充分的技术手段仍可能实现对其的完全控制。</span></span></p><p cid="n256" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3676641.3716002" target="_blank">https://doi.org/10.1145/3676641.3716002</a></span></span></p><h3 cid="n260" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 20px;font-weight: bold;">8、KernelGPT: Enhanced Kernel Fuzzing via Large Language Models</span></span></span></h3><h3 cid="n260" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n261" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">操作系统内核中的漏洞可能影响全球数十亿设备和用户。为此，大量研究聚焦于内核模糊测试——即通过自动生成系统调用序列来检测潜在的内核缺陷或漏洞。内核模糊测试旨在依据定义系统调用语法与语义的规范生成有效调用序列。虽然已有研究尝试自动化生成系统调用规范，但该工作仍高度依赖人工，大量关键系统调用仍未被覆盖。  </span></span></p><p cid="n262" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出KernelGPT，首次通过大语言模型自动合成系统调用规范以增强内核模糊测试。我们的核心洞见是：大语言模型在预训练阶段已学习过海量内核代码、文档及用例，因而能自动提炼构建有效系统调用所需信息。具体而言，KernelGPT采用迭代方法自动推断规范，并基于验证反馈进行调试修复。实验表明，相比最先进技术，KernelGPT能生成更多新颖有效的规范，并实现更高覆盖率。截至目前，利用新生成的规范，KernelGPT已在Linux内核中发现24个新漏洞，其中12个已被修复，11个获得CVE编号。此外，应开发团队请求，KernelGPT生成的多项规范已被集成至内核模糊测试工具Syzkaller。</span></span></p><p cid="n263" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3676641.3716022" target="_blank">https://doi.org/10.1145/3676641.3716022</a></span></span></p><h3 cid="n275" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 20px;font-weight: bold;">9、MDPeek: Breaking Balanced Branches in SGX with Memory Disambiguation Unit Side Channels</span></span></span></h3><h3 cid="n275" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n276" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，针对英特尔SGX的控制流攻击因其强大的信息泄露能力而受到安全社区的广泛关注。尽管已开发出众多基于软件的防御措施来应对此类攻击，但许多方案仍无法全面防范其他尚未发现的侧信道漏洞。本文提出MDPeek——一种针对SGX中秘密依赖分支的新型控制流攻击。为规避现有防御机制（如微架构状态刷新和分支平衡技术），我们利用内存歧义消除单元（MDU）这一新型泄漏源，首次系统性地逆向分析了MDU的启用与更新逻辑。基于详细分析，我们建立了现实应用中脆弱工作负载的识别方法，并通过Libjpeg、MbedTLS和WolfSSL三个最新版SGX加密应用的端到端攻击验证了MDPeek的有效性。此外，我们提出一种低开销缓解技术&#34;存储-加载耦合&#34;，相较于序列化和加载对齐等传统方法，其延迟降低达7倍。</span></span></p><p cid="n277" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3676641.3716004" target="_blank">https://doi.org/10.1145/3676641.3716004</a></span></span></p><h3 cid="n278" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 20px;font-weight: bold;">10、MOAT: Securely Mitigating Rowhammer with Per-Row Activation Counters</span></span></span></h3><h3 cid="n278" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n279" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在过去十年中，Rowhammer攻击的危害性持续加剧。现有内存解决方案（如目标行刷新TRR）已被简单攻击模式攻破。为此，DDR5标准新增了每行激活计数（PRAC）功能——在每行内存中内置计数器，并引入警报退避（ABO）机制，当DRAM需要更多缓解时间时暂停内存控制器运作。尽管PRAC+ABO是Rowhammer防护的重大进步，但其本质仍是框架性方案，实际安全性取决于具体实现。</span></span></p><p cid="n280" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文首先揭示前驱研究Panopticon（PRAC+ABO的理论基础）存在安全缺陷：当该方案设定阈值为128时，我们提出的Jailbreak攻击模式能使目标行达到1150次激活。随后我们提出可验证安全的设计MOAT，采用双重内部阈值：缓解资格阈值（ETH）和警报触发阈值（ATH）。鉴于JEDEC标准允许连续警报之间存在少量激活，我们还研究了攻击者如何利用这些额外激活使目标行突破ATH阈值，从而提高Rowhammer攻击容忍度。分析表明，当ATH=64时，MOAT可安全承受99次的Rowhammer阈值。最后，我们探究了由警报引发的性能攻击和拒绝服务问题。基于SPEC和GAP工作负载的评估显示，ATH=64配置的MOAT仅产生0.27%的平均性能开销，每存储体仅需7字节SRAM。</span></span></p><p cid="n281" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3669940.3707278" target="_blank">https://doi.org/10.1145/3669940.3707278</a></span></span></p><h3 cid="n377" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 20px;font-weight: bold;">11、PhasePrint: Exposing Cloud FPGA Fingerprints by Inducing Timing Faults at Runtime</span></span></span></h3><h3 cid="n377" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n378" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">云FPGA凭借其可扩展与灵活的特性，正迅速成为处理计算密集型任务的首选硬件加速平台。然而，其日益广泛的应用也带来了独特的安全挑战。FPGA提供的硬件级访问会引发诸多漏洞，包括通过数据残留导致敏感信息泄露，以及在用户间建立模拟域隐蔽信道。这类场景中的核心前提是攻击者需具备定位单个FPGA的能力——云服务商通过限制底层硬件低级信息的访问来防范此类定位。值得注意的是，FPGA定位不仅能被攻击者利用，还能帮助防御者实施战略性资源轮换，避免因长期数据残留导致机密信息泄露的持续暴露风险。</span></span></p><p cid="n379" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出PhasePrint，一种利用功能有效电路中动态时序故障实现云FPGA定位的方法。该方法在运行时向特制电路注入时序故障，并通过错误模式推断延迟特征，整个过程无需依赖云服务商封锁的信息源。PhasePrint利用FPGA内部时钟合成器生成具有严格相位关系的时钟对，通过动态调整时钟相位关系，在运行时主动诱发能反映FPGA芯片制造差异的时序故障。我们将故障位置转化为特征向量以构建设备指纹，并在来自AWS四大地理区域的300块FPGA数据集上训练多分类器。这种完全基于芯片的指纹提取方法实现了&gt;99%的准确率，其运行速度较现有最优方案提升13倍，成本降低92%。</span></span></p><p cid="n380" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3676641.3716012" target="_blank">https://doi.org/10.1145/3676641.3716012</a></span></span></p><h3 cid="n381" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 20px;font-weight: bold;">12、PipeLLM: Fast and Confidential Large Language Model Services with Speculative Pipelined Encryption</span></span></span></h3><h3 cid="n381" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n382" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在GPU（如NVIDIA H100）上进行的机密计算通过实施强隔离与数据加密，有效降低了外包大语言模型（LLM）的安全风险。然而，这种加密机制会带来显著的性能开销——当部署OPT-30B和OPT-66B模型时，吞吐量分别下降高达52.8%和88.2%。为解决这一难题，我们提出PipeLLM：一个对用户透明的运行时系统。该系统通过流水线技术重叠加密与GPU计算（灵感源自CPU指令流水线设计），从而有效掩盖加密引发的延迟增长。核心技术挑战在于，与CPU不同，加密模块在GPU发起请求前无法预知需加密的具体数据。为此，我们提出推测式流水线加密技术，通过分析LLM的服务模式预测待加密数据；并针对预测错误场景开发了高效低成本的流水线退出机制。实验表明，相较于未采用机密计算的基线系统（如vLLM、PEFT和FlexGen），PipeLLM在13B至175B不同规模的LLM上仅产生适度开销（吞吐量损失&lt;19.6%）。项目源码已发布于</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/SJTU-IPADS/PipeLLM" target="_blank">https://github.com/SJTU-IPADS/PipeLLM</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n383" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3669940.3707224" target="_blank">https://doi.org/10.1145/3669940.3707224</a></span></span></p><h3 cid="n390" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 20px;font-weight: bold;">13、Protecting Cryptographic Code Against Spectre-RSB: (and, in Fact, All Known Spectre Variants)</span></span></span></h3><h3 cid="n390" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n391" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">幽灵攻击（Spectre attacks）通过推测执行过程中的信息泄露，打破了恒定时间密码代码的安全保证。近期研究表明，此类代码可以极低开销防御Spectre-v1攻击，但针对其他变种的防护仍悬而未决。本文设计、验证、实现并论证了一种新方法，可保护密码代码抵御所有已知类别的幽灵攻击（特别是Spectre-RSB）。我们的方法结合了新型值依赖信息流类型系统（确保推测执行下也不会泄露秘密）与编译器转换技术（使其能在底层代码上实现）。我们首先使用Coq证明助手验证了类型系统的可靠性与编译器转换的正确性，随后在高确信密码框架Jasmin中实现该方案。实验表明：对于多数密码原语，所有幽灵防护措施的开销低于2%；而对更复杂的后量子密钥封装机制Kyber，开销仅约5-7%。</span></span></p><p cid="n392" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3676641.3716015" target="_blank">https://doi.org/10.1145/3676641.3716015</a></span></span></p><h3 cid="n416" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 20px;font-weight: bold;">14、RTL Verification for Secure Speculation Using Contract Shadow Logic</span></span></span></h3><h3 cid="n416" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n417" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">现代乱序执行处理器面临推测执行攻击的威胁。尽管已提出多种软硬件缓解措施来防范此类攻击，但未知漏洞仍不断催生新型攻击手段。因此，亟需对硬件设计抵御推测执行攻击的能力进行形式化严格评估。</span></span></p><p cid="n418" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出一种名为&#34;契约影子逻辑&#34;的形式化验证技术，该技术能以极低人工成本显著提升RTL验证的可扩展性，且适用于不同防御机制。我们通过计算机体系结构设计洞见，优化了针对安全推测的软硬件契约所表述安全属性的验证性能。该验证方案对计算机架构师友好，仅需极少的形式化方法专业知识。</span></span></p><p cid="n419" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们在多个RTL设计（包括三款乱序处理器）上评估了该技术。实验结果表明，相较于基线方案及当前最先进的验证方案LEAVE和UPEC，本技术在发现非安全设计中的攻击行为、以及为安全设计提供完备证明方面均展现出显著优势。</span></span></p><p cid="n420" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3669940.3707243" target="_blank">https://doi.org/10.1145/3669940.3707243</a></span></span></p><h3 cid="n421" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 20px;font-weight: bold;">15、Ratte: Fuzzing for Miscompilations in Multi-Level Compilers Using Composable Semantics</span></span></span></h3><h3 cid="n421" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n422" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">多级中间表示（MLIR）是一种快速发展的编译器框架，其核心特性在于由模块化语言片段（称为方言）构成的生态系统。由于现有技术无法满足MLIR所需的模块化与可组合性要求，方言语义的规范制定与实现验证面临着全新挑战。本文提出Ratte框架，用于规范可组合的方言语义并构建模块化方言模糊测试工具。我们引入了一种创新技术来开发MLIR方言的语义模型与模糊测试器，形成双向验证循环：模糊测试器通过测试用例生成验证语义规范，同时语义规范支持生成不含未定义行为的高质量测试用例。语义与模糊测试器的可组合性使得测试多方言组合的生成器能够低成本派生。通过Ratte，我们在MLIR生产实现中发现了6个此前未知的错误编译漏洞。据我们所知，Ratte是首个能发现此类漏洞的MLIR模糊测试工具。本研究还揭示了MLIR规范中若干不明确的环节，我们提出的修正方案已被采纳。该技术为重要MLIR方言提供了可组合的参考解释器（经生产实现验证），可用于未来编译器开发与测试研究。</span></span></p><p cid="n423" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3676641.3716270" target="_blank">https://doi.org/10.1145/3676641.3716270</a></span></span></p><h3 cid="n427" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 20px;font-weight: bold;">16、ReSBM: Region-based Scale and Minimal-Level Bootstrapping Management for FHE via Min-Cut</span></span></span></h3><h3 cid="n427" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n428" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">全同态加密（FHE）中的RNS-CKKS方案支持隐私保护机器学习的关键特性，例如定点算术和SIMD风格向量化。然而，管理由同态乘法引发的密文规模膨胀（可能导致容量溢出）以及自举操作，带来了重大挑战。这些复杂性因需在编译时高效处理规模调整与自举、同时确保快速加密推理而进一步加剧。</span></span></p><p cid="n429" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出ReSBM——一种针对RNS-CKKS加密推理同时优化规模调整与自举操作的新型编译技术。通过将程序数据流图（DFG）划分为具有单一乘法深度的均匀区域，ReSBM确保规模管理操作（SMO）和自举的放置仅影响区域延迟，而不会改变其输出密文的规模与层级。我们的区域化方法通过分层策略应对最优自举放置的NP难问题：（1）使用最小割实现区域内SMO与自举的最优放置；（2）通过自举引导的跨区域重缩放区域识别，最终在两个终端区域实施试探性自举；（3）在DFG全局进行最小层级自举放置，仅将密文提升至必要的最低层级。</span></span></p><p cid="n430" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在CPU上多种复杂模型的验证表明，ReSBM不仅比主流方法更快编译这些模型，相较于另一领先方法还将加密推理效率平均提升12.1%。因此，ReSBM显著改善了大型模型加密推理的实际部署效果，在编译速度和推理性能两方面均超越现有方法。</span></span></p><p cid="n431" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3669940.3707276" target="_blank">https://doi.org/10.1145/3669940.3707276</a></span></span></p><h3 cid="n435" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 20px;font-weight: bold;">17、Reload+Reload: Exploiting Cache and Memory Contention Side Channel on AMD SEV</span></span></span></h3><h3 cid="n435" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n436" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为提升多租户云环境中虚拟机(VM)的安全性，AMD提供了安全加密虚拟化(SEV)扩展以支持加密虚拟机。我们在支持SEV的AMD处理器中发现了两个此前未知的侧信道：缓存刷新侧信道与内存争用侧信道。该发现适用于SEV-SNP及其早期版本技术(SEV与SEV-ES)。基于两项发现，我们分别构建了两种重加载+重加载(RR)攻击方案：重加载+重加载-刷新集合(RRFS)与重加载+重加载-内存块(RRMB)。我们验证了这两种攻击对SEV-SNP保护虚拟机的有效性：构建了基于RRFS的隐蔽信道实施Spectre攻击，并利用RRMB成功提取AES-128密钥。与基于Prime+Probe的方案相比，基于RRFS的隐蔽信道展现出更强的抗噪能力和更高传输容量。</span></span></p><p cid="n437" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3676641.3716017" target="_blank">https://doi.org/10.1145/3676641.3716017</a></span></span></p><h3 cid="n446" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 20px;font-weight: bold;">18、SMaCk: Efficient Instruction Cache Attacks via Self-Modifying Code Conflicts</span></span></span></h3><h3 cid="n446" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n447" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">自修改代码（SMC）允许程序动态改变自身指令，从而在x86处理器上优化性能与功能。尽管优势显著，SMC却会引发独特的微架构行为，可能被恶意利用。本文通过研究特定x86指令对缓存行的干扰效应，揭示了指令缓存命中与未命中之间可测量的时序差异。这些差异能优化缓存攻击效果，显著降低噪声并提升攻击精度。我们提出新型攻击技术，利用此类时序变化增强Prime+Probe、Flush+Reload等现有方法。改进后的技术使攻击者能更精准地窃取加密密钥，并在各类x86平台上构建类似Spectre的隐蔽信道。最后，我们设计了一种基于硬件性能计数器的动态检测方案，以应对这类强化威胁。</span></span></p><p cid="n448" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3676641.3716274" target="_blank">https://doi.org/10.1145/3676641.3716274</a></span></span></p><h3 cid="n458" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 20px;font-weight: bold;">19、ShadowLoad: Injecting State into Hardware Prefetchers</span></span></span></h3><h3 cid="n458" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n459" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">硬件预取器是现代CPU中的一种优化技术，它能预测内存访问并提前将相应数据加载至缓存。先前研究表明，硬件预取器的内部状态可构成侧信道，跨越安全边界（如进程间、用户与内核空间间，甚至可信执行环境间）泄露信息。本文提出ShadowLoad攻击原语——通过向硬件预取器注入状态，将不可访问的受害者数据引入缓存。该技术基于我们对硬件步幅预取器内部机制的逆向工程成果（通过自主研发工具StrideRE实现）。我们阐明ShadowLoad如何扩展现有微架构攻击（如Meltdown）和基于软件的功耗分析攻击（如Collide+Power）的攻击面，并展示其可部分绕过AWS等云平台针对L1TF漏洞的防护措施。此外，我们提出FetchProbe攻击技术，利用步幅预取器侧信道以亚缓存行精度泄露内存访问偏移量，从而扩展了先前关于控制流泄露的研究。通过在WolfSSL侧信道加固版Base64实现上的验证，我们证明即使经过实际工程防护的侧信道安全实现，仍可能受到新型攻击的威胁。</span></span></p><p cid="n460" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3676641.3716020" target="_blank">https://doi.org/10.1145/3676641.3716020</a></span></span></p><h3 cid="n474" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 20px;font-weight: bold;">20、Snowplow: Effective Kernel Fuzzing with a Learned White-box Test Mutator</span></span></span></h3><h3 cid="n474" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n475" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">内核模糊测试工具高度依赖程序变异技术，基于现有测试程序自动生成新测试用例。具体而言，程序变异可通过插入新系统调用、修改调用参数值或执行其他程序变异操作，从而改变测试在内核中的控制流与数据流。然而由于内核代码及其用户空间接口的复杂性，即使广泛采用人工设计的启发式规则，仍难以找到能有效提升覆盖率或抵达目标代码位置的关键变异操作。</span></span></p><p cid="n476" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本研究提出Snowplow内核模糊测试器，其采用基于学习的白盒测试变异器来增强测试变异能力。该工具核心是高效的机器学习模型，能够根据待变异测试程序、当前内核代码覆盖率及目标覆盖率，预测具有潜力的变异操作。Snowplow重点演示了内核测试参数变异能力，并在最新Linux内核版本上进行评估。在24小时模糊测试中，Snowplow发现新覆盖点的速度显著提升（4.8~5.2倍），总体覆盖率提高（7.0%~8.6%）。在为期7天的测试活动中，该工具发现了86个前所未知的崩溃案例。此外，学习型变异器能加速定向内核模糊测试：以8.5倍速度抵达19个目标代码位置，并成功覆盖现有最优定向内核模糊测试器未能触达的2个新位置。</span></span></p><p cid="n477" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3676641.3716019" target="_blank">https://doi.org/10.1145/3676641.3716019</a></span></span></p><h3 cid="n512" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 20px;font-weight: bold;">21、TaintEMU: Decoupling Tracking from Functional Domains for Architecture-Agnostic and Efficient Whole-System Taint Tracking</span></span></span></h3><h3 cid="n512" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n513" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">全系统污点追踪对安全分析至关重要。然而现有方法受限于架构兼容性不足和显著性能开销，主要源于功能域与追踪域的紧密耦合。本文提出TaintEMU，通过完全解耦两域实现架构无关的高效方案：在QEMU TCG层分离功能与追踪逻辑，将影子寄存器映射至宿主机而非客户机寄存器，确保跨客户机CPU架构的兼容性；在宿主机层物理隔离两域——通用指令与寄存器服务功能域，向量资源专用于追踪，避免主机资源复用并提升追踪性能；进一步直接从TCG操作生成宿主机追踪指令，绕过额外翻译以降低开销。我们在QEMU 8.2.2的AMD64宿主机上实现TaintEMU，支持多种客户机架构（x86、MIPS、ARM、AMD、RISC-V、PPC），将性能开销从DECAF++的301%降至101%，并在涵盖7个应用程序8个CVE的测试中成功检测全部漏洞。</span></span></p><p cid="n514" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://doi.org/10.1145/3676641.3716023" target="_blank">https://doi.org/10.1145/3676641.3716023</a></span></span></p><p cid="n568" mdtype="paragraph" style="box-sizing: border-box;"><span leaf=""><img class="rich_pages wxw-img" data-imgfileid="100000515" data-ratio="0.3649122807017544" data-s="300,640" type="block" data-type="png" data-w="1710" src="https://wechat2rss.xlab.app/img-proxy/?k=84c3571f&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_png%2FicNlicgdbzSdUsr3zlDy5jvuhf6dz33SqB8w9ao4Xt0eGRD7LY9kyckjfOFI1zt8kgMr8eZsYl4JWB19eN2CowlQ%2F640%3Fwx_fmt%3Dpng"/></span></p><section><span leaf=""><br/></span></section><section><span leaf=""><br/></span></section><p style="display: none;"><mp-style-type data-value="3"></mp-style-type></p>



<p><a href="2247485949">阅读原文</a></p>
<p><a href="https://wechat2rss.xlab.app/link-proxy/?k=b477847c&amp;r=1&amp;u=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU0MzgzNTU0Mw%3D%3D%26mid%3D2247485949%26idx%3D1%26sn%3D601e1989e7b21fe7e952de7b3088eedf%26subscene%3D0">跳转微信打开</a></p>
]]></content:encoded>
      <pubDate>Sat, 26 Apr 2025 20:35:00 +0800</pubDate>
    </item>
    <item>
      <title>网络安全顶会——NDSS 2025 论文清单与摘要（1）</title>
      <link>https://mp.weixin.qq.com/s?__biz=MzU0MzgzNTU0Mw==&amp;mid=2247485943&amp;idx=1&amp;sn=23f7d08c8f16bb214e3b6eb8b6a9b05c</link>
      <description></description>
      <content:encoded><![CDATA[<p>
原创 <span>漏洞战争</span> <span>2025-04-19 22:47</span> <span style="display: inline-block;">广东</span>
</p>

<p></p>



<p>
<img src="https://wechat2rss.xlab.app/img-proxy/?k=692a217d&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_jpg%2FicNlicgdbzSdUD9aBcbXibich0gD194gNrLhQ8AA9JxicIPvPRBiabVtiakhDJYOdo8dicSursT22Su1tWW1hFq9yCmIMg%2F0%3Fwx_fmt%3Djpeg"/>
</p>


<section><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">1、A Comprehensive Memory Safety Analysis of Bootloaders</span></span></section><h3 cid="n0" mdtype="heading" style="box-sizing: border-box;" data-pm-slice="0 0 []"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n2" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">引导加载程序在系统启动过程中扮演着关键角色，它作为固件与操作系统之间的桥梁。设备通电后，引导加载程序从固件接管控制权，完成早期启动环境准备，随后将控制权移交操作系统。现代计算机通常采用名为&#34;安全启动&#34;的功能来阻止恶意软件在启动时加载。作为安全启动链的核心环节，引导加载程序负责验证操作系统、将其映像载入内存并启动。因此引导加载程序必须具备安全的设计与实现。</span></span></p><p cid="n3" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">然而随着功能不断丰富，引导加载程序为用户提供更多特性的同时，其代码规模持续扩大，不可避免地暴露出更多攻击面。近年来，各类引导加载程序中被发现存在漏洞，尤其是内存安全违规问题。部分漏洞可导致拒绝服务，甚至能绕过安全启动保护机制。尽管引导加载程序在安全启动链中至关重要，但目前尚未出现对其内存安全性的全面分析。</span></span></p><p cid="n4" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文基于对历史引导加载程序漏洞的调研，首次对其内存安全性进行了系统化全面分析。我们研究了不同引导加载程序的潜在攻击面及其引发漏洞的机制，发现来自存储设备、网络等外设的恶意输入是攻击者利用漏洞的主要途径。为帮助开发者大规模检测漏洞，我们设计并实现了基于分析的引导加载程序模糊测试框架。实验中共发现9个引导加载程序的39个漏洞，其中38个为零日漏洞。特别是在广泛使用的Linux标准引导程序GRUB中发现14个漏洞，部分漏洞经精心利用可导致安全启动机制被绕过。目前已有5个漏洞获得CVE编号。</span></span></p><p cid="n5" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/a-comprehensive-memory-safety-analysis-of-bootloaders/" target="_blank">https://www.ndss-symposium.org/ndss-paper/a-comprehensive-memory-safety-analysis-of-bootloaders/</a></span></span></p><h3 cid="n6" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">2、A Formal Approach to Multi-Layered Privileges for Enclaves</span></span></span></h3><h3 cid="n6" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n7" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">可信执行环境（TEE）作为一种保护安全关键应用的方法已被广泛采用。尽管先前已有功能扩展方案被提出以提升飞地（enclave）的可用性，但其供给模式仍面临安全挑战。本文提出Palantir——一种可验证的多层飞地间权限模型，用于实现飞地的安全功能扩展。具体而言，该系统引入父子飞地关系架构，父飞地被赋予对其子飞地的两项特权权限（执行控制权与空间控制权），从而支撑安全的功能扩展。通过支持嵌套式父子关系，Palantir实现了多层权限机制（MLP），使得功能扩展可遵循最小权限原则部署于不同特权层级。为验证Palantir的安全性，我们构建并验证了名为textTAPinfty的形式化模型，证明该权限模型不会破坏或削弱飞地的安全保障。此外，我们在开源RISC-V TEE平台&#34;蓬莱&#34;上实现了Palantir原型系统。评估表明Palantir在运行时开销（&lt;5%）和启动延迟方面均展现出优越性能。</span></span></p><p cid="n8" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/a-formal-approach-to-multi-layered-privileges-for-enclaves/" target="_blank">https://www.ndss-symposium.org/ndss-paper/a-formal-approach-to-multi-layered-privileges-for-enclaves/</a></span></span></p><h3 cid="n9" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">3、A Key-Driven Framework for Identity-Preserving Face Anonymization</span></span></span></h3><p cid="n10" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">虚拟面孔是元宇宙中的核心内容。近期已有研究尝试通过生成虚拟面孔来保护隐私。然而这些方法要么永久抹除可识别信息，要么将原始身份映射为虚拟身份，导致原始身份永远丢失。本研究首次尝试解决虚拟面孔中隐私性与可识别性之间的矛盾，提出了基于密钥驱动的人脸匿名化与认证识别框架（KFAAR）。具体而言，KFAAR框架包含头部姿态保持的虚拟面孔生成模块（HPVFG）和密钥可控的虚拟面孔认证模块（KVFA）。HPVFG模块通过用户密钥将原始人脸的潜在向量投影为虚拟向量，继而映射虚拟向量获得扩展编码，最终生成虚拟面孔。通过同步加入头部姿态与表情校正模块，虚拟面孔能保持与原始人脸相同的头部姿态和面部表情。在认证环节，KVFA模块可直接利用正确用户密钥识别虚拟面孔，无需暴露原始人脸图像即可还原原始身份。我们还提出了多任务学习目标来联合训练HPVFG和KVFA模块。大量实验证明了所提模块的优越性，能同时有效实现人脸匿名性与可识别性。</span></span></p><p cid="n11" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/a-key-driven-framework-for-identity-preserving-face-anonymization/" target="_blank">https://www.ndss-symposium.org/ndss-paper/a-key-driven-framework-for-identity-preserving-face-anonymization/</a></span></span></p><h3 cid="n12" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">4、A Large-Scale Measurement Study of the PROXY Protocol and its Security Implications</span></span></span></h3><h3 cid="n12" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n13" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">反向代理服务器在优化互联网服务中扮演着关键角色，其优势涵盖负载均衡到拒绝服务（DoS）防护等多个方面。然而，此类代理存在一个已知缺陷：由于所有请求均由代理服务器转发，后端服务器无法获知发起连接的客户端真实IP地址。针对HTTP协议，这一问题可通过X-Forwarded-For标头轻松解决——该标头允许代理服务器将原始请求的客户端IP传递给后端服务器。遗憾的是，许多其他协议缺乏类似机制。为此，HAProxy开发了PROXY协议，该协议在网络栈更低层级（第四层）实现代理服务器与后端服务器间的客户端信息传递，从而做到与具体协议无关。</span></span></p><p cid="n14" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本研究首次对PROXY协议在互联网规模的应用展开系统性分析，并深入探究其错误配置引发的安全隐患。通过对全IPv4地址空间进行测量，我们发现超过17万台主机在HTTP协议下会接受来自任意源的PROXY协议数据。我们演示了如何滥用该协议绕过路径上的代理（及其防护机制），并从后端基础设施中泄露敏感信息。研究发现超过1万台服务器存在访问绕过漏洞，该漏洞可通过注入（伪造的）PROXY协议标头触发。利用该技术，我们成功访问了500多台内部服务器，这些服务器控制着物联网监控平台和智能家居自动化设备，例如可远程调节的电动窗帘、安防摄像头及报警系统等。除HTTP协议外，我们还证实PROXY协议可被用于将350多台SMTP服务器转变为开放中继，使攻击者能够以任意邮箱地址发送邮件。综上，本研究揭示了PROXY协议错误配置如何导致影响多种主流协议的严重安全问题。</span></span></p><p cid="n15" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/a-large-scale-measurement-study-of-the-proxy-protocol-and-its-security-implications/" target="_blank">https://www.ndss-symposium.org/ndss-paper/a-large-scale-measurement-study-of-the-proxy-protocol-and-its-security-implications/</a></span></span></p><h3 cid="n16" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">5、A Method to Facilitate Membership Inference Attacks in Deep Learning Models</span></span></span></h3><h3 cid="n16" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n17" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">现代机器学习（ML）生态系统提供了数量激增的ML框架和代码库，极大地便利了ML模型的开发。如今，即便是非ML专家的普通数据持有者，也能利用现成的代码库在其数据上构建高性能ML模型，其中许多数据本质敏感（如临床记录）。  </span></span></p><p cid="n18" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本研究探讨了一种恶意ML提供者的场景：该提供者向数据持有者提供模型训练代码，但无法访问训练过程，仅能通过黑盒查询访问最终模型。在此设定下，我们展示了一种新型成员推断攻击，其威力远超现有技术。该攻击使攻击者能可靠地识别所有训练样本（平均攻击真阳性率&gt;99% @0.1%假阳性率），而遭篡改的模型仍保持与未受污染模型相当的性能（平均准确率下降&lt;1%）。此外，我们发现中毒模型能有效掩盖在常规成员隐私审计下被放大的成员信息泄露，这种泄露仅能通过攻击者掌握的一组秘密样本被揭示。  </span></span></p><p cid="n19" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">总体而言，我们的研究不仅揭示了最坏情况下的成员隐私泄露风险，还暴露了现有隐私审计方法的共性缺陷，呼吁未来重新思考当前ML模型成员隐私审计的实践方式。</span></span></p><p cid="n20" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/a-method-to-facilitate-membership-inference-attacks-in-deep-learning-models/" target="_blank">https://www.ndss-symposium.org/ndss-paper/a-method-to-facilitate-membership-inference-attacks-in-deep-learning-models/</a></span></span></p><h3 cid="n21" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">6、A Multifaceted Study on the Use of TLS and Auto-detect in Email Ecosystems</span></span></span></h3><h3 cid="n21" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n22" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">包括IMAP、POP3和SMTP在内的各类电子邮件协议最初均设计为&#34;明文&#34;协议，缺乏内置的机密性与完整性保障。为保护通信流量，可在这些协议启动前隐式启用TLS，或在协议交互过程中以机会主义方式升级加密。为提升用户体验，现今多数邮件客户端提供&#34;自动检测&#34;功能，旨在为用户自动确定可用的配置参数组合。本文针对邮件客户端中TLS与自动检测功能的安全性展开多维度研究：首先通过测试49款邮件客户端，评估其TLS与自动检测的设计实现，发现可导致安全等级暗中降级及用户凭证泄露的多种缺陷；其次通过收集分析全球1102份高校邮件配置指南，考察现行部署实践是否有效规避机会主义TLS与自动检测引入的安全陷阱，发现可能促使用户采用不安全配置的若干问题；最后基于指南中的服务器地址，评估服务器端对隐式与机会主义TLS的支持情况及证书特征。研究表明，由于对TLS与自动检测功能的草率处理，大量用户正遭受非故意的安全防护缺失，组织机构更宜为用户提供具体详尽的手动配置方案。</span></span></p><p cid="n23" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/a-multifaceted-study-on-the-use-of-tls-and-auto-detect-in-email-ecosystems/" target="_blank">https://www.ndss-symposium.org/ndss-paper/a-multifaceted-study-on-the-use-of-tls-and-auto-detect-in-email-ecosystems/</a></span></span></p><h3 cid="n24" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">7、A New PPML Paradigm for Quantized Models</span></span></span></h3><h3 cid="n24" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n25" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">模型量化已成为机器学习(ML)提升效率并降低计算/通信开销的常规手段。然而在隐私保护机器学习(PPML)中采用量化仍面临挑战，因为量化算子复杂的内部结构会导致现有PPML框架下的协议效率低下。本研究提出了一种专为量化模型定制的新PPML范式，该范式能充分利用量化优势。我们的核心发现是：查表法可以忽略任何函数的复杂内部构造，从而简化量化算子评估。我们将模型推理过程视为量化算子的序列，每个算子通过查表实现。随后开发了高效的隐私查表评估协议，其在线通信成本仅为logn（n为查表尺寸）。</span></span></p><p cid="n26" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在单CPU核上，我们的协议每秒可评估2^26个8位输入输出的查表。由此构建的量化模型PPML框架具备极快的在线性能。实验表明，该量化策略相较现有最优PPML方案实现了显著加速：在AlexNet、VGG16和ResNet18等卷积神经网络(CNN)上在线性能提升40~60倍；在GPT-2、GPT-Neo和Llama2等大语言模型(LLM)上提升10~25倍。</span></span></p><p cid="n27" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/a-new-ppml-paradigm-for-quantized-models/" target="_blank">https://www.ndss-symposium.org/ndss-paper/a-new-ppml-paradigm-for-quantized-models/</a></span></span></p><h3 cid="n28" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">8、A Systematic Evaluation of Novel and Existing Cache Side Channels</span></span></span></h3><h3 cid="n28" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n29" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">CPU缓存是最受关注的研究侧信道攻击目标之一，其中Prime+Probe和Flush+Reload是最具代表性的技术。这类通用缓存攻击手段可泄露加密密钥、用户输入，并构成众多微架构攻击的基础组件。本文首次系统化评估了四种主流缓存攻击（Flush+Reload、Flush+Flush、Evict+Reload和Prime+Probe）以及我们提出的三种新型攻击（Demote+Reload、Demote+Demote和DemoteContention）的九大特性指标。我们在最新英特尔微架构上测试了命中-失效边界、时间精度、空间精度、拓扑范围、攻击耗时、盲区长度、信道容量、抗噪性和可检测性。Demote+Reload与Demote+Demote表现与既有攻击相当，部分场景更优：例如Demote+Reload盲区比Flush+Reload缩小60.7%，其15.48 Mbit/s的信道容量较后者提升64.3%。我们通过AES T-table攻击对比所有技术，并在击键间隔计时攻击中比较Demote+Reload与Flush+Reload。突破现有技术局限，我们利用Demote+Demote实现KASLR破解，并通过Demote+Reload放大功耗侧信道泄露。最后，Sapphire Rapids和Emerald Rapids处理器采用非包容性L3缓存，使基于驱逐的跨核攻击（如Prime+Probe和Evict+Reload）仅当受害者活动触及L3缓存时才能生效。因此我们证明在跨核攻击中，DemoteContention可作为无需逆向寻址函数与缓存置换策略的可靠替代方案。</span></span></p><p cid="n30" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/a-systematic-evaluation-of-novel-and-existing-cache-side-channels/" target="_blank">https://www.ndss-symposium.org/ndss-paper/a-systematic-evaluation-of-novel-and-existing-cache-side-channels/</a></span></span></p><h3 cid="n31" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">9、ASGARD: Protecting On-Device Deep Neural Networks with Virtualization-Based Trusted Execution Environments</span></span></span></h3><h3 cid="n31" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n32" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于设备的深度学习在提升用户隐私方面日益流行，但如今却对深度神经网络（DNN）模型的隐私构成严重威胁。研究者提出利用Arm TrustZone的可信执行环境（TEE）来保护模型免受富执行环境（REE）发起的攻击。然而现有方案存在明显缺陷：(i) 将DNN推理完全置于TEE的方案要么仅支持CPU推理，要么需对闭源专有软件进行大幅修改以集成加速器；(ii) 将部分DNN推理卸载到REE的方案要么导致部分模型暴露，要么因频繁的模型（解）混淆和TEE-REE切换产生巨大运行时开销。</span></span></p><p cid="n33" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们提出ASGARD——首个基于虚拟化的TEE解决方案，专为保护传统Armv8-A系统级芯片（SoC）上的设备端DNN而设计。与以往基于TrustZone TEE的模型保护方案不同，ASGARD的TEE既兼容现有专有软件，又将可信计算基（TCB）保持在最小规模，且运行时开销趋近于零。其关键技术在于：(i) 通过安全I/O透传将SoC集成加速器纳入现有TEE的安全边界；(ii) 采用激进而安全的平台级与应用级TCB精简技术严格控制TCB规模；(iii) 通过退出合并式DNN执行规划减少昂贵的TEE-REE切换次数。</span></span></p><p cid="n34" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们在搭载Rockchip NPU的Armv8.2-A商用安卓平台RK3588S上实现了ASGARD，全程未修改Rockchip或Arm的专有软件。实验表明，ASGARD能以最小TCB规模和可忽略的推理延迟开销，有效保护传统SoC中的设备端DNN模型。</span></span></p><p cid="n35" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/asgard-protecting-on-device-deep-neural-networks-with-virtualization-based-trusted-execution-environments/" target="_blank">https://www.ndss-symposium.org/ndss-paper/asgard-protecting-on-device-deep-neural-networks-with-virtualization-based-trusted-execution-environments/</a></span></span></p><h3 cid="n36" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">10、Alba: The Dawn of Scalable Bridges for Blockchains</span></span></span></h3><h3 cid="n36" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n37" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">过去十年间，加密货币持续吸引学术界与工业界的关注，催生出多样化的区块链生态系统与创新应用。跨链桥的诞生提升了互操作性，使资产能够利用不同区块链的特性进行转移。尽管去中心化金融（DeFi）兴起推动其普及，但当前无需信任的跨链桥协议仍存在效率缺陷——或需传递过量信息（如基于轻客户端的方案），或依赖高昂计算（如基于零知识证明的方案）。这些低效性源于现有跨链桥需严格验证交易在另一条链上的链上包含证明，而实际上如支付通道和状态通道等链下解决方案已能实现无需链上发布的可靠交易。然而现有跨链桥均不支持链下支付验证。</span></span></p><p cid="n38" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文通过提出Pay2Chain跨链桥概念填补这一空白，该方案利用支付通道等链下方案优势突破当前限制。我们设计的Alba跨链桥能够基于链下事件，在目标链上高效、安全且无需信任地执行条件支付或智能合约。除技术优势外，Alba还通过支持DeFi应用、多资产支付通道及乐观状态型链下计算，丰富了源链的生态系统。</span></span></p><p cid="n39" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们在UC框架下形式化定义了Alba对抗拜占庭敌手的安全性，并辅以博弈论分析。通过引入形式化的可扩展性指标，我们证明了Alba的高效性。实证评估表明Alba在通信复杂度与链上成本方面表现优异，其乐观情况下的成本仅相当于以太坊标准代币转账交易的两倍。</span></span></p><p cid="n40" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/alba-the-dawn-of-scalable-bridges-for-blockchains/" target="_blank">https://www.ndss-symposium.org/ndss-paper/alba-the-dawn-of-scalable-bridges-for-blockchains/</a></span></span></p><h3 cid="n41" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">11、All your (data)base are belong to us: Characterizing Database Ransom(ware) Attacks</span></span></span></h3><h3 cid="n41" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n42" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们首次对数据库勒索攻击进行了系统研究，这类攻击中攻击者扫描数据库服务器，利用缺乏认证或弱凭证登录，删除数据库内容，并索要赎金以归还被删数据。我们分析了三年间从60,427台被入侵数据库服务器收集的23,736份勒索信，并通过部署数据库蜜罐获取当前攻击的一手资料。数据库勒索攻击日益猖獗，2024年3月新增感染服务器达6,000台，较上年同期增长60%。我们的蜜罐在接入互联网后14小时内即遭入侵。由于新版Elasticsearch采用缓慢，其服务器弱认证问题发生率比MySQL服务器高两个数量级。</span></span></p><p cid="n43" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为追溯数据库勒索攻击的幕后黑手，我们设计了一种聚类方法：首先通过勒索信文本相似性识别攻击活动，再利用指标复用和比特币区块链信息判定哪些活动属于同一组织。该方法为每个组织计算入侵服务器数量、活跃周期、收益及所用指标等属性。分析表明，60,427台受害服务器涉及32个组织发起的91次攻击活动。其中主导组织造成了76%的服务器感染和90%的经济损失。我们还发现该主导组织与某民族国家存在关联，并曾参与针对Git代码库的先前攻击。</span></span></p><p cid="n44" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/all-your-database-are-belong-to-us-characterizing-database-ransomware-attacks/" target="_blank">https://www.ndss-symposium.org/ndss-paper/all-your-database-are-belong-to-us-characterizing-database-ransomware-attacks/</a></span></span></p><h3 cid="n45" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">12、AlphaDog: No-Box Camouflage Attacks via Alpha Channel Oversight</span></span></span></h3><h3 cid="n45" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n46" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">传统计算机视觉模型的黑盒对抗攻击存在显著局限性：查询需求密集、迭代过程耗时、缺乏普适性，且因扰动细微导致攻击成功率（ASR）和置信度（CL）低下。本文提出AlphaDog——一种基于Alpha通道的首个普适高效定向无盒攻击，通过利用RGBA图像中常被忽视的Alpha通道，在人类感知与机器解读间制造视觉差异，实现对两者的高效欺骗。具体而言，AlphaDog将RGB通道恶意设置为AI识别所需的目标物体，同时精心设计Alpha通道，使其与数字媒体（缩略图或图像查看器）的标准/默认背景色混合时呈现人类可感知的不同图像。借助AI模型与人类视觉处理透明度的差异，AlphaDog在四个方面超越现有对抗攻击：（1）作为无盒攻击，实现零查询需求；（2）生成效率极高，仅需毫秒即可生成任意攻击图像；（3）具备普适性，单张攻击图像可攻陷多数AI模型；（4）保证100%的ASR与CL。通过对100个前沿图像识别系统评估6,500个AlphaDog攻击样本的实验，以及经IRB批准的20名大学生参与的隐蔽性验证实验，均证实其有效性。AlphaDog可应用于数据投毒、规避攻击和内容审核领域。此外，本文提出基于像素强度直方图的新型检测方法，能100%有效识别并防御AlphaDog攻击。演示详见AlphaDog网站（</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://sites.google.com/view/alphachannelattack/home" target="_blank">https://sites.google.com/view/alphachannelattack/home</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">）。</span></span></p><p cid="n47" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/alphadog-no-box-camouflage-attacks-via-alpha-channel-oversight/" target="_blank">https://www.ndss-symposium.org/ndss-paper/alphadog-no-box-camouflage-attacks-via-alpha-channel-oversight/</a></span></span></p><h3 cid="n48" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">13、An Empirical Study on Fingerprint API Misuse with Lifecycle Analysis in Real-world Android Apps</span></span></span></h3><h3 cid="n48" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n49" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于指纹的身份验证（FpAuth）正日益被安卓应用程序采用，尤其在账户登录、支付等高敏感场景中，因其能为用户身份核验提供便捷途径。然而，由于安卓指纹API（FpAPIs）的复杂性和持续演进特性，移动应用在实际开发中如何正确安全地使用这些接口仍面临挑战。本文首次从FpAuth生命周期的角度，对安卓应用中指纹API的误用现象展开系统性实证分析。我们首先开发专用工具对使用FpAPIs的应用进行识别与特征分析；随后通过实际场景下的详细生命周期研究定义威胁模型，归纳出四类普遍存在的API误用类型；最终开发自动化检测工具对1,333个采用指纹验证的应用进行扫描，发现触目惊心的结果：97.15%的应用至少存在一类误用漏洞，其中18.83%的应用同时存在所有已识别的误用类型。这些误用可能导致未授权数据访问、账户劫持甚至资金损失等严重后果，影响海量用户。我们已对这些漏洞进行负责任的披露，共获得184个CVE编号和19个中国国家漏洞库（CNVD）编号的收录，并得到15家厂商的确认。本研究旨在提升行业对指纹API规范使用重要性的认知。</span></span></p><p cid="n50" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/an-empirical-study-on-fingerprint-api-misuse-with-lifecycle-analysis-in-real-world-android-apps/" target="_blank">https://www.ndss-symposium.org/ndss-paper/an-empirical-study-on-fingerprint-api-misuse-with-lifecycle-analysis-in-real-world-android-apps/</a></span></span></p><h3 cid="n51" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">14、Attributing Open-Source Contributions is Critical but Difficult: A Systematic Analysis of GitHub Practices and Their Impact on Software Supply Chain Security</span></span></span></h3><h3 cid="n51" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n52" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">关键开源项目构成众多大型软件系统的基础，为密码学、兼容性与安全性等重要功能提供可信且可扩展的实现。验证开源项目中提交作者的真实性至关重要却也充满挑战。Git用户可自由配置姓名与邮箱等作者信息，GitHub等平台利用此类数据生成指向用户账户的个人资料链接。我们展示了攻击者通过操纵GitHub项目与个人资料伪装可信度的三种攻击场景，并通过混合研究方法评估了对关键开源软件项目的影响及防御措施的有效性。</span></span></p><p cid="n53" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">首先，我们对GitHub上50,328个关键开源项目展开大规模测量，证明85.9%的项目存在贡献流程滥用风险。共识别出573,043个可被恶意攻击者声称为己有的邮箱地址，用于劫持历史提交记录并提升账户可信度。在评估提交签名作为防御措施时发现：95.4%的用户从未签署过提交，72.1%的项目不存在任何签名提交；与之相对，仅2.0%的用户签署了全部提交，0.2%的项目实现了全量提交签名。提交签名行为与项目编程语言、主题标签或其他安全措施无显著关联。</span></span></p><p cid="n54" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">其次，通过分析网络安全建议文档，我们探究了贡献者身份伪造的认知现状。多数文档虽意识到通过Git提交的简单伪造技术，但对GitHub邮箱地址处理机制引发的风险普遍缺乏认知。</span></span></p><p cid="n55" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/attributing-open-source-contributions-is-critical-but-difficult-a-systematic-analysis-of-github-practices-and-their-impact-on-software-supply-chain-security/" target="_blank">https://www.ndss-symposium.org/ndss-paper/attributing-open-source-contributions-is-critical-but-difficult-a-systematic-analysis-of-github-practices-and-their-impact-on-software-supply-chain-security/</a></span></span></p><h3 cid="n56" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">15、Automated Expansion of Privacy Data Taxonomy for Compliant Data Breach Notification</span></span></span></h3><h3 cid="n56" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n57" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在隐私合规研究中，一项关键挑战在于将实际数据使用场景中的具体数据项与法律、法规或政策中定义的隐私数据进行比对。由于不同应用程序采用的数据项存在多样性，加之各司法管辖区对隐私数据的解释存在差异，这项任务变得尤为复杂。为解决这一难题，研究者构建了隐私数据分类体系，通过捕捉隐私数据类型与粒度层级间的关系来辅助合规分析。然而现有分类体系构建方法受限于人工操作或启发式规则，难以动态吸纳跨领域新术语。本文提出GRASP的设计方案，这是一种可扩展、高效率的隐私数据分类体系自动构建与扩展方法。GRASP创新性地采用基于粒度感知语义投影的上位词预测模型，其性能优于现有最先进的上位词预测方法。此外，我们设计实现了Tracy隐私专业助手，用于识别和解读事件报告中的隐私数据，以生成符合《通用数据保护条例》要求的数据泄露通知。通过对15位隐私专业人士进行的可用性研究评估，Tracy展现出高度的实用性和用户满意度。</span></span></p><p cid="n58" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/automated-expansion-of-privacy-data-taxonomy-for-compliant-data-breach-notification/" target="_blank">https://www.ndss-symposium.org/ndss-paper/automated-expansion-of-privacy-data-taxonomy-for-compliant-data-breach-notification/</a></span></span></p><h3 cid="n59" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">16、Automated Mass Malware Factory: The Convergence of Piggybacking and Adversarial Example in Android Malicious Software Generation</span></span></span></h3><h3 cid="n59" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n60" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">对抗样本技术已被证明对安卓恶意软件检测系统极为有效，通过最小幅度的代码修改即可实现恶意软件逃逸检测。然而，现有对抗样本技术忽视了恶意软件的生成过程，从而限制了该技术的适用性。本文研究了一种通过将恶意代码植入流行应用而批量生成的寄生型恶意软件，并将其与对抗样本技术相结合。给定恶意代码片段（即植入模块），我们可为其生成定制化的对抗扰动，并将其插入任意宿主应用中，使生成的恶意软件能够逃避检测。通过探究对抗扰动影响寄生型恶意软件代码的作用机制，我们提出了一种对抗性寄生恶意软件生成方法，包含三大模块：恶意植入模块提取、对抗扰动生成和良性宿主选择。大量实验表明，我们的方法能在短时间内高效生成大量恶意软件，并显著提升逃逸检测的概率。在基于机器学习的检测模型（如Drebin和MaMaDroid）上，本方法平均攻击成功率（ASR）达88.3%；在商业引擎微软和金山上的ASR分别达到76%和92%。此外，我们还探讨了针对对抗性寄生恶意软件的潜在防御方案。</span></span></p><p cid="n61" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/automated-mass-malware-factory-the-convergence-of-piggybacking-and-adversarial-example-in-android-malicious-software-generation/" target="_blank">https://www.ndss-symposium.org/ndss-paper/automated-mass-malware-factory-the-convergence-of-piggybacking-and-adversarial-example-in-android-malicious-software-generation/</a></span></span></p><h3 cid="n62" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">17、Automatic Insecurity: Exploring Email Auto-configuration in the Wild</span></span></span></h3><h3 cid="n62" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n63" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">支持自动配置机制的电子邮件客户端能自动获取服务器配置信息（如主机名、端口号和连接类型），用户仅需输入邮箱地址和密码即可登录。这类自动配置机制正被日益广泛采用，但其在实现与部署层面的安全隐患尚未得到深入研究。本文首次系统分析了邮件自动配置相关的安全威胁并评估其影响：我们归纳出10种攻击场景，涵盖17项缺陷（含8个新发现缺陷）及4类不完善的客户端界面通知。这些攻击场景可导致受害者连接至攻击者控制的服务器，或建立不安全连接从而危及凭证安全。通过大规模测量与深度分析，我们发现实际应用中自动配置机制存在严重安全隐患：服务器端有49,013个域名存在配置错误（含19个全球Top-1K热门域名）；客户端方面，29款产品中有22款易受前述威胁影响，且27款存在至少一项助长静默攻击的界面通知缺陷。这些缺陷源于错误配置、管理疏漏、实现漏洞及兼容性问题。本研究旨在提升业界对邮件自动配置安全性的重视。</span></span></p><p cid="n64" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/automatic-insecurity-exploring-email-auto-configuration-in-the-wild/" target="_blank">https://www.ndss-symposium.org/ndss-paper/automatic-insecurity-exploring-email-auto-configuration-in-the-wild/</a></span></span></p><h3 cid="n65" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">18、Automatic Library Fuzzing through API Relation Evolvement</span></span></span></h3><h3 cid="n65" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n66" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">软件库是现代软件生态系统的核心组成部分。这些库中的漏洞会带来严重的安全威胁。模糊测试作为一种广泛使用的技术，能够有效发现软件漏洞。然而，将其应用于软件库测试仍面临重大挑战：需要精心设计能够反映多样化且正确API用法的驱动程序。现有自动化库模糊测试方案要么因随机生成的API序列导致误用而产生大量误报，要么过度依赖现有代码片段导致API序列多样性不足，从而遗漏深层API漏洞。</span></span></p><p cid="n67" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本研究提出新型模糊测试工具NEXZZER，可自动检测库中的漏洞。NEXZZER采用混合关系学习策略持续推断并演化API关系，结合创新的驱动程序架构以提升库测试覆盖率，促进深层漏洞发现。我们在18个库和Google模糊测试套件上对NEXZZER进行评估，结果表明其在代码覆盖率和漏洞发现能力上较现有方案具有显著优势。该工具还能自动识别并过滤大部分API误用导致的崩溃。此外，NEXZZER在包括OpenSSL和libpcre2在内的成熟库中新发现27个未知漏洞。截至本文撰写时，开发者已确认其中24个漏洞，并根据我们提交的报告修复了9个漏洞。</span></span></p><p cid="n68" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/automatic-library-fuzzing-through-api-relation-evolvement/" target="_blank">https://www.ndss-symposium.org/ndss-paper/automatic-library-fuzzing-through-api-relation-evolvement/</a></span></span></p><h3 cid="n69" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">19、BARBIE: Robust Backdoor Detection Based on Latent Separability</span></span></span></h3><h3 cid="n69" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n70" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">后门攻击是深度学习模型共享面临的核心威胁。本质上，后门模型与良性模型在潜在可分离性上存在差异，即模型潜在表征具有可区分的区别。然而现有方法通过聚类潜在表征或计算表征间距离来量化这种特性，极易被自适应攻击规避。本文提出BARBIE检测方法，能在自适应后门攻击下精准识别潜在可分离性。为此我们设计了一种新型潜在可分离性度量指标——相对竞争分数（RCS），通过刻画潜在表征对模型输出的支配性来实现抗攻击鲁棒性。该方法无需任何良性或后门样本，通过反演每类标签的两组潜在表征（分别反映良性模型的正常表征和强化后门模型的异常表征）来计算RCS值。我们构建了系列RCS衍生指标来全面捕捉后门模型与良性模型的差异。在4个数据集上对14类后门攻击（包括针对潜在可分离性的自适应攻击）的10,000余个模型验证表明：相较7种基线方法，BARBIE对源无关攻击的检测真阳性率平均提升17.05%，对源特定攻击提升27.72%，对样本特定攻击提升43.17%，对干净标签攻击提升11.48%，同时保持更低假阳性率。源代码见：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/Forliqr/BARBIE" target="_blank">https://github.com/Forliqr/BARBIE</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n71" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/barbie-robust-backdoor-detection-based-on-latent-separability/" target="_blank">https://www.ndss-symposium.org/ndss-paper/barbie-robust-backdoor-detection-based-on-latent-separability/</a></span></span></p><h3 cid="n72" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">20、BULKHEAD: Secure, Scalable, and Efficient Kernel Compartmentalization with PKS</span></span></span></h3><h3 cid="n72" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n73" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">层出不穷的漏洞亟需通过系统化的缓解措施来限制漏洞利用的影响。然而，以Linux内核为代表的商用操作系统采用单体式架构，攻击者只需攻破任意内核组件即可完全控制系统。内核隔离技术遵循最小权限原则，是极具前景的解决方案。但由于众多复杂组件间相互不可信的特性，现有机制难以兼顾安全性、可扩展性与性能表现。本文提出BULKHEAD——一种安全、可扩展且高效的内核隔离技术，能为无限数量的隔离域提供双向隔离能力。该技术利用英特尔新型硬件特性PKS将数据与代码隔离至互不信任的隔离域，并受益于其快速隔离域切换机制。基于不可信前提，BULKHEAD设计了轻量级内核监控器，可强制实施数据完整性、仅执行内存保护及隔离域接口完整性等多重关键安全不变性。此外，通过局部感知的双层架构设计，系统可扩展支持无限隔离域。我们在Linux v6.1上实现原型系统，对可加载内核模块(LKM)实施隔离。大量实验验证了该方案的有效性：在系统级影响方面，当160个LKM被隔离时，BULKHEAD对实际应用产生的平均性能开销仅为2.44%；针对特定隔离域的测试中，ipv6模块的ApacheBench测试显示开销低于2%。更重要的是，性能几乎不受隔离域数量影响，展现出卓越的可扩展性。</span></span></p><p cid="n74" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/bulkhead-secure-scalable-and-efficient-kernel-compartmentalization-with-pks/" target="_blank">https://www.ndss-symposium.org/ndss-paper/bulkhead-secure-scalable-and-efficient-kernel-compartmentalization-with-pks/</a></span></span></p><h3 cid="n75" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">21、Balancing Privacy and Data Utilization: A Comparative Vignette Study on User Acceptance of Data Trustees in Germany and the US</span></span></span></h3><h3 cid="n75" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n76" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在大数据、互联设备和日益普及的自我量化时代，尽管技术和立法持续努力，保护消费者隐私仍面临挑战。数据托管机构作为一种前景广阔的解决方案，旨在通过促进安全数据共享并确保个人控制权，在数据利用与隐私保护之间取得平衡。然而其成功实施取决于用户的接受度与信任程度。</span></span></p><p cid="n77" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们开展了一项基于情景模拟、具有人口普查代表性的大规模在线研究，考察影响医疗、汽车、物联网及在线数据领域数据托管机构接受度的因素。研究覆盖德国714名和美国1036名参与者，结果显示两国用户对数据托管机构的使用意愿存在显著差异，相当比例用户表现出明显怀疑或直接拒绝态度。</span></span></p><p cid="n78" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">研究还发现了重要的领域特异性差异，包括用户匿名性、感知到的个人与社会效益、以及数据接收方等因素的影响。与普遍认知相反，存储地点、运营机构及监管等组织与监管决策对用户选择的影响相对有限。</span></span></p><p cid="n79" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">结论表明，虽然数据托管机构存在潜在用户群体，但要实现广泛接受仍需制定明确且有针对性实施方案，以应对多样化的用户预期。我们的研究结果强调，必须深入理解这些细微差异，才能有效部署既符合监管要求又满足用户偏好，同时坚守最高安全与隐私标准的数据托管框架。</span></span></p><p cid="n80" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/balancing-privacy-and-data-utilization-a-comparative-vignette-study-on-user-acceptance-of-data-trustees-in-germany-and-the-us/" target="_blank">https://www.ndss-symposium.org/ndss-paper/balancing-privacy-and-data-utilization-a-comparative-vignette-study-on-user-acceptance-of-data-trustees-in-germany-and-the-us/</a></span></span></p><h3 cid="n81" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">22、Be Careful of What You Embed: Demystifying OLE Vulnerabilities</span></span></span></h3><h3 cid="n81" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n82" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Microsoft Office是一套功能全面的生产力工具套件，而对象链接与嵌入（OLE）作为一项技术规范，实现了跨应用程序多样化对象的链接与嵌入标准化。OLE不仅促进了数据交互，还优化了用户处理复合文档（例如Word文档中嵌入Excel表格）的体验。然而，OLE设计本身存在的安全缺陷带来了风险——其架构模糊了一方代码与第三方代码之间的信任边界，可能导致非预期的库加载和解析漏洞，进而被恶意攻击者利用。针对这一问题，本文提出了OLExplore这一创新工具，专用于Office OLE对象的安全评估。通过对历史OLE漏洞的深入分析，我们归纳出三大关键漏洞类型，并对其进行了动态分析与验证。在对多个Windows操作系统版本的评估中，我们发现了26个已确认漏洞，其中17个获得CVE编号且均具备远程代码执行能力。</span></span></p><p cid="n83" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/be-careful-of-what-you-embed-demystifying-ole-vulnerabilities/" target="_blank">https://www.ndss-symposium.org/ndss-paper/be-careful-of-what-you-embed-demystifying-ole-vulnerabilities/</a></span></span></p><h3 cid="n84" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">23、Beyond Classification: Inferring Function Names in Stripped Binaries via Domain Adapted LLMs</span></span></span></h3><h3 cid="n84" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n85" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在剥离符号的二进制文件中推断函数名称是许多安全应用（如恶意软件分析和漏洞发现）中一项重要但具有挑战性的任务，原因在于需要理解不同指令集、架构、编译器优化和混淆措施下的二进制代码语义。尽管机器学习在该领域取得了显著进展，但现有方法受限于基于有限词汇表的分类策略，往往难以应对未见数据。本文提出SymGen框架，该框架采用由领域自适应生成式大语言模型（LLMs）驱动的自回归生成范式，以增强二进制代码解析能力。我们在包含四种架构（x86-64、x86-32、ARM、MIPS）和四种优化级别（O0-O3）的2,237,915个二进制函数数据集上评估SymGen，其精确率、召回率和F1分数分别最高提升409.3%、553.5%和489.4%，显著超越现有最佳方法，展现出卓越的有效性和泛化能力。消融实验和案例研究进一步验证了我们设计（如领域自适应方法）带来的显著性能提升，并证明了SymGen在分析真实世界二进制文件（如混淆二进制文件和恶意软件可执行文件）时的实用性。</span></span></p><p cid="n86" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/beyond-classification-inferring-function-names-in-stripped-binaries-via-domain-adapted-llms/" target="_blank">https://www.ndss-symposium.org/ndss-paper/beyond-classification-inferring-function-names-in-stripped-binaries-via-domain-adapted-llms/</a></span></span></p><h3 cid="n87" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">24、BinEnhance: An Enhancement Framework Based on External Environment Semantics for Binary Code Search</span></span></span></h3><h3 cid="n87" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n88" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">二进制代码搜索在软件复用检测和漏洞识别等应用中起着至关重要的作用。当前现有模型通常基于内部代码语义，或结合函数调用图（CG）与内部代码语义构建。然而这些模型存在局限：仅考虑函数内部语义的模型会忽略函数间语义，难以处理函数内联等情况；而结合CG与内部语义的方法仍不足以应对复杂的现实场景。为突破这些限制，我们提出BINENHANCE框架，通过利用函数间语义来增强二进制代码搜索中内部代码语义的表达能力。具体而言，BINENHANCE构建了外部环境语义图（EESG），通过调用关系、位置关联、数据共现等不同函数间语义关系，为同源函数建立稳定且相似的外部环境。在EESG构建完成后，我们利用现有内部语义模型生成的嵌入向量初始化EESG节点，并设计语义增强模型（SEM），通过关系图卷积网络（RGCNs）和残差块学习EESG中有价值的外部语义，最终生成增强后的语义嵌入。此外，BinEnhance利用数据特征相似性优化语义嵌入的余弦相似度计算。我们在六种不同任务场景（如函数内联场景）下的实验表明，BINENHANCE兼具卓越性能与鲁棒性。将BinEnhance应用于HermesSim、Asm2vec、TREX、Gemini和Asteria模型后，在两个公开数据集上的平均精度均值（MAP）从53.6%提升至69.7%，效率提升达四倍。</span></span></p><p cid="n89" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/binenhance-an-enhancement-framework-based-on-external-environment-semantics-for-binary-code-search/" target="_blank">https://www.ndss-symposium.org/ndss-paper/binenhance-an-enhancement-framework-based-on-external-environment-semantics-for-binary-code-search/</a></span></span></p><h3 cid="n90" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">25、BitShield: Defending Against Bit-Flip Attacks on DNN Executables</span></span></span></h3><h3 cid="n90" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n91" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近期研究表明，位翻转攻击（BFA，如利用Rowhammer技术）对深度神经网络（DNN）的危害性与普遍性。此类攻击可操纵DNN预测结果并彻底破坏模型智能，其攻击对象既包括PyTorch等深度学习框架运行的DNN模型，也涵盖DL编译器生成的独立可执行文件。现有防御方案虽能保护框架中的模型，但我们发现其无法抵御针对DNN可执行文件的新型攻击路径。本文首次提出针对DNN可执行文件的BFA防御方案。我们首先通过动机研究揭示DNN可执行文件的脆弱性及独特攻击面：攻击者可通过篡改</span></span><span md-inline="code" spellcheck="false" style="box-sizing: border-box;"><code style="box-sizing: border-box;"><span leaf="">.text</span></code></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">区段比特位改变计算逻辑从而操控预测结果，而既有权重保护机制在可执行文件中也易被绕过。基于此，我们提出BitShield——首个能同时防护数据段与</span></span><span md-inline="code" spellcheck="false" style="box-sizing: border-box;"><code style="box-sizing: border-box;"><span leaf="">.text</span></code></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">区段的全方位防御系统。创新性地将BFA建模为语义破坏过程，BitShield通过语义完整性检查实现防护。通过将代码校验例程深度融入DNN语义，该系统对自身防护机制的攻击也具有强鲁棒性。BitShield已集成至主流DL编译器（Amazon TVM），兼容所有编译优化流程。与现有方案不同，BitShield专为保护更脆弱的全精度DNN设计，且不预设攻击方法，具有高度普适性。该系统还能主动检测攻击行为，而非被动加固模型。实验表明，BitShield在完全白盒的强敌场景下仍能提供高效防护（平均缓解率97.51%），性能开销仅2.47%。</span></span></p><p cid="n92" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/bitshield-defending-against-bit-flip-attacks-on-dnn-executables/" target="_blank">https://www.ndss-symposium.org/ndss-paper/bitshield-defending-against-bit-flip-attacks-on-dnn-executables/</a></span></span></p><h3 cid="n93" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">26、Black-box Membership Inference Attacks against Fine-tuned Diffusion Models</span></span></span></h3><h3 cid="n93" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n94" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着基于扩散模型的图像生成技术快速发展，生成图像的质量已趋近于真实照片级别。与此同时，高质量预训练图像生成模型的公开发布，促使越来越多的用户下载这些预训练模型，并利用下游数据集进行微调以完成各类图像生成任务。然而，在下游任务中使用此类强大的预训练模型会带来严重的隐私泄露风险。本文首次提出针对最新扩散模型的基于分数的成员推理攻击框架，并在更严格的黑盒访问设置下展开研究。该框架涵盖四种不同攻击场景和三类攻击方式，能够针对任何主流条件生成器模型实现高精度攻击，其卓越性能通过0.95的AUC值得到验证。</span></span></p><p cid="n95" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/black-box-membership-inference-attacks-against-fine-tuned-diffusion-models/" target="_blank">https://www.ndss-symposium.org/ndss-paper/black-box-membership-inference-attacks-against-fine-tuned-diffusion-models/</a></span></span></p><h3 cid="n96" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">27、Blackbox Fuzzing of Distributed Systems with Multi-Dimensional Inputs and Symmetry-Based Feedback Pruning</span></span></span></h3><h3 cid="n96" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n97" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出DistFuzz——据我们所知，这是首个面向分布式系统的反馈引导式黑盒模糊测试框架。DistFuzz的创新性源于对分布式系统模糊测试两个关键环节的概念性贡献：输入空间与反馈指标。具体而言，区别于先前专注于系统化变异故障的研究，DistFuzz通过利用分布式系统请求驱动与时序依赖的特性，构建了包含常规事件和事件间相对时序的多维输入空间。更重要的是，通过观察分布式系统中节点间网络消息可表征重要状态变化的特性，DistFuzz采用基于对称性剪枝的网络消息序列作为程序反馈，突破了&#34;有效反馈必须依赖代码插桩/分析或用户输入&#34;的传统认知。实验表明，DistFuzz在C/C++、Go和Java编写的十款主流分布式系统中发现了52个真实漏洞，其中28个获开发者确认，20个为未知漏洞，4个被分配了CVE编号。</span></span></p><p cid="n98" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/blackbox-fuzzing-of-distributed-systems-with-multi-dimensional-inputs-and-symmetry-based-feedback-pruning/" target="_blank">https://www.ndss-symposium.org/ndss-paper/blackbox-fuzzing-of-distributed-systems-with-multi-dimensional-inputs-and-symmetry-based-feedback-pruning/</a></span></span></p><h3 cid="n99" mdtype="heading" style="box-sizing: border-box;text-align: left;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">28、Blindfold: Confidential Memory Management by Untrusted Operating System</span></span></span></h3><h3 cid="n99" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n100" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，机密计算（Confidential Computing，CC）作为一种保护用户数据免受不可信操作系统（OS）侵害的机制受到广泛关注。现有CC方案通过向OS隐藏或加密机密内存来实现保密性，但这会导致OS内存优化功能失效，或使优化所需的可信计算基（TCB）变得复杂。本文提出突破这些限制的研究成果，并整合为名为Blindfold的CC设计方案。与其他CC方案类似，Blindfold依赖运行在更高特权级的小型可信软件组件Guardian，其具备三项可增强现有CC方案的技术：首先，Blindfold的Guardian通过切换页表和中断表来仲裁OS内存访问及异常处理，而非采用嵌套页表；其次，采用轻量级权能系统统一规范OS对用户内存的语义访问，整合了先前工作中的个案处理方法；最后，通过精心设计的安全ABI实现无需加密的机密内存管理。我们在ARMv8-A/Linux平台上实现了Blindfold原型系统，评估了由不可信Linux内核管理机密内存的开销。实验表明Blindfold的运行时TCB小于同类系统且性能具有竞争力。更重要的是，Linux内核（除内存压缩外所有内存优化功能）可正常运作于机密内存环境，仅需约400行内核代码修改。</span></span></p><p cid="n101" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/blindfold-confidential-memory-management-by-untrusted-operating-system/" target="_blank">https://www.ndss-symposium.org/ndss-paper/blindfold-confidential-memory-management-by-untrusted-operating-system/</a></span></span></p><h3 cid="n102" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">29、BumbleBee: Secure Two-party Inference Framework for Large Transformers</span></span></span></h3><h3 cid="n102" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n103" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于大型Transformer的模型在自然语言处理和计算机视觉等众多现实任务中实现了最先进的性能。然而，随着处理数据和任务敏感度的提升，隐私问题已成为模型部署过程中的关键挑战。</span></span></p><p cid="n104" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本研究聚焦于两方参与的隐私推理场景，其中一方持有私有输入数据，另一方持有模型参数。我们提出了BumbleBee——一个高效且通信友好的两方Transformer隐私推理系统，主要贡献包含三个方面：</span></span></p><p cid="n105" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">首先，我们设计了优化的矩阵乘法协议，与现有技术相比可降低80%-90%的通信开销。其次，我们开发了针对Transformer模型中非线性激活函数的高效协议构造方法。所提出的激活协议处理速度显著提升，与两种现有方法相比通信成本降低80%-95%。最后，我们在五种Transformer模型上进行了全面基准测试。</span></span></p><p cid="n106" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">BumbleBee在LLaMA-7B模型评估中展现出强大性能，使用CPU生成单个token仅需约8分钟。实验结果表明：该系统性能比NeurIPS22提出的Iron提升超过一个数量级，通信量仅为Oakland24所提BOLT方案的十分之一，而速度达到其三倍。</span></span></p><p cid="n107" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/bumblebee-secure-two-party-inference-framework-for-large-transformers/" target="_blank">https://www.ndss-symposium.org/ndss-paper/bumblebee-secure-two-party-inference-framework-for-large-transformers/</a></span></span></p><h3 cid="n108" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">30、CASPR: Context-Aware Security Policy Recommendation</span></span></span></h3><h3 cid="n108" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n109" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">当前，SELinux已被广泛用于提供灵活的强制访问控制，而安全策略对维护操作系统安全至关重要。严格来说，所有访问请求都必须受适当策略规则约束以满足软件或应用程序的功能需求。然而，手动配置安全策略规则是一项易出错且耗时的任务，通常需要专业知识。由于策略规则数量庞大且语义复杂，如何有效推荐无异常的策略规则成为一项挑战性任务。现有研究多从策略中挖掘信息来推荐规则，但无法适用于尚未定义任何规则的新类型。</span></span></p><p cid="n110" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出一种上下文感知的安全策略推荐方法（CASPR），可自动分析与优化安全策略规则。该方法整合策略规则、文件路径、审计日志及属性信息等多维度上下文特征，通过提取特征计算权限集相似度，基于K-means模型对类型进行聚类并自动推荐规则。该方法能自动检测策略中的三类异常：约束冲突、策略不一致和权限不完整，并对异常策略进行优化以确保授权规则有效执行。</span></span></p><p cid="n111" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">实验结果表明，该方法能为不同版本策略推荐有效规则。通过SHAP值计算验证了聚类效果，并量化了各上下文特征的贡献度。相比现有模型，CASPR不仅能基于上下文信息为新定义类型推荐规则，还提升了既有类型策略推荐的准确性，其规则推荐平均准确率达91.582%，F1值达93.761%。此外，该方法可自动检测并修复三类策略异常。我们在多个操作系统中验证了CASPR的普适性。该研究对安全策略推荐具有重要价值，为策略分析提供了具有巨大潜力的新方法。</span></span></p><p cid="n112" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/caspr-context-aware-security-policy-recommendation/" target="_blank">https://www.ndss-symposium.org/ndss-paper/caspr-context-aware-security-policy-recommendation/</a></span></span></p><h3 cid="n113" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">31、CCTAG: Configurable and Combinable Tagged Architecture</span></span></span></h3><h3 cid="n113" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n114" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">内存安全违规是现实程序中的重大隐患，催生了多种防护技术的开发。然而现有低成本防御方案保护能力有限，可能被复杂攻击绕过，迫使开发者组合多种防御机制。不幸的是，这种组合往往导致性能下降和兼容性问题。</span></span></p><p cid="n115" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们提出CCTAG——一种轻量级架构，可简化基于标签的多样化防御机制集成。该架构通过可配置的标签验证与修改规则构建多种安全策略，为防御应用提供基础保护原语。其以策略为中心的掩码设计增强了灵活性并避免冲突，使多种防御机制能并行运行。我们在FPGA板上实现的RISC-V原型显示，CCTAG仅带来极小的硬件开销（LUT增加6.77%，FF增加8.02%）。当组合包含返回地址保护、代码指针/虚表指针完整性校验及内存着色等防护措施时，SPEC CPU CINT2006和CINT2017基准测试分别仅产生4.71%和7.93%的运行时开销。针对涵盖主要内存安全漏洞的CVE及多种利用技术的安全评估证实，CCTAG能有效缓解现实威胁。</span></span></p><p cid="n116" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/cctag-configurable-and-combinable-tagged-architecture/" target="_blank">https://www.ndss-symposium.org/ndss-paper/cctag-configurable-and-combinable-tagged-architecture/</a></span></span></p><h3 cid="n117" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">32、CENSOR: Defense Against Gradient Inversion via Orthogonal Subspace Bayesian Sampling</span></span></span></h3><h3 cid="n117" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n118" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">联邦学习通过在全局服务器上协作训练神经网络，各本地客户端接收当前全局模型权重，并基于其本地私有数据返回参数更新（梯度）。  </span></span></p><p cid="n119" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">传输这些模型更新的过程可能泄露客户端的私有数据信息。现有梯度反演攻击可利用此漏洞从客户端的梯度向量中恢复私有训练样本。近期研究者提出的先进梯度反演技术，使得现有防御方案难以有效应对。  </span></span></p><p cid="n120" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出一种专为大型神经网络模型设计的新型防御方法。该防御利用模型参数的高维特性，在原始梯度的</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">正交子空间</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">内对梯度进行扰动。通过基于正交子空间的冷后验分布，我们的防御实现了精细化梯度更新机制。该机制能够选择最优梯度，既能抵御梯度反演攻击，又可保持模型效用。  </span></span></p><p cid="n121" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们在三个不同数据集上开展全面实验，并针对多种前沿攻击与防御方案评估本方法的有效性。</span></span></p><p cid="n122" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/censor-defense-against-gradient-inversion-via-orthogonal-subspace-bayesian-sampling/" target="_blank">https://www.ndss-symposium.org/ndss-paper/censor-defense-against-gradient-inversion-via-orthogonal-subspace-bayesian-sampling/</a></span></span></p><h3 cid="n123" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">33、CHAOS: Exploiting Station Time Synchronization in 802.11 Networks</span></span></span></h3><h3 cid="n123" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n124" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">许多地点，尤其是城市区域，普遍存在密集的WiFi通信流量。除数据流量外，WiFi站点每秒在单个小范围内发送的管理与控制帧就可能超过数百个。这类WiFi环境为数据隐蔽传输提供了可能——可将信息藏匿于正常通信固有的噪声成分中。</span></span></p><p cid="n125" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文揭示了如何利用WiFi的时间同步功能（TSF）这一特定特性，构建一个高效且鲁棒的隐蔽信号传输通道。我们的方法基于一个关键发现：WiFi站点的时间同步始终存在某种程度的固有偏差。</span></span></p><p cid="n126" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们提出CHAOS——一种利用标准WiFi硬件在信标帧中嵌入秘密数据的新型隐蔽信道策略。该技术通过双重方式利用WiFi的固有噪声特性：首先，通过信标帧的乱序排列承载信息（信标帧本身不存在固有或强制性的顺序要求）；其次，利用管理帧头部的TSF时间戳构建时序信道，通过模拟真实基站的时间偏差特性进行数据编码，使隐蔽帧的统计特征与正常帧无异。CHAOS可通过参数调节实现传输速率、信道稳定性与丢帧率的动态平衡，采用推荐配置时可实现520比特/秒的稳定广播。我们还论证了TSF技术的深层利用潜力，并勾勒出通过相关性攻击实现客户端与基站映射的方法。</span></span></p><p cid="n127" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/chaos-exploiting-station-time-synchronization-in-802-11-networks/" target="_blank">https://www.ndss-symposium.org/ndss-paper/chaos-exploiting-station-time-synchronization-in-802-11-networks/</a></span></span></p><h3 cid="n128" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">34、CLIBE: Detecting Dynamic Backdoors in Transformer-based NLP Models</span></span></span></h3><h3 cid="n128" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n129" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">后门可被植入自然语言处理（NLP）模型中，当输入文本包含特定特征（即攻击者秘密选定的触发器）时诱导模型产生异常行为。与文本中使用的固定标记、词语、短语或句子等静态文本触发器不同，针对NLP模型的动态后门攻击设计了与抽象潜在文本特征（如风格）相关联的触发器，使其隐蔽性远超传统静态后门攻击。然而现有NLP后门检测研究主要集中于防御静态后门攻击，针对动态后门的检测研究仍属空白。  </span></span></p><p cid="n130" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出CLIBE——首个检测基于Transformer的NLP模型中动态后门的框架。其核心在于通过优化注意力层的权重扰动，向可疑Transformer模型注入&#34;小样本扰动&#34;，使扰动后的模型将少量参考样本分类为目标标签。随后CLIBE利用该扰动方案的泛化能力，判定原始可疑模型是否含有动态后门。在三种先进NLP动态后门攻击、两种主流Transformer框架及四项真实分类任务上的大量实验，充分验证了CLIBE的有效性与普适性。我们还证明了CLIBE对多种自适应攻击的鲁棒性。进一步地，我们运用CLIBE检测Hugging Face平台49个热门Transformer模型，发现其中存在高概率动态后门的模型实例，已联系平台方并提供详细后门行为证据。此外，我们证明CLIBE可轻松扩展至检测被篡改后输出有害内容的文本生成模型（如GPT-Neo-1.3B）。据我们所知，CLIBE是首个无需触发器输入测试样本即可检测文本生成模型后门的框架。代码已开源：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/Raytsang123/CLIBE" target="_blank">https://github.com/Raytsang123/CLIBE</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n131" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/clibe-detecting-dynamic-backdoors-in-transformer-based-nlp-models/" target="_blank">https://www.ndss-symposium.org/ndss-paper/clibe-detecting-dynamic-backdoors-in-transformer-based-nlp-models/</a></span></span></p><h3 cid="n132" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">35、Careful About What App Promotion Ads Recommend! Detecting and Explaining Malware Promotion via App Promotion Graph</span></span></span></h3><h3 cid="n132" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n133" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在Android应用中，开发者频繁植入应用推广广告（即推广其他应用的广告）。然而由于广告内容审核不严，恶意开发者正将应用推广广告转化为新的恶意软件传播渠道。为检测通过此类广告传播的恶意软件，本文提出创新方法ADGPE，通过协同整合应用界面探索与图学习技术，实现自动化采集应用推广广告、识别广告推广的恶意软件，并解析恶意软件的推广机制。  </span></span></p><p cid="n134" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们对18,627条应用推广广告的评估揭示了该生态系统的重大风险：通过推广广告下载应用遭遇恶意软件的概率比Google Play商店高出数百倍。主流广告平台（如Google AdMob、Unity Ads和Applovin）正被恶意开发者滥用，用于传播多种恶意软件（包括激进广告软件、欺诈安全软件、木马程序和吸血软件）。我们的界面探索技术相较现有最优方案，能在相同时间内多发现24%的推广广告。我们还通过野外广告采集验证了该技术在地下经济调查中的应用价值。  </span></span></p><p cid="n135" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于发现的推广关联关系，我们的恶意软件检测模型F1分数提升5.17%，将现有最优技术的90.14%提升至95.31%。该模型还检测出28个初始被VirusTotal标记为良性、但六个月后被重新判定为恶意软件/潜在有害程序（PUA）的应用。通过路径推理模型，我们揭示出两种恶意软件推广机制：基于硬编码广告的定制化推广，以及通过广告服务器（如AdMob和Applovin）交互实现的广告库推广。这些发现揭示了应用推广广告的关键安全风险，并证明ADGPE通过动态程序分析与图学习的结合，能有效研究基于推广广告的恶意软件传播。</span></span></p><p cid="n136" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/careful-about-what-app-promotion-ads-recommend-detecting-and-explaining-malware-promotion-via-app-promotion-graph/" target="_blank">https://www.ndss-symposium.org/ndss-paper/careful-about-what-app-promotion-ads-recommend-detecting-and-explaining-malware-promotion-via-app-promotion-graph/</a></span></span></p><h3 cid="n137" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">36、Cascading Spy Sheets: Exploiting the Complexity of Modern CSS for Email and Browser Fingerprinting</span></span></span></h3><h3 cid="n137" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n138" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为防范用户追踪，注重隐私的浏览器（如Tor）和电子邮件应用通常禁用JavaScript，此举有效封堵了用户指纹识别的主要途径。然而最新研究表明，特定层叠样式表（CSS）功能仍可能导致隐私泄露。但CSS的完整指纹识别潜力尚未明晰，尤其在电子邮件等严格限制场景下的攻击可行性仍存疑。</span></span></p><p cid="n139" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文系统研究了CSS现代动态特性及其在无脚本指纹识别中的应用，可绕过多种前沿防护措施。我们提出基于模糊测试与模板化的三种创新技术，通过CSS容器查询、算术函数及复杂选择器的精妙差异，实现了对应用、操作系统及硬件配置的高精度推断。在浏览器场景中，我们成功区分了1176种浏览器-操作系统组合中的97.95%。该方法同样适用于电子邮件应用——21款测试的网页/桌面/移动端邮件应用中，有8款存在漏洞。这证明在HTML邮件的高度受限环境中仍可实现指纹识别，将追踪范围扩展至传统网页环境之外。</span></span></p><p cid="n140" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">针对当前及未来潜在的CSS追踪威胁，我们提出两项根除隐私泄露的防御机制：为浏览器设计预加载条件资源方案以消除特性依赖型泄露；针对电子邮件场景开发代理服务，在保持功能兼容性的同时确保隐私与邮件完整性。本研究为隐私保护领域贡献了新视角与解决方案，强调了对新兴追踪手段建立强效防御的重要性。</span></span></p><p cid="n141" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/cascading-spy-sheets-exploiting-the-complexity-of-modern-css-for-email-and-browser-fingerprinting/" target="_blank">https://www.ndss-symposium.org/ndss-paper/cascading-spy-sheets-exploiting-the-complexity-of-modern-css-for-email-and-browser-fingerprinting/</a></span></span></p><h3 cid="n142" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">37、Characterizing the Impact of Audio Deepfakes in the Presence of Cochlear Implant</span></span></span></h3><h3 cid="n142" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n143" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">人工耳蜗（CIs）使失聪或听力受损者能够使用电话、语音助手等音频设备。然而，日益复杂的合成音频（如深度伪造技术）的出现可能威胁这些用户。目前尚不清楚这一群体对此类攻击的易感性。本文首次研究了音频深度伪造对人工耳蜗用户的影响，探讨了在深度伪造检测器中模拟人工耳蜗音频的应用。基于实验结果，我们对35名人工耳蜗用户和87名听力正常者（HPs）开展用户研究，以分析两者对深度伪造音频感知的差异。研究表明，人工耳蜗用户与听力正常者类似，能够识别文本转语音生成的深度伪造音频，但对语音转换类深度伪造生成算法的识别表现显著较差，正确分类率仅为67%。我们还评估了基于人工耳蜗模拟音频训练的检测模型与真实用户表现的差异，并探究其能否有效替代人工耳蜗用户进行检测。本研究开创性地探索了对抗性音频与人工耳蜗用户的交叉领域，旨在识别并减轻这一弱势群体面临的安全威胁。</span></span></p><p cid="n144" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/characterizing-the-impact-of-audio-deepfakes-in-the-presence-of-cochlear-implant/" target="_blank">https://www.ndss-symposium.org/ndss-paper/characterizing-the-impact-of-audio-deepfakes-in-the-presence-of-cochlear-implant/</a></span></span></p><h3 cid="n145" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">38、Compiled Models, Built-In Exploits: Uncovering Pervasive Bit-Flip Attack Surfaces in DNN Executables</span></span></span></h3><h3 cid="n145" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n146" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近期研究表明，位翻转攻击（BFA）可通过DRAM Rowhammer漏洞操控深度神经网络（DNN）。针对PyTorch等深度学习框架运行的高级DNN模型，已有大量研究通过翻转模型权重中的比特位实现有效攻击，相关防御方案也相继提出。然而，当前DNN正越来越多地通过DL编译器生成可执行文件以利用硬件原语，这些可执行文件呈现出全新且独特的计算范式。我们发现现有研究未能准确捕捉和揭示DNN可执行文件面临的BFA攻击面。</span></span></p><p cid="n147" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为此，我们首次对DNN可执行文件开展系统性BFA研究，揭示了先前工作中被忽视或低估的新攻击面。具体而言，传统DL框架中的BFA仅能攻击模型权重，且假设攻击者完全掌握受害者模型权重（强白盒假设），这在实际中往往不成立，因为权重通常属于机密信息。与之相反，我们发现针对DNN可执行文件的BFA通过利用模型结构（通常存储于可执行代码中）即可实现高效攻击，仅需知晓（通常公开的）模型结构。重要的是，此类基于结构的BFA在DNN可执行文件中具有普遍性、可迁移性和更高危害性（例如单比特翻转即可成功攻击），且能绕过现有防御机制。</span></span></p><p cid="n148" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为真实展现新攻击面，我们假设攻击者不具备受害者模型权重知识（弱假设更符合实际），设计了自动化工具以高置信度（70% vs 基线2%）定位可执行文件中的脆弱比特位。在DDR4 DRAM上的实验表明，仅需平均1.4次翻转即可使受害者可执行文件（包括此前需要23倍翻转次数量化模型）的准确率完全退化至随机猜测水平。我们全面评估了16个DNN可执行文件，涵盖两大主流DL编译器对三个常用数据集训练的三种大规模DNN模型的编译结果。本研究呼吁未来DNN编译工具链必须整合安全机制。</span></span></p><p cid="n149" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/compiled-models-built-in-exploits-uncovering-pervasive-bit-flip-attack-surfaces-in-dnn-executables/" target="_blank">https://www.ndss-symposium.org/ndss-paper/compiled-models-built-in-exploits-uncovering-pervasive-bit-flip-attack-surfaces-in-dnn-executables/</a></span></span></p><h3 cid="n150" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">39、CounterSEVeillance: Performance-Counter Attacks on AMD SEV-SNP</span></span></span></h3><h3 cid="n150" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n151" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">机密虚拟机（VM）通过将虚拟机运行于可信执行环境（TEE）中，承诺提供更高的安全性。近期AMD服务器处理器通过SEV-SNP扩展支持机密虚拟机。SEV-SNP即便在共享托管环境中运行机密虚拟机，仍能为其提供完整性与机密性保障。</span></span></p><p cid="n152" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出CounterSEVeillance攻击——一种通过性能计数器数据泄露与秘密相关的控制流及操作数属性的新型侧信道攻击。该攻击首次利用SEV-SNP虚拟机中具有单指令分辨率的性能计数器侧信道泄漏，且可在完全修补的系统上实施。我们系统分析了SEV-SNP虚拟机的性能计数器事件，发现其中228个可能暴露给潜在恶意的虚拟机监控程序。CounterSEVeillance基于此分析，通过APIC中断结合页错误单步执行目标虚拟机，记录指令级分辨率的性能计数器轨迹。我们将攻击轨迹与二进制文件匹配，精确恢复所有秘密相关条件分支的结果并推断操作数属性。</span></span></p><p cid="n153" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">通过四项攻击案例研究，我们利用6个暴露的性能计数器展示了具体可被利用的泄漏：首先，从单次Mbed TLS签名过程中提取完整RSA-4096密钥（耗时不足8分钟）；其次，首次对AMD SEV-SNP虚拟机内的TOTP验证实施侧信道攻击，平均仅需31.1次猜测即可破解6位数TOTP；第三，演示从底层base32解码器泄漏TOTP派生密钥；最后构建明文校验预言机实施分割征服式攻击。研究表明：将整个虚拟机置于存在特权敌手的环境中，由于大量代码未针对该安全设置进行审查，反而扩大了攻击面。</span></span></p><p cid="n154" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/counterseveillance-performance-counter-attacks-on-amd-sev-snp/" target="_blank">https://www.ndss-symposium.org/ndss-paper/counterseveillance-performance-counter-attacks-on-amd-sev-snp/</a></span></span></p><h3 cid="n155" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">40、Cross-Origin Web Attacks via HTTP/2 Server Push and Signed HTTP Exchange</span></span></span></h3><h3 cid="n155" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n156" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文研究了HTTP/2服务器推送（server push）与签名HTTP交换（SXG）对同源策略（SOP）的安全影响。同源策略作为防止跨域攻击的基础性Web安全机制，其基于URI的传统严格同源判定标准被基于TLS证书中SubjectAlternativeName（SAN）列表的宽松HTTP/2授权机制所削弱。这种同源约束的弱化与无关域名共享证书的普遍现状相结合，形成了重大安全风险，使得攻击者可绕过SOP防护。我们提出两种新型攻击向量CrossPUSH和CrossSXG，使非路径攻击者能对共享证书内所有域名实施跨域攻击，包括任意跨站脚本（XSS）、Cookie操纵及恶意文件下载。实测表明这些威胁具有现实可行性且广泛存在：我们在Chrome、Edge等主流浏览器及微软等重要网站中发现漏洞。研究结果已向相关厂商负贵披露，并获得华为、百度、微软等企业的确认。</span></span></p><p cid="n157" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/cross-origin-web-attacks-via-http-2-server-push-and-signed-http-exchange/" target="_blank">https://www.ndss-symposium.org/ndss-paper/cross-origin-web-attacks-via-http-2-server-push-and-signed-http-exchange/</a></span></span></p><h3 cid="n158" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">41、Crosstalk-induced Side Channel Threats in Multi-Tenant NISQ Computers</span></span></span></h3><h3 cid="n158" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n159" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着量子计算的快速发展，其近期应用前景日益清晰。然而高昂的成本与量子资源利用率不足正推动访问模式从单用户向多用户转型。在多租户环境中，当多个用户共享同一台量子计算机时，保护用户机密性变得至关重要。量子计算机的多样化使用场景增加了敏感数据风险——某用户编码的信息可能被其他用户窃取，这使得数据完整性与机密性保护成为核心需求。</span></span></p><p cid="n160" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在快速演进的量子计算生态中，必须基于现实威胁模型假设来研究这些安全挑战：攻击者无需借助量子计算机物理接触权限或恶意云服务特权，即可发动实际攻击。</span></span></p><p cid="n161" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文首次在噪声中等规模量子（NISQ）设备上证明了串扰作为攻击载体的潜力——攻击者可利用多租户量子计算模型实施攻击。该侧信道攻击仅需极低且符合现实的攻击权限，其核心目标是识别受害方正在运行的量子算法。我们通过串扰特征推测受害电路中CNOT门的存在，进而利用基于图结构的学习模型对这些信息进行编码分类以识别目标量子算法。在336个基准电路上的评估表明，本攻击框架最高能以85.7%的准确率揭示受害方的量子算法。</span></span></p><p cid="n162" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/crosstalk-induced-side-channel-threats-in-multi-tenant-nisq-computers/" target="_blank">https://www.ndss-symposium.org/ndss-paper/crosstalk-induced-side-channel-threats-in-multi-tenant-nisq-computers/</a></span></span></p><h3 cid="n163" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">42、Ctrl+Alt+Deceive: Quantifying User Exposure to Online Scams</span></span></span></h3><h3 cid="n163" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n164" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">网络诈骗已成为互联网用户面临的首要威胁，仅2023年就在美国造成100亿美元损失。现有研究多聚焦特定诈骗类型，尚未有研究对不同诈骗类型进行系统比较。本研究首次对终端用户接触各类网络诈骗的情况展开分析，涵盖购物、金融、加密货币、博彩、交友、资金追回和招聘七种主流诈骗类型。为量化用户接触情况，我们通过某大型网络安全厂商的数百万台终端设备（含桌面端与移动端），对607K个诈骗域名进行了数月的访问监测。我们将诈骗域名按类型分类，分别统计各类诈骗的用户接触量、地域差异、域名存活周期及广告推广情况。  </span></span></p><p cid="n165" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">研究共检测到25.1M个IP地址访问了414K个诈骗域名。日均接触诈骗的设备达149K台，其中桌面设备101K台（占比0.8%），移动设备48K台（占比0.3%）。购物诈骗最为猖獗，累计接触IP达10.2M个；加密货币诈骗次之，接触IP为653K个。诈骗域名被系统捕获后的中位存活期为11天。在所有诈骗访问记录中，至少有9.2M次（13.3%）是通过广告链接跳转，这些广告主要（59%）发布于社交媒体平台，其中Facebook是最主要的推广渠道。</span></span></p><p cid="n166" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/ctrlaltdeceive-quantifying-user-exposure-to-online-scams/" target="_blank">https://www.ndss-symposium.org/ndss-paper/ctrlaltdeceive-quantifying-user-exposure-to-online-scams/</a></span></span></p><h3 cid="n167" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">43、DLBox: New Model Training Framework for Protecting Training Data</span></span></span></h3><h3 cid="n167" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n168" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">深度学习训练数据的共享引发了关于数据泄露的重大担忧，因为第三方AI开发者一旦获得数据便拥有完全控制权。当基于该数据训练的模型需返还给第三方开发者时（例如医疗初创企业使用租借的医院数据训练自有模型），问题会进一步恶化——恶意开发者能轻易通过模型泄露训练数据，因其可在两者间构建任意数据流（例如将原始训练数据直接编码至模型中，或通过隐蔽偏置使模型特征与训练数据趋同）。然而现有模型训练框架均未提供防护机制，导致不可信的AI开发者可无限制地实施数据泄露。</span></span></p><p cid="n169" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出新型模型训练框架DLBox，旨在最大限度消除不可信开发者引发的攻击途径。鉴于完全阻断通过模型的数据泄露不可行，DLBox的核心目标是仅允许良性模型训练，使非常规路径的数据泄露最小化。其关键洞见在于：模型训练本质是从数据集中学习共性模式的统计过程。基于此，DLBox制定了DGM-Rules规则集，用于判定开发者提交的模型训练代码是否良性。通过重构现有训练框架并引入机密计算技术，DLBox强制实施仅基于DGM-Rules的训练流程，从而严格限制不可信开发者仅能获取良性训练模型，彻底阻断其故意泄露数据的可能性。</span></span></p><p cid="n170" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们在PyTorch框架与AMD SEV-SNP平台上实现了DLBox原型系统。实验表明，该方案能有效消除重大攻击途径（成功防御数据编码、梯度反演等已知攻击），且仅引入极小性能开销。</span></span></p><p cid="n171" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/dlbox-new-model-training-framework-for-protecting-training-data/" target="_blank">https://www.ndss-symposium.org/ndss-paper/dlbox-new-model-training-framework-for-protecting-training-data/</a></span></span></p><h3 cid="n172" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">44、DShield: Defending against Backdoor Attacks on Graph Neural Networks via Discrepancy Learning</span></span></span></h3><h3 cid="n172" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n173" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">图神经网络（GNN）易受后门攻击影响，攻击者通过向原始图数据植入触发器可操纵模型预测结果。现有针对GNN的后门攻击主要针对节点分类任务，分为脏标签攻击和干净标签攻击两类。由于正常节点与受污染节点相互关联的特性，这类攻击防御面临严峻挑战。当前防御方案常被复杂触发器绕过，且过度依赖从其他领域（如图像数据中毒时的损失值骤降）移植的强假设条件，导致无法同时有效抵御两类攻击，存在较高安全风险。为此，我们提出DShield——一个基于差异学习机制的综合防御框架。通过分析攻击过程，我们发现两个关键现象：脏标签攻击会引发受污染节点语义信息偏移（</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">semantic drift</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">），而干净标签攻击会过度强化特定属性以实现恶意预测（</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">attribute over-emphasis</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">）。基于这些发现，DShield首先采用自监督学习框架构建不依赖被篡改标签的模型；继而通过对比自监督模型与后门模型的语义信息及属性重要性差异，精准识别并过滤受污染节点；最终利用净化后的节点训练鲁棒模型。我们在7个数据集、2种目标模型上对比了6种前沿防御方案对21种后门攻击的防护效果。实验表明DShield在保持正常节点性能（如Cora数据集82.15%准确率）的同时，能将攻击成功率从次优方案Prune的54.47%降至1.33%。源代码已开源：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://github.com/csyuhao/DShield" target="_blank">https://github.com/csyuhao/DShield</a></span></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。</span></span></p><p cid="n174" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/dshield-defending-against-backdoor-attacks-on-graph-neural-networks-via-discrepancy-learning/" target="_blank">https://www.ndss-symposium.org/ndss-paper/dshield-defending-against-backdoor-attacks-on-graph-neural-networks-via-discrepancy-learning/</a></span></span></p><h3 cid="n175" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">45、DUMPLING: Fine-grained Differential JavaScript Engine Fuzzing</span></span></span></h3><h3 cid="n175" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n176" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">网络浏览器无处不在，它们执行不受信任的JavaScript（JS）代码。JS引擎通过即时（JIT）编译对频繁执行的代码进行优化。优化过程中微妙的假设冲突常导致JS引擎漏洞。攻击者可利用这些矛盾假设，结合JS的灵活性构造漏洞利用程序，引发计算错误、移除JIT编译代码中的边界检查，最终实现任意代码执行。传统JS引擎模糊测试方法仅在引擎崩溃或运行时断言失败时才能检测漏洞。差分模糊测试则通过对比解释执行代码与优化后的JIT编译代码来发现执行差异。近期研究采用临时JS函数探测程序执行状态，通过运行时读取变量值实现检测。但这些方法检测执行差异的能力有限，且会抑制JIT编译优化，导致JS引擎测试覆盖不足。</span></span></p><p cid="n177" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们提出差分模糊测试工具DUMPLING，可对比任意JS程序在优化与非优化状态下的完整执行状态。不同于对JS输入插桩的传统方法，DUMPLING直接对JS引擎插桩，实现深度精准的内省。这些细粒度执行状态（称为帧转储）能以高频率提取，甚至在JIT编译函数执行过程中亦可获取。DUMPLING在久经测试的V8引擎中发现8个新漏洞，而现有差分测试方法难以发现新漏洞。我们因报告DUMPLING发现的漏洞获得谷歌漏洞奖励计划11,000美元奖金。</span></span></p><p cid="n178" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/dumpling-fine-grained-differential-javascript-engine-fuzzing/" target="_blank">https://www.ndss-symposium.org/ndss-paper/dumpling-fine-grained-differential-javascript-engine-fuzzing/</a></span></span></p><h3 cid="n179" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">46、Deanonymizing Device Identities via Side-channel Attacks in Exclusive-use IoTs &amp; Mitigation</span></span></span></h3><h3 cid="n179" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n180" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">诸如蓝牙低功耗（BLE）和Wi-Fi等无线技术是物联网（IoT）的核心，它们无需物理连接即可实现设备间的无缝通信。然而，这种便利性伴随着代价——暴露的数据交换易受攻击者窥探，从而引发设备跟踪等严重的安全与隐私威胁。尽管协议设计者传统上依赖地址与身份随机化等策略作为防御手段，但我们的研究表明，由于专有无线通信中存在一个长期被忽视的根本性缺陷，此类攻击仍构成重大威胁。我们将</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">专有使用</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">定义为设备设计为仅向关联或配对设备提供功能的场景。这种关系固有的独特通信模式会形成一个可观测的布尔型侧信道，攻击者可利用该信道推断两台设备是否彼此&#34;信任&#34;。此类信息泄露会导致设备去匿名化，即使存在现代防御措施仍可实现跟踪。我们将这类跟踪攻击命名为</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">IDBleed</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">，并证明支持机密性、完整性与认证的BLE和Wi-Fi协议，由于专有通信模式的这一根本缺陷，依然面临去匿名化风险。最后，我们提出了一种通用型隐私保护缓解方案</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">匿名化层</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">，通过定量评估表明其在测试智能手机与PC上仅产生约2%的可忽略性能与功耗开销。</span></span></p><p cid="n181" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/deanonymizing-device-identities-via-side-channel-attacks-in-exclusive-use-iots-mitigation/" target="_blank">https://www.ndss-symposium.org/ndss-paper/deanonymizing-device-identities-via-side-channel-attacks-in-exclusive-use-iots-mitigation/</a></span></span></p><h3 cid="n182" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">47、Defending Against Membership Inference Attacks on Iteratively Pruned Deep Neural Networks</span></span></span></h3><h3 cid="n182" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n183" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">模型剪枝是一种用于压缩深度学习模型的技术，采用迭代方式进行剪枝能以更低的效用损失实现更好的压缩效果。然而我们的分析表明，迭代剪枝会显著增强模型记忆能力，使得剪枝后的模型更容易遭受成员推理攻击（MIAs）。遗憾的是，现有绝大多数针对MIAs的防御方案都是为原始未剪枝模型设计的。本文提出新框架WeMem，用于在迭代剪枝过程中削弱模型记忆。具体而言，我们通过分析发现导致迭代剪枝中记忆增强的两个关键因素——数据复用和固有记忆性。我们分别考察这两个因素的独立及联合影响，形成导致迭代剪枝模型记忆增强的三种场景，并基于这些因素的特征设计了三种防御原语。通过组合这些原语，我们针对每种场景提出了有效削弱记忆的方法。在十种自适应MIAs下的综合实验验证了所提防御方案的有效性。此外，我们的防御方案在隐私-效用权衡和效率方面优于五种现有防御方案。我们还对防御方案进行了增强，使其能自动调整设置以获得最佳防御效果，从而提升其实用性。</span></span></p><p cid="n184" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/defending-against-membership-inference-attacks-on-iteratively-pruned-deep-neural-networks/" target="_blank">https://www.ndss-symposium.org/ndss-paper/defending-against-membership-inference-attacks-on-iteratively-pruned-deep-neural-networks/</a></span></span></p><h3 cid="n185" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">48、Delay-allowed Differentially Private Data Stream Release</span></span></span></h3><h3 cid="n185" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n186" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">涉及差分隐私数据流发布任务的研究历来以实时场景为核心。然而，并非所有数据流本质上都需要实时发布，且实际环境中受网络延迟和处理能力限制，实现实时发布具有挑战性。我们深入探究了在流发布中引入延迟时间的优势。聚焦于事件级隐私设置，发现引入延迟能突破现有方法的局限性，从而为提升准确性释放巨大潜力。</span></span></p><p cid="n187" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于这些发现，我们开发了支持延迟的数据流发布框架。利用数据相似性和相对顺序特征，设计出分组优化和顺序优化两种策略，有效降低噪声添加量并优化噪声数据的后处理。此外，我们提出创新的敏感度截断机制，进一步显著减少引入的噪声量。在长度为18,319的数据流上的全面实验表明：当允许10个时间戳的延迟时，所提方法相比基线方案可实现高达30倍的精度提升。</span></span></p><p cid="n188" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">代码已开源。</span></span></p><p cid="n189" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/delay-allowed-differentially-private-data-stream-release/" target="_blank">https://www.ndss-symposium.org/ndss-paper/delay-allowed-differentially-private-data-stream-release/</a></span></span></p><h3 cid="n190" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">49、Density Boosts Everything: A One-stop Strategy for Improving Performance, Robustness, and Sustainability of Malware Detectors</span></span></span></h3><h3 cid="n190" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n191" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在当今网络安全领域，AI驱动的检测器已成为恶意软件检测的关键工具。然而，现有AI检测器面临诸多挑战，包括投毒攻击、逃逸攻击和概念漂移，这些挑战源于AI方法固有的特性。尽管已有大量解决方案被提出以应对这些问题，但它们往往聚焦于孤立问题，忽视了其对恶意软件检测其他方面的广泛影响。</span></span></p><p cid="n192" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文突破传统思路，不针对单一问题，而是识别出这些挑战的根本诱因之一——稀疏性。稀疏性指某些特征值出现频率极低，在整个数据集中仅呈现极少次数的现象。作者首次强调了稀疏性的重要性，并将其与恶意软件检测领域的核心挑战相关联，进而通过解决稀疏性问题，力求同步提升检测性能、鲁棒性和可持续性。为应对稀疏性问题，本研究设计了一种新型压缩技术以有效缓解稀疏状况，同时提出密度增强训练方法持续填充稀疏区域。实证结果表明，所提方案不仅成功增强了模型对抗多种攻击的韧性，还实现了性能与长期可持续性的双重提升。此外，这些方案与现有防御技术具有互补性，成功构建出兼具更高检测性能和抗攻击能力的实用分类器。</span></span></p><p cid="n193" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/density-boosts-everything-a-one-stop-strategy-for-improving-performance-robustness-and-sustainability-of-malware-detectors/" target="_blank">https://www.ndss-symposium.org/ndss-paper/density-boosts-everything-a-one-stop-strategy-for-improving-performance-robustness-and-sustainability-of-malware-detectors/</a></span></span></p><h3 cid="n194" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">50、Detecting IMSI-Catchers by Characterizing Identity Exposing Messages in Cellular Traffic</span></span></span></h3><h3 cid="n194" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n195" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">国际移动用户识别码（IMSI）捕捉器使得非蜂窝网络供应商的第三方能够秘密追踪移动设备用户。尽管研究界已开发出多种工具应对此问题，但现有解决方案主要依赖关联行为分析，因而存在大量误判。本文提出一种基于通信标准的方法论，聚焦于IMSI捕捉器必须使用的强制设备提供永久标识符的文本消息——即通过因果性特征而非相关性特征进行检测。我们系统性地分析了可能导致IMSI暴露的通信流程（其中大部分尚未被研究界关注），识别出53种可用于攻击的通信消息。随后在两大洲开展测量研究，量化正常通信中这些消息的使用比例。基于这些基准数据，我们对比开源IMSI捕捉器实现方案，并在一个备受媒体关注的大型活动中观测到异常通信行为。分析结果强烈表明该公开活动中存在IMSI捕捉器（p值&lt;&lt;0.005），成为首篇通过统计学显著性验证其发现的学术文献。</span></span></p><p cid="n196" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/detecting-imsi-catchers-by-characterizing-identity-exposing-messages-in-cellular-traffic/" target="_blank">https://www.ndss-symposium.org/ndss-paper/detecting-imsi-catchers-by-characterizing-identity-exposing-messages-in-cellular-traffic/</a></span></span></p><h3 cid="n197" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">51、Detecting Ransomware Despite I/O Overhead: A Practical Multi-Staged Approach</span></span></span></h3><h3 cid="n197" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n198" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">勒索软件攻击已成为企业和家庭用户最为恐惧的网络攻击之一。由于攻击手段不断升级，采用高级钓鱼攻击和零日漏洞利用，从新手用户到专家均面临风险。因此，大量研究聚焦于预防和检测勒索软件攻击，其中实时监控I/O活动是最主流的检测方法。这些方法的共同点在于将代码注入操作系统I/O栈的执行过程中——而I/O栈本身是日益优化的系统。然而，这些方法似乎未考虑此类机制集成对系统性能的影响，或仅针对慢速存储介质（如机械硬盘）进行评估。</span></span></p><p cid="n199" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文分析了Windows和Linux系统中监控不同I/O操作特征对性能的影响。研究发现，即便是缓冲区熵等简单特征，也可能使执行时间增加350%，并导致SSD性能下降高达75%。为缓解性能损耗，我们提出根据进程行为实时动态调整监控特征数量。为此，我们设计并实现了一个多阶段入侵检测系统（IDS），通过在不同监控特征的阶段间动态迁移进程来调整开销。将看似无害的进程迁移至特征较少、开销较低的阶段，同时将可疑进程迁移至特征更全面的阶段以验证威胁，可大幅降低系统执行I/O操作的平均时间。</span></span></p><p cid="n200" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们通过结合公开数据集的真实I/O行为与实测操作数据评估方案有效性，发现多阶段设计能在保持传统单阶段方案检测精度的同时，将I/O操作开销降低一个数量级。这一成果使得勒索软件检测的实时行为监控技术，尽管存在固有开销，仍具备实际可行性。</span></span></p><p cid="n201" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/detecting-ransomware-despite-i-o-overhead-a-practical-multi-staged-approach/" target="_blank">https://www.ndss-symposium.org/ndss-paper/detecting-ransomware-despite-i-o-overhead-a-practical-multi-staged-approach/</a></span></span></p><h3 cid="n202" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">52、DiStefano: Decentralized Infrastructure for Sharing Trusted Encrypted Facts and Nothing More</span></span></span></h3><h3 cid="n202" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n203" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们设计了DiStefano：一种高效、具备恶意安全性的框架，用于在TLS加密网络流量上生成私有承诺，供指定第三方验证。相较于先前的TLS承诺系统，DiStefano实现了多项改进，包括：专为TLS 1.3设计的模块化协议、支持对加密数据的任意可验证声明、客户端在预授权TLS服务器间的浏览历史隐私保护，以及多种优化措施确保TLS 1.3会话的快速在线性能。我们基于BoringSSL密码学库（被Chromium系浏览器采用）构建了宽松开源的DiStefano实现。实验表明，DiStefano在局域网和广域网环境下均能高效处理任意TLS流量的事实承诺，完整在线协议阶段执行时间&lt;1秒且传输量≤80 KiB。</span></span></p><p cid="n204" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/distefano-decentralized-infrastructure-for-sharing-trusted-encrypted-facts-and-nothing-more/" target="_blank">https://www.ndss-symposium.org/ndss-paper/distefano-decentralized-infrastructure-for-sharing-trusted-encrypted-facts-and-nothing-more/</a></span></span></p><h3 cid="n205" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">53、Diffence: Fencing Membership Privacy With Diffusion Models</span></span></span></h3><h3 cid="n205" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n206" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">深度学习模型虽然在各类任务中表现卓越，却易受成员推断攻击（MIA）的影响——攻击者能据此判断特定数据点是否属于模型的训练集。这种脆弱性引发了严重的隐私担忧，尤其在模型使用敏感数据训练时。尽管已有多种防御方案，但隐私保护与模型效用的平衡仍有显著提升空间。本文提出一种基于生成模型的新型MIA防御框架。我们的核心思路是通过在输入样本进入目标模型前对其重新生成，</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">消除成员数据与非成员数据间的差异</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">（这正是MIA所利用的关键特征）。因此，这种名为Diffence的防御机制工作在</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">推理前阶段</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">，区别于现有方案（或修改模型结构，或调整模型输出）。Diffence的独特之处在于仅处理输入样本，无需改动目标模型的训练或推理流程，因而可</span></span><span md-inline="em" style="box-sizing: border-box;"><em style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">与其他防御机制级联使用</span></span></em></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">（实验已验证）。该方案专门设计用于保持模型对每个样本的预测标签不变，从而不影响准确率。实证研究表明，其亦不会降低置信度向量的实用性。大量实验证明，Diffence可作为强健的即插即用防御方案，在标准场景及已有防御方案中均能提升成员隐私保护效果，且不损害模型效用（包括准确率与置信度向量价值）。例如，在三个数据集上，Diffence平均使未防御模型的MIA攻击准确率降低15.8%，攻击AUC下降14.0%，且完全不影响模型效用。当与现有最佳防御方案SELENA结合时，攻击准确率进一步降低9.3%，攻击AUC下降10.0%，实现了隐私-效用权衡的新标杆。Diffence仅带来微不足道的计算开销，平均每样本处理时间仅增加57毫秒。</span></span></p><p cid="n207" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/diffence-fencing-membership-privacy-with-diffusion-models/" target="_blank">https://www.ndss-symposium.org/ndss-paper/diffence-fencing-membership-privacy-with-diffusion-models/</a></span></span></p><h3 cid="n208" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">54、Dissecting Payload-based Transaction Phishing on Ethereum</span></span></span></h3><h3 cid="n208" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n209" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">近年来，以太坊上出现了一种超越早期简单交易钓鱼的高级网络钓鱼形式。我们将这种新型威胁称为基于有效载荷的交易钓鱼（PTXPHISH），其通过执行恶意载荷操控智能合约交互来诱骗用户。根据2023年报告，PTXPHISH已快速演变为重大安全威胁，导致损失超过7000万美元。尽管影响巨大，此前尚未有研究系统性地探讨这一现象。</span></span></p><p cid="n210" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文首次对以太坊PTXPHISH开展全面研究。首先通过长期数据收集构建了首个真实PTXPHISH数据集，包含5000笔钓鱼交易。基于该数据集，我们将钓鱼手法归纳为4大类11个子类。其次提出基于规则的多维度检测方法，实现F1值超99%，平均每区块处理耗时390毫秒。最终开展为期300天的大规模检测，共发现130,637笔钓鱼交易，造成损失超3.419亿美元。深入分析揭示了重要发现：诈骗者日均消耗13.4 ETH（占以太坊总gas费的12.5%）实施地址投毒；同时追踪到钓鱼资金变现规律，前五大钓鱼组织造成了总损失的40.7%。</span></span></p><p cid="n211" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本研究成果在实际威胁治理方面成效显著：向社区上报1726个钓鱼地址（占同期社区总举报量的42.7%），发送2539条链上预警消息协助1980名受害者。该研究为应对新兴PTXPHISH威胁、保障用户资产安全提供了重要参考。</span></span></p><p cid="n212" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/dissecting-payload-based-transaction-phishing-on-ethereum/" target="_blank">https://www.ndss-symposium.org/ndss-paper/dissecting-payload-based-transaction-phishing-on-ethereum/</a></span></span></p><h3 cid="n213" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">55、Distributed Function Secret Sharing and Applications</span></span></span></h3><h3 cid="n213" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n214" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">函数秘密共享（FSS）已成为安全计算领域的关键密码学工具，能以恒定交互轮数实现卓越的在线效率。然而现有FSS方案依赖可信第三方生成密钥，既损害安全性又影响实际部署。本文针对基于FSS的分布式点函数和分布式比较函数，提出支持算术共享输入/输出的高效分布式密钥生成方案。我们进一步设计以在线效率为核心优化的关键FSS组件，作为高级协议的基础模块。最后针对科学计算中普遍存在的复杂三角函数，提出创新评估框架：利用三角函数的周期性特性，在FSS评估阶段缩减输入比特长度，从而缓解基于FSS协议的比特长度性能瓶颈。实际应用场景的大规模实验表明，相比最先进方案，我们的框架可实现高达14.73倍的延迟降低，通信开销减少幅度达27.67至184.42倍。</span></span></p><p cid="n215" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/distributed-function-secret-sharing-and-applications/" target="_blank">https://www.ndss-symposium.org/ndss-paper/distributed-function-secret-sharing-and-applications/</a></span></span></p><h3 cid="n216" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">56、Do (Not) Follow the White Rabbit: Challenging the Myth of Harmless Open Redirection</span></span></span></h3><h3 cid="n216" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n217" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">开放重定向是Web应用程序面临的最古老威胁之一，攻击者可利用网站的重定向机制将用户引导至恶意网站。随着任务处理向客户端转移的趋势，原本由服务端处理的重定向逻辑逐渐被基于JavaScript的重定向所替代，这为开放重定向带来了新的安全风险。本文通过聚焦客户端重定向机制，重新评估开放重定向漏洞的重要性——尽管这类漏洞影响深远，但由于长期被视为低危威胁，学术界对其研究严重不足。为填补这一空白，我们设计了动静结合的分析系统STORK，用于提取开放重定向漏洞特征指标。通过对Tranco排名前1万的网站进行大规模测量，我们在623个站点中发现20,800个开放重定向漏洞，并整理出184项漏洞特征指标库。随后利用这些指标对实时网页快照、谷歌搜索及互联网档案馆数据进行挖掘，额外发现326个存在漏洞的站点（包括Google WebLight和DoubleClick）。进而我们量化了实际环境中客户端开放重定向可能引发的更严重威胁：研究表明38%受影响站点中超过11.5%的漏洞可升级为XSS、CSRF及信息泄露等高危攻击，涉及Adobe、WebNovel、TP-Link和UDN等知名网站，这一发现令人警醒。最后，我们对现有防护措施的采用情况进行了全面评估。</span></span></p><p cid="n218" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/do-not-follow-the-white-rabbit-challenging-the-myth-of-harmless-open-redirection/" target="_blank">https://www.ndss-symposium.org/ndss-paper/do-not-follow-the-white-rabbit-challenging-the-myth-of-harmless-open-redirection/</a></span></span></p><h3 cid="n219" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">57、Do We Really Need to Design New Byzantine-robust Aggregation Rules?</span></span></span></h3><h3 cid="n219" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n220" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">联邦学习（FL）允许多个客户端通过服务器协作训练全局机器学习模型，而无需交换其私有训练数据。然而，FL的去中心化特性使其易受投毒攻击影响——恶意客户端可通过发送篡改的本地模型更新来操纵全局模型。为抵御此类攻击，学界已提出多种针对拜占庭故障设计的鲁棒聚合规则。但这些方法仍可能被复杂攻击攻破，或依赖于对服务器不切实际的假设。本文证明无需设计新的拜占庭鲁棒聚合规则，通过增强现有成熟规则的鲁棒性即可保障FL安全。为此，我们提出新型防御机制FoundationFL：服务器在接收客户端本地模型更新后生成合成更新，随后采用Trimmed-mean或Median等基础拜占庭鲁棒聚合规则将客户端更新与合成更新结合。我们从理论上证明了FoundationFL在拜占庭场景下的收敛性能。多个真实数据集的全面实验验证了该方法的有效性。</span></span></p><p cid="n221" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/do-we-really-need-to-design-new-byzantine-robust-aggregation-rules/" target="_blank">https://www.ndss-symposium.org/ndss-paper/do-we-really-need-to-design-new-byzantine-robust-aggregation-rules/</a></span></span></p><h3 cid="n222" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">58、Duumviri: Detecting Trackers and Mixed Trackers with a Breakage Detector</span></span></span></h3><h3 cid="n222" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n223" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">网络追踪行为危害用户隐私。为此，互联网用户普遍采用追踪器检测与拦截工具。然而这类工具无法做到完美，因此需要在避免功能破坏（由意外拦截必要功能组件导致）与遗漏追踪器拦截之间寻求平衡。现有最先进工具主要依赖用户报告和开发者人工排查故障，这些故障可归为两类：1) 将非追踪器误判为追踪器；2) 拦截混合型追踪器——即同时包含追踪与功能组件的资源。</span></span></p><p cid="n224" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们提出在追踪检测流程中集成基于机器学习的故障检测器，以自动规避对功能资源的误判。针对追踪检测和故障检测，我们创新性地采用差分特征技术，通过捕捉请求被拦截前后的差异实现更精准的判别。基于该理念，我们设计实现了原型系统Duumviri，首先针对非混合型追踪器进行验证，随后扩展应用于混合型追踪器的自动识别，在部分请求粒度上提取差分特征。</span></span></p><p cid="n225" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">针对非混合型追踪器的测试表明：在1.5万个网页的评估中，Duumviri能以97.44%的准确率复现人工维护的过滤列表EasyPrivacy的标注结果。经人工核验，该系统不仅能识别未报告的追踪器，其故障检测模块还能发现EasyPrivacy中导致功能破坏的过严规则。在混合型追踪器检测方面，Duumviri作为首个自动化解决方案，实现了74.19%的准确率下限。通过该系统，我们已发现并确认22个未报告独立追踪器和26个混合型追踪器。</span></span></p><p cid="n226" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/duumviri-detecting-trackers-and-mixed-trackers-with-a-breakage-detector/" target="_blank">https://www.ndss-symposium.org/ndss-paper/duumviri-detecting-trackers-and-mixed-trackers-with-a-breakage-detector/</a></span></span></p><h3 cid="n227" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">59、EAGLEYE: Exposing Hidden Web Interfaces in IoT Devices via Routing Analysis</span></span></span></h3><h3 cid="n227" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n228" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">隐藏式Web接口，即物联网设备中未公开的访问通道，会带来重大安全风险，近年来已引发多起严重攻击事件。然而对此类威胁的定义仍模糊不清，现有解决方案也鲜少能有效发现它们。由于其隐蔽特性，传统漏洞检测方案（如污点分析、模糊测试）难以对其进行检测。本文提出创新解决方案EAGLEYE，可自动暴露物联网设备中的隐藏Web接口。通过分析对公开接口的输入请求，我们首先识别请求中的路由令牌——即被固件代码（路由机制）引用并作为索引值（如操作指令或文件名）来查找关联处理函数的数据。随后利用现代大语言模型分析这些路由令牌的上下文语境，归纳其通用模式，进而推断这些令牌的其他候选值（如其他操作指令或文件名）。最后实施隐藏接口导向的黑盒模糊测试，将这些候选值作为高质量字典对输入请求中的路由令牌进行变异。我们实现了EAGLEYE原型系统，并在13款商用物联网设备上进行评估。EAGLEYE成功发现79个隐藏接口，数量达到当前最优方案IoTScope的25倍。其中进一步发现29个未知漏洞（包括后门、跨站脚本、命令注入及信息泄露），并已获得7个CVE编号。</span></span></p><p cid="n229" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/eagleye-exposing-hidden-web-interfaces-in-iot-devices-via-routing-analysis/" target="_blank">https://www.ndss-symposium.org/ndss-paper/eagleye-exposing-hidden-web-interfaces-in-iot-devices-via-routing-analysis/</a></span></span></p><h3 cid="n230" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">60、EMIRIS: Eavesdropping on Iris Information via Electromagnetic Side Channel</span></span></span></h3><h3 cid="n230" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n231" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">虹膜识别因其纹理模式的独特性、稳定性及防伪性，成为目前最安全的生物特征识别技术之一，常被应用于高安全等级的身份认证场景。然而，采用近红外（NIR）传感器的系统可能泄露用户虹膜信息，造成重大隐私风险。本研究发现NIR传感器数据传输时产生的电磁（EM）辐射与虹膜数据存在强相关性，据此提出EMIRIS——一种基于电磁侧信道重构虹膜信息的方法。通过解构NIR传感器的数字信号传输格式与虹膜数据矩阵的映射机制，可从电磁信号中还原虹膜信息并转换为虹膜图像。为提升重建质量，我们将虹膜纹理细节的去噪复原建模为线性逆问题，并定制扩散模型进行求解。大量实验表明，EMIRIS能有效从商用虹膜设备中重构虹膜信息，平均结构相似性（SSIM）达0.511，平均Fréchet距离（FID）为7.25。更严峻的是，这些重建虹膜可成功欺骗经典识别模型，在50名用户的3000余份虹膜样本上平均攻击成功率达53.47%。</span></span></p><p cid="n232" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/emiris-eavesdropping-on-iris-information-via-electromagnetic-side-channel/" target="_blank">https://www.ndss-symposium.org/ndss-paper/emiris-eavesdropping-on-iris-information-via-electromagnetic-side-channel/</a></span></span></p><h3 cid="n233" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">61、ERW-Radar: An Adaptive Detection System against Evasive Ransomware by Contextual Behavior Detection and Fine-grained Content Analysis</span></span></span></h3><h3 cid="n233" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><br/></span></span></h3><p cid="n234" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为规避现有杀毒软件与检测系统，勒索软件作者常通过模仿良性程序或弱化加密阶段的恶意行为来掩盖行为差异。现有防御方案对规避型勒索软件的防护效果有限。通过大量观察，我们发现此类勒索软件在加密过程中会呈现独特的I/O行为重复性特征，而良性程序极少出现该现象。此外，卡方检验与字节流概率分布能有效区分加密文件与良性修改文件。基于此，我们首次提出ERW-Radar检测系统，实现高效精准的规避型勒索软件检测。其突破性体现在：1）基于上下文关联机制检测恶意行为；2）通过细粒度内容分析机制识别加密文件；3）采用自适应机制实现检测效率与准确性的最优平衡。实验表明ERW-Radar检测准确率达96.18%，误报率仅5.36%，平均资源开销为CPU利用率5.09%、内存利用率3.80%。</span></span></p><p cid="n235" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/erw-radar-an-adaptive-detection-system-against-evasive-ransomware-by-contextual-behavior-detection-and-fine-grained-content-analysis/" target="_blank">https://www.ndss-symposium.org/ndss-paper/erw-radar-an-adaptive-detection-system-against-evasive-ransomware-by-contextual-behavior-detection-and-fine-grained-content-analysis/</a></span></span></p><h3 cid="n236" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">62、Eclipse Attacks on Monero&#39;s Peer-to-Peer Network</span></span></span></h3><p cid="n237" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">日蚀攻击是区块链网络层面临的主要威胁，攻击者通过独占目标节点的所有连接将其隔离，使其与网络其余部分断开。尽管该攻击在比特币（Usenix&#39;15、SP&#39;20、Usenix&#39;21、CCS&#39;21、SP&#39;23）和部分以太坊（NDSS&#39;23、SP&#39;23）系统中已被证实有效，但其在更广泛区块链系统中的适用性仍不明确。  </span></span></p><p cid="n238" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文研究了针对门罗币的日蚀攻击，该系统以强大的匿名性和率先采用Dandelion++（目前最先进的区块链交易隐私保护网络层协议）而闻名。通过对门罗币连接管理机制的分析，我们发现现有日蚀攻击对其效果甚微。为此，我们首次提出针对门罗币的实用日蚀攻击方案，通过设计连接重置方法强制目标节点丢弃所有良性连接并重连至恶意节点。具体而言，我们阐述两种实施方式：第一种利用私有交易机制，第二种则基于Dandelion++协议下茎干交易与蓬松交易的传播差异。该攻击不仅适用于门罗币，也可推广至所有采用Dandelion++及类似连接管理策略的区块链系统。  </span></span></p><p cid="n239" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们在门罗主网进行实验，评估结果证实了攻击可行性。与现有日蚀攻击不同，基于连接重置的方案无需重启目标节点，大幅加速攻击进程并提升可控性。同时，我们提出防御措施以缓解此类攻击，同时将对门罗币的影响降至最低。此外，我们已遵循道德准则将研究成果提交至门罗官方团队。</span></span></p><p cid="n240" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/eclipse-attacks-on-moneros-peer-to-peer-network/" target="_blank">https://www.ndss-symposium.org/ndss-paper/eclipse-attacks-on-moneros-peer-to-peer-network/</a></span></span></p><h3 cid="n241" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">63、Enhancing Security in Third-Party Library Reuse – Comprehensive Detection of 1-day Vulnerability through Code Patch Analysis</span></span></span></h3><p cid="n242" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">当今软件开发日新月异，不断融入新功能。为促进这种发展并为开发者创建和更新软件提供便利，复用开源软件（即第三方库复用）已成为最有效的方法之一。然而，由于第三方库（TPL）维护不足，复用行为也可能引入已知漏洞（即1-day漏洞），导致许多存在漏洞的版本仍被使用。若软件未能检测这些引入的漏洞并延迟更新，将加剧安全风险。但复杂的代码依赖关系和TPL复用的灵活性，使得1-day漏洞检测成为一项挑战性任务。</span></span></p><p cid="n243" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为帮助开发者在软件开发过程中安全复用TPL，我们设计并实现了VULTURE——一种高效检测工具，旨在识别因复用存在漏洞的TPL而产生的1-day漏洞。该工具首先执行数据库创建方法TPLFILTER，利用大语言模型（LLM）自动构建目标平台的专属数据库。不同于依赖代码级相似性比对，VULTURE采用基于哈希的比较方式，探索所收集TPL间的依赖关系，并识别TPL与目标项目间的相似性。考虑到开发者可采用完整复用或自定义方式复用TPL，VULTURE分别执行基于版本的比较和基于代码块的分析，以在函数级别捕获细粒度语义特征。我们将VULTURE应用于10个真实项目，评估其检测1-day漏洞的有效性与效率。结果显示，VULTURE成功从178个复用TPL中识别出175个漏洞。</span></span></p><p cid="n244" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/enhancing-security-in-third-party-library-reuse-comprehensive-detection-of-1-day-vulnerability-through-code-patch-analysis/" target="_blank">https://www.ndss-symposium.org/ndss-paper/enhancing-security-in-third-party-library-reuse-comprehensive-detection-of-1-day-vulnerability-through-code-patch-analysis/</a></span></span></p><h3 cid="n245" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">64、Evaluating Machine Learning-Based IoT Device Identification Models for Security Applications</span></span></span></h3><p cid="n246" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着物联网设备的激增，网络设备识别对于有效的网络管理和安全至关重要。尽管基于机器学习的物联网设备识别方案具有潜力，但许多方案在实际应用中存在性能下降问题。这种性能下降源于现有方案假设物联网环境是静态的，未能考虑真实物联网网络的多样性——设备往往运行于多种模式并随时间动态演变。本文通过精选数据集和代表性特征，在不同场景下评估了当前物联网设备识别方案。我们研究了影响实际设备识别的关键因素，包括运行模式、时空变化和流量采样，并将其归纳为一组评估属性。随后运用机器学习可解释性技术定位性能下降的核心原因。本次评估不仅揭示了持续设备识别的实证依据，更为网络运营商提供了提升物联网设备识别能力的实用建议与宝贵洞见，助力实际部署优化。</span></span></p><p cid="n247" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/evaluating-machine-learning-based-iot-device-identification-models-for-security-applications/" target="_blank">https://www.ndss-symposium.org/ndss-paper/evaluating-machine-learning-based-iot-device-identification-models-for-security-applications/</a></span></span></p><h3 cid="n248" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">65、EvoCrawl: Exploring Web Application Code and State using Evolutionary Search</span></span></span></h3><p cid="n249" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着越来越多的关键服务迁移至网络，检测并解决Web应用中的漏洞变得愈发重要。这些漏洞仅在特定条件下出现：1）当漏洞代码被执行时；2）当Web应用处于所需状态时。若应用未满足状态要求，即使执行漏洞代码也可能无法触发漏洞。现有研究通常采用简单方式探索应用状态——在提交HTML表单前填满所有字段并触发所有JavaScript事件。但这种粗放策略可能无法满足网页元素间的约束关系及输入格式限制。为此，我们提出EvoCrawl：一种利用进化搜索高效发现不同Web交互序列的爬虫工具。相比传统方法，EvoCrawl能发现成功提交输入至Web应用的交互序列，从而探索更多代码及服务器端状态。为验证优势，我们在十个Web应用上对比三种前沿漏洞扫描器进行评估。结果表明，EvoCrawl凭借在特定应用状态下执行代码的能力，实现了更优的代码覆盖率——平均提升59%，HTML表单提交成功率更是达到次优工具的5倍。通过集成IDOR与XSS漏洞扫描模块，我们使用EvoCrawl在WordPress、HotCRP、Kanboard、ImpressCMS和GitLab中发现了8个零日IDOR与XSS漏洞。</span></span></p><p cid="n250" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/evocrawl-exploring-web-application-code-and-state-using-evolutionary-search/" target="_blank">https://www.ndss-symposium.org/ndss-paper/evocrawl-exploring-web-application-code-and-state-using-evolutionary-search/</a></span></span></p><h3 cid="n251" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">66、Explanation as a Watermark: Towards Harmless and Multi-bit Model Ownership Verification via Watermarking Feature Attribution</span></span></span></h3><p cid="n252" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">所有权验证是目前保护模型版权最核心且广泛采用的事后方法。通常，模型所有者通过检测可疑第三方模型是否具有从已发布模型&#34;继承&#34;的特定属性，来判定其是否被盗用。当前，基于后门的模型水印技术是向发布模型中植入此类属性的主流前沿方法。然而，基于后门的方法存在两大致命缺陷：</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">危害性</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">和</span></span><span md-inline="strong" style="box-sizing: border-box;"><strong style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">模糊性</span></span></strong></span><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">。前者指这类方法会给带水印的发布模型引入恶意可控的误分类行为（即后门）；后者意味着恶意用户通过寻找其他误分类样本即可轻易通过验证，导致所有权归属模糊。本文指出，这两大缺陷均源于现有水印方案的&#34;零比特&#34;特性——即依赖预测结果（误分类状态）进行验证。基于此认知，我们设计了一种新型水印范式&#34;解释即水印&#34;（EaaW），将验证行为植入特征归因解释而非模型预测中。具体而言，EaaW在不改变原始预测的前提下，将&#34;多比特&#34;水印嵌入特定触发样本的特征归因解释中，并基于可解释人工智能技术设计了水印嵌入与提取算法。该方案可适用于图像分类、文本生成等不同任务。大量实验验证了EaaW的有效性、无害性及抗攻击能力。</span></span></p><p cid="n253" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/explanation-as-a-watermark-towards-harmless-and-multi-bit-model-ownership-verification-via-watermarking-feature-attribution/" target="_blank">https://www.ndss-symposium.org/ndss-paper/explanation-as-a-watermark-towards-harmless-and-multi-bit-model-ownership-verification-via-watermarking-feature-attribution/</a></span></span></p><h3 cid="n254" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">67、Exploring User Perceptions of Security Auditing in the Web3 Ecosystem</span></span></span></h3><p cid="n255" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在快速发展的Web3生态系统中，透明审计已成为应用程序和用户的关键要素。然而，人们对用户如何理解这种新型审计形式及其对Web3安全的影响仍存在显著认知空白。本研究采用混合方法，结合案例研究、用户访谈和社交媒体数据分析，运用风险感知模型全面探究Web3用户对信息可访问性、审计角色及其对用户行为影响的认知。基于这些广泛发现，我们探讨了这种开放式审计如何塑造Web3生态系统的安全性，指出现有挑战，并提出设计启示。</span></span></p><p cid="n256" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/exploring-user-perceptions-of-security-auditing-in-the-web3-ecosystem/" target="_blank">https://www.ndss-symposium.org/ndss-paper/exploring-user-perceptions-of-security-auditing-in-the-web3-ecosystem/</a></span></span></p><h3 cid="n257" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">68、FUZZUER: Enabling Fuzzing of UEFI Interfaces on EDK-2</span></span></span></h3><p cid="n258" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">统一可扩展固件接口（UEFI）规范描述了一种与平台无关的操作系统（OS）预启动接口。EDK-2中UEFI接口函数的漏洞具有严重后果，可能导致启动工具包（Bootkits）等持久性恶意软件，即使重装操作系统仍能存活。然而目前尚不存在针对UEFI接口的漏洞检测技术。我们提出了FUZZUER——一种面向EDK-2（当前示范性且广泛使用的UEFI实现）接口的反馈引导模糊测试技术。我们设计了FIRNESS系统，通过静态分析技术自动生成接口函数的模糊测试驱动。在最新版EDK-2上的评估表明：针对150个接口函数的全面测试中，配备FIRNESS的FUZZUER显著优于现有基于人工编写驱动的测试工具HBFA，成为EDK-2 UEFI接口函数的有效测试方案。我们发现了20个新安全漏洞，其中大部分已获得开发者确认。</span></span></p><p cid="n259" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/fuzzuer-enabling-fuzzing-of-uefi-interfaces-on-edk-2/" target="_blank">https://www.ndss-symposium.org/ndss-paper/fuzzuer-enabling-fuzzing-of-uefi-interfaces-on-edk-2/</a></span></span></p><h3 cid="n260" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">69、From Large to Mammoth: A Comparative Evaluation of Large Language Models in Vulnerability Detection</span></span></span></h3><p cid="n261" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">大型语言模型（LLM）在代码理解与生成等任务中展现出强大潜力。本研究评估了LLaMA-2、CodeLLaMA、LLaMA-3、Mistral、Mixtral、Gemma、CodeGemma、Phi-2、Phi-3及GPT-4等先进模型在漏洞检测（以Java为主，辅以C/C++测试泛化能力）中的表现。我们从基础的正样本检测转向更具挑战性的正负样本混合任务，并测试模型识别特定漏洞类型的能力。通过运行时分析和零样本/少样本设置下的检测准确率（采用定制与通用指标），发现Gemma和LLaMA-2等模型表现突出，但效果存在波动——部分配置的检测效果甚至不优于随机猜测。不同编程语言和学习模式（零样本vs少样本）下的性能也存在显著差异。我们进一步探究了模型参数量、量化方法、上下文窗口（CW）尺寸和架构选择对漏洞检测的影响：CW始终能提升性能，而量化等其他参数的增益则较有限。总体而言，研究结果既印证了LLM在自动化漏洞检测中的潜力，也揭示了模型参数间的复杂相互作用，以及在多样化场景和配置中存在的当前局限性。</span></span></p><p cid="n262" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/from-large-to-mammoth-a-comparative-evaluation-of-large-language-models-in-vulnerability-detection/" target="_blank">https://www.ndss-symposium.org/ndss-paper/from-large-to-mammoth-a-comparative-evaluation-of-large-language-models-in-vulnerability-detection/</a></span></span></p><h3 cid="n263" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">70、GAP-Diff: Protecting JPEG-Compressed Images from Diffusion-based Facial Customization</span></span></span></h3><p cid="n264" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">文本到图像扩散模型的微调技术允许人们利用有限的身份图像轻松生成大量定制照片。尽管该技术易于使用，但其滥用可能导致侵犯个人肖像权与隐私，虚假信息和有害内容还可能对个体造成进一步伤害。已有研究提出通过向用户图像添加干扰微调模型的保护性噪声来防止人脸被定制。然而，现代社交网络常规的JPEG压缩等简单预处理技术，能轻易消除现有方法的保护效果。为抵御JPEG压缩及其他潜在预处理操作，我们提出GAP-Diff框架——基于无监督学习优化的文本到图像扩散模型对抗扰动数据生成系统，包含三大功能模块。具体而言，该框架通过预处理模拟模块反向传播梯度信息，同步学习对抗JPEG压缩的鲁棒表征与破坏文本到图像扩散模型微调的对抗特征。此外，我们通过设计针对微调方法和JPEG压缩的对抗损失函数，在毫秒级时间内实现从原始图像到受保护图像的对抗映射，生成更具保护效力的噪声。人脸基准实验表明，相较于最先进的保护方法，GAP-Diff显著提升了保护噪声对JPEG压缩的抵抗能力，从而在数字世界中更好地捍卫用户隐私与版权。</span></span></p><p cid="n265" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/gap-diff-protecting-jpeg-compressed-images-from-diffusion-based-facial-customization/" target="_blank">https://www.ndss-symposium.org/ndss-paper/gap-diff-protecting-jpeg-compressed-images-from-diffusion-based-facial-customization/</a></span></span></p><h3 cid="n266" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">71、GadgetMeter: Quantitatively and Accurately Gauging the Exploitability of Speculative Gadgets</span></span></span></h3><p cid="n267" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">自2018年出现以来，推测执行攻击已被证明难以在不造成显著性能开销的情况下彻底防范。这是因为大多数缓解措施会损害现代处理器的推测特性，而该特性对众多优化技术至关重要。为此，业界开发了大量扫描器来识别软件应用中的脆弱代码片段（推测型gadget），从而选择性实施缓解措施以最小化性能损耗。  </span></span></p><p cid="n268" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文指出，现有推测型gadget扫描器因对时序特性的建模不足而缺乏准确性，常导致误判。我们通过研究发现，所有推测攻击本质上还存在另一个关键条件——gadget内部作为竞态条件的时序要求。具体而言，攻击者必须优化推测授权与秘密泄露之间的竞态条件才能成功利用gadget。为此，我们提出GadgetMeter框架，基于时序特性定量评估推测型gadget的可利用性。我们系统化探索了攻击者优化gadget内部竞态条件（窗口化能力）的潜力，采用有向无环指令图建模时序条件，结合静态分析与运行时测试来优化攻击模式并量化gadget脆弱性。  </span></span></p><p cid="n269" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">我们运用GadgetMeter评估了包括六个真实应用和Linux内核在内的广泛软件中的gadget。结果表明，GadgetMeter能精准识别可被利用的推测型gadget并量化其脆弱等级，同时判定现有扫描器报告的471个gadget实际不可利用。</span></span></p><p cid="n270" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/gadgetmeter-quantitatively-and-accurately-gauging-the-exploitability-of-speculative-gadgets/" target="_blank">https://www.ndss-symposium.org/ndss-paper/gadgetmeter-quantitatively-and-accurately-gauging-the-exploitability-of-speculative-gadgets/</a></span></span></p><h3 cid="n271" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">72、Generating API Parameter Security Rules with LLM for API Misuse Detection</span></span></span></h3><p cid="n272" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在使用库API时，开发者应遵循API安全规则以降低误用风险。API参数安全规则（APSR）作为常见的安全规则类型，规定了参数的安全使用方式并对其取值施加约束。违反APSR可能引发严重安全问题，包括空指针解引用和内存破坏。人工分析海量API及其参数来构建APSR不仅耗时费力，更需实现自动化。现有研究通过文档和代码生成APSR，但因信息缺失和启发式分析局限会导致规则遗漏。鉴于大语言模型（LLM）在无预设启发式规则的情况下展现出的卓越代码分析与文本生成能力，我们尝试利用其解决API误用检测中的挑战。但直接使用LLM会产生错误APSR（导致检测中误报缺陷）和过度泛化的APSR（无法生成有效检测代码而漏报安全缺陷）。</span></span></p><p cid="n273" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出新型框架GPTAid，通过LLM分析API源码自动生成APSR，并检测参数误用引发的API违规行为。为验证LLM生成APSR的正确性，我们基于&#34;关键API误用多源于违反APSR且通常引发运行时错误&#34;的观察，提出执行反馈校验方法。具体而言，GPTAid首先用LLM生成原始APSR及正确调用代码，随后通过LLM修改正确代码生成每条原始APSR对应的违规代码。接着对每条违规代码实施动态执行，依据运行时错误筛除错误APSR。为进一步生成具体APSR，GPTAid采用代码差分分析精炼过滤后的规则：鉴于编程语言比自然语言更精确，框架通过差分分析定位违规代码中的关键操作，据此生成对应的具体APSR。这些具体规则可精准转换为有效检测代码，实证表明其在API误用检测中效果显著。</span></span></p><p cid="n274" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在包含8个流行库中随机选取的200个API数据集上，GPTAid实现92.3%的准确率。在已报告缺陷与APSR的对比数据集上，其生成规则数量达到现有最优检测器的6倍。我们对47个应用程序进一步测试，发现210个可能导致严重安全问题（如系统崩溃）的未知安全缺陷，其中150个在提交报告后已获开发者确认。</span></span></p><p cid="n275" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/generating-api-parameter-security-rules-with-llm-for-api-misuse-detection/" target="_blank">https://www.ndss-symposium.org/ndss-paper/generating-api-parameter-security-rules-with-llm-for-api-misuse-detection/</a></span></span></p><h3 cid="n276" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">73、GhostShot: Manipulating the Image of CCD Cameras with Electromagnetic Interference</span></span></span></h3><p cid="n277" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">CCD相机在需要高质量图像数据的专业与科学应用中至关重要，其成像可靠性是构建可信计算机视觉系统的基础。已有研究证明利用有意电磁干扰（IEMI）可向CCD相机注入难以察觉的图像篡改。本研究设计了一种能力增强型攻击手段GhostShot，能在正常光照条件下通过IEMI向CCD相机注入任意灰度或彩色图像。我们通过原理性分析揭示了IEMI对注入图像的形状、亮度和色彩的因果影响机制，并基于幅相调制实现了对注入图案的有效控制。设计端到端攻击流程后，我们在15款商用CCD相机上成功验证了攻击有效性。通过医疗诊断、火灾监测、二维码识别及目标检测等场景的潜在影响论证，发现伪造图像不仅能误导计算机视觉系统，甚至可欺骗人眼判断。</span></span></p><p cid="n278" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/ghostshot-manipulating-the-image-of-ccd-cameras-with-electromagnetic-interference/" target="_blank">https://www.ndss-symposium.org/ndss-paper/ghostshot-manipulating-the-image-of-ccd-cameras-with-electromagnetic-interference/</a></span></span></p><h3 cid="n279" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">74、HADES Attack: Understanding and Evaluating Manipulation Risks of Email Blocklists</span></span></span></h3><p cid="n280" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于DNS的拦截列表（DNSBL）长期以来是防范恶意邮件的有效手段。尽管已有研究关注此类拦截列表的质量评估，但其实际采用情况、端到端运行机制及安全问题却鲜为人知。依托15个月内邮件未送达报告的工业级数据集，本文首先对DNSBL的采用情况展开大规模测量，发现繁忙邮件服务器普遍依赖该技术。通过对29家DNSBL提供商的端到端运行机制进行实证研究，我们发现其高度依赖捕获服务器（一种诱捕垃圾邮件发送者的隐蔽基础设施）来生成拦截列表。然而，此类捕获服务器存在被滥用的风险，我们据此披露HADES攻击——攻击者可恶意将正常邮件服务器注入主流DNSBL，导致受害者发出的合法邮件被广泛拒收。实地测试表明该攻击成本低廉且效果显著：我们成功将实验邮件服务器注入14个DNSBL，最快仅需3分钟，最长不超过24小时。实际评估还发现针对知名受害者的巨大攻击潜力，例如大型邮件服务商和热门网站。经负责任披露，已有5家DNSBL提供商确认该问题，我们同时提出可能的缓解方案。本文研究结果揭示了重新审视DNSBL安全机制及其运营规范的必要性。</span></span></p><p cid="n281" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/hades-attack-understanding-and-evaluating-manipulation-risks-of-email-blocklists/" target="_blank">https://www.ndss-symposium.org/ndss-paper/hades-attack-understanding-and-evaluating-manipulation-risks-of-email-blocklists/</a></span></span></p><h3 cid="n282" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">75、Heimdall: Towards Risk-Aware Network Management Outsourcing</span></span></span></h3><p cid="n283" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">企业正日益将网络管理（如路由故障排查）外包以降低成本并提升效率，方式包括雇佣第三方承包商或委托第三方供应商。然而近期事件表明，这种外包模式已成为客户网络事故的新源头。本研究提出需要采用风险感知的外包方法，使客户能够透明地衡量和评估风险，并通过知情决策将危害最小化。我们首先明确定义外包网络管理背景下的风险概念，继而提出端到端框架Heimdall，帮助企业评估、监控和应对风险。该框架自动构建依赖关系图以精准评估外包任务风险，并采用细粒度引用监控器在运行期间监测和缓解潜在风险。专家验证结果表明，Heimdall能有效控制网络运维外包风险，以最低风险级别解决92%的实际问题，仅产生约7%的边际时间开销。</span></span></p><p cid="n284" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/heimdall-towards-risk-aware-network-management-outsourcing/" target="_blank">https://www.ndss-symposium.org/ndss-paper/heimdall-towards-risk-aware-network-management-outsourcing/</a></span></span></p><h3 cid="n285" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">76、Hidden and Lost Control: on Security Design Risks in IoT User-Facing Matter Controller</span></span></span></h3><p cid="n286" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">Matter正逐渐成为物联网行业统一标准，旨在提升各类智能家居产品间的互操作性，使其能够安全无缝地协同工作。随着众多主流物联网厂商在消费级产品中加速支持Matter标准，我们开展系统性研究，探究厂商如何安全集成Matter至物联网系统、该标准对厂商安全集成的支持程度。  </span></span></p><p cid="n287" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">通过分析实际场景中的Matter开发模式，我们揭示了一种新型面向用户的控制能力与接口设计缺陷（UMCCI缺陷）。这类缺陷存在于设计空间中，属于可被利用的安全漏洞，会严重损害物联网用户对Matter设备必要的控制与监控能力。为此我们开发了自动化检测工具UMCCI Checker，结合大语言模型增强界面分析能力，可在不依赖实体设备的情况下自动识别UMCCI缺陷。借助该工具，我们对8家主流厂商的11款Matter设备进行了概念验证攻击研究，证实UMCCI缺陷具有普遍性和现实危害性。相关漏洞已获CSA（连接标准联盟）、苹果、涂鸦、Aqara等厂商确认。  </span></span></p><p cid="n288" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为协助CSA及厂商在开发和集成Matter等物联网标准时规避安全缺陷，我们总结了两类根本成因并提出即时修复建议。</span></span></p><p cid="n289" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/hidden-and-lost-control-on-security-design-risks-in-iot-user-facing-matter-controller/" target="_blank">https://www.ndss-symposium.org/ndss-paper/hidden-and-lost-control-on-security-design-risks-in-iot-user-facing-matter-controller/</a></span></span></p><h3 cid="n290" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">77、Hitchhiking Vaccine: Enhancing Botnet Remediation With Remote Code Deployment Reuse</span></span></span></h3><p cid="n291" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">数十年来，执法机构与企业尝试通过接管僵尸网络来打击网络犯罪，但成效参差不齐。这些行动依赖DNS沉洞或夺取C&amp;C基础设施，需耗时数月筹备，且常忽略清理受感染设备上的残留恶意程序，致使僵尸网络运营者能向僵尸节点推送更新并重获控制权。本文拓展了恶意软件清除的目标，提出应隐蔽及时地清除受感染设备上的前端僵尸程序。具体而言，我们主张利用恶意软件内置的更新机制分发定制修复载荷。研究旨在获得法律授权后，实现这一必要但极具挑战性的修复步骤。我们开发了ECHO自动化恶意软件取证流程，可提取载荷部署例程并生成修复载荷，从而禁用或清除受感染设备上的前端僵尸程序。通过对702个安卓恶意软件的研究表明，ECHO的清除方案可修复其中523个样本，修复方式涵盖从隐蔽警告用户感染到彻底卸载恶意软件。</span></span></p><p cid="n292" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/hitchhiking-vaccine-enhancing-botnet-remediation-with-remote-code-deployment-reuse/" target="_blank">https://www.ndss-symposium.org/ndss-paper/hitchhiking-vaccine-enhancing-botnet-remediation-with-remote-code-deployment-reuse/</a></span></span></p><h3 cid="n293" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">78、Horcrux: Synthesize, Split, Shift and Stay Alive; Preventing Channel Depletion via Universal and Enhanced Multi-hop Payments</span></span></span></h3><p cid="n294" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">支付通道网络（PCN）被公认为解决当前无许可区块链可扩展性问题的可行方案。它通过支持链下交易显著减轻区块链负载。然而，多跳路径在单一方向上的频繁复用会导致通道耗尽风险，致使相关通道变为单向甚至关闭，从而损害PCN的可持续性与可扩展性。更严峻的是，现有再平衡协议方案严重依赖信任假设和脚本语言，导致通用性与可靠性受损。</span></span></p><p cid="n295" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出Horcrux——一种无需额外信任假设、脚本语言或持续在线要求的通用高效多方虚拟通道协议。该协议通过创新性&#34;流量中性&#34;机制从根本上解决通道耗尽问题，最小化多跳支付对通道余额分配的影响。我们在全局通用可组合框架下对Horcrux进行建模，形式化其安全属性并提供严格的安全证明。</span></span></p><p cid="n296" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于真实闪电网络数据集（含10,529个节点和38,910条通道）的实验表明：(1) Horcrux全流程成本低于1美元，显著优于Shaduf[NDSS&#39;22]；(2) 支付成功率提升12-30倍，通道用户存款需求降低70-91%；(3) 长期运行下性能提升1.2-1.5倍；(4) 通道耗尽率近乎为零，而Revive[CCS&#39;17]和Shaduf会导致数千条通道耗尽。</span></span></p><p cid="n297" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/horcrux-synthesize-split-shift-and-stay-alive-preventing-channel-depletion-via-universal-and-enhanced-multi-hop-payments/" target="_blank">https://www.ndss-symposium.org/ndss-paper/horcrux-synthesize-split-shift-and-stay-alive-preventing-channel-depletion-via-universal-and-enhanced-multi-hop-payments/</a></span></span></p><h3 cid="n298" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">79、I Know What You Asked: Prompt Leakage via KV-Cache Sharing in Multi-Tenant LLM Serving</span></span></span></h3><p cid="n299" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">作为通用人工智能（AGI）基石的大语言模型（LLM），近年来因其颠覆性应用在学术界和工业界获得广泛关注。为实现可扩展应用与高效资源管理，业界提出了多种多租户LLM服务框架，使单个LLM能同时响应多用户需求。当前前沿技术（如SGLang和vLLM）采用的关键机制之一，是对多用户间相同令牌序列的键值（KV）缓存进行共享，从而节省内存与计算资源。本文首次揭示了多租户LLM服务存在的安全隐患：研究表明，最先进的KV缓存共享机制可能引发新型侧信道攻击，导致非授权用户重构他人输入提示词，进而泄露互不信任用户间的敏感信息。我们提出PROMPTPEEK攻击方法，并在三种不同先验知识水平的攻击场景中验证了其逆向推断其他用户提示词的能力。这项研究警示多租户LLM服务需审慎管理资源，并为未来安全强化提供了关键洞见。</span></span></p><p cid="n300" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/i-know-what-you-asked-prompt-leakage-via-kv-cache-sharing-in-multi-tenant-llm-serving/" target="_blank">https://www.ndss-symposium.org/ndss-paper/i-know-what-you-asked-prompt-leakage-via-kv-cache-sharing-in-multi-tenant-llm-serving/</a></span></span></p><h3 cid="n301" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">80、I know what you MEME! Understanding and Detecting Harmful Memes with Multimodal Large Language Models</span></span></span></h3><p cid="n302" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">社交媒体上的模因已成为一把双刃剑。一方面，它们促进了信息的快速传播并增强了沟通；另一方面，模因可能以幽默和病毒式传播为幌子扩散有害内容。这种双重性凸显了开发有效审核工具以识别有害模因的必要性。然而，当前检测方法因其固有复杂性，在识别有害模因时面临重大挑战——这种复杂性源于模因多样的表达形式、复杂的构图、精妙的宣传手法以及多元的文化背景，使得现有算法难以准确区分无害与有害内容。</span></span></p><p cid="n303" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为系统理解并应对这些挑战，我们首次从视觉艺术和宣传技术两个新颖视角对有害模因展开全面研究，旨在评估现有检测工具并解析其内在复杂性。研究发现，模因的构图技巧和宣传手法会显著削弱当前检测方法的有效性。基于这些洞察，我们提出新型检测框架HMGUARD，通过在多模态大语言模型中采用自适应提示和思维链推理技术，在公开有害模因数据集上取得0.92的准确率，较基线方法提升15%至79.17%。在实际场景测试中，HMGUARD更以0.88的准确率显著优于现有检测工具。</span></span></p><p cid="n304" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/i-know-what-you-meme-understanding-and-detecting-harmful-memes-with-multimodal-large-language-models/" target="_blank">https://www.ndss-symposium.org/ndss-paper/i-know-what-you-meme-understanding-and-detecting-harmful-memes-with-multimodal-large-language-models/</a></span></span></p><h3 cid="n305" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">81、ICSQuartz: Scan Cycle-Aware and Vendor-Agnostic Fuzzing for Industrial Control Systems</span></span></span></h3><p cid="n306" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">工业控制系统（ICS）是保障关键工业、能源及商业流程自动化与安全运行的核心。尽管其重要性不言而喻，但由于现有代码评估工具难以与封闭的ICS生态系统对接，ICS代码往往无法像传统计算平台上的软件那样接受严格评估。此外，领域专用语言的使用、开源可扩展编译器的缺失、针对ICS特性开发的技术不足等诸多挑战，阻碍了专用工具的研发。本文通过推出ICSQuartz应对这些挑战——这是首个原生支持IEC 61131-3结构化文本（ST，一种标准化可编程逻辑控制器编程语言）的模糊测试工具。原生支持消除了对任何特定厂商或架构的依赖。ICSQuartz的执行速度较当前ICS领域最快的模糊测试工具快超过一个数量级。除原生支持ST代码模糊测试外，我们还为ICSQuartz设计了新型变异策略，可发现由ST程序扫描周期架构引发的漏洞——这一特性是传统模糊测试工具所未考虑的。通过ICSQuartz，我们首次对真实工业控制系统库展开大规模模糊测试，发现多个漏洞并推动修复。除漏洞外，ICSQuartz还在一款开源ST编译器中发现了缺陷。这些成果彰显了ICSQuartz在ICS领域的重大影响。</span></span></p><p cid="n307" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/icsquartz-scan-cycle-aware-and-vendor-agnostic-fuzzing-for-industrial-control-systems/" target="_blank">https://www.ndss-symposium.org/ndss-paper/icsquartz-scan-cycle-aware-and-vendor-agnostic-fuzzing-for-industrial-control-systems/</a></span></span></p><h3 cid="n308" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">82、Impact Tracing: Identifying the Culprit of Misinformation in Encrypted Messaging Systems</span></span></span></h3><p cid="n309" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">加密消息系统虽然提供了端到端的安全保障，却阻碍了内容审核。这导致错误信息在这些系统中大肆传播，加剧了网络仇恨与骚扰现象。&#34;举报-追踪&#34;范式在遏制错误信息扩散方面展现出巨大潜力。例如，《消息溯源》（CCS&#39;19）可追踪消息的所有传播路径，而《源头追踪》（CCS&#39;21）则能定位消息的初始发布者。</span></span></p><p cid="n310" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">然而，消息溯源缺乏对非影响力用户（如仅接收消息一次的用户）的隐私保护，源头追踪虽能保护隐私但可追溯性有限。本文开创性地提出《影响力追踪》研究，其核心在于追踪错误信息传播中的关键扩散节点，同时为非影响力用户提供隐私保护。我们通过添加噪声来隐藏非影响力用户，并证明这些噪声不会阻碍关键传播者的识别。随后通过形式化验证，证实该方案能为非影响力用户提供差分隐私保护。</span></span></p><p cid="n311" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于真实数据集，我们定义了三个评估指标来衡量其可追溯性、准确性和隐私性。实验结果表明：随着噪声量的变化，本方案识别关键传播者的准确率可达82%至99%。同时，每条消息仅需6字节的平台存储开销，且保持低于0.25毫秒的消息传输延迟。</span></span></p><p cid="n312" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/impact-tracing-identifying-the-culprit-of-misinformation-in-encrypted-messaging-systems/" target="_blank">https://www.ndss-symposium.org/ndss-paper/impact-tracing-identifying-the-culprit-of-misinformation-in-encrypted-messaging-systems/</a></span></span></p><h3 cid="n313" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">83、Incorporating Gradients to Rules: Towards Lightweight, Adaptive Provenance-based Intrusion Detection</span></span></span></h3><p cid="n314" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">随着网络攻击日益复杂和隐蔽，从正常行为中检测入侵变得愈发重要且更具挑战性。基于细粒度因果分析的溯源入侵检测系统（PIDS）展现出区分良性与恶意行为的卓越能力，受到工业界和学术界的广泛关注。在各类方法中，基于规则的PIDS因其轻量级开销、实时性和可解释性脱颖而出。然而，现有基于规则的系统由于缺乏细粒度规则和环境适配配置，检测准确率较低，尤其存在高误报问题。</span></span></p><p cid="n315" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出CAPTAIN——一种能自动适应多样化环境的基于规则PIDS。具体而言，我们设计了三类自适应参数，分别用于调整节点、边和告警生成阈值的检测配置。通过构建可微分标签传播框架并利用梯度下降算法，基于训练数据优化这些自适应参数。我们使用DARPA Engagements和模拟环境数据进行系统评估。实验结果表明，与当前最优（SOTA）PIDS相比，CAPTAIN通过赋予规则系统学习能力，显著提升了检测准确率，降低了检测延迟与运行时开销，同时提供更具可解释性的检测流程与结果。</span></span></p><p cid="n316" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/incorporating-gradients-to-rules-towards-lightweight-adaptive-provenance-based-intrusion-detection/" target="_blank">https://www.ndss-symposium.org/ndss-paper/incorporating-gradients-to-rules-towards-lightweight-adaptive-provenance-based-intrusion-detection/</a></span></span></p><h3 cid="n317" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">84、Interventional Root Cause Analysis of Failures in Multi-Sensor Fusion Perception Systems</span></span></span></h3><p cid="n318" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">自动驾驶系统（ADS）高度依赖多传感器融合（MSF）感知系统来处理传感器数据并提升环境感知的准确性。然而，MSF无法完全消除不确定性，多个模块的故障将导致感知失效。因此，定位这些感知失效的根本原因对确保MSF感知系统的可靠性至关重要。传统的感知失效识别方法（如异常检测和运行时监控）存在局限性，因为它们未考虑多模块故障与系统整体失效之间的因果关系。为突破这些限制，我们提出了一种称为干预式根因分析（IRCA）的新方法。IRCA利用MSF的有向无环图（DAG）结构构建分层结构因果模型（H-SCM），有效解决了因果关系的复杂性。我们的方法采用分治剪枝算法，在因果路径中涵盖多个因果模块并精确定位干预目标。我们实现了IRCA，并通过真实故障场景及在Autoware平台注入故障的合成场景评估其性能。IRCA在真实故障场景中的平均F1分数超过95。我们还在搭载Autoware的自动驾驶测试平台及基于Apollo的跨平台评估中验证了IRCA的有效性。结果表明，IRCA能高效识别导致失效的因果路径，显著提升ADS的安全性。</span></span></p><p cid="n319" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/interventional-root-cause-analysis-of-failures-in-multi-sensor-fusion-perception-systems/" target="_blank">https://www.ndss-symposium.org/ndss-paper/interventional-root-cause-analysis-of-failures-in-multi-sensor-fusion-perception-systems/</a></span></span></p><h3 cid="n320" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">85、Iris: Dynamic Privacy Preserving Search in Authenticated Chord Peer-to-Peer Networks</span></span></span></h3><p cid="n321" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">在结构化对等网络（如Chord）中，用户通过向网络中的若干中间节点发起查询来定位数据。每个节点会返回其已知最接近目标数据地址的节点标识，直至最终抵达负责存储该数据的节点。这种机制意味着中间节点会获知被查询数据的地址信息。由于向其他节点暴露此类信息会导致Chord无法满足需要查询隐私的应用场景，本文提出名为Iris的方案，在保持与现有Chord协议兼容性的同时提供查询隐私保护。这意味着使用者可执行隐私保护查询，而无需强制网络中的其他节点支持（甚至知晓）该方案。</span></span></p><p cid="n322" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">为了更好地刻画迭代式搜索特性所实现的隐私保护效果，我们受k-匿名化思想启发，提出名为(α,δ)-隐私的新隐私概念。该概念允许我们针对可能共谋并利用搜索全迭代过程中泄露信息总量的攻击者，构建形式化的隐私保障机制。</span></span></p><p cid="n323" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">基于所提出的隐私概念，我们对算法进行了安全性分析，并在Matlab平台上开发原型系统进行性能评估。分析证明Iris方案在引入可控性能开销的同时实现了(α,δ)-隐私保护。值得注意的是，系统开销可动态调节且与所需隐私级别成正比——当无需隐私保护时，系统不会产生额外开销。</span></span></p><p cid="n324" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/iris-dynamic-privacy-preserving-search-in-authenticated-chord-peer-to-peer-networks/" target="_blank">https://www.ndss-symposium.org/ndss-paper/iris-dynamic-privacy-preserving-search-in-authenticated-chord-peer-to-peer-networks/</a></span></span></p><h3 cid="n325" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;">86、IsolateGPT: An Execution Isolation Architecture for LLM-Based Agentic Systems</span></span></span></h3><p cid="n326" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">诸如ChatGPT等扩展为系统的大型语言模型（LLM）已开始支持第三方应用程序。这些LLM应用依托LLM基于自然语言的自动化执行范式：即应用及其交互通过自然语言定义，可访问用户数据，并允许自由相互调用及与系统交互。这种LLM应用生态类似于早期计算平台的运行环境，存在应用与系统间隔离不足的问题。由于第三方应用可能不可信，加之自然语言接口的模糊性，当前设计会给用户带来安全和隐私风险。本文评估了能否通过执行隔离解决这些问题，并探讨了在基于LLM的系统中（系统组件间、LLM与应用间、应用间存在任意自然语言交互）实现隔离的可能形态。为此，我们提出IsolateGPT设计架构，验证了执行隔离的可行性，并为基于LLM的系统提供了隔离实现方案。通过对抗多种攻击的测试，我们证明IsolateGPT能有效防范非隔离LLM系统中存在的安全、隐私和安全性问题，且功能无损耗。在四分之三的测试查询中，IsolateGPT为提升安全性所产生的性能开销低于30%。</span></span></p><p cid="n327" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/isolategpt-an-execution-isolation-architecture-for-llm-based-agentic-systems/" target="_blank">https://www.ndss-symposium.org/ndss-paper/isolategpt-an-execution-isolation-architecture-for-llm-based-agentic-systems/</a></span></span></p><h3 cid="n328" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">87、JBomAudit: Assessing the Landscape, Compliance, and Security Implications of Java SBOMs</span></span></span></h3><p cid="n329" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">摘要——软件物料清单（SBOM）是构成软件产品的依赖项的详细清单。准确、完整且最新的SBOM对于漏洞管理、降低许可证合规风险以及维护软件完整性至关重要。美国国家标准与技术研究院（NTIA）制定了SBOM需满足的最低要求，尤其是清单中依赖项的正确性和完整性。然而，这些要求在实践中的落实情况尚未得到验证。本文首次对SBOM的现状进行了系统研究，包括其在Java生态系统中的普及程度、发布趋势及特征。我们开发了一款端到端工具，用于评估SBOM中依赖项的完整性和准确性。该工具分析了25,882份SBOM及相关JAR文件，发现其中7,907份SBOM未披露直接依赖项，揭示了SBOM不合规问题的普遍性和严重性。此外，这些被遗漏的依赖项中有4.97%存在漏洞，导致软件面临潜在攻击风险。通过详尽的测量研究和根因分析，本研究揭示了不合规SBOM的重大安全隐患，尤其是在漏洞管理方面。这些对提升SBOM合规保障至关重要的发现，已负责任地向相关利益方报告。</span></span></p><p cid="n330" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/jbomaudit-assessing-the-landscape-compliance-and-security-implications-of-java-sboms/" target="_blank">https://www.ndss-symposium.org/ndss-paper/jbomaudit-assessing-the-landscape-compliance-and-security-implications-of-java-sboms/</a></span></span></p><h3 cid="n331" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">88、KernelSnitch: Side Channel-Attacks on Kernel Data Structures</span></span></span></h3><p cid="n332" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">硬件组件（如缓存）的共享已知会引发微架构侧信道泄露。消除此类泄露的一种方法是在不同安全域之间不共享硬件组件。然而，即便假设硬件不存在泄露，仍不清楚操作系统等其他关键系统组件是否会引入由软件导致的侧信道泄露。</span></span></p><p cid="n333" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">本文提出一种新型通用软件侧信道攻击方法KernelSnitch，其针对哈希表、树形结构等内核数据结构。这些结构通常用于存储内核与用户信息（例如用户空间锁的元数据）。KernelSnitch利用这些数据结构规模可变的特性——从空状态到理论上任意数量的元素。访问这些结构所需时间随元素数量（即占用率）变化，这种差异形成了可从用户空间被无特权隔离攻击者观测到的时序侧信道。尽管其时序差异相比系统调用运行时间极为微小，我们仍论证并评估了可靠放大这些时序差异的方法。</span></span></p><p cid="n334" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">通过三项案例研究，我们证明KernelSnitch可使无特权隔离攻击者从内核及其他进程活动中泄露敏感信息：首先构建传输速率达580kbit/s的隐蔽信道；其次利用Linux哈希表特定索引机制，在65秒内完成内核堆指针泄露；最后实施网站指纹识别攻击，取得超过89%的F1分数，表明可通过KernelSnitch观测其他用户程序活动。文末我们还讨论了针对这类与硬件无关攻击的缓解措施。</span></span></p><p cid="n335" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/kernelsnitch-side-channel-attacks-on-kernel-data-structures/" target="_blank">https://www.ndss-symposium.org/ndss-paper/kernelsnitch-side-channel-attacks-on-kernel-data-structures/</a></span></span></p><h3 cid="n336" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">89、Kronos: A Secure and Generic Sharding Blockchain Consensus with Optimized Overhead</span></span></span></h3><p cid="n337" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">分片技术通过将网络划分为多个分片来提升区块链的可扩展性，每个分片负责管理特定的未花费交易输出或账户。作为一种新引入的交易类型，跨分片交易对分片区块链的安全性和效率提出了严峻挑战。</span></span></p><p cid="n338" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">目前业界缺乏一种兼顾安全性与低开销的通用分片区块链共识模式。本文提出Kronos——一种实现开销优化的安全分片区块链共识方案。我们创新性地提出基于分片成员共同管理的缓冲区的新型安全分片区块链共识模式，通过该缓冲区将有效交易转移至收款方，同时经由&#34;成功路径&#34;或&#34;失败路径&#34;拒绝无效交易。</span></span></p><p cid="n339" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">理论证明表明，Kronos在抵御恶意客户端攻击时能实现具有原子性的安全性，同时保持最优的分片内开销。其高效拒绝机制在成功路径中甚至无需执行拜占庭容错(BFT)协议，而失败路径的开销也不高于两阶段提交。此外，我们还提出安全的跨分片认证方法。在处理b笔交易时，Kronos被证明能以O(nbλ)的跨分片开销实现通信（n为分片规模，λ为安全参数）。</span></span></p><p cid="n340" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">值得注意的是，Kronos不对BFT协议施加限制，也不依赖时间假设，各模块均提供可选构造方案。它可作为通用框架来提升现有BFT协议的效能与可扩展性，支持包括异步网络在内的通用模型，能将吞吐量提升数个数量级。我们采用两种主流BFT协议实现Kronos：异步协议Speeding Dumbo（NDSS&#39;22）和部分同步协议Hotstuff（PODC&#39;19）。大规模实验（覆盖4个AWS区域的1000多个EC2节点）表明Kronos可将共识节点扩展至数千规模，实现32万笔/秒的高吞吐量与2.0秒延迟。相比既有方案，当跨分片交易成为主要负载时，Kronos的吞吐量最高提升12倍，延迟降低50%。</span></span></p><p cid="n341" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/kronos-a-secure-and-generic-sharding-blockchain-consensus-with-optimized-overhead/" target="_blank">https://www.ndss-symposium.org/ndss-paper/kronos-a-secure-and-generic-sharding-blockchain-consensus-with-optimized-overhead/</a></span></span></p><h3 cid="n342" mdtype="heading" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf=""><span textstyle="" style="font-size: 24px;font-weight: bold;">90、L-HAWK: A Controllable Physical Adversarial Patch Against a Long-Distance Target</span></span></span></h3><p cid="n343" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">自动驾驶汽车（AV）中基于视觉的感知模块易受物理对抗补丁攻击。然而，现有攻击大多无差别影响所有通行车辆。本文提出L-HAWK——一种通过远距离激光信号激活的新型可控物理对抗补丁。该补丁在激光触发时针对特定车辆发动攻击，常态下则保持无害。为实现这一目标并解决激光信号相关挑战，我们提出异步学习方法为L-HAWK确定最优激光参数及对应对抗补丁。为提升现实场景攻击鲁棒性，我们引入多角度多位置模拟机制、噪声近似方法和渐进式采样策略。通过数字与物理环境大量实验验证，L-HAWK在50米距离达到91.9%平均攻击成功率，相较TPatch（Usenix &#39;23）在7米处59%的成功率，攻击成功率提升56%，攻击距离扩展超七倍。</span></span></p><p cid="n344" mdtype="paragraph" style="box-sizing: border-box;"><span md-inline="plain" style="box-sizing: border-box;"><span leaf="">论文链接：</span></span><span md-inline="url" spellcheck="false" style="box-sizing: border-box;"><span leaf=""><a href="https://www.ndss-symposium.org/ndss-paper/l-hawk-a-controllable-physical-adversarial-patch-against-a-long-distance-target/" target="_blank">https://www.ndss-symposium.org/ndss-paper/l-hawk-a-controllable-physical-adversarial-patch-against-a-long-distance-target/</a></span></span></p><section style="text-align: center;" nodeleaf=""><img data-imgfileid="100000515" class="rich_pages wxw-img" data-ratio="0.3649122807017544" data-s="300,640" data-type="png" data-w="1710" type="block" src="https://wechat2rss.xlab.app/img-proxy/?k=84c3571f&amp;u=https%3A%2F%2Fmmbiz.qpic.cn%2Fmmbiz_png%2FicNlicgdbzSdUsr3zlDy5jvuhf6dz33SqB8w9ao4Xt0eGRD7LY9kyckjfOFI1zt8kgMr8eZsYl4JWB19eN2CowlQ%2F640%3Fwx_fmt%3Dpng"/></section><section><span leaf=""><br/></span></section><p style="display: none;"><mp-style-type data-value="3"></mp-style-type></p>



<p><a href="2247485943">阅读原文</a></p>
<p><a href="https://wechat2rss.xlab.app/link-proxy/?k=3f3d0f92&amp;r=1&amp;u=https%3A%2F%2Fmp.weixin.qq.com%2Fs%3F__biz%3DMzU0MzgzNTU0Mw%3D%3D%26mid%3D2247485943%26idx%3D1%26sn%3D23f7d08c8f16bb214e3b6eb8b6a9b05c%26subscene%3D0">跳转微信打开</a></p>
]]></content:encoded>
      <pubDate>Sat, 19 Apr 2025 22:47:00 +0800</pubDate>
    </item>
  </channel>
</rss>