GPT-3泄露了我的真实姓名
扫一扫
分享文章到微信
扫一扫
关注99科技网微信公众号
大数据文摘授权转载自夕小瑶的卖萌屋
作者:天于刀刀
世界上总有这么一群人,他们是高智商科技狂,是新时代技术热点的弄潮儿,更是充满神秘感潜藏在里世界默默注视着时代发展的极客。
而 Hacker News 这一网站致力于提供最新国际威胁情报、黑客动向以及维基解密资讯,让我们得以一窥这个灰色区域。
最近,有关 GPT-3 的消息再次引发 Hacker News 的热议。
而这一次,GPT-3 并不是通过撰写一篇鸡汤文 证明自己在 AIGC 赛道的能力而闻名[1],而是成为了模型数据泄露的“犯罪嫌疑人”。
用户 BoppreH 发帖称,尽管他是一个非常注重保护个人隐私的用户,但是当他向 GPT-3 输入他的网名时,输出结果中意外地包含了他的真实姓名![2]
该用户还提到,之所以能够认定这确实是他的真实姓名,是因为他的真名非常罕见,同时也从来没有主动在网络上以任何方式将他的网名和真名联系在一起。
有的黑客朋友提出,帖主疏忽了一种可能性,其实能够通过 Google 搜索他用户名的方式,能追踪到他同昵称的 Github 中的某一个项目 repo 中 licence 的签名,这恰巧也就是他的真名。(好复杂)
但是这样的信息检索和关联能力已经远远地超出普通搜索引擎和机器人爬虫的能力范围,莫非 LM 语言大模型就是下一代智能搜索的雏形?如果 GPT-3 真的拥有着如此的信息关联能力,这简直和童话故事中的魔镜一样,堪称魔法智能了。
毫无疑问的, GPT-3 训练数据的构建方式非常值得引起大家思考,同时也让不少人再一次对大模型“黑箱推理导致的信息泄露”产生了激烈的讨论。
黑客社区的讨论主要聚焦在于隐私保护问题上,通过引用大量法律(主要是诽谤法相关法规)以及各个 Lincence 开源协议,最终明确了两个概念:
“被遗忘权”( right to be forgotten )和“铭记权”( right to remember )。If I had found my personal information on Google search results, or Facebook, I could ask the information to be removed, but GPT-3 seems to have no such support. [2]
这两个概念均来自或扩展于欧洲联盟《通用数据保护条例》( General Data Protection Regulation,简称 GDPR ),前身是欧盟在1995年制定的《计算机数据保护法》。其中重点规定了:
99科技网:http://www.99it.com.cn
