大厂AI能问出个人微信号？实测各大模型"吞吐"个人信息

2024-12-12 19:40:19 来源： 21世纪经济报道

　　21世纪经济报道记者肖潇实习生崔嘉豪袁清渠北京报道

　　12月8日，一条关于字节跳动旗下AI产品“豆包”的内容在社交平台引发争议。一名网友发帖称，陌生人通过豆包AI搜到了她的微信号，还能通过AI查到自己的专业、考研成绩、班级活动等信息。

　　（图/当事人社交媒体）

　　对此，21世纪经济报道记者联系了豆包相关负责人，平台回应称，豆包是基于互联网上公开信息进行了搜索和智能整合，此类联系方式通过搜索引擎也能够搜到。

　　豆包方面表示，目前已对询问个人信息类提示词进行优化，保证即使网上有公开信息的情况下，仍然限制相关信息的露出，做好个人隐私信息的保护。后续将继续调整产品策略，以避免对用户造成困扰。

　　12月12日，记者对豆包、文心一言、通义千问、Kimi四款国内AI语言大模型进行测试，发现已有部分大模型产品进行了调整，限制与个人信息相关的回答。

　　不过，这不是大模型第一次引发个人隐私争议。当信息被用于超出用户预期的场景时，催生了不安，AI产品的隐私策略面临更复杂的挑战。

　　测试：AI爬取公开信息，部分回答有限制

　　根据当事人对媒体的讲述，陌生人是在豆包中输入了“学校+姓名”，得到了她的微信号。豆包显示，这条信息来源于一篇2023年的公众号文章，当时当事人在为一个学生剧组招募现场演员，并在文章中留下了自己的微信联系方式。

　　当事人称，自己已向豆包举报了带有微信号的回答，目前豆包不再返回相应答案。不过输入其他人的姓名和学校，还是可以获得详细的个人信息陈述。

　　豆包是字节跳动旗下的AI聊天工具，能够让AI联网总结信息。该产品于去年8月上线，字节跳动产品和战略副总裁朱骏在今年5月称，豆包APP总下载量已突破1亿次。

　　12月11日晚，21记者用类似的方法对豆包、文心一言、通义千问、Kimi四款国内AI语言大模型提问。从测试结果来看，大模型的回答能力与个人网络曝光度相关：如果一个人日常活跃、有网络曝光度，AI的确能详细陈述信息；反之则描述不出结果。

　　举例来说，21记者输入一名考研成功、曾在媒体实习，且有丰富志愿经历的学生姓名，豆包能够详细描述其学术成果和成绩表现。这种情况下，豆包的信息源是学校官网和媒体网站，包括学校公开的自主招生成绩、硕士录取名单，媒体报道的团支部志愿活动。

　　（图/12月11日，21记者测试豆包AI）

　　在当晚的测试中，只有阿里巴巴集团旗下的通义千问拒绝了提问请求。通义千问提示属于个人隐私，建议用户通过学校官网或领英等平台查询。

　　12月12日记者再次测试时，豆包AI也调整了回复，称未查到该学生具有显著公开事迹，回复缩减成了一百字左右的笼统概述。

　　目前几款AI产品中，豆包在每条AI回答后提供了“举报”选项；通义千问设置了“我要反馈”板块，可以上传图片或填写问题；文心一言与Kimi也提供“用户反馈”板块，但主要是针对产品提问，不能单独上传图片。

　　争议：整合公开信息，算不算侵犯隐私？

　　根据记者实测和官方回应，AI之所以会输出个人信息，是因为抓取整合了不同网站的公开信息，类似升级版的搜索引擎。而争议焦点在于：这种行为构不构成侵犯隐私？

　　上海申伦律师事务所律师夏海龙长期从事个人信息及隐私保护领域，他告诉21记者，从法律上看，这种情况严格来说并不构成侵犯个人信息。“从原理来讲，这种检索手段是合理合法的。从个人信息保护的角度，对于用户主动公开的信息，我认为这种整合式的输出并不违反个人信息所有者公开的目的，也是合理的。”

　　不过，夏海龙也坦言，可以理解这一情况存在争议。比如，有网友认为，愿意公开发布到公众号，并不代表自己愿意授权给AI总结。但夏海龙表示，微信公众号本身也是公开的网络空间，属于用户自行公开的行为。正常来讲，只要不是通过破解入侵的方式获取到公开信息，都有一定合理性，也没有违背用户当初信息公开的目的。

　　类似的隐私争议在AI产品中屡见不鲜，情况也更为复杂多样。梳理下来，大概有三种场景：第一种是AI联网搜出个人信息，也就是豆包的情况；第二种，AI收集个人信息用来训练模型；第三种，AI生成错误的个人信息。

　　ChatGPT曾涉及后两种问题。2023年4月，ChatGPT因隐私泄露问题在意大利被暂时封禁。OpenAI调查发现，部分用户的个人信息、聊天记录和标题，因为开源库出现漏洞而被错误展示。

　　“ChatGPT是否按照其隐私政策，合法合理地收集并利用用户个人信息？是否有效识别，并剔除了训练数据中‘偶然’包含的个人信息？这两个问题可能是争议焦点所在。”大成律师事务所高级合伙人邓志松此前向21记者分析。

　　邓志松指出，ChatGPT的训练数据大量来自网上公开的文档、百科网站、个人问答，这里面可能包含大量个人信息，而个人信息主体却不知道自己的数据被用于训练大模型。未经用户许可擅自抓取并利用其个人信息，可能涉嫌违反所在司法辖区的个人信息保护法律法规，并构成民事侵权。

　　面对质疑，OpenAI表示会尽力从训练数据集中删除个人信息，微调模型以减少个人信息的输出，并回应用户删除个人信息的请求。但棘手的是，要逐一授权或删除这些个人信息，成本和可行性都难度不小，这也是大模型在隐私保护上面临的一大挑战。

　　除此之外，今年4月，奥地利数据保护机构收到一起针对ChatGPT的投诉，投诉其捏造用户的错误出生日期。这一行为被认为违反了欧盟《通用数据保护条例》对个人信息准确性的要求。OpenAI在隐私政策中表示，用户可通过邮件申请更正生成的错误信息，但由于技术复杂性，并非所有错误都能被及时纠正。

　　个人信息的处理问题也出现在本次事件中。当事人提到，她在一篇公众号文章中公开了联系方式，但该文仅上线一周便删除，而豆包仍能检索并总结相关信息。夏海龙分析，这涉及到我国《个人信息保护法》中关于“删除权”的条款。当用户主动从网上删除了相关信息之后，AI服务商应当及时删除信息，并同步到搜索结果中。

　　不过，一位AI产品内部人士告诉21记者，信息一旦公开到互联网中，很难被删除干净，这也是常见情况。

　　用户可能不清楚到底还存在哪些公开信息，而AI的检索能力之强往往远超用户预期。如何采用更完善的隐私保护策略，如何更好回应公众不安和隐私隐患，将是接下来AI产品需要直面的挑战。

0人

代码\|股票名称	最新	涨跌幅

网站地图