类固醇是什么东西| 婴儿胎毛什么时候剃最好| 感冒头晕是什么原因| 细菌性阴道病用什么药| 斗是什么样子| 什么叫边界感| 秋天有什么植物| 红丹是什么| 吕布的武器叫什么| lck是什么意思| 漳平水仙茶属于什么茶| 口琴买什么牌子好| 照护保险是什么| 杏林指什么| 香蕉为什么不能放冰箱| 珍惜当下是什么意思| 嬴政和芈月是什么关系| 纲是什么意思| 肝胆相照是什么生肖| 粉玫瑰代表什么意思| 十月十九是什么星座| 今年的属相是什么生肖| 蒟蒻是什么| 太阳最后会变成什么| 血小板高是什么问题| 氯雷他定片是什么药| 7.14号是什么节日| 月经量少要吃什么调理| cbd什么意思| 停止长高有什么征兆| 诺欣妥是什么药| ups是什么快递| 金命适合什么颜色| 什么东西驱蛇效果最好| 威士忌是什么酒| 一只脚面肿是什么原因| 婴儿半夜哭闹是什么原因| 乏力是什么意思| 神经损伤是什么症状| 6月23号什么星座| momo是什么意思| 低密度结节是什么意思| 腿抽筋是什么问题| 过敏性皮炎吃什么药| 脚底发凉是什么原因| 烫伤用什么消毒| 为什么越吃越饿| 社保断了有什么影响| 奇变偶不变是什么意思| 窦性心动过缓是什么病| 礼佛是什么意思| 拔凉拔凉是什么意思| 女生下边长痘痘是什么病| 24号来月经什么时候是排卵期| 蟋蟀喜欢吃什么| 农历五月十八是什么日子| 办理社保卡需要什么资料| 疼风是什么原因引起的| 老虎头上为什么有王字| 口苦口干吃什么药最好| 办健康证要带什么证件| 老干局是干什么的| 三羊开泰什么意思| 梦见家里发大水了是什么征兆| 吃什么药能推迟月经| 喉癌是什么原因引起的| 肝肾不足是什么意思| 高筋面粉可以做什么| alpha是什么| 军魂是什么意思| 身上臭是什么原因| 车前草有什么功效| 人为什么会生病| 8月23是什么星座| min代表什么| tips什么意思| 36周检查什么项目| 秋田狐鱼钩适合钓什么鱼| 肺ca是什么病| 乳腺点状强回声是什么意思| 苗侨伟为什么叫三哥| 白细胞2加号什么意思| 蛇胆是什么| 陕西的特产有什么| 老司机是什么意思| 什么运动降血糖最快| 新生儿一直哭闹是什么原因| 12月21日是什么星座| 出什么入什么| 查乳腺挂什么科| 苑什么意思| 性功能障碍挂什么科| 膝盖咔咔响吃什么药| 孩子皮肤黑是什么原因| 脚趾抽筋是什么原因引起的| 什么叫宿根太阳花| 什么是微循环| bottle什么意思| 为什么8到10周容易胎停| 喉结肿大是什么原因| 喉咙干咳吃什么药| 血糖高喝什么好| 反流性胃炎吃什么药| 子宫内膜息肉有什么症状| 美国现在什么季节| l代表什么意思| 悼念是什么意思| 情不自禁的禁是什么意思| 慰问金是什么意思| 乳腺结节是什么引起的| eva是什么材料| 什么是非甾体抗炎药| 姑姑的弟弟叫什么| 男性射精是什么感觉| 羊癫疯有什么症状表现| 翻白草长什么样| 体检需要注意什么| psv是什么| 兔唇是什么原因造成的| 什么叫透析| 君子兰有什么特点| 欧莱雅属于什么档次| 热毒吃什么药好得快| 植发用什么头发| 小腿疼痛什么原因引起的| 淋巴结增大是什么原因严重吗| 段泥紫砂壶适合泡什么茶| 失眠有什么办法解决| 军校出来是什么军衔| 头发厚适合剪什么发型| 月经前便秘是什么原因| 朝秦暮楚是什么意思| ch2o是什么物质| 福州有什么好吃的| 脊髓灰质炎是什么病| 锁骨中间的窝叫什么| 湘字五行属什么的| 舌根部淋巴滤泡增生吃什么药| 白羊和什么星座最配| 平权是什么意思| 水蚤吃什么| 意思是什么意思| 天麻与什么煲汤最好| 肌酐是检查什么的| 家庭长期饮用什么水最好| 什么是甲状腺| 保家仙都有什么仙| 穿刺是什么检查| 6月20日是什么星座| 脖子老出汗是什么原因| 画龙点晴是什么生肖| 晚上蝴蝶来家什么预兆| 花开半夏什么意思| 肺部结节有什么症状| 医学上pi是什么意思| 甲状腺结节吃什么药| 宇五行属什么| 螺旋杆菌吃什么药| 睡觉手麻木是什么原因| 奇货可居什么意思| 女性雄激素过高是什么原因引起的| 息风止痉是什么意思| 马口鱼是什么鱼| 伊拉克是什么人种| 肝腹水有什么症状| 逃之夭夭是什么意思| 三和大神什么意思| 小拇指旁边的手指叫什么| 六味地黄丸有什么作用| 寒潮是什么| 梵是什么意思| 蛤蜊是什么| mri什么意思| 打胎吃什么药| 提上日程是什么意思| pc是什么意思啊| 太阳鱼吃什么食物| 2010年是什么命| b族维生素什么人不能吃| 湿热吃什么水果| 为什么250是骂人的话| 牙龈为什么会肿痛| 茶油是什么油| 什么时候会有孕吐反应| 犯法是什么意思| 肝痛在什么位置| 什么的船只| 牛初乳是什么| 莱昂纳多为什么叫小李子| 结节灶是什么意思啊| 白砂糖是什么糖| 什么病不能吃鲤鱼| 梦见小孩子是什么意思| 什么牌子的洗衣机最好| 突然眼睛充血是什么原因引起的| 白细胞少会引起什么病| 霸王硬上弓什么意思| 银联是什么| 梦见好多衣服是什么意思| 什么是鸡尾酒| pa是什么材质| 沙发是什么头发| 为什么想吐| 夏至是什么意思| 线束厂是做什么的| 座山雕什么意思| 粉条炖什么好吃| 夏天吃什么| 同型半胱氨酸偏高吃什么药| 老是打饱嗝是什么原因| 中气下陷吃什么药| 备孕前吃什么调理身体| 喘不上气是什么原因| 商标r是什么意思| 枸杞树长什么样| 肝病有什么症状| 小孩尿酸高是什么原因| 打耳洞需要注意什么| 十月初四是什么星座| 用醋泡脚有什么好处| 色素沉着有什么办法可以去除| 小儿发烧吃什么食物好| 贝字旁的字和什么有关| 教师节唱什么歌| 百利甜酒兑什么最好喝| 为什么狐臭女很漂亮| 手腕血管疼是什么原因| 榴莲和什么不能一起吃| 朱顶红什么时候开花| 山药有什么功效和作用| 闷骚男是什么意思| 化疗是什么意思| 鱼是什么结构| 眼睛浮肿是什么原因| 容易做梦是什么原因引起的| dwi呈高信号什么意思| 中国为什么叫中国| 清点是什么意思| 魅可口红属于什么档次| 褪黑素是什么东西| 9月出生的是什么星座| 什么手组词| 血小板吃什么补得快点| 11点是什么时辰| 悬钟为什么叫绝骨| 羊肚菌有什么功效和作用| 凿壁偷光是什么意思| 枯木逢春是什么生肖| 仕字五行属什么| 店招是什么意思| 什么是肩袖损伤| 希特勒为什么要杀犹太人| 国企董事长是什么级别| 端午节安康是什么意思| 花可以组什么词| 支原体感染有什么症状| 白玉是什么玉| 额头长闭口是什么原因| 中国女人裹脚是从什么时候开始| 什么时辰出生最好| 两个马念什么字| 孕妇红细胞偏低是什么原因| 六味地黄丸有什么作用| 宝宝病毒性感冒吃什么药效果好| 百度

大模型时代的隐私保护与内容安全

董航、李慧芳、陈泱徐
大模型是一种包含数亿甚至数十亿训练参数的神经网络,它通过自监督或半监督学习的方式,利用大量数据进行训练。其中,大语言模型(LLM)是大模型中最常见的一种,能够执行情感分析、机器翻译、内容生成等各种自然语言处理(NLP)任务。
百度 从中国海外产业园区建设来看,目前的主要功能已经从投资载体转变成战略平台。

本文来自微信公众号“工联网iitime”,作者/董航、李慧芳、陈泱徐。

随着2022年11月底OpenAI推出名为ChatGPT的人工智能对话聊天机器人,“大模型”概念迅速成为AI时代的热门话题,各厂商争相推出大模型产品。然而,在以ChatGPT为首的一众大模型被广泛应用的同时,用户不禁要问:人工智能大模型是否安全?

安全是大模型时代的最大挑战

大模型是一种包含数亿甚至数十亿训练参数的神经网络,它通过自监督或半监督学习的方式,利用大量数据进行训练。其中,大语言模型(LLM)是大模型中最常见的一种,能够执行情感分析、机器翻译、内容生成等各种自然语言处理(NLP)任务。

最早的大语言模型可以追溯到20世纪60年代第一个聊天机器人Eliza的创建。Eliza是一个简单的程序,它使用模式识别来模拟人类对话,将用户的输入转换为问题并根据一组预定义的规则生成响应。虽然Eliza远非完美,但它的出现标志着自然语言处理研究的开始和更复杂的大语言模型的发展。1997年,长短期记忆机器学习模型(LSTM)创建了更深层、更复杂的神经网络,能够处理更多的数据。2017年,Transformer模型的出现为此后的大模型产品奠定了基础,可以称之为“让ChatGPT踩在肩膀上的巨人”。强大的Transformer架构支持创建更大、更复杂的大语言模型,例如,OpenAI在2020年推出的GPT-3(Generative Pre-trained Transformer 3),被视为人工智能领域的一个里程碑。

生成式人工智能是一种使用大模型生成自然语言、图片、视频等内容的系统。这些大模型通过学习从互联网抓取的通用数据或由开发者上传的特定数据,能够生成风格和内容与训练数据相似的新内容。它们还可以根据在训练中获得的模式,生成摘要、翻译、预测文本等内容,知名的生成式大模型包括OpenAI的ChatGPT和谷歌的Bard。

随着大模型技术的迅速发展,相关企业都希望抓住这一机遇,利用大模型来开展业务赋能和创新。例如,一些提供餐饮推荐、外卖点单服务的商家会收集客户的基本资料、购买记录、行为习惯等信息,并将这些信息以数据的形式存储下来,通过人工智能大模型进行分析并加以利用,针对不同客户群体的消费习惯和购买行为进行特定商品推送。此外,ChatGPT还可以根据用户输入的主题和描述进行文案、图片等创作。

虽然这种颠覆性技术有广阔的应用前景,但它并非没有风险。因为人工智能大模型生成的内容并不能保证是真实的或适当的。随着大模型技术的迅速发展和广泛应用,人们每天都生活在大量数据和算法之中,这些技术的运用在提高人们生活质量的同时,也带来了前所未有的安全问题。

大模型技术可能会过度收集并违规使用个人信息数据,导致个人隐私数据面临泄露或被窃取的风险。此外,大模型算法本身也可能存在缺陷,导致其生成虚假新闻或不正当言论。因此,大模型引发的数据泄露和内容安全问题已经成为当前人们关注的焦点,也是人工智能领域面临的挑战之一。

大模型时代的隐私保护

随着大模型技术的快速发展和广泛应用,人们的生活发生了前所未有的变化。然而,在享受大模型技术带来的机会的同时,我们也不能忽视其弊端带来的负面影响。尤其是在当今这个缺乏隐私保护意识的时代,人们为了获取智能应用带来的便利而让渡部分权利,隐私数据泄露便不可避免。

最近几年,个人隐私数据受到侵犯的案件频繁发生。例如,Facebook未经允许将用户个人信息泄露给剑桥分析公司用于非法目的,同时利用网民的浏览习惯来精准投放广告;而剑桥大学心理测量学中心通过分析用户对哪些帖子和新闻进行阅读、点赞,得出每个人的性别、个性等信息。该事件表明,大模型技术的普及乃至滥用使其面临越来越多的隐私和安全威胁。

因此,社会各界逐渐加大了对隐私风险的分析和隐私保护的关注度,数据安全、模型安全、应用安全成为用户和服务提供商最关心的问题。为了保护个人隐私,相关各方应采取有效的措施,加强对大模型技术监管和个人隐私数据保护的措施,并加强对相关人员的培训和教育。只有这样,才能使人们更好地享受大模型技术带来的便利和机会,同时保护其个人隐私和安全不受侵害。

在数据采集、存储、处理、流通等阶段,都存在泄露的风险。

在数据采集方面,由于存在非法数据、买卖数据、暗网数据等不正当和未经授权的隐私数据收集行为,以致部分数据的获取实际上并没有取得用户的知情同意,很容易造成用户隐私数据泄露。

在数据存储方面,如果没有采取有效的技术手段进行安全防护,隐私数据很容易被攻击者通过黑客行为窃取。另一方面,由于对数据没有明确的隐私界定与标注,如果数据使用者无意中将涉及隐私的数据用于公开的大模型训练分析,个人隐私将在不经意间被泄露。

在数据处理方面,对于种类多、数据量大的数据集,数据的处理过程难以规范与监管,存在被攻击者破坏、拷贝等安全隐患。

在数据流通方面,由于一些人工智能企业会委托第三方公司实现海量数据的采集、标注、分析和算法优化,数据将不可避免地在供应链的各个主体之间形成复杂的交互流通链路,并因各主体数据安全能力的参差不齐而产生数据泄露或被滥用的风险。

除此之外,在全球数字经济发展不均衡的大背景下,大型科技巨头将人工智能的数据资源供给、数据分析能力、算法研发优化、产品设计应用等环节分散在不同的国家,数据跨境流动的场景也将对国家安全和个人信息保护造成不可控的风险。

大模型时代的内容安全

在ChatGPT的使用过程中,用户只需输入主题和描述,就能生成相应内容,这降低了网络犯罪的门槛,让即使完全不懂代码的人也能进行虚假信息、不适当信息的制造和传播。一些不法分子使用“AI换脸”技术,通过伪造视频和图片进行非法牟利,人脸信息属于个人敏感信息,被用于生物识别,关系到每个人的肖像权和财产安全。这种利用大模型进行“AI换脸”内容生成、技术滥用的行为,严重损害了社会公共利益和他人肖像权。此外,新型电信诈骗模式也呈现高发态势,不法分子使用大模型创作“诈骗剧本”,并利用AI创作的虚假视频、音频进行诈骗,对个人财产造成了严重损害。

人工智能模型依赖于大量数据,大模型虽然可以生成与训练数据风格相似的内容,但本身不具备辨别数据真伪的能力,因此容易受到虚假训练数据的影响。除此之外,数据的污染和偏差都会降低模型的准确性和可靠性。如果数据质量出现问题,如数据内容失真、数据标注错误、数据多样性有限等,那么大模型生成内容的可信度将无法保证,可能导致预测结果出现偏差,甚至导致种族歧视或性别歧视等内容的生成。

此外,一些不法分子在训练数据集中添加“污染数据”,导致训练出来的大模型在决策时出现偏差,从而影响模型的完整性和可用性。近年来,“数据投毒”问题已导致多个世界知名公司遭受重大负面影响,并产生了十分严重的后果。例如,美国亚马逊公司的Alexa智能音箱“学习”了网络不良信息,发生了引导用户自杀的恶意行为。这足以看出,训练数据的质量已成为阻碍人工智能发展的重大问题。

除了生成恶意内容的风险外,大模型在推理过程中产生的信息还可能间接暴露用户隐私。一方面,在深度挖掘和分析数据时,可能会挖掘出用户的个人隐私信息,并对其进行一系列分析和应用,从而间接暴露数据中隐藏的个人隐私。另一方面,在对去标识化的个人信息、行为模式进行融合及关联分析时,可能会推理出与个人隐私相关的信息,如政治倾向、财务状况等。

此外,一些不法分子采用模型逆向攻击方式,还原训练数据以获取用户隐私信息。攻击者可以在没有训练数据的情况下,通过不断调整模型的输入数据,最终获得与训练集相似的数据。这种攻击如果用于人脸识别、指纹识别等生物信息识别系统,可能导致用户生物识别信息的泄露。例如,攻击者可以随机构建一张图片,人脸识别模型会给出用户名和置信度,结合置信度不断调整图片,最终有可能恢复出训练集中的人脸信息。

大模型时代的安全保护

针对大模型的隐私数据泄露和内容安全问题,必须加强监管和技术保障,确保大模型的安全性和可靠性。业界可以从以下三个方面开展相关工作:管控手段、攻防技术、隐私保护与检测平台。

在管控手段方面,管理者可以在大模型的开发阶段,根据预设的规则策略制定权限控制机制,限制用户访问资源的权限,以保护系统安全和数据完整性。这样可以确保人工智能数据模型的隐私安全。

由于智能化程度越高的人工智能应用,数据隐私泄露的风险越高,因此可以根据人工智能应用的场景和功能对其进行分类分级,并制定差异化的人工智能隐私保护机制。例如,针对初级的基于人工智能技术的数据分析,可以按权限申请数据使用和共享,保证数据可信共享。针对智能化程度更高的生成式人工智能应用,可采用溯源的解决方案,对生成的图片、视频等内容进行标识,若发现违法生成内容应及时采取处置措施。这种精细化、分级化的管控手段有助于降低系统隐私泄露带来的负面影响。

在攻防技术方面,研究团队需要开发新的防御技术并研究攻击方法以应对新型的隐私泄露威胁。例如,可以使用深度学习算法检测模型中的恶意内容,或者使用加密技术保护数据的隐私。同时,研究团队也需要开发新的攻击技术以发现模型中的漏洞和弱点,从而及时修复并更新模型。

针对大模型训练和推理阶段所面临的隐私安全风险,研究者根据不同的攻击类型提出了相应的防御措施。对于“数据投毒”攻击,防御措施主要包括采用鲁棒性机器学习方法和数据清洗技术,以改变正常训练数据的分布。对于成员推理攻击,研究者发现可以通过在模型中添加Dropout层、正则项或使用model stacking减少这种攻击。对于模型逆向攻击,一种常见的方式是利用差分隐私技术来保护数据隐私,也有研究者提出利用联邦学习建立虚拟共有模型进行多方共同训练,以降低本地训练数据泄露的风险。对于模型提取攻击,一种直接的方式是对模型参数或输出结果进行近似处理,也有研究者利用模型水印技术来保护模型数据的知识产权,降低模型被盗用的风险。对于对抗样本攻击,已经有多种防护手段,其中直接对抗训练是将对抗样本及正确标签重新输入到模型中进行重训练,梯度掩模通过隐藏梯度使基于梯度的对抗样本攻击失效,对抗样本检测即直接检测是否存在对抗样本。

另外,还有研究者提出了提示注入攻击防御方法和生成内容检测过滤防御方法,以预防大模型的提示攻击威胁和生成内容隐私泄露。对于提示注入攻击防御,一种简单的策略是将防御策略添加到指令中,通过增加指令的鲁棒性来强制执行期望的行为。常用的技术有调整提示位置、使用特殊符号标识等。同时,另有研究者提出构建提示检测器对提示进行检测、分类或过滤,以防止敏感和有害的提示输入。目前,OpenAI的ChatGPT、微软的NewBing等都采用了这种防御策略。

在隐私保护与检测平台方面,应建立大规模的隐私保护和数据安全检测平台,对所有的人工智能应用进行全面的隐私和安全检测。该平台应能够自动分析人工智能应用的数据来源、使用方式和处理过程,从而发现可能存在的隐私泄露风险。同时,该平台也应能够提供实时的监控和报警服务,及时发现并处理任何可能导致隐私泄露的事件。

为了保护数据的隐私和安全,多个隐私保护人工智能平台被陆续推出,这些平台基于安全多方计算、联邦学习、匿踪查询、密码学和分布式等技术,实现了数据的安全共享。其中,某隐私保护机器学习平台利用安全多方计算和联邦学习打通“数据孤岛”,将计算环节移至数据端,实现了“数据可用不可见”,解决了多家机构在数据合作中可能存在的数据安全风险和隐私泄露问题。另一个面向政府内部及外部数据需求方的隐私计算平台则提供安全可信的隐私计算服务,以推动政府的数据生态体系建设。该平台支持多方计算和联邦学习融合应用模式,并通过联邦区块链保证过程的不可篡改和可溯源性,实现了“数据可用不可见”和“计算可信可链接”,帮助政府解决数据开放和隐私保护难以两全的问题。

最近,联邦学习隐私计算开源平台FATE发布了联邦大模型FATE-LLM。联邦大模型是指利用联邦学习的方法对预训练大语言模型进行微调和优化,以适应不同的应用场景和任务。联邦大模型可以突破数据和算力的壁垒,实现多方数据的融合和增值,同时保护数据隐私和安全。此外,针对大模型生成内容的监测,业内也在积极研究相关的安全监测工具,以满足用户对可信赖人工智能系统的需求,并促进全球人工智能监管框架的互联互通。

最后,笔者在此呼吁大模型的开发厂商、安全厂商等企业共同构建大模型的安全生态环境,建立健全的管理体系。通过多层保护的方式,保障用户的隐私数据安全以及生成内容的安全。通过加强合作和交流,共同推动人工智能大模型技术的健康、稳定和可持续发展。

THEEND

最新评论(评论仅代表用户观点)

更多
暂无评论
猎奇什么意思 丙类药一般是什么药 薛字五行属什么 搞破鞋什么意思 阿根廷讲什么语言
不自主的摇头是什么病 什么油适合炒菜 撤退性出血是什么颜色 消化道出血吃什么药 芒果对身体有什么好处
eason是什么意思 ags是什么意思 梦到孩子被蛇咬是什么意思 天秤座和什么座最配对 lmp是什么意思
双甘油脂肪酸酯是什么 耳仓为什么是臭的 变色龙指什么人 什么是处男 儿童热伤风吃什么药
重组人干扰素a2b主要是治疗什么病hcv9jop1ns4r.cn 麻醉科属于什么科室beikeqingting.com 白芷有什么功效hcv8jop2ns7r.cn 肚子痛是什么原因hcv9jop5ns4r.cn 颈椎病挂什么科最好hcv8jop9ns9r.cn
怀孕该吃什么补充营养hcv7jop9ns6r.cn 大肠杆菌用什么药治疗效果好hcv8jop6ns8r.cn 吃什么补雌激素最快hcv8jop9ns0r.cn 老鼠最怕什么yanzhenzixun.com 直肠窝积液是什么意思hcv7jop9ns8r.cn
倾慕是什么意思hcv9jop5ns8r.cn mm代表什么单位hcv8jop0ns2r.cn 11月10号是什么星座hcv8jop6ns3r.cn 存在感是什么意思hcv7jop4ns8r.cn hopeshow是什么牌子hcv8jop4ns6r.cn
上海有什么好玩的地方适合小孩子hcv9jop4ns2r.cn 肺大泡是什么病严重吗hcv8jop8ns7r.cn 脑门出汗多是什么原因xinmaowt.com 经常感冒发烧是什么原因hcv8jop7ns4r.cn 心脏是由什么组织构成的hcv8jop8ns3r.cn
百度