Discuz! Board

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 108|回复: 0

通过私有联合分析改进 语言模型

[复制链接]

1

主题

1

帖子

5

积分

新手上路

Rank: 1

积分
5
发表于 2024-5-2 12:56:12 | 显示全部楼层 |阅读模式

为了提高  的键盘性能,同时保持用户数据的私密性,我们:与语言专家合作完善其词典,开发基于联合分析和差异隐私的新型隐私保护技术,以直接在用户设备上发现词汇外的单词,以及采用安全硬件基础设施进行机密且可外部验证的服务器端数据处理的键盘应用程序用语言模型 (LM) 通过下一个单词预测、自动更正、智能撰写、滑动打字和校对等功能来改善用户的打字体验。我们的研究人员优先考虑开发负责任的方法,维护最高隐私标准,同时提高 性能。近年来,我们取得了实质性进展,包括向用户提供数据使用披露和配置控制,以及使用联合学习来训练具有差异隐私(DP)的,以提供可量化且严格的数据匿名化措施。旨在处理预定义的常用单词列表(称为词汇表)。语言模型的性能取决于词汇的质量,而词汇的质量可能会随着时间的推移而发生变化。不属于词汇表的单词称为词汇表单词的原因有多种。例如中某些语言的词汇仍在开发中,因此  单词的比例可能会更高。对词汇量相对完整的语言,例如美国英语,由于新出现的热门词(以及非典型大写字母常会出现词。由于用户偏好而导致的异常拼写,例如“,甚至拼写错误。

由于用户在键盘上键入的信息的敏感性 发现是一项具有挑战性的任务。 今天,我们很高兴与大家分享一些方法,这些方法可以通过发现新的常用单词来提高的性能,同时保持强大的数据最小化和保证。这些研究工作包括与语言学家合作发现新颖单词、使用保护隐私的联合分析和其他DP 算法,以及使用可信执行环境(TEE)。 与语 垃圾邮件号码数据 言学家的合作 发现 单词的一种方法是通过与外部各方负责任的合作来获得经过审查的单词列表一个皇家机构,其使命是确保西班牙语的稳定性,创建更精致的西班牙语词典并将其纳入 。这使得更快的自动更正和更好的单词推荐成为可能,从而改善了在西班牙输入西班牙语的用户的 体验。许多之前缺失的单词包括常用名、品牌名和地名;相对技术性的词语;以及西班牙人特有的)。 使用之前的训练数据重新训练我们的西班牙并通过下游模型的联合再训练对其进行增强,从而产生了显着的质量改进词的总体比例下降了 7.3%。初始提交后修改键入单词的速率较低,并且由于使用更大的词汇量而提高了键入速度。




保护隐私的联合分析 提高词汇量的另一种方法是从用户设备中发现常见的单词。由于用户在其设备上键入内容的敏感性,这本质上是一项具有挑战性的任务。因此,我们需要仔细设计在数据收集和处理阶段保护用户敏感信息的机制。为了实现这一目标,我们采用联合分析,这是一种数据最小化方法,用于在不共享敏感数据的情况下计算分布式数据集的统计查询,并使用开放集域的新颖算法对其进行扩展。这使得动态 单词发现成为可能,同时通过数据最小化技术(例如安和数据匿名化技保护用户贡献。 我们开发的一项技术是查找表(IBLT) 与结合起来。 IBLT 是线性数据结构,允许高效插入、删除和查找键值对。在这里,用户将他们的单词插入到零初始化的 IBLT 中,然后使用进行聚合。这保证了诚实但好奇的服务器只能看到聚合的 IBLT(所单词及其在所有设备上的频率),而不是单个用户的贡献。这种方法为用户贡献提供匿名性,并防止服务器将特定单词链接到单个用户。在数据处理阶段,中央DP应用于发现V词及其计数,以确保少数个体独有的OOV词永远不会被释放。 量化隐私保护(值越小表明保护越强)。它提供了正式的保证,即发布的数据模式在不同设备上足够通用,从而防止个人识别。 使用发现常用单词。 对使用案例,需要更强的隐私性,因为用户输入可能来自大量可能包含敏感信息的可能性。

回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|DiscuzX

GMT+8, 2024-9-20 22:33 , Processed in 0.037869 second(s), 18 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表