项目研究工作进展和所取得的研究成果具体如下:
(1)针对商务数据发布中存在的不同敏感程度导致部分数据存在过度保护而另一部分数据存在隐私安全不够的问题,突破隐私保护统一划线的局限,提出一种敏感度自适应的不确定性隐私保护方法和模型。该方法根据敏感项目的敏感度不同而自适应指定ρ-不确定性隐私保护模型,考虑了影响项目敏感度的多方面因素,制定出使敏感度不同的项目拥有多样化的隐私阈值ρ。对发布的数据集中能推断出敏感项目的概率值进行弹性控制,提供一种更加灵活、更能应用于具有多种特征的数据集、更能满足个体个性化需求的隐私保护模型。然后,根据提出的隐私方法,采用局部泛化与部分删除相结合的算法来实现整个匿名过程,匿名过程中采用自上而下的启发式算法实现对数据集的分组,根据制定的消除策略,不断地消除各个组内违反了隐私要求的敏感关联规则。匿名过程中采用自上而下的启发式算法实现对数据集的分组,根据制定的消除策略,不断地消除各个组内违反了隐私要求的敏感关联规则,直到使得每个子分组中满足隐私要求,才可将其发布。实验结果验证了该算法不仅可以很好的保证匿名后数据的真实性,并且在保护了数据集中个体隐私信息的同时,能很好的提升数据集的研究价值,该成果以论文的形式投稿到CCF推荐C类会议Financial Cryptography and DataSecurity发表,并申请专利1项获授权。
(2)针对商务数据不同应用背景存在不同实用需求,但现有的扰乱、泛化、抑制等匿名方法各有侧重,都会在某种程度上造成过度的信息丢失,无法同时满足多目标的数据效用性的需求,提出了一种混合的多维概化模型。该方法在匿名化事务数据的同时关注多目标的数据优化,以便为不同的应用程序提供更好的数据效用分析,结合概化、桶化和扰乱等技术,以具有泛化属性、分组项和扰动离群值的二部图来表示匿名数据,并构建项目关联图以弥补概化、桶化与扰乱造成的信息损失。在此基础上,项目组进一步研究了多维属性存在过度泛化的问题,首次提出了针对多维属性的局部泛化模型,能够很好改善数据的效用性。实验结果表明,与现有算法相比,该方法在保证隐私安全的前提下,大大提高了数据效用性。该成果以论文的形式投稿到SCI期刊Frontiers of Computer Science、CCF推荐C类会议Algorithms and Architectures for Parallel PROCessing上发表。
(3)针对商务数据的稀疏多维的特性,提出一种基于图的多级隐私模型。该模型突破了一种隐私模型只能处理一种数据类型的局限,设计了一种基于不确定图的多级隐私模型和多部图隐私模型,通过模糊关系型属性与个体之间的关联,而将集值型敏感属性与个体之间的关系以带权重的边的形式隐藏起来的方式,达到了多级隐私保护的目的,同时设计了安全参数能够有效抵御多目标攻击;此外,项目组进一步对分布式环境下多维数据之间的关联性问题展开了相关研究,在分布式环境下的数据发布中提出一种多维相关分级差分隐私保护方法。该方法通过互信息量化属性间的关联性,建立相关贝叶斯网络,根据属性的不同敏感程度设计个性化隐私预算分配方案,分配给各参与方更合理的隐私预算,使得在保证数据隐私安全性的同时,提高了部分数据的效用性。实验结果验证了以上隐私模型及其方法的可行性和效用性。该成果以论文的形式投稿到SCI期刊Computers&Security、国际重要会议BigDataService、Healthcare(已录用)上发表,并申请专利3项,软件著作权2项。
(4)针对移动推荐应用中的动态环境,传统推荐系统中的隐私保护技术由于移动终端的计算能力差、无线网络的带宽弱等局限无法适用于移动商务推荐系统,面向移动商务推荐提出一种基于P2P的隐私保护策略。该策略针对移动商务推荐系统的特性,通过将P2P网络中的匿名技术与k匿名隐私模型结合起来,达到同时满足实时性、高精度性和匿名性的目的。该策略构建了一种完全开放式的P2P好友圈,采用由好友圈代理对用户增量数据进行匿名转发处理的数据更新方式,不修改原始数据以保证准确的增量数据从而获得高精度推荐,同时采用代理匿名转发方式使得至少h个数据包不可区分以切断移动用户与增量数据之间的一对一关系,从而保护用户隐私安全。
该成果以论文的形式投稿到计算机科学期刊发表,申请专利4项,软件著作权2项。此外,面向数据发布中提出了一种部分k匿名模型和增强型身份保持的隐私保护方法,以及面向事务型数据流发布的隐私保护方法。在下一步的研究工作中,将关注不同领域数据之间的关联性以及存在的隐私问题,结合社交网络、轨迹数据与商务数据之间存在的关联,来解决主流推荐中的冷启动问题。