前言
一、数据挖掘的介绍
数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。数据准备是从相关的数据源中选取所需的数据并整合成用于数据挖掘的数据集;规律寻找是用某种方法将数据集所含的规律找出来;规律表示是尽可能以用户可理解的方式(如可视化)将找出的规律表示出来。数据挖掘的任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等[1]。
近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。数据挖掘利用了来自如下一些领域的思想:①来自统计学的抽样、估计和假设检验;②人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。
二、文献调研
1. 数据挖掘近年来研究热点总结
近些年来,数据挖掘技术渗透到了生活的方方面面,本文在查阅了大量的资料和文献基础上,对于数据挖掘技术近些年来的热点研究方向和应用进行简单阐述。
多模态广告融合推荐算法研究;推荐系统的物品侧一般会有图像、声音、文本等多种模态的信息,这些信息可以从多个方面刻画物品。如何去表征这些多模态的信息,并且将这些信息融入到推荐模型中,尤其是融入到当前的用户兴趣模型中,去动态地识别图像和文本中最影响用户兴趣的部分,是我们面临的一大挑战。
融合多场景的推荐系统研究;微信中存在不同的推荐场景,基于用户兴趣、社交等不同维度,满足用户多方面的信息获取需求,通过充分利用不同场景和业务的数据,可以进行推荐系统的多场景多任务联合优化。
基于知识图谱的兴趣推理及其在推荐系统中的应用;推荐系统中,往往基于用户-物品的交互来进行推荐。知识图谱中蕴含的结构化知识可以辅助推荐系统的可解释性,并扩展推荐系统的多样性。现有的知识图谱辅助推荐的方法,多考虑建模物品之间的实体与关系,而较少考虑刻画兴趣点之间的复杂关系及其演化。基于知识图谱的兴趣推理与扩展技术,通过弱监督学习、知识图谱结构挖掘、常识推理、强化学习等技术,习得基于用户-物品交互背后的显示兴趣表示,生成可解释的兴趣扩展路径。
患者疾病模型和行为预测;由于新冠疫情的爆发,线上线下结合的治疗方式越来越受到重视,也产生了一系列相关的研究课题,包括并不限于:挖掘患者相关的医疗数据,进行疾病预测以及对应的疾病阶段预测;患者用药脱落风险预测,提高患者依从性;患者治疗后院外风险预测,是否会有并发症,抑郁等情况出现。研究这些课题,设计到医学数据挖掘,结合医学知识图谱和行为数据的预测模型、超长时间预测模型、少样本学习、医学预训练模型等技术。
医疗数据的主动学习/半监督学习;不同于自然图像,医疗图像(如 CT、MRI)往往为 3D 数据,存在标注难度大、标注信息难以获取、标注成本高昂等问题。我们希望通过主动学习从未标注数据中挑选“更有训练价值的”样本,并进一步通过半监督算法,在降低标注成本的前提下,使深度学习在医疗图像相关任务上取得更好的效果。
交通大数据分析;基于交通大数据,研究城市时空动态预测、网络空间分析、空间决策优化、大数据可视化的理论方法和技术,并在实际场景中创新应用,解决复杂现实问题。
游戏社交推荐算法优化;游戏社交推荐算法具有较多应用场景,如好友推荐、战队推荐、物品推荐、网络传播等,同时游戏社交数据纷繁复杂,包括玩家图片、社交网络、游戏数据等。如何设计有效的推荐算法,具有较高的研究价值。
2.KDD、PAKDD近年来会议论文数据
数据挖掘相关的顶会论文如KDD、PAKDD最近几年的热门主题主要在商业智能方向,即推荐系统和计算广告。本文整理了相关的推荐系统和计算广告方向的相关研究。
推理;因果推断是推荐系统近期的热点,可以为推荐效果提升、AB实验等带来可靠性分析。近年来的相关研究有:新闻推荐推理的增强锚点知识图生成(Reinforced Anchor Knowledge Graph Generation for News Recommendation Reasoning)、社会意识自监督的立体推荐系统(Socially-Aware Self-Supervised Tri-Training for Recommendation)、不可知反事实推理模型消除推荐系统的流行偏差(Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias in Recommender System)等。
多任务、多目标、跨领域推荐场景;多任务、多领域推荐将不同的领域视作不同的任务,比如新闻推荐、视频推荐两个领域的数据可以联合起来训练。多领域推荐和跨领域推荐不同,多领域推荐旨在提升多个领域的效果,而跨领域推荐旨在提升目标领域的效果,一个有方向性一个无方向性。多任务推荐有极高的研究价值和实践价值。从研究角度讲,多任务推荐可以联合多个任务的推荐任务,更进一步提升推荐性能。从实践角度讲,引入额外任务的数据大概率对原有任务有所帮助,是一个一定有效果提升的方法。近年来的相关研究有:序列依赖多任务学习(Modeling the Sequential Dependence among Audience Multi-step Conversions withMulti-task Learning in Targeted Display Advertising)、混合场景多任务学习(Learning to Expand Audience via Meta Hybrid Experts and Critics for Recommendationand Advertising)、对抗特征迁移多任务学习(Adversarial Feature Translation for Multi-domain Recommendation)、迁移学习去偏(Debiasing Learning based Cross-domain Recommendation)等。
纠偏;纠偏,其实就是通过各种数学转换,使得变量的分布呈现或者近似正态分布,模型的拟合常常会有明显的提升。构建一个稳定运行的推荐生态系统,纠偏的措施必不可少。近年来的相关研究有:反事实模型推断纠偏(Deconfounded Recommendation for Alleviating Bias Amplification)、动态推荐系统的热度纠偏(Model-Agnostic Counterfactual Reasoning for Eliminating Popularity Bias inRecommender System和Popularity Bias in Dynamic Recommendation)、大规模推荐系统纠偏(Contrastive Learning for Debiased Candidate Generation in Large-Scale RecommenderSystems)、跨域推荐纠偏(Debiasing Learning based Cross-domain Recommendation)等。
基于图的推荐系统;图神经网络落地推荐系统是近期的热点,是建模类图关系的有效工具。近年来的相关研究有:高效图神经网络训练(MixGCF: An Improved Training Method for Graph Neural Network-based RecommenderSystems)、面向冷启动推荐的异构信息网络多视图去噪图自动编码器(Multi-view Denoising Graph Auto-Encoders on Heterogeneous Information Networks foCold-start Recommendation)、新闻推荐推理的增强锚点知识图生成(Reinforced Anchor Knowledge Graph Generation for News Recommendation Reasoning)。
冷启动;指数据挖掘需要数据的积累,而产品初期数据为空或者数据量太少导致所需的数据量达不到要求。因此冷启动就是积累第一批种子用户的过程。冷启动是推荐系统建立初期必然面对的问题,近年来的相关研究有:异构信息网络多视图去噪图自动编码器实现冷启动(Multi-view Denoising Graph Auto-Encoders on Heterogeneous Information Networks forCold-start Recommendation)、半个性化的音乐流媒体应用冷启动推荐系统(A Semi-Personalized System for User Cold Start Recommendation on Music StreamingApps)、在线推荐系统的架构及其自适应网络的操作(Architecture and Operation Adaptive Network for Online Recommendations)。
序列推荐;在真实场景的推荐系统中,通常会使用所有数据来训练推荐模型,学到的user embedding可以表示用户的兴趣偏好。但是这样的用户表示可能会遗漏用户的序列行为信息,而序列推荐则旨在显式地建模用户的序列行为,提升推荐系统的效果。序列推荐近年来的相关研究有:基于序列多模态信息传输网络的电商微视频推荐系统(SEMlI: A Sequential Multi-Modal Information Transfer Network for E-Commerce Micro-Video Recommendations)。
兴趣推荐;兴趣点推荐近年来的相关研究有:基于元学习的下一代兴趣点推荐系统(Curriculum Meta-Learning for Next POI Recommendation)。
Embedding;Embedding可以认为是推荐算法的核心基石之一,Embedding的主要作用是将稀疏向量转换成稠密向量,便于上层深度神经网络处理。近年来的相关研究有:定制设备上的弹性embedding(Learning Elastic Embeddings for Customizing On-Device Recommenders)、无embedding表的推荐系统特征建模(Learning to Embed Categorical Features without Embedding Tables for Recommendation)、推荐系统中的偏好放大(Preference Amplification in Recommender Systems)、推荐系统中网络嵌入方法的综合分析(Where are we in embedding spaces?A Comprehensive Analysis on Network EmbeddingApproaches for Recommender System)等。
蒸馏;蒸馏是为了解决小型化的问题,近年来的相关研究有:基于拓扑蒸馏的推荐系统(Topology Distillation for Recommender System)。
对抗攻击;对抗攻击是机器学习场景当中,广泛存在的问题,同样也是推荐场景所要面对的问题之一。近年来的相关研究有:不完整及扰动数据攻击推荐系统(Data Poisoning Attack against Recommender System Using Incomplete and PerturbedData)、基于正则化信息的流形神经网络推荐系统(Lnitialization Matters: Regularizing Manifold-informed lnitialization for NeuralRecommendation Systems)、三元对抗学习在推荐系统中毒攻击中的应用(Triple Adversarial Learning for lnfluence based Poisoning Attack in RecommenderSystems)等。
计算广告;计算广告与推荐系统场景非常相似,近年来的相关研究有:策略、广告模型(A Unified Solution to Constrained Bidding in Online Display AdvertisingClustering for Private Interest-based Advertising)、对抗学习(Diversity driven Query Rewriting in Search Advertising)等。
总结
本文对数据挖掘的概念进行了一个初步的介绍,在此基础上,本文基于大量数据挖掘相关论文的基础上,对数据挖掘近年来在学术界、工业界的热点研究方向进行了总结,
文中图片大多来自论文和网络,如有侵权,联系删除,文中有不对的地方欢迎指正、补充。