大数据分析学习的挑战:复杂性、不确定性和涌现性

科多分享的大数据分析学习与研究的新挑战:对于习惯结构化数据研究的统计学来说,大数据分析显然是一种崭新的挑战。

挑战来自何方?来自于大数据的复杂性、不确定性和涌现性三个方面,其中复杂性最为根本。

大数据的复杂性

复杂性是大数据区别于传统数据的根本所在,它主要表现为类型复杂性、结构复杂性和内在模式复杂性三个方面,从而使得大数据的存储与分析产生多方面的困难。对于大数据的类型与结构的复杂性这里不再赘述,但它们决定了数据模式的多样化,使得刻画数据特征的模式不断变化、呈几何级数增加。统计学尽管长期以来研究复杂现象的数量特征,但所涉及的数据是结构化的,模式是固定化的,比起大数据要简单得多。

因此,学习大数据,我们不仅要熟悉各种类型的数据模式,还要善于把握它们之间的相互关系与作用,善于综合利用各方面的知识(包括文本挖掘、图像处理、信息网络技术、心理学、社会学等等)加以研究。已有一些学者提出利用网络来描述异质数据间的关系,同时提出了目标数据的“元路径(Meta-Path)”概率刻画模式。同时,由于非结构化数据通常比结构化数据包含更多的无用信息和垃圾信息,因此需要运用特定的方法来去伪存真、去粗存精,例如通过搜索引擎从非结构化数据中检索出有用的信息等等。

null


大数据的不确定性

网络大数据通常是高维的,以往的统计学习方法往往难以产生令人满意的效果。复杂性必然带来不确定性。

大数据的不确定性表现为数据本身的不确定性、模型的不确定性和学习的不确定性,从而给大数据建模和学习造成困难。数据的不确定性既包括原始数据的不准确,也包括数据处理过程中由各种因素所造成的在不同维度、不同尺度上的不确定性。例如阿里巴巴数据官曾经介绍,区淘宝网上购物者的性别特征就可以有十几种判断。虽然传统的统计学方法主要研究不确定性数据,但传统数据的不确定性明显不同于大数据的不确定性,面对海量、高维、多类型的不确定性数据,传统的统计方法显得力不从心,无论是数据的采集、存储、建模还是查询、检索和挖掘,都需要创新方法。大数据的不确定性必然带来数据处理与分析模型的不确定性,但要解决这一点非常困难,有人提出了“可能世界模型”,认为应该在一定的结构规范下刻画出数据的每一种状态,但这同样极其困难,在实际应用中不可能存在这样一种通用的模型结构,只能采取简化的模型,例如独立性假设、同分布假设等等,尤其是概率图模型已在数据相关性建模等方面得到了广泛的应用。

模型的不确定性又必然带来大数据学习的不确定性,使得模型参数的学习很难找到最优解,找到一个局部最优解都很困难,通常只能采用近似的方法来替代。

随着多核CPU/GPU的普及以及并行计算框架的研究,碎片化方法被普遍认为是解决网络大数据问题的可行方法,但需要做的工作仍然非常多。近些年来,统计学习领域的非参数模型方法提供了一种自动学习思路,但计算过程依然复杂,如何应用到网络大数据以及大数据培训中仍然是个问题。

大数据的涌现性

涌现性是网络大数据有别于其他数据的关键特性,是大数据动态变化、扩展、演化的结果,表现为模式的涌现性、行为的涌现性和智慧的涌现性,其在度量、研判与预测上的困难使得网络数据难以被驾驭。

涌现性的背后是各种信息的交互作用,是产生新的人类行为方式、以及社会经济规律的重要基础。模式的涌现性是指网络数据由于多尺度、异质性而表现出来的、在属性和功能等方面既存在差异又相互关联的特定模式特征,这种涌现性结果对于研究社会网络模型、理解网络瓦解原因具有重要意义。行为的涌现性则与数据的时序性有关,是社会网络中个体行为基于时序分布的统计结果,表现为较大相似性个体之间容易建立社会关系,使得网络在演化过程中自发形成相互分离的连通块。这种涌现性对于研究更多的社会网络模型、理解行为涌现规律具有重要意义。例如,著名网络科学家巴拉巴斯(Barabasi)通过研究发现,人们发送邮件的数量存在着特定的时间分布特征。智慧的涌现性是指网络数据在没有全局控制和预先定义的情况下,来自大量个体的自发语义通过互相融合和连接可以形成为有特定意义的通用语义,整个过程随着数据的变化而持续演进。这种涌现性对于理解网络语义的形成与变化具有重要意义。

总体而言,尽管近些年与大数据研究密切相关的数据库、数据挖掘、机器学习和智能工程等领域都取得了很大的进展,但由于大数据的复杂性、不确定性和涌现性,使得相关研究成果难以被直接应用于学习大数据的分析研究之中。传统的分析方法不能准确表示网络大数据在异构性、交互性、时效性和突发性等方面的特点,传统的“假设—模型—验证”的统计方法受到了质疑,而从“数据”到“数据”的第四研究范式还没有真正建立,因此亟需一个新的理论体系来指导,建立新的分析模型.

打开APP阅读更多精彩内容