余智华:大数据时代的以人为本

文章来源:东南舆情 发布时间:2017-04-14

余智华 : 来自于中科院计算所网络数据科学与技术重点实验室。余智华 : 来自于中科院计算所网络数据科学与技术重点实验室。

今天主要结合这么多年来在配合国家相关主管部门对互联网治理和舆情等方面的应用以及我们技术的新的进展给大家做一个分享和交流。

首先我们说在互联网治理要适应时代的发展和变化。随着我们信息技术的发展,现在已经进入到了大数据的时代。我们互联网治理只要适应大数据时代的特点。网络大数据不仅仅说数据本身,数据量大,现在大家常说大数据的特点就是4个V、5个V,数据呈现多模态,高噪音、复杂关联、动态涌现等特点,同时对互联网的治理和舆情监管技术和模式也提出了重大的挑战。

我今天要说的从我们舆情的管理和互联网治理来讲,从传统的就事论事的方式转变到以人为本的模式上。为什么说我们传统的舆情发展是就事论事,我们以前随着网络的发展大量的舆情信息在网上进行扩散和传播,网络应该说是目前舆论舆情的一个焦点。我们传统主要在做怎么样及时发现敏感和有害的信息,对它进行监管和及时响应和处理,这是我们说的实际上针对事件,针对内容进行管理,这应该是前十几年我们在互联网管理主要的一个目标和应用。我们要做得事情主要针对重要的舆情事件进行分析和调控,尤其是对一些热点的事件,对于产生重大影响的事件。

随着技术的发展和我们应用场景不断地延伸,我们对互联网的管理也提出了越来越高的要求。从最初的热点的事件逐渐对突发事件做到快速处理。一旦突发事件产生之后,由于现在舆论场扩散非常快速,可能短短10分钟,一个小时到了几万人、几百万人这样的一个传播的范围,产生很大的影响,因此要求我们对互联网舆情的处理做到快速响应。不能说已经很热,形成一定规模以后才进行处理,在最初的突发包括在苗头性事件,苗头还没有真正产生影响,这个时候要有预测的能力,能够对未来发展有一定的预期,能够进行预警。这个应该说是要求越来越高,治理的难度也越来越大。

 随着数据量的增长,我们想做到对互联网上的信息内容做全面的监测和掌控,也应该是越来越难以做到。我们怎么样既达到能够掌控整个互联网的总体的态势,同时又能对事件做到及时有效快速预警和处理,这就要抓到网络舆情的关键点,就是要找它的源头以及找聚集点。

对于舆情事件处理,可以看成是两方面的要素,一方面是人,一方面是事。我们传统的做法对事是更关注,但是从事件来讲,本身具有很大的不可预见性。比如说今天出来一个事件,明天出来一个矿难,这不可预见。从人和源头的角度,可能在网上传播某一类敏感信息或者某一类事件,有一定领域的汇集性,往往是一部分的主要传播者在进行传播和扩散。因此,我们从人类的角度可以比较好的抓住这个源头,我们提出实际上也是今天要说的观点,就是要强调以人为本。

实际上我们在互联网管理过程中,我们要关注一些主要目标人物,包括特定领域的活跃群体,是敏感性事件的源头。包括某一些特定领域的意见领袖,很大程度上主导这个舆论和倾向和网民的一些情绪观点。再就是一些大V,他往往在舆论传播过程中起到引爆点的作用,平常的事件通过大V转发之后也许成为公众的焦点热点。这些实际上都是我们在互联网治理过程中要关注一些主要的目标人物。

这是我们举的一个实例,是我们配合相关部门做分析的时候,我们以维权律师群体做了一个群体分析,这个也是针对微博中的一些重点人物律师样本进行分析,从人物本身可以看到大部分超过六成的维权律师都是比较资深的微博用户,这样可以积累他的影响。从内容的角度,我们从不同维度进行分析,在内容角度参与的话题主要是司法案件,是他的本行,发挥他的影响力。还有生活休闲类,维持他的热度。在内容表述方面,在热点事件参与方式方面采用转载陈述事件实时,话语策略较为谨慎和理性。从关联关系的分析上来看,律师群体大部分的关注主要在圈内,律师之间的关注是他的一个主流,其次是针对政见活跃人士和学者,此外包括一些意见人士,民间维权人士等等这些人。

舆论引导方面我们看他会发挥什么样的作用,我们以“辱母杀人案”为例,是近期热点事件。我们可以看到维权律师发这个群体还是起到比较明显的作用,原创微博转发量排在第5、第7、第10,我们刨除的一些媒体和营销账号,选了一些比较专业性的排名。可以看到总体群体活跃度在这个事件里头算比较高,互动性很强。作为一些重要的传播节点,下面是事件话题传播的传播图,可以看到带来了比较多的二次转发和关注。进一步我们对他在传播过程中产生的影响和作用做了分析和分类,维权律师在事件里议题设定和舆论导向作用比较明显,从律师发的消息和相应的评论可以看到,网民的态度倾向受到律师本身设定的话题的立场的影响还是比较明显。比如说这个律师侧重分析真相比较理性,下面评论大家都是对他比较多样性。另外律师提到比较激进,可以看到他的评论也是一边倒。我们由此在这里可以得出结论维权律师这个群体在推动事件舆论扩散和导向方面,他的作用还是非常明显的。

前面我们是对人物在舆论管理和网络当中的一些作用,下面给大家汇报一下我们在这方面一些技术上的进展。基于网络大数据的人物分析技术,基于前面所说的网络治理和业务,我们总结应用特点首先我们采用多维属性的抽取和刻画,对这个人物多方面的属性,身份、行为、数去、关系、影响力进行抽取和刻画。在这方面基于这些特性,我们打上不同的业务标签,比如可能是一个敏感人物,可能是一个意见领袖或者可能是一个积极分子或者是推手,有了这些之后,我们就可以对他有不同的应用,我针对敏感人物基于他进行敏感信息的发现,对于意见领袖评估他传播里头的作用,预测信息传播的趋势。像右边这是一个例子,我们针对一个人物,通过他的内容上面的一些特征去关注到哪些主题和关键词,他经常交往的圈子以及在地理位置上活跃的地点,最后给他贴上标签这可能是一个恐怖分子,是需要重点关注的一个人物。对人物属性的分析,我们一般也经常把他称之为人物画像,提供多维度的分析。通过身份、行为、兴趣、关系以及影响力多方面构建一个多维度的人物的综合的表达。

简单介绍一下在这些方面我们采用的一些方法和我们能做到什么程度。人物属性抽取里面,像百科有相应的标签和属性内容,这个可以通过上下文分析的方式可以做到95%以上比较精准的抽取。我们在新闻网页报告里头通过无结构化数据的抽取,也可以达到90%以上的抽取的准确率。很多时候人物并不是有一个已经完整表达,不是一个名人,在百科里头不能找到他完整属性。我们怎么样推断他在互联网上并没有体现出来的信息,采用人物特征推断的方法来进行,可以通过社交网络的关联分析,已知身份特征属性推测未知用户身份特征的属性。这里头基于我们称之为社交网络、社交结构里头有同质性的特征,简单来说物以类聚、人以群分,具有相似特征的用户个体更倾向于选择对方成为自己的好友。这是一个例子,根据好友兴趣判断他是一个CEO,兴趣在互联网这个领域,这样可以把人物属性补充完整。通过对人物关联的分析,在数据中抽取人物关系分析。

同时,我们在人物身份映射方面,在互联网虚拟人物里头有一个特点,人物在互联网中会有很多的身份。我们在互联网管理过程中,我们需要不同的身份映射到同一个人,甚至映射到真实的身份里头。这个典型的场景比如说对转世账号进行识别,包括推荐相关人物。这是我们通过属性的匹配映射出虚实映射,某个虚拟人物找到真实的身份。通过这些属性的关系,通过关联我们最后能够构建出一个综合、多维度人物的知识图谱,对同龄的人物进行消极可以得到人物真实身份信息,构建出相应的知识体系。我们对人物各种属性,建立档案以及群体和关系等分析。

从应用的角度,我们把这个人物信息收集起来以后,建立人物知识库,对传播和影响进行分析。对于一个人物的影响力,大家就会想到粉丝数,发文比较多,或者评论比较多会影响比较大。真正的作用哪方面作用更强,相关研究表明这个观点跟大家直观感觉会不太一样,相关研究表明粉丝数多的用户不一定影响真正会影响力很大,并不会被大家所接受或者认可。用户的影响力与粉丝数的关联度实际上是很低的。刚才这个在Twitter上做得研究,微博上也有相关研究可以得到类似的结果。我们影响力怎么去评价,在社交网络里面更多的情况下我们会用一个转发率体现关注和影响。也就是说,这个信息传达到这里,看到这个消息,不见得真正接受他的观点。但是把他转发做了评论之后,一定对我产生影响。

实际上我们人类的行为是在传播交互方面是普遍有一个规律特征,这几天对你很关注,关注你的信息,对我有比较强的信息。随着时间的变化,这个影响力是随着规律指数是下降的。通过分析影响力之后能够做什么样的事情,一个对影响力进行最大化,我们通过哪些人物或者通过媒体进行信息的发布,最后这个影响力能够影响到最大,这实际上现在有一套相对成熟的算法,对他进行排序。而且这个算法目前处理的规模已经达到真实网络需要的已经达到实用化。这是我们用这个算法做得对事件传播里头的关键人物进行分析,用雾霾的话题做得一个分析。可以看到下面是我们列出来排名前10位在穹顶之下事件传播过程中影响最大的10个微博账号,这个影响力中间的粉丝数看到影响力和粉丝数量并不是线性相关。其中有一些粉丝数并不大,但是在事件传播过程中发挥很大的影响和作用。

对于怎么样去判断这个人物他在传播过程中的影响,我们会从他的影响力和易感性两个角度建立他的模型。首先影响很大,对周围的人有很强的辐射作用。另外接收方是很容易受感动,我们专题和兴趣相近,就会产生比较强的影响传播力。通过这个可以从微观上对舆情事件的传播,消息的转发进行一个判断和预测。

另一方面,从中观程度,对结构上对事件的传播具有比较明显的特点。这里头我们可以看到传播过程中由集聚向发散转变的时候,这个是一个爆发期。话题最开始传播的时候,在一个小圈子里头,小圈子里头讨论很密集,但是范围很小,并没有产生真正的影响和热点。但是一旦从我小圈子扩散出去之后,向更大范围去扩散,到外面更大的范围之后,就进入真正的爆发期。从这个特征上我们可以去对事件话题传播的爆发进行预测。

另一个方面,我们可以从更高的维度,从宏观的角度进行模型的建立。这个基于概率模型我们对这个事件进行预测,右边下面是预测的趋势。可以看到对事件我们在消息发布半个小时之后,我们可以建立一套模型,有扩散速度和传播潜力的分析,可以知道有多少转发,影响多少用户,这个准确率偏差在10%左右,应该说达到比较准确的效果。在话题的传播过程中,很多时候并不是一个简单的一次传播曲线,在过程中会产生很多二次传播的现象。基于这个二次传播,我们可以通过对传播的过程进行一个切分,什么情况下进入了一个低谷,这个时候又产生新的传播的变化,这时候进入到二次传播的过程。通过这个对模型进行调整,这是调整之后可以看到对于多次传播叠加之后我们还是能够比较准确地对话题传播和演化过程进行一个预测。

最后,说一下群体方面的分析。群体是对人物在社会里头,人本质上是一个社会动物,如果是孤立产生不了社会影响和价值。我们研究人物在网络中产生的作用和影响,一定是绕不开所处的群体跟他密切相关的群体的问题。还是以雾霾这个话题为例做得群体分析,这是我们基于连边密度的社区发现算法进行识别,同一个颜色表现同一个群体,可以看到在话题传播过程中,主要影响的是公益群体,此外还包括一些环保群体,包括一些美食团队,还有一些僵尸账号在里面。通过这个可以把握在传播过程中,不同人物以及关键人物,不同群体在当中产生的作用。​​​​