优化推广

舆情监测分析从实践上存在与初衷不符的地方

网站编辑:颐搜网 | 发表时间:2023-07-03

舆情监测并不是一个新领域。 经过多年的发展,已成为商业红海,众多企业竞争激烈。 然而,业务的成熟并不意味着技术和应用的成熟,舆情监测分析的做法仍然不符合初衷。

舆情监测是指互联网信息采集技术与信息智能处理技术的融合,通过海量互联网信息自动抓取、自动分类聚类、话题检测、话题聚焦,实现网络舆情监测等用户信息需求。以及新闻话题跟踪,形成简报、报告、图表等分析结果,为客户全面掌握群众思想动态,做出正确舆论引导,提供分析依据。 从定义上看,舆情分析的主要目的是通过对互联网信息的收集和分析,获得舆情的宏观图景。 互联网信息丰富,包括文字、图片、音频、视频等; Web2.0提供的交互功能使得每天都会产生大量的数据。 对这些海量数据的捕捉和分析,从商业角度自然就属于大数据的范畴。

一般认为,大数据是全量数据,没有抽样,是对实际情况的综合观察和记录。 但事与愿违,当前舆情监测普遍存在“反大数据”的情况,集中体现在“两个代表”的表现上。

所谓“两个代表”,就是网民代表非网民,网民中发言的代表不发言的。 如果这两点不能明确,单纯从大数据角度看监测结果就会产生误导。 首先,虽然互联网和移动互联网用户数量大幅增长,但网民并不能代表全民。 据CNNIC第36次《中国互联网络发展状况统计报告》显示,截至2015年6月,中国网民规模达6.68亿,半年新增网民1894万。 互联网普及率为48.8%,其中手机网民规模5.94亿,较2014年底增加3679万人,增长0.9个百分点。 使用手机上网的网民比例由2014年底的85.8%上升至88.9%。 可见,中国的互联网用户数量仅占总人口的一半左右。

舆情监测分析从实践上存在与初衷不符的地方

单纯把这些网友的意见当作打着“大数据”幌子的全民意见是没有道理的。 更为严重的是,网民中的活跃用户比例更低,某一方面或特定话题的关注者数量更加有限。 发言的用户很少,并不能代表所有网友。 怎么能代表全民呢? 对于整个网络来说,通常是那些受到影响的人更愿意发表评论,这可能会导致网络上的整体负面评论。 因此,虽然看起来是大数据,但并不能直接运用大数据的完整理念来定性监测结论,监测结果的准确性和代表性都存在明显缺陷。 因此,笔者认为,上述数据分析结果如果不能在显着位置严格说明样本人群范围,而是包含“大数据”等宣传用语,很容易误导受众。

除了“两个代表”的缺陷之外,笔者认为舆情监测还有两个重要的影响因素需要指出:

首先是舆论引导、删帖等网络监管行为对舆情分析结果的影响,以及雇佣“水军”等出于商业目的的舆论干扰。 一般很难评估上述行为产生/减少的文本量在整个分析样本中所占的比例,尤其是当评论总数本身不是很大时,其造成的干扰是一个不可忽略的影响因素,需要仔细考虑。

舆情监测分析从实践上存在与初衷不符的地方

其次,情感分析和文本挖掘的准确性问题。 由于网络舆情趋于口语化,句子结构不完整,受上下文影响较大,而汉语表达情感的方式多种多样,标点符号的变化会扭转情感倾向。 因此,系统分析的一些结论还必须考虑准确性问题。 大数据不关心精度,但并不意味着不关心误差范围。

舆情监测系统作为大数据商业化的经典代表,被各企事业单位广泛应用,是了解网络表象不可或缺的帮助。 笔者认为,一方面需要不断升级和维护系统的性能; 另一方面,我们必须重视上述的系统缺陷和影响因素,不能因其“大数据”的出现而不加思考地直接采用。

关于作者

全向荣:

TAG标签:

声明:本文来自投稿,不代表颐搜网立场,如若转载,请注明出处:http://www.tpsem.cn/yhtg/show1119.html 若本站的内容无意侵犯了贵司版权,请给我们来信,我们会及时处理和回复。