统计行业数据分析与数据挖掘应用
摘要
关键词
统计行业;数据分析;数据挖掘应用
正文
信息化和数字化时代背景下,大数据技术、信息技术等的应用更广泛,数据资源化趋势更加明显,在云计算平台、数据库、数据分析技术、数据挖掘技术、互联网技术等相关技术和工具的支撑下,可以实现对海量数据信息、复杂数据信息和实时数据信息的高效化获取、管理、处理、整理、挖掘和分析利用,协助各行业和领域经营决策、内部管理、降本增效等工作进行。在此背景下,对统计行业发展及工作实施的要求更高。“十四五”规划当中明确提出,继续推进统计现代化改革,确保统计工作人员对自身工作准确认知,掌握先进技术的应用,具备一定的数据分析、数据挖掘能力,以及促进统计数据质量和服务水平显著提高。
一、统计行业数据分析与数据挖掘应用的必要性
统计工作是一项基础性的工作,主要从事数据及信息资源的收集、整理、分析、挖掘应用等工作,有关工作的实施要持续推进现代化改革,提高统计数据质量,向广大数据信息需求者提供高质量、高水平的统计服务。在信息化和数字化时代背景下,数据量在持续增加,且大数据信息来源广、类型多,各行业和领域的发展对统计数据的需求也在持续增加,落实好统计行业数据分析与数据挖掘应用工作,并构建信息化平台,能够准确反映一段时间内我国的发展情况、发展趋势、变化情况、存在的问题和重难点、出现的新矛盾和新问题等,进而为政府、企业、个人提供更准确、可靠的统计数据,协助各行业和领域经营决策、内部管理、监督管控等提供助力,也为各行业和领域的发展及迎接挑战提供更多的咨询信息、解决方案。
二、统计行业数据分析与数据挖掘应用--工具
为实现统计行业数据的准确分析和高效化挖掘利用,使数据信息的价值得以充分体现,提供高水平的统计服务,需借助一定的软件工具进行,而统计工作人员既需要对自身工作内容和职责准确把握,还需要对这些软件工具熟练掌握和应用,进而在统计行业数据分析、数据挖掘应用方面操作高效、游刃有余。
(一)开源类软件工具
这是数据分析层常见的一类工具,在具体选择和应用的时候,又包含R、Python、Weka、Rapidminer等不同的软件工具,满足不同情况下数据分析的需求。
1、R软件。这是集数据处理、计算、制图于一体的一个软件系统,在操作和应用的时候具备多方面的数据处理和分析功能,包括实现大量数据信息的安全存储和快速处理,同时也具备数组矩阵运算、完整连贯统计分析的功能,支持图形统计通过图形统计的方式,可以将数据信息以更直观的形式展现出来,清晰地了解数据之间的关系。该软件在应用过程中的另一个优势则是信息开放度高、更新速度快,当软件的使用群体更广泛的情况下,数据资源也将更丰富、全面,对有关数据信息的分析利用价值也就越高。但是,该软件在应用过程中也存在一定局限性,主要体现在运行速度、内存很多情况下无法满足需要[1]。
2、Python。这是一种面向对象的脚本解释型语言,其内部构建的有各种高级数据结构、支持模块,在具体操作和应用的时候拓展性强,支持多种平台无缝运行,为统计行业数据分析、数据挖掘应用提供助力。与R软件相比较而言,其对统计工作人员的操作要求要更低一点,在操作和使用的时候,一定程度上降低了数据科学技术壁垒,方便各行业和领域的统计工作的人员、数据分析人员等熟练和应用。而且,在Python的支撑下,还可以实现数据信息的可视化分析,以及对数据信息进行科学的分类、预测、推荐等[2]。
(二)非开源类工具
这也是数据分析层常见的一类工具,在具体选择和应用的时候,又包含MATLAB、SAS、JMP、STATA、SPSS等不同的软件工具,满足不同情况下数据分析、数据挖掘的需求。
1、SAS。这是一种大型的集成信息系统,具有强大的统计分析工作,在数据信息处理、统计分析等领域的应用有显著优势。而且,该系统在具体操作的时候,其功能模块很强大(包括统计分析模块、绘图模块、质量控制模块、运筹学模块、交互式全屏幕软件应用系统模块、经济计量学和时间序列分析模块等不同的模块设置和功能),且功能扩展接口非常灵活,从而满足不同类型数据分析的需求[5]。此外,该系统在实际应用还具有很强的交互性、可视化,可以实现相关数据的直观展现和分析利用,整体操作也不是特别难,非统计专业的数据分析人员也可以熟练地掌握应用,以及满足基本的数据分析需求。
2、SPSS统计分析软件。其在市场研究、统计调查、政府及企业数据分析等方面得到了更广泛地应用,且发挥着积极优势。该软件在具体应用的时候,整个数据分析的流程和步骤更加的清晰全面,还能结合具体需要和统计数据结果的利用,更高效、便捷地生成各种交叉表,在图形处理方面的效果更看理想,更加人性化。对于一些才开始接触统计分析的人员,可以尝试使用该软件,满足基本数据分析、统计分析需求。
3、MATLAB。该软件在操作和应用的时候,能够很好地将矩阵计算、数值分析、数据可视化等多方面功能集合到一个非常简易的视窗环境之中,在工程计算、图像处理、自动控制等领域得到了科学应用,为工程设计、数值计算等工作高效化进行提供科学的解决方案。随着科技的不断发展和进步,人工智能技术也得到了大范围的推广应用,该软件为推进人工智能技术发展及人工智能领域数据分析工作实施提供科学助力,支持声音识别、人脸识别等。
三、统计行业提高数据信息质量和应用服务水平的建议
(一)影响数据信息质量和应用服务水平的因素
大数据背景下,统计行业的发展有广阔前景,对统计行业数据分析与数据挖掘应用提出了更高标准要求,一系列工作的实施还需要持续提升数据信息质量和数据信息应用水平、统计服务水平,但从工作实施现状来看,影响数据信息质量和应用服务水平的因素多,具体工作中还存在不足和问题。例如,现阶段统计行业面临的数据信息来源更广泛、数据类型更复杂、数据信息更庞大,但以往工作中由于信息化和数字化水平低,各类数据分析和数据挖掘工具的应用不足,以及统计人员综合素质有待提高,进而对统计工作效率、统计数据质量、数据挖掘利用和价值作用发挥等产生影响,工作基础有待夯实;由于缺乏有效的监督管控,以及信息安全管理工作实施不到位等,对统计数据完整性、准确性和后期数据的分析、挖掘利用产生不良影响,甚至因数据丢失、窃取等诱发其他风险。
(二)提升数据信息质量和应用服务水平的对策
基于现阶段统计行业工作实施的需要,以及不同类型数据分析与数据挖掘应用的需求,综合考虑以往工作的不足和缺陷,持续推进统计现代化改革,夯实统计工作基础。
1、健全和完善制度机制。要将统计行业数据分析与数据挖掘应用作为一项长期性、基础性的工作综合部署和安排,并加强责任制度、奖惩制度、信息安全管理制度等相关制度机制的构建,指导统计工作人员对自身工作准确认知,掌握数据分析技术、数据挖掘技术及相关软件工具的应用,严格依照标准和规范做好数据及信息资源的收集、整理、分析、挖掘应用等工作,面向广大信息需求者提供优质服务。
2、加大信息化和数字化建设。现阶段,继续推进统计行业信息化、数字化建设是必然趋势,统计工作人员要对大数据技术、人工智能技术及其他先进技术准确掌握,并加强信息化平台的构建,协助数据信息及时收集、大规模存储、快速处理、高效准确分析、深入挖掘价值、安全传递和便捷利用等工作进行,并建立完善的统计台账和统计档案,方便对有关数据信息进行追溯管理、关联分析、查询利用,更好为政府、企业、个人提供更准确、可靠的统计数据和高水平的统计服务。
四、结束语
现阶段,需要继续加大统计行业现代化改革,争取构建与现代化建设、治理管理和发展相适应的统计调查体系,通过制度机制的完善、统计人员队伍建设、信息化和数字化建设等工作的开展,持续夯实统计行业工作基础,确保统计数据真实准确、完整及时。为实现统计行业数据的高效化利用和价值作用的有效发挥,还需要做到统计调查技术手段先进、安全便捷,以及提高统计数据分析、挖掘应用的技术水平,继续对统计数据工具完善和优化,基于统计行业现代化改革和数据分析等具体工作的需要,构建适合自身的数据分析挖掘框架。
参考文献:
[1]刘传霞.统计行业数据分析与数据挖掘应用-工具篇[J].科技与企业,2015(2):92-92.
[2]刘智龙.统计行业数据分析与数据挖掘应用——统计建模思想[J].统计与咨询,2014(2):20-21.
...