湖北省审计厅医保基金审计大数据运用取得突破

2016-10-12 10:15   湖北省审计厅

今年,湖北省审计厅在医保基金审计中引入Hadoop生态圈概念,运用Hadoop集群、HDFS分布式文件系统、Hive数据仓库、ETL数据抽取等技术,采集数据量6TB,最大表记录数超40亿条,轻松完成海量数据分析及切分工作,快速锁定审计疑点。

一、搭建大数据平台,营造大数据处理及分析环境。该厅运用Hadoop技术搭建以基础设施层、源数据层、数据分析层和应用层为构架的大数据平台,为数据存储分析提供支撑。一是基础设施层,采用Hadoop集群,整合6台服务器,提高系统整体的计算能力;二是源数据层,采用HDFS文件系统、Hive数据仓库、达梦数据库等技术,存储管理数据;三是数据分析层,采用分布式SQL引擎和Map/Reduce相结合的方式,针对不同的数据需求,实现复杂化查询;四是应用层,集成海量数据分析工具、语句转化工具、数据切分工具、R语言文本挖掘工具,帮助操作人员轻松完成医保数据分析及切分工作。

二、运用三类技术一项工具,破解数据处理四大难题。针对医保基金大数据审计难题,有效运用“三技一具”。一是运用HDFS实现分布式文件存储,解决数据存储难题。以HDFS分布式文件系统为底层架构,对海量数据进行存储;借助HDFS分区机制自动数据冗余备份功能,一份数据可在不同的服务器上自动复制三份作为灾备;二是运用Hive与达梦数据库各司其职,解决不同类型数据管理。把Hive作为数据仓库,通过行列分隔符区分每个数据,将结构化数据文件映射为一张数据库表,然后运用达梦数据库存储表名、字段名、主外键及数据类型等元数据信息,方便操作人员对数据进行深度分析;三是运用Map/Reduce与分布式SQL引擎双管齐下,突破数据分析时间瓶颈。利用Map/Reduce与分布式SQL引擎的不同特点,对分析任务进行统筹安排,白天使用分布式SQL引擎运行91个查询型分析模型进行结果分析,夜使用Map/Reduce进行生成中间表查询,缩短数据分析时间;四是运用数据切分工具,解决数据分发难题。使用Eclipse编写相应的程序,采用行政区划代码作为数据切分条件,将91个模型分析结果,一键自动切分下发到95个审计组。

三、注重关联分析与数据挖掘,提高审计质效。审计中,坚持把关联分析和数据挖掘作为突破,取得明显成效。一是开展多维度数据关联分析,筛选异常数据。围绕医保制度运行情况及成效、医保政策落实情况、医保改革措施推进情况与基金管理使用情况四个维度,跨年度、跨领域多视角对数据进行关联比对分析,向全省审计组提供近百万条疑点,审计组现场核实分析结果转化疑点的取证率达到70%。二是运用数据挖掘技术,揭示医院骗保行为。依托RStudio文本挖掘技术中分词技术,解决全省医院治疗项目命名不规范问题,为聚类分析提供基础,如“床位费”,审计涉及1799家医院有2374个不同表述方式,通过分词技术,全部归类为“床位费”;利用数据挖掘技术中的聚类分析技术,制作出一个1799家医院名称3066个项目名称的汇总矩阵,将离群医院和治疗项目及其对应的观测值(治疗项目数量和总费用)作为审计疑点,锁定7家医院异常治疗项目的总费用远远高于其他医院。(计算机中心综合处)

相关阅读