湖北省审计厅医保基金审计大数据运用取得突破

今年，湖北省审计厅在医保基金审计中，引入Hadoop生态圈概念，运用Hadoop集群、HDFS分布式文件系统、Hive数据仓库、ETL数据抽取等技术，采集数据量6TB，最大表记录数超40亿条，轻松完成海量数据分析及切分工作,快速锁定审计疑点。

一、搭建大数据平台，营造大数据处理及分析环境。该厅运用Hadoop技术搭建以基础设施层、源数据层、数据分析层和应用层为构架的大数据平台，为数据存储分析提供支撑。一是基础设施层，采用Hadoop集群，整合6台服务器，提高系统整体的计算能力；二是源数据层，采用HDFS文件系统、Hive数据仓库、达梦数据库等技术，存储管理数据；三是数据分析层，采用分布式SQL引擎和Map/Reduce相结合的方式，针对不同的数据需求，实现复杂化查询；四是应用层，集成海量数据分析工具、语句转化工具、数据切分工具、R语言文本挖掘工具，帮助操作人员轻松完成医保数据分析及切分工作。

二、运用三类技术一项工具，破解数据处理四大难题。针对医保基金大数据审计难题，有效运用“三技一具”。一是运用HDFS实现分布式文件存储，解决数据存储难题。以HDFS分布式文件系统为底层架构，对海量数据进行存储；借助HDFS分区机制自动数据冗余备份功能，一份数据可在不同的服务器上自动复制三份作为灾备；二是运用Hive与达梦数据库各司其职，解决不同类型数据管理。把Hive作为数据仓库，通过行列分隔符区分每个数据，将结构化数据文件映射为一张数据库表，然后运用达梦数据库存储表名、字段名、主外键及数据类型等元数据信息，方便操作人员对数据进行深度分析；三是运用Map/Reduce与分布式SQL引擎双管齐下，突破数据分析时间瓶颈。利用Map/Reduce与分布式SQL引擎的不同特点，对分析任务进行统筹安排，白天使用分布式SQL引擎运行91个查询型分析模型进行结果分析，夜间使用Map/Reduce进行生成中间表查询，缩短数据分析时间；四是运用数据切分工具，解决数据分发难题。使用Eclipse编写相应的程序，采用行政区划代码作为数据切分条件，将91个模型分析结果，一键自动切分下发到95个审计组。

三、注重关联分析与数据挖掘，提高审计质效。审计中，坚持把关联分析和数据挖掘作为突破，取得明显成效。一是开展多维度数据关联分析，筛选异常数据。围绕医保制度运行情况及成效、医保政策落实情况、医保改革措施推进情况与基金管理使用情况四个维度，跨年度、跨领域多视角对数据进行关联比对分析，向全省审计组提供近百万条疑点，审计组现场核实分析结果转化疑点的取证率达到70%。二是运用数据挖掘技术，揭示医院骗保行为。依托RStudio文本挖掘技术中分词技术，解决全省医院治疗项目命名不规范问题，为聚类分析提供基础，如“床位费”，审计涉及1799家医院有2374个不同表述方式，通过分词技术，全部归类为“床位费”；利用数据挖掘技术中的聚类分析技术，制作出一个1799家医院名称3066个项目名称的汇总矩阵，将离群医院和治疗项目及其对应的观测值（治疗项目数量和总费用）作为审计疑点，锁定7家医院异常治疗项目的总费用远远高于其他医院。（计算机中心、综合处）

相关阅读