北京邮电大学副教授 刘刚

北京邮电大年夜学副教授刘刚:数据可视化若何做到科学性?_数据_属性 科技快讯

一、数据可视化

就大数据而言,其本身是一座矿藏。
如稀土矿,表面上看仅仅是一堆土或岩石,很丢脸出数据的代价。
因此,大数据的可视化包含两方面内容:数据的挖掘和数据的有效呈现。

从总体数据可视化而言,应把稳以下两点:从用户出发、从客不雅观科学出发。

从用户出发,则需使数据变得形象易懂,使其在阅读时感想熏染到舒适、颜色配比得当,在可视化呈现中,迅速获取重点内容,末了一个也是最主要的,即为用户呈现的内容是真实可靠的。

二、理论与运用研究

为做到以上几点,便须要在数据剖析时要有科学性。

如何做到科学性?模型设计、数据筛选、数据剖析和数据挖掘几方面下功夫。
因此,基于这几点,开始的项目有多少个,个中有国家级层面的,也有企业运用需求的。
在做项目的过程中做了总结事情:

(一)模型调研事情。
将国内外所有的可视化研究进展成果进行调研,如Google、百度的可视化,调研其可视化会用到的工具。

(二)可视化模型调研。
包括对美国国家统计局、人口局、天下银行、英法德等前辈国家的具有政府大数据的可视化呈现模型的调研,其余,还对范例的可视化用到的统计剖析模型进行了调研,以及对数据模型、挖掘模型的调研,这方面形成了八个调研报告。

基于以上的事情根本做了一些工程项目,将工程项目中确当局或大型企业所具有的信息数据以数据图、模型库的形式装入到自己开拓的图库工具之中,完成大数据可视化的呈现体系。
大略的数据呈现用Excel也可以实现,利用一些大略的饼图、柱状图、折线图的剖析。
但对付真正的大数据而言,由于数据的属性、维度很多,如空间属性、韶光属性、地理属性等,以及一些行业的分类属性哀求,大略的饼图、折线图很难知足大数据的可视化哀求。

3、 数据剖析模型

(一)数据的基本呈现

数据剖析的模型有很多种,首先,如果要准确的节制我们所理解的数据及数据模型和数据剖析间的对应。
数据模型禁绝确,得到的数据可信度便会损失。
有了数据模型后,需将数据进行图形化的展示,详细应做以下几方面的事情:第一要关联数据,将模型和数据做好关联;第二是对数据进行层级分类,剖析数据详细属于哪个层次、维度;第三是对数据维度的处理,目前看到的数据大部分是二维数据,对付二维数据的呈现是横、竖两个坐标,用折线图、柱状图便可以表示。
二维数据的呈现形式是较为单调的,所表达的寓意不足丰富,很难将多个指标间的内在关系进行表达。
因此,如何对数据进行维度的表示也很主要。
做好这些事情后,便可以剖析数据坐标的天生。

1.数据表述关系

首先以二维数据为例,剖析关联数据如何表达表述关系。
在做表述时,可以利用流图、网络图或表格图的形式将数据间的关系关联起来。

接着可以做一些数据比拟图,用作数据的比拟剖析和呈现。
例如柱状图的运用,也可将柱状图画在两侧进行比拟。
数据类型的比拟图还可以利用饼图的变异——南丁格尔图,比拟图也可以通过柱状图的高矮、饼图的面历年夜小及柱状图的占比面积,对图形数据大小和占比进行一览无余的比拟,这些用传统的Excel办法实现起来是比较困难的,但这些并不是对图的最繁芜的表示,仅仅是两个维度或三个维度的表达。

2.数据层级关系。

在进行数据表达时,尤其是一些繁芜的数据,需先对数据进行分层和分类,判断其属于哪个层级,如低层级的需用低层级的表达办法进行分类。
进行层级分类表达时,也利用了很多分类的技能,而不是大略的通过。
这些也需有得当的算法担保对数据进行分层分类。

3.数据信息表达。

数据信息的表达与详细的数据属性及数据算法干系联,这是一种柱状图的表示,来表达各个不同数据在表格中霸占的位置,还可以不雅观察面积图,如在家庭消费中哪些占比较大,可用面积图来表示,可能会比之前用到的柱状图会在效果上得到更好的展示。
还可以用动态的散点图来表达,随着韶光的推移或横坐标的占比,可以看到不同的内容消费在不同地区的占比。
曾经最著名的一个案例:一位专家用三点或气泡图的动态化,形象地表达了中国人均寿命的增长趋势。

(二)数据和属性的结合

很多数据都是具有属性的,如地理属性、韶光属性、空间属性等。

以地理属性为例,许多图如某个地区的工业聚拢度、人口密度、环境污染度、人口迁移等均与地理有关,我们可以在GIS舆图上利用色彩的通亮或高亮等形式将数据的大小分布在舆图上。
因此,在进行数据展示时,每每也可以利用GIS形式作为数据的入口,如文化家当法人单位的统计,中东部较多,西部、北部较少等。

对图形的表述内允许多,可以将数据分为点图、线图、面图,再进行分类表达。

四、北邮Chart系统

为使数据可视化更好的表达,北邮也做了一套自己的系统——北邮chart,更方便地表达数据可视化。
在这套系统中,做了以下几方面的内容:

(一)数据舆图。
做到"一图知天下",将与数据干系的地理信息加在舆图上。

(二)制图工具。
图形分为31个大类、100多张,在图中对20多种参数进行优化。

(三)数据剖析工具。
数据管理、科学管理、大数据研究来利用。

(四)专业运用。
定制个性化专业图,用于更好的表述。
由于数据属性不同,不能只用大略的柱状图、折线图、饼图表示所有的图形。

(五)用户作品。
利用北邮chart系统,用户可以自己天生保存研究成果。

对数据可视化的展示,除传统的大略图形外还有很多繁芜的表示,大数据可视化的表示不应是大略的静态表示,而是利用静态与动态相叠加的表达方法来呈现。

数据的表达实在并不随意马虎,首先要准确理解需求,并能找到得当的可视化图形,要易于理解。
当然对某类数据的表达的办法可能有多种,我们须要做出选择。

刘刚,男,理学博士学位,北京邮电大学副教授,硕士生导师,全国高校人工智能与大大数据创新同盟常务理事。
长期从事光电子半导体材料的研究,在国内外主要刊物与会议揭橥论文30余篇,期中SCI收录10篇,EI收录16篇。
作为主持人活着主研人完成国家自然科学基金、863项目等国家项目4项,目前主持自然科学基金项目一项。
完成企业横向项目多项。
专著两部,申请发明专利一项。