读这本书是因为越读法学著作或论文对数据权利的讨论,就越发感到这些法学研究者脑海里所想象的“大数据”并非同一回事。他们根据自己脑海里所想象的大数据构造了权利和法律规范。
但没有学过编程的文科生读这本书终究是太难了一些。
数据在信息系统中的生命周期可以包括:
数据收集、数据存储、资源管理与服务协调、计算引擎、数据分析、数据可视化
暂且抛开各个阶段中,实现下述功能的具体结构,单纯从功能角度而言,这些阶段分别要实现的功能如下:
1、数据收集:直接跟数据源(能够产生和收集数据的设备,如网页、手机APP、物联网的各个终端、传感器等)对接,将数据源中的数据近实时或实时收集到一起;
2、数据存储层:即存储数据,主要是分布式存储系统。其中一种重要的架构是“块级别的分布式文件系统”,即将数据拆分成等大小的数据块,分布式地存储在不同的设备上,具体的结构分为Master和Slave,前者负责存储和管理元信息,后者负责存储实际的数据块。前者相当于索引卡,后者则是具体的文献资料。
3、资源管理与服务协调层:将所有应用部署到一个公共的集群中,让它们共享集群的资源,并对资源进行统一使用。
4、计算引擎层:主要包括批处理与流式实时处理两种类型,后者的典型应用场景如手机APP行为分析系统。
5、数据分析层:现在最炙手可热的,就是大数据机器学习库,即训练人工智能。这在我看来,就有点类似于通过数据训练出一个不可知的函数的过程。
6、数据可视化层:即将复杂的计算结果以计算机图形的方式展现出来。
但是,大量的代码,是我看不懂的。
《《大数据技术体系详解》读书笔记600字》.doc
将本文下载保存,方便收藏和打印
导出文档
复制全文
导出文档