感恩遇见,你一出现,就是晴天🌞2019年2月16日,5年纪念。
#2.1.3 存储和数据库
##1.存储技术根据服务器类型,存储可以分为封闭系统的存储和开放系统的存储。封闭系统主要指大型机等服务器,而开放系统指基于操作系统如麒麟、欧拉、UNIX、Linux等的服务器。开放系统的存储可以分为内置存储和外挂存储。外挂存储可以根据连接方式分为直连式存储(Direct-Attached Storage, DAS)和网络化存储(Fabric-Attached
Storage, FAS)。网络化存储可以根据传输协议再分为网络接入存储(Network-Attached
Storage, NAS)和存储区域网络(Storage Area Network, SAN)。
存储虚拟化(Storage Virtualization)是“云存储”的核心技术之一。它把来自一个或多个网络的存储资源整合起来,向用户提供一个抽象的逻辑视图,用户可以通过这个视图中的统一逻辑接口来访问被整合的存储资源。用户在访问数据时并不知道真实的物理位置。它带给人们直接的好处是提高了存储利用率,降低了存储成本,简化了大型、复杂、异构的存储环境的管理工作。存储虚拟化使存储设备能够转换为逻辑数据存储。虚拟机作为一组文件存储在数据存储的目录中。数据存储是类似于文件系统的逻辑容器。它隐藏了每个存储设备的特性,形成一个统一的模型,为虚拟机提供磁盘。存储虚拟化技术帮助系统管理虚拟基础架构存储资源,提高资源利用率和灵活性,提高应用正常运行时间。绿色存储(Green Storage)技术是指从节能环保的角度出发,用来设计生产能效更佳的存储产品,降低数据存储设备的功耗,提高存储设备每瓦性能的技术。绿色存储是一个系统设计方案,贯穿于整个存储设计过程,包含存储系统的外部环境、存储架构、存储产品、存储技术、文件系统和软件配置等多方面因素。绿色存储技术的核心是设计运行温度更低的处理器和更有效率的系统,生产更低能耗的存储系统或组件,降低产品所产生的电子碳化合物,其最终目的是提高所有网络存储设备的能源效率,用最少的存储容量来满足业务需求,从而消耗最低的能源。以绿色理念为指导的存储系统最终是存储容量、性能、能耗三者的平衡。绿色存储技术涉及所有存储分享技术,包括磁盘和磁带系统、服务器连接、存储设备、网 络架构及其他存储网络架构、文件服务和存储应用软件、重复数据删除、自动精简配置和基于磁带的备份技术等可以提高存储利用率、降低建设成本和运行成本的存储技术,其目的是提高
所有网络存储技术的能源效率。
##2.数据结构模型
数据结构模型是数据库系统的核心。它描述了在数据库中结构化和操作数据的方法,其中模型的结构部分规定了数据如何被描述(例如树、表等),而模型的操作部分规定了数据的添加、删除、显示、维护、打印、查找、选择、排序和更新等操作。常见的数据结构模型包括三种:层次模型、网状模型和关系模型。其中,层次模型和网状模型统称为格式化数据模型。
###1)层次模型层次模型是数据库系统最早使用的一种模型,它用“树”结构表示实体集之间的关联,其中实体集(用矩形框表示)为节点,而树中各节点之间的连线表示它们之间的关联。在层次模型中,每个节点表示一个记录类型,记录类型之间的联系用节点之间的连线(有向边)表示,这种联系是父子之间的一对多的联系。这就使得层次数据库系统只能处理一对多的实体联系。每个记录类型可包含若干个字段,这里记录类型描述的是实体,字段描述实体的属性。每个记录类型及其字段都必须命名。各个记录类型、同一记录类型中各个字段不能同名。每个记录类型可以定义一个排序字段,也称码字段,如果定义该排序字段的值是唯一的,则它能唯一地标识一个记录值。
这种数据库通常用来应对分布式存储海量数据。面向文档(Document-Oriented)数据库:文档型数据库可以看作是键值数据库的升级版,允许之间嵌套键值,而且文档型数据库比键值数据库的查询效率更高。面向文档数据库会将数据以文档形式存储。图形数据库:允许人们将数据以图的方式存储。实体会作为顶点,而实体之间的关系则会作为边。比如有三个实体:Steve Jobs> Apple和Next,则会有两个Founded by的边将Apple和Next连接到Steve Jobs。
###以下是10个最常用的非关系型数据库:MongoDB:一种流行的文档型数据库,被广泛应用于Web应用、大数据、互联网等场景。Redis:一个高速的键值型数据库,通常用作缓存、消息队列等应用。Cassandra:一种高性能的分布式列族型数据库,适用于处理海量数据和高并发读写等场景。Elasticsearch:一个基于Lucene搜索引擎开发的分布式企业级搜索引擎,可以快速地存储、搜索和分析大量数据。HBase:一种高可扩展性的分布式列族型数据库,可用于大规模数据存储和实时访问。Couchbase:一种面向企业的NoSQL解决方案,支持文档型和键值型数据存储,提供全面的安全性、可伸缩性、高可用性等特性。Neo4j:一个图形数据库系统,用于存储、管理和查询各种类型的连接数据,如社交网络、知识图谱等。Amazon DynamoDB:AWS提供的一种可扩展的分布式键值型数据库,适合无服务器架构。Apache Solr:一个基于Lucene的开源企业级搜索平台,支持全文检索、数据库集成、分布式搜索等功能。OrientDB:一种面向对象的多模型数据库,支持关系型、文档型、图形型和键值型数据存储。###3)不同存储方式数据库的优缺点
关系型数据库和非关系型数据库的优缺点,如下表数据库类型特点类型描述关系型数据库优点容易理解:二维表结构是非常贴近逻辑世界的一个概念,关系模型相对 网状、层次等其他模型来说更容易理解使用方便:通用的SQL语言使得操作关系型数据库非常方便易于维护:
##4. 数据仓库
传统的数据库系统中缺乏决策分析所需的大量历史数据信息,因为传统的数据库一般只保留当前或近期的数据信息。为了满足中高层管理人员预测、决策分析的需要,在传统数据库的基础上产生了能够满足预测、决策分析需要的数据环境——数据仓库。
数据仓库相关的基础概念包括:
• 清洗/转换/加载(Extract/Transformation/Load, ETL):用户从数据源抽取出所需的数据,经过数据清洗、转换,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。
• 元数据:关于数据的数据,指在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据。同时元数据还包含关于数据含义的商业信息。典型的元数据包括:数据仓库表的结构、数据仓库表的属性、数据仓库的源数据(记录系统)、从记录系统到数据仓库的映射、数据模型的规格说明、抽取日志和访问数据的公用例行程序等。
• 粒度:数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。
• 分割:结构相同的数据被分成多个数据物理单元。任何给定的数据单元属于且仅属于一个分割。• 数据集市:小型的,面向部门或工作组级的数据仓库。
• 操作数据存储(Operation Data Store, ODS):能支持组织日常的全局应用的数据集合,是不同于数据库的一种新的数据环境,是数据仓库扩展后得到的一个混合形式。它具有四个基本特点:面向主题的、集成的、可变的、当前或接近当前的。
• 数据模型:逻辑数据结构,包括由数据库管理系统为有效进行数据库处理提供的操作和约束;用于表示数据的系统。
• 人工关系:在决策支持系统环境中用于表示参照完整性的一种设计技术。数据仓库是一个面向主题的、集成的、非易失的且随时间变化的数据集合,用于支持管理决策。
数据仓库的体系结构通常包括以下几个部分:
(1)数据源。数据源是数据仓库系统的基础,包括组织内部信息和外部信息。
(2)数据存储与管理。数据存储与管理是整个数据仓库系统的核心,包括从各个业务系统中抽取、清理和集成数据,按照主题进行组织和存储。数据仓库按照数据的覆盖范围可以分为组织级数据仓库和部门级数据仓库(数据集市)。
(3)OLAP服务器。OLAP服务器对数据进行有效集成,并按照多维模型进行组织,以便进行多角度、多层次的分析,并发现趋势。OLAP服务器可以分为基于关系数据库的OLAP(ROLAP)、基于多维数据组织的OLAP(MOLAP)和基于混合数据组织的OLAP(HOLAP)。OLAP服务器是指一种用于执行OLAP(联机分析处理)操作的服务器。OLAP技术可以从大规模、多维度的数据中进行提取和分析,并支持复杂的查询与分析,以帮助用户更好地理解数据之间的关系和规律。OLAP服务器通常使用RDBMS或者MPP(大规模并行处理)架构来存储和管理多维度数据,并且利用预聚合、缓存等技术来优化查询性能。OLAP服务器可以用于许多不同的场景,包括市场营销、财务规划、风险管理等领域。它们的优点在于能够提供多维度的数据视角,支持快速准确的数据挖掘与分析,帮助用户从庞杂复杂的数据中得出有价值的信息。常见的商业化OLAP服务器包括:Oracle Essbase、IBM Cognos TM1、Microsoft Analysis Services等。###(4)前端工具。
前端工具包括查询工具、报表工具、分析工具、数据挖掘工具以及基于数据仓库或数据集市的应用开发工具。数据分析工具主要针对OLAP服务器,报表工具和数据挖掘工具主要针对数据仓库。
#2.1.4 信息安全
常见的信息安全问题主要表现为:计算机病毒泛滥、恶意软件的入侵、黑客攻击、利用计算机犯罪、网络有害信息泛滥、个人隐私泄露等。随着物联网、云计算、人工智能、大数据等新一代信息技术的广泛应用,信息安全也面临着新的问题和挑战。
##1.信息安全基础
信息安全强调信息(数据)本身的安全属性,主要包括以下内容。
###保密性(Confidentiality):信息不被未授权者知晓的属性。
###完整性(Integrity):信息是正确的、真实的、未被篡改的、完整无缺的属性。
###可用性(Availability):信息可以随时正常使用的属性。
信息必须依赖其存储、传输、处理及应用的载体(媒介)而存在,因此针对信息系统,安全可以划分为四个层次:设备安全、数据安全、内容安全、行为安全。
信息系统一般由计算机系统、网络系统、操作系统、数据库系统和应用系统组成。
与此对应,信息系统安全主要包括计算机设备安全、网络安全、操作系统安全、数据库系统安全和应用系统安全等。
网络安全技术主要包括:防火墙、入侵检测与防护、虚拟专用网络(VPN)、安全扫描、网络蜜罐技术、用户和实体行为分析技术等。
网络蜜罐技术是指在网络中故意放置一些虚假的计算机系统、服务或数据,以便诱骗黑客攻击并暴露攻击者的攻击手段、目的和行为。蜜罐可以是一个虚拟主机、一个虚拟网络或一个虚拟应用程序,其目的是收集攻击者的信息,提高网络安全的预警和应对能力。可以提供高质量的攻击数据,便于安全人员分析攻击方式、攻击源和目的,从而改善网络安全防御策略。
##2.加密解密
为了保证信息的安全性,需要采用信息加密技术对信息进行伪装,使得信息非法窃取者无法理解信息的真实含义;需要采用加密算法提取信息的特征码(校验码)或特征矢量,并与有关信息封装在一起,信息的合法拥有者可以利用特征码对信息的完整性进行校验;需要采用加密算法对信息使用者的身份进行认证、识别和确认,以对信息的使用进行控制。发信者将明文数据加密成密文,然后将密文数据送入网络传输或存入计算机文件,只给合法收信者分配密钥。合法收信者接收到密文后,实行与加密变换相逆的变换,去掉密文的伪装并恢复出明文,这一过程称为解密。解密在解密密钥的控制下进行。用于解密的一组数学变换称为解密算法。加密技术包括两个元素:算法和密钥。密钥加密技术的密码体制分为对称密钥体制和非对称密钥体制两种。相应地,对数据加密的技术分为两类,即对称加密(私人密钥加密)和非对称加密(公开密钥加密)。对称加密以数据加密标准(Data Encryption Standard,DES)算法为典型代表,非对称加密通常以RSA(Rivest Shamir Adleman)算法为代表。对称加密的加密密钥和解密密钥相同,而非对称加密的加密密钥和解密密钥不同,加密密钥可以公开而解密密钥需要保密。
##3.安全行为分析技术 传统的安全产品、技术和方案基本上都是基于已知特征进行规则匹配来进行分析和检测。基于“特征”为核心的检测分析存在安全可见性盲区,有滞后效应、无力检测未知攻击、容易被绕过,以及难以适应攻防对抗的网络现实和快速变化的组织环境、外部威胁等问题。另一方面,虽然大多数的攻击可能来自组织以外,但最严重的损害往往是由内部人员造成的。只有管理好内部威胁,才能保证信息和网络安全。用户和实体行为分析(User and Entity Behavior
Analytics, UEBA)提供了用户画像及基于各种分析方法的异常检测。结合基本分析方法(利用签名的规则、模式匹配、简单统计、阈值等)和高级分析方法(监督和无监督的机器学习等),用打包分析来评估用户和其他实体(主机、应用程序、网络、数据库等),发现与用户或实体标准画像或行为异常的活动所相关的潜在事件。UEBA以用户和实体为对象,利用大数据,结合规则以及机器学习模型,并通过定义此类基线,对用户和实体行为进行分析和异常检测,尽可能快速地感知内部用户和实体的可疑或非法行为。UEBA是一个完整的系统,涉及算法、工程等检测部分,以及用户与实体风险评分排序、调查等用户交换和反馈。从架构上来看,UEBA系统通常包括数据获取层、算法分析层和场景应用层。
##4.网络安全态势感知网络安全态势感知(Network Security Situation
Awareness)是指在大规模网络环境中获取、理解、显示能够引起网络态势发生变化的安全要素,并根据这些要素预测未来的网络安全发展趋势的技术。
安全态势感知是一种基于环境的、动态的、整体的安全风险洞察能力,不仅是一种安全技术,也是一个新兴的安全概念。安全态势感知的前提是安全大数据,它利用安全大数据进行数据整合、特征提取等,然后应用一系列态势评估算法生成网络的整体态势状况,应用态势预测算法预测态势的发展状况,并使用数据可视化技术,将态势状况和预测情况展示给安全人员,方便安全人员直观便捷地了解网络当前状态及预期的风险。
网络安全态势感知的关键技术主要包括:海量多元异构数据的汇聚融合技术、面向多类型的网络安全威胁评估技术、网络安全态势评估与决策支撑技术、网络安全态势可视化等。
#2.1.5 信息技术的发展
作为信息技术的基础,计算机软硬件、网络、存储和数据库、信息安全等领域正在不断地发展创新,引领着当前信息技术的潮流。在计算机软硬件方面,计算机硬件技术正向着超高速、超小型、平行处理、智能化的方向发展,计算机硬件设备的体积越来越小,速度越来越高,容量越来越大,功耗越来越低,可靠性越来越高。计算机软件越来越丰富,功能越来越强大,“软件定义一切”的概念已成为当前发展的主流。在网络技术方面,计算机网络与通信技术之间的联系日益密切,甚至已经融为一体。作为国家最重要的基础设施之一,5G成为当前的主流。面向物联网的窄带物联网(Narrow Band Internet
of Things, NB-IoT)和增强型机器类型通信(enhanced Machine-Type
Communication, eMTC)、工业物联网(Industrial Internet of
Things, IIoT)和低延时高可靠通信(Ultra Reliable Low Latency
Communication, URLLC)等技术,将进一步得到充分的发展。在存储和数据库方面,随着数据量的不断爆炸式增长,数据存储结构也越来越灵活多样,日益变革的新兴业务需求驱使数据库及应用系统的存在形式愈发丰富,这些变化均对各类数据库的架构和存储模式提出了挑战,推动数据库技术不断向着模型拓展、架构解耦的方向演进。在信息安全方面,传统计算机安全理念将过渡到以可信计算理念为核心的计算机安全,由网络普及应用引发的技术与应用模式的变革,正在进一步推动信息安全网络化关键技术的创新;同时,信息安全标准的研究与制定,信息安全产品和服务的集成和融合,正引领着当前信息安全技术朝着标准化和集成化的方向发展。