标签: 大数据

9 篇文章

thumbnail
CAP理论
CAP 原则又称 CAP 定理,指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可得兼。 CAP含义 一致性(C):所有的节点上的数据时刻保持同步。对于客户端的每次读操作,要么读到的是最新的数据,要么读取失败。换句话说,一致性是站在分布式系统的角度,对访问本系统的客户端的一种承诺:要么我…
thumbnail
Hbase入门级使用
HBase配置 通过查阅相关资料,基于已建立的hadoop集群,完成个人服务器的hbase搭建,具体配置如下:  <property>    <name>hbase.rootdir</name>    <value>hdfs://master:9000/hbase</value> </property> <property>   <name>hbas…
thumbnail
Redis基础知识总结
1.基本介绍 REmote DIctionary Server(Redis) 是一个由 Salvatore Sanfilippo 写的 key-value 存储系统,是跨平台的非关系型数据库。它是一个开源的,使用 ANSI C 语言编写、遵守 BSD 协议、支持网络、可基于内存、分布式、可选持久性的键值对(Key-Value)存储数据库,它提供了多种语言的 API。Redis提供了一个快速、可靠和…
thumbnail
Kafka的安装部署
本文主要针对的是单节点单Broker的部署 准备工作:安装zookeeper 1. kafka在使用时依赖于zookeeper,所以需要先按照好,如果有了可以直接进行下一步。 2. 通过链接下载zookeeper,并把压缩包传上服务器 3. 解压zookeeper tar -zxvf apache-zookeeper-3.8.1-bin.tar.gz 4. 然后添加环境变量: # Zookeepe…
thumbnail
flume与kafka对接
由于项目需求,要通过Flume读取数据源的log,并将日志数据写入Kafka,因此简单做了对接的记录。 配置阶段 kafka配置好,监听接口9092 flume配置如下: agent.sources = r1agent.sinks = k1agent.channels = c1​​# netcat 监听端口agent.sources.r1.type = netcatagent.sources.r1…
thumbnail
Raft算法概览
在大数据的学习过程中,学到了分布式一致性算法Raft,因此写下本文记录学习过程。 算法背景 一致性算法允许一组机器像一个整体一样工作,即使其中一些机器出现故障也能够继续工作下去。正因为如此,一致性算法在构建可信赖的大规模软件系统中扮演着重要的角色。在过去的 10 年里,Paxos 算法统治着一致性算法这一领域:绝大多数的实现都是基于 Paxos 或者受其影响。同时 Paxos 也成为了教学领域里讲…
thumbnail
MVCC学习总结
MVCC作为数据库、大数据技术的重要概念,必须要掌握其原理,本文主要参考看一遍就理解:MVCC原理详解 - 掘金 (juejin.cn)对该知识点进行总结,并添加了一些自己的理解。 数据库基础知识回顾 什么是事务 事务:指一组数据库操作,这组操作要么全部执行成功,要么全部不执行,不能只执行其中的一部分。事务通常用于确保数据库的一致性和完整性,以及保证多个用户同时对数据库进行访问时数据的正确性。 案…
thumbnail
Hive基础知识总结
Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 m…
thumbnail
Hadoop基础知识学习总结
hadoop架构 在自制的系统中,hadoop的形式如下所示: 一个HDFS集群是有一个Namenode和一定数目的Datanode组成。Namenode是一个中心服务器,负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是一个节点一个,负责管理节点上它们附带的存储。在内部,一个文件其实分成一个或多个block,这些block存储在Datanode集合里。Nam…