大数据 – 落尘Alko的小窝

CAP理论

学习笔记

|

1,069

|

0

|

2024-4-13 15:12

1184 字

|

5 分钟

CAP 原则又称 CAP 定理，指的是在一个分布式系统中， Consistency（一致性）、 Availability（可用性）、Partition tolerance（分区容错性），三者不可得兼。 CAP含义一致性（C）：所有的节点上的数据时刻保持同步。对于客户端的每次读操作，要么读到的是最新的数据，要么读取失败。换句话说，一致性是站在分布式系统的角度，对访问本系统的客户端的一种承诺：要么我…

大数据

Hbase入门级使用

经验总结

|

953

|

0

|

2023-11-30 16:19

1116 字

|

5 分钟

HBase配置通过查阅相关资料，基于已建立的hadoop集群，完成个人服务器的hbase搭建，具体配置如下： <property> <name>hbase.rootdir</name> <value>hdfs://master:9000/hbase</value> </property> <property> <name>hbas…

大数据

Redis基础知识总结

学习笔记

|

716

|

0

|

2023-11-30 15:55

6407 字

|

24 分钟

1.基本介绍 REmote DIctionary Server(Redis) 是一个由 Salvatore Sanfilippo 写的 key-value 存储系统，是跨平台的非关系型数据库。它是一个开源的，使用 ANSI C 语言编写、遵守 BSD 协议、支持网络、可基于内存、分布式、可选持久性的键值对(Key-Value)存储数据库，它提供了多种语言的 API。Redis提供了一个快速、可靠和…

大数据部署

Kafka的安装部署

经验总结

|

1,051

|

0

|

2023-11-30 15:38

949 字

|

4 分钟

本文主要针对的是单节点单Broker的部署准备工作：安装zookeeper 1. kafka在使用时依赖于zookeeper，所以需要先按照好，如果有了可以直接进行下一步。 2. 通过链接下载zookeeper，并把压缩包传上服务器 3. 解压zookeeper tar -zxvf apache-zookeeper-3.8.1-bin.tar.gz 4. 然后添加环境变量： # Zookeepe…

大数据部署

flume与kafka对接

经验总结

|

1,194

|

0

|

2023-5-28 1:21

161 字

|

1 分钟内

由于项目需求，要通过Flume读取数据源的log，并将日志数据写入Kafka，因此简单做了对接的记录。配置阶段 kafka配置好，监听接口9092 flume配置如下： agent.sources = r1agent.sinks = k1agent.channels = c1# netcat 监听端口agent.sources.r1.type = netcatagent.sources.r1…

大数据部署

Raft算法概览

学习笔记

|

1,061

|

0

|

2023-5-16 1:09

4544 字

|

16 分钟

在大数据的学习过程中，学到了分布式一致性算法Raft，因此写下本文记录学习过程。算法背景一致性算法允许一组机器像一个整体一样工作，即使其中一些机器出现故障也能够继续工作下去。正因为如此，一致性算法在构建可信赖的大规模软件系统中扮演着重要的角色。在过去的 10 年里，Paxos 算法统治着一致性算法这一领域：绝大多数的实现都是基于 Paxos 或者受其影响。同时 Paxos 也成为了教学领域里讲…

大数据

MVCC学习总结

学习笔记

|

1,377

|

0

|

2023-5-16 0:00

5190 字

|

19 分钟

MVCC作为数据库、大数据技术的重要概念，必须要掌握其原理，本文主要参考看一遍就理解：MVCC原理详解 - 掘金 (juejin.cn)对该知识点进行总结，并添加了一些自己的理解。数据库基础知识回顾什么是事务事务：指一组数据库操作，这组操作要么全部执行成功，要么全部不执行，不能只执行其中的一部分。事务通常用于确保数据库的一致性和完整性，以及保证多个用户同时对数据库进行访问时数据的正确性。案…

大数据数据库

Hive基础知识总结

学习笔记

|

1,097

|

0

|

2023-3-27 23:07

977 字

|

4 分钟

Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具，可以用来进行数据提取转化加载（ETL），这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言，称为 HQL，它允许熟悉 SQL 的用户查询数据。同时，这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 m…

Hive 大数据

Hadoop基础知识学习总结

学习笔记

|

645

|

0

|

2023-3-27 22:38

908 字

|

4 分钟

hadoop架构在自制的系统中，hadoop的形式如下所示: 一个HDFS集群是有一个Namenode和一定数目的Datanode组成。Namenode是一个中心服务器，负责管理文件系统的namespace和客户端对文件的访问。Datanode在集群中一般是一个节点一个，负责管理节点上它们附带的存储。在内部，一个文件其实分成一个或多个block，这些block存储在Datanode集合里。Nam…

Hadoop 大数据

标签： 大数据

标签：大数据