大数据 [10]

Hadoop完全分布式-常用脚本
查看服务器进程 查看java 进程脚本:jpsall [hadoop@hadoop102 ~]$ cd /home/hadoop/bin [hadoop@hadoop102 ~]$ vim jpsall 然后输入 #!/bin/bash for host in hadoop102 hadoop103 hadoop104 do echo ============= ...
Hadoop完全分布式-配置日志聚集
日志聚集概念 应用运行完成以后,将程序运行日志信息上传到 HDFS 系统上。 日志聚集功能好处 可以方便的查看到程序运行详情,方便开发调试。 注意:开启日志聚集功能,需要重新启动 NodeManager 、ResourceManager 和HistoryServer。 开启日志聚集 配置 yarn-site.xml [hadoop@hadoop102 ...
Hadoop完全分布式-配置历史服务器
为了查看程序的历史运行情况,需要配置一下历史服务器。具体配置步骤如下: 配置 mapred-site.xml [hadoop@hadoop102 hadoop]$ vim mapred-site.xml 在该文件里面增加如下配置。 <!– 历史服务器端地址 –> <property> <name>mapreduce.jobh ...
Hadoop完全分布式-群起集群
配置 workers [hadoop@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers 在该文件中增加如下内容: hadoop102hadoop103hadoop104 注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。 同步所有节点配置文件 [hadoop@ ...
Hadoop完全分布式-配置集群
SSH 无密登录配置 生成公钥和私钥 [hadoop@hadoop102 .ssh]$ ssh-keygen -t rsa 然后敲(三个回车),就会生成两个文件 id_rsa(私钥)、id_rsa.pub(公钥)将公钥拷贝到要免密登录的目标机器上 [hadoop@hadoop102 .ssh]$ ssh-copy-id hadoop102 [hadoop@hadoo ...
Hadoop完全分布式-同步数据
准备完全分布式需要的机器 hadoop102 hadoop103 hadoop104 同步数据 将hadoop102的数据(jdk、hadoop安装目录同步,环境变量文件)同步到 hadoop103 hadoop104 scp(secure copy)安全拷贝 scp 定义 scp 可以实现服务器与服务器之间的数据拷贝。(from server1 to se ...
Hadoop运行模式-本地运行模式
Hadoop的运行模式介绍 本地模式 hadoop默认安装后启动就是本地模式,就是将来的数据存在Linux本地,并且运行MR 程序的时候也是在本地机器上运行。 伪分布式模式 伪分布式其实就只在一台机器上启动HDFS集群,启动YARN集群,并且数据存在HDFS集群上,以及运行MR程序也是在YARN上运行,计 ...
Hadoop运行环境搭建
1、准备虚拟机(最小化安装) 2、配置一台纯净版模板机 固定ip地址、修改主机名(hadoop100)用xshell工具连接模板机通过yum安装方式安装必要的软件 [root@hadoop100 ~]# yum install -y epel-release [root@hadoop100 ~]# yum install -y psmisc nc net-tools rsyn ...
从Hadoop框架讨论大数据生态
Hadoop是什么? 广义:Hadoop生态圈的代名词狭义:Apache旗下的一款开源免费软件 Hadoop发展历史(了解) 作者:卡大爷需求:基于早期搜索业务对海量数据的存储和计算的遇到的瓶颈创作源泉:谷歌提出的大数据论文 Hadoop的版本发展 学习阶段:重点掌握Apache的基础版本 生产领域一般使用商业版或者社区(CDH版本) Hadoop ...
大数据概论
大数据的概念 在生成领域,面对海量数据必须要解决的两个问题? 海量数据的存储(合理高效的维护海量数据)海量数据的计算分析(产生最终数据的价值) 大数据的特点(4v) Volume(大量)Velocity(高速)Variety(多样)Value(低价值密度) 大数据的业务流程和部门分布 数仓组— 实时组 ...