大数据 [10]
Hadoop完全分布式-常用脚本
查看服务器进程
查看java 进程脚本:jpsall
[hadoop@hadoop102 ~]$ cd /home/hadoop/bin
[hadoop@hadoop102 ~]$ vim jpsall
然后输入
#!/bin/bash
for host in hadoop102 hadoop103 hadoop104
do
echo =============
...
Hadoop完全分布式-配置日志聚集
日志聚集概念
应用运行完成以后,将程序运行日志信息上传到 HDFS 系统上。
日志聚集功能好处
可以方便的查看到程序运行详情,方便开发调试。
注意:开启日志聚集功能,需要重新启动 NodeManager 、ResourceManager 和HistoryServer。
开启日志聚集
配置 yarn-site.xml
[hadoop@hadoop102
...
Hadoop完全分布式-配置历史服务器
为了查看程序的历史运行情况,需要配置一下历史服务器。具体配置步骤如下:
配置 mapred-site.xml
[hadoop@hadoop102 hadoop]$ vim mapred-site.xml
在该文件里面增加如下配置。
<!– 历史服务器端地址 –>
<property>
<name>mapreduce.jobh
...
Hadoop完全分布式-群起集群
配置 workers
[hadoop@hadoop102 hadoop]$ vim /opt/module/hadoop-3.1.3/etc/hadoop/workers
在该文件中增加如下内容:
hadoop102hadoop103hadoop104
注意:该文件中添加的内容结尾不允许有空格,文件中不允许有空行。
同步所有节点配置文件
[hadoop@
...
Hadoop完全分布式-配置集群
SSH 无密登录配置
生成公钥和私钥
[hadoop@hadoop102 .ssh]$ ssh-keygen -t rsa
然后敲(三个回车),就会生成两个文件 id_rsa(私钥)、id_rsa.pub(公钥)将公钥拷贝到要免密登录的目标机器上
[hadoop@hadoop102 .ssh]$ ssh-copy-id hadoop102
[hadoop@hadoo
...
Hadoop完全分布式-同步数据
准备完全分布式需要的机器
hadoop102 hadoop103 hadoop104
同步数据
将hadoop102的数据(jdk、hadoop安装目录同步,环境变量文件)同步到 hadoop103 hadoop104
scp(secure copy)安全拷贝
scp 定义
scp 可以实现服务器与服务器之间的数据拷贝。(from server1 to se
...
Hadoop运行模式-本地运行模式
Hadoop的运行模式介绍
本地模式
hadoop默认安装后启动就是本地模式,就是将来的数据存在Linux本地,并且运行MR 程序的时候也是在本地机器上运行。
伪分布式模式
伪分布式其实就只在一台机器上启动HDFS集群,启动YARN集群,并且数据存在HDFS集群上,以及运行MR程序也是在YARN上运行,计
...
Hadoop运行环境搭建
1、准备虚拟机(最小化安装)
2、配置一台纯净版模板机
固定ip地址、修改主机名(hadoop100)用xshell工具连接模板机通过yum安装方式安装必要的软件
[root@hadoop100 ~]# yum install -y epel-release
[root@hadoop100 ~]# yum install -y psmisc nc net-tools rsyn
...
从Hadoop框架讨论大数据生态
Hadoop是什么?
广义:Hadoop生态圈的代名词狭义:Apache旗下的一款开源免费软件
Hadoop发展历史(了解)
作者:卡大爷需求:基于早期搜索业务对海量数据的存储和计算的遇到的瓶颈创作源泉:谷歌提出的大数据论文
Hadoop的版本发展
学习阶段:重点掌握Apache的基础版本 生产领域一般使用商业版或者社区(CDH版本)
Hadoop
...
大数据概论
大数据的概念
在生成领域,面对海量数据必须要解决的两个问题?
海量数据的存储(合理高效的维护海量数据)海量数据的计算分析(产生最终数据的价值)
大数据的特点(4v)
Volume(大量)Velocity(高速)Variety(多样)Value(低价值密度)
大数据的业务流程和部门分布
数仓组— 实时组
...