HDFS+Spark(Hive On Spark)+Flume/Shell架构进行大数据分析 -

pumbaa.he

浏览: 71394 次
性别:
来自: 厦门

最近访客更多访客>>

zxp209

jack1007

yangshenming

daojin

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

HDFS+Spark(Hive On Spark)+Flume/Shell架构进行大数据分析

博客分类：

hadoop

前言

公司需要对数据进行运营分析，为了满足运营大数据分析的需求，决定采用hadoop进行数据分析查询

经过研究打算采用如下架构

游戏服通过http方式把日志消息写入到BI服务器，BI服务器通过log4j记录日志信息。然后把日志文件导入HDFS中，通过Spark进行数据的统计查询。

这里把日志文件导入HDFS中有两种方法：

1、flume

定时把日志文件拷贝到flume监控的目录下，然后flume就会自动把日志文件导入到HDFS中。

这种方式的优点就是可以配置HDFS文件的大小，不至于生成很多小文件。缺点就是导入速度比较慢，而且如果有大文件移动到flume的监控目录下，会报异常（网上有解决方案），导致flume停止执行。

flume还有其他优点，比如说分布式收集等等；缺点就是遇到异常就会停止执行，大文件拷贝问题，经过测试，拷贝一个400多M的文件到flume监控目录中，如果flume channel采用内存方式，导入到HDFS中需要将近10分钟（单机），如果flume channel采用文件方式，则会超时。但是内存方式又不能保证消息的一致性。

2、shell

可以通过shell脚本直接把日志文件直接通过hadoop fs -put方式直接导入到HDFS中。这种方式的优点就是速度快，简单；缺点就是单机非分布式，日志文件的大小需要自己去控制。日志文件导入成功需要自己去标记。可能还需要对HDFS做小文件合并处理。

本次安装用到的软件版本分别是

hadoop2.6

spark-1.6.1-bin-hadoop2.6

flume1.6

一、Hadoop安装配置

这里讲解的是单机伪分布式配置，具体的配置网上很多，这边就不详细介绍，只讲解一些要点

1、解压hadoop

2、安装JDK7

3、vim /etc/profile ，配置java_home和hadoop_home环境（文章最后有详细配置信息）

4、ssh免密码登陆设置

cd ~/.ssh/ # 若没有该目录，请先执行一次ssh localhost

ssh-keygen -t rsa # 会有提示，都按回车就可以

cat ./id_rsa.pub >> ./authorized_keys # 加入授权

5、修改hadoop配置文件（/hadoop/hadoop-2.6.0/etc/hadoop）

5.1 vim hadoop-env.sh

增加export JAVA_HOME=${JAVA_HOME}

5.2 vim core-site.xml

<configuration>
<property>
<name>hadoop.tmp.dir</name>
<value>file:/usr/local/hadoop/hadoop-2.6.0/tmp</value>
</property>
<property>
  <name>fs.defaultFS</name>
      <value>hdfs://10.10.31.35:9000</value>
      </property>
      <property>
      <name>fs.hdfs.impl</name>
      <value>org.apache.hadoop.hdfs.DistributedFileSystem</value>
      <description>The FileSystem for hdfs: uris.</description>
      </property>
</configuration>

5.3 vim hdfs-site.xml

<configuration>
<property>
 <name>dfs.replication</name>
  <value>1</value>
  </property>

 <property>
         <name>dfs.permissions</name>
                 <value>false</value>
                   </property>

<property>
  <name>dfs.namenode.name.dir</name>
      <value>file:/usr/local/hadoop/hadoop-2.6.0/tmp/dfs/name</value>
      </property>

<property>
  <name>dfs.datannode.data.dir</name>
      <value>file:/usr/local/hadoop/hadoop-2.6.0/tmp/dfs/data</value>
      </property>
</configuration>

5.4 vim mapred-site.xml

<configuration>
<property>
<name>mapred.job.tracker</name>
<value>10.10.31.35:9001</value>
</property>
</configuration>

5.5 vim yarn-site.xml

<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>

 <property>
   <name>yarn.nodemanager.aux-services</name>
       <value>mapreduce_shuffle</value>
        </property>
<!-- Site specific YARN configuration properties -->

</configuration>

6、执行NameNode 格式化

./bin/hdfs namenode -format

7、启动hadoop进程

./sbin/start-dfs.sh

到这里hadoop的配置就已经完成了，详细可以参考http://www.powerxing.com/install-hadoop/

二、spark安装配置

详情参考http://www.thebigdata.cn/Hadoop/28957.html

启动thriftserver，详情参考http://blog.csdn.net/wind520/article/details/44061563

到这里就可以通过jdbc访问hive on spark了（以下简称hive数据库）

访问hive数据库有几种方式，一种是通过sparksql，一种是通过beeline，一种是jdbc

创建表示例

create table test(id int,name string) row format delimited fields terminated by '\t' stored as textfile location 'hdfs://10.10.31.35:9000/user/hive/warehouse/temp.db/test';

三、flume安装配置

详情参考http://www.flybi.net/blog/lp_hadoop/1241

运行flume：

bin/flume-ng agent --conf-file conf/test.conf --name agent1 -Dflume.root.logger=INFO,console

其中tes.conf是自定义的配置文件，agent1要和test.conf的内容对应

四、shell

通过定时脚本把本地日志文件移到hadoop目录下

示例hadoop fs -moveFromLocal *_* /user/hive/warehouse/temp.db/test

备注：

1、如果要让外网访问，需要vim /etc/hosts

添加127.0.0.1 ip-10-10-31-35

2、/etc/profile文件最终添加的信息

export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.99.x86_64

export JRE_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.99.x86_64/jdk1.8.0_73/jre

export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH

export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH

export HADOOP_HOME=/usr/local/hadoop/hadoop-2.6.0

export HADOOP_INSTALL=$HADOOP_HOME

export HADOOP_MAPRED_HOME=$HADOOP_HOME

export HADOOP_COMMON_HOME=$HADOOP_HOME

export HADOOP_HDFS_HOME=$HADOOP_HOME

export YARN_HOME=$HADOOP_HOME

export HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/native

export PATH=$PATH:$HADOOP_HOME/sbin:$HADOOP_HOME/bin

export SCALA_HOME=/usr/local/scala/scala-2.11.8

export PATH=$SCALA_HOME/bin:$PATH

export SPARK_HOME=/usr/local/spark/spark-1.6.1-bin-hadoop2.6

export PATH=$SPARK_HOME/bin:$PATH

查看图片附件

分享到：

如何通过callback和协程来提高并发

2016-12-23 17:25
浏览 1589
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop+Hive+Spark+Kafka+Zookeeper+Flume+Sqoop+Azkaban+Scala: 前言大数据学习路线大数据技术栈思维导图大数据常用软件安装指南 ...系统架构及数据结构基本环境搭建集群环境搭建常用 Shell 命令 Java API 过滤器详解可显示字数有限，详细内容请看资源。

大数据基础面试题hadoop,zookeeper,hbase,hive,spark,kafka,flink,clickhouse: hadoop,zookeeper,hbase,hive,spark,kafka,flink,clickhouse,数据仓库,等等

LogAnalyzer:分析大数据组件的客户日志，例如HDFS，Hive，HBase，Yarn，MapReduce，Storm，Spark，Spark 2，Knox，Ambari Metrics，Nifi，Accumulo，Kafka，Flume，Oozie，Falcon，Atlas和Zookeeper: 日志分析器-分析大数据组件的客户日志，例如HDFS，Hive，HBase，Yarn，MapReduce，Storm，Spark，Spark 2，Knox，Ambari Metrics，Nifi，Accumulo，Kafka，Flume，Oozie，Falcon，Atlas和Zookeeper。内部架构分析...

大数据工程师学习计划.pdf: Linux 基本操作 Hadoop（HDFS+MapReduce+Yarn ） HBase（JavaAPI操作+Phoenix ） Hive(Hql基本操作和原理理解） Kafka Storm/JStorm Scala Python Spark (Core+sparksql+Spark streaming ）辅助⼩⼯具(Sqoop/Flume/...

大数据与云计算教程课件优质大数据课程 08.HDFS文件接口（共41页）.pptx: 05.Hadoop入门数据分析实战 06.HDFS 07.HDFS Shell命令 08.HDFS文件接口 09.MapReduce序列化 10.MapReduce MP过程进阶 11.MapReduce IO操作 12.序列化框架 13.深入MapReduce应用开发 14.Hadoop集群配置 15.Hive 16....

大数据学习路线大数据技术栈思维导图大数据常用软件安装指南: 包括Hadoop、Hive、Spark、Storm、Flink、HBase、Kafka、Zookeeper、Flume、Sqoop等技术的学习 Hadoop 分布式文件存储系统 —— HDFS 分布式计算框架 —— MapReduce 集群资源管理器 —— YARN Hadoop 单机伪集群...

大数据与云计算教程课件优质大数据课程 31.Strom（共14页）.pptx: 05.Hadoop入门数据分析实战 06.HDFS 07.HDFS Shell命令 08.HDFS文件接口 09.MapReduce序列化 10.MapReduce MP过程进阶 11.MapReduce IO操作 12.序列化框架 13.深入MapReduce应用开发 14.Hadoop集群配置 15.Hive 16....

大数据与云计算教程课件优质大数据课程 34.SparkSQL（共15页）.pptx: 05.Hadoop入门数据分析实战 06.HDFS 07.HDFS Shell命令 08.HDFS文件接口 09.MapReduce序列化 10.MapReduce MP过程进阶 11.MapReduce IO操作 12.序列化框架 13.深入MapReduce应用开发 14.Hadoop集群配置 15.Hive 16....

大数据与云计算教程课件优质大数据课程 30.Kafka开发（共34页）.pptx: 05.Hadoop入门数据分析实战 06.HDFS 07.HDFS Shell命令 08.HDFS文件接口 09.MapReduce序列化 10.MapReduce MP过程进阶 11.MapReduce IO操作 12.序列化框架 13.深入MapReduce应用开发 14.Hadoop集群配置 15.Hive 16....

大数据开发工程师的岗位职责.docx: 2、针对部门大数据业务进行大数据分析、挖掘等产品应用的开发; 3、大数据平台各类数据业务抽象及模型化; 4、参与大数据管理平台的开发及维护; 5、负责大数据平台数据及相关的应用开发，调优及维护; 6、为项目相关...

精品课程推荐大数据与云计算教程课件优质大数据课程 07.HDFS Shell命令（共21页）.pptx: 大数据与云计算教程课件优质大数据课程 05.Hadoop入门数据分析实战（共57页）.pptx 大数据与云计算教程课件优质大数据课程 06.HDFS（共38页）.pptx 大数据与云计算教程课件优质大数据课程 07.HDFS Shell命令（共...

精品课程推荐大数据与云计算教程课件优质大数据课程 33.Spark入门（共40页）.pptx: 大数据与云计算教程课件优质大数据课程 05.Hadoop入门数据分析实战（共57页）.pptx 大数据与云计算教程课件优质大数据课程 06.HDFS（共38页）.pptx 大数据与云计算教程课件优质大数据课程 07.HDFS Shell命令（共...

精品课程推荐大数据与云计算教程课件优质大数据课程 32.Spark入门之Scala（共173页）.pptx: 大数据与云计算教程课件优质大数据课程 05.Hadoop入门数据分析实战（共57页）.pptx 大数据与云计算教程课件优质大数据课程 06.HDFS（共38页）.pptx 大数据与云计算教程课件优质大数据课程 07.HDFS Shell命令（共...

精品课程推荐大数据与云计算教程课件优质大数据课程 06.HDFS（共38页）.pptx: 大数据与云计算教程课件优质大数据课程 05.Hadoop入门数据分析实战（共57页）.pptx 大数据与云计算教程课件优质大数据课程 06.HDFS（共38页）.pptx 大数据与云计算教程课件优质大数据课程 07.HDFS Shell命令（共...

精品课程推荐大数据与云计算教程课件优质大数据课程 28.Flume（共33页）.pptx: 大数据与云计算教程课件优质大数据课程 05.Hadoop入门数据分析实战（共57页）.pptx 大数据与云计算教程课件优质大数据课程 06.HDFS（共38页）.pptx 大数据与云计算教程课件优质大数据课程 07.HDFS Shell命令（共...

精品课程推荐大数据与云计算教程课件优质大数据课程 15.Hive（共46页）.pptx: 大数据与云计算教程课件优质大数据课程 05.Hadoop入门数据分析实战（共57页）.pptx 大数据与云计算教程课件优质大数据课程 06.HDFS（共38页）.pptx 大数据与云计算教程课件优质大数据课程 07.HDFS Shell命令（共...

精品课程推荐大数据与云计算教程课件优质大数据课程 16.Hive操作（共43页）.pptx: 大数据与云计算教程课件优质大数据课程 05.Hadoop入门数据分析实战（共57页）.pptx 大数据与云计算教程课件优质大数据课程 06.HDFS（共38页）.pptx 大数据与云计算教程课件优质大数据课程 07.HDFS Shell命令（共...

精品课程推荐大数据与云计算教程课件优质大数据课程 17.Hive查询（共32页）.pptx: 大数据与云计算教程课件优质大数据课程 05.Hadoop入门数据分析实战（共57页）.pptx 大数据与云计算教程课件优质大数据课程 06.HDFS（共38页）.pptx 大数据与云计算教程课件优质大数据课程 07.HDFS Shell命令（共...

精品课程推荐大数据与云计算教程课件优质大数据课程 05.Hadoop入门数据分析实战（共57页）.pptx: 大数据与云计算教程课件优质大数据课程 05.Hadoop入门数据分析实战（共57页）.pptx 大数据与云计算教程课件优质大数据课程 06.HDFS（共38页）.pptx 大数据与云计算教程课件优质大数据课程 07.HDFS Shell命令（共...

reasearch-bigdata:看书看原始币看第三方学习视频-看: 数据清理脏数据清理：Spark，Hive，MapReduce 数据处理跟随需求进行相应业务的统计和分析数据处理结果入库结果可以存放到RDBMS，NoSQL等数据的可视化通过图形化展示的方式展现出来：饼图，柱状图，地图等 HDFS文档

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

HDFS+Spark(Hive On Spark)+Flume/Shell架构进行大数据分析

评论

发表评论

相关推荐

spark内存溢出

sparksql和mysql性能比较

spark jar包和log4j jar包冲突

最近访客更多访客>>