前言
公司需要对数据进行运营分析,为了满足运营大数据分析的需求,决定采用hadoop进行数据分析查询
经过研究打算采用如下架构
游戏服通过http方式把日志消息写入到BI服务器,BI服务器通过log4j记录日志信息。然后把日志文件导入HDFS中,通过Spark进行数据的统计查询。
这里把日志文件导入HDFS中有两种方法:
1、flume
定时把日志文件拷贝到flume监控的目录下,然后flume就会自动把日志文件导入到HDFS中。
这种方式的优点就是可以配置HDFS文件的大小,不至于生成很多小文件。缺点就是导入速度比较慢,而且如果有大文件移动到flume的监控目录下,会报异常(网上有解决方案),导致flume停止执行。
flume还有其他优点,比如说分布式收集等等;缺点就是遇到异常就会停止执行,大文件拷贝问题,经过测试,拷贝一个400多M的文件到flume监控目录中,如果flume channel采用内存方式,导入到HDFS中需要将近10分钟(单机),如果flume channel采用文件方式,则会超时。但是内存方式又不能保证消息的一致性。
2、shell
可以通过shell脚本直接把日志文件直接通过hadoop fs -put方式直接导入到HDFS中。这种方式的优点就是速度快,简单;缺点就是单机非分布式,日志文件的大小需要自己去控制。日志文件导入成功需要自己去标记。可能还需要对HDFS做小文件合并处理。
本次安装用到的软件版本分别是
hadoop2.6
spark-1.6.1-bin-hadoop2.6
flume1.6
一、Hadoop安装配置
这里讲解的是单机伪分布式配置,具体的配置网上很多,这边就不详细介绍,只讲解一些要点
1、解压hadoop
2、安装JDK7
3、vim /etc/profile ,配置java_home和hadoop_home环境(文章最后有详细配置信息)
4、ssh免密码登陆设置
cd ~/.ssh/ # 若没有该目录,请先执行一次ssh localhost
ssh-keygen -t rsa # 会有提示,都按回车就可以
cat ./id_rsa.pub >> ./authorized_keys # 加入授权
5、修改hadoop配置文件(/hadoop/hadoop-2.6.0/etc/hadoop)
5.1 vim hadoop-env.sh
增加export JAVA_HOME=${JAVA_HOME}
5.2 vim core-site.xml
<configuration> <property> <name>hadoop.tmp.dir</name> <value>file:/usr/local/hadoop/hadoop-2.6.0/tmp</value> </property> <property> <name>fs.defaultFS</name> <value>hdfs://10.10.31.35:9000</value> </property> <property> <name>fs.hdfs.impl</name> <value>org.apache.hadoop.hdfs.DistributedFileSystem</value> <description>The FileSystem for hdfs: uris.</description> </property> </configuration>
5.3 vim hdfs-site.xml
<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>dfs.permissions</name> <value>false</value> </property> <property> <name>dfs.namenode.name.dir</name> <value>file:/usr/local/hadoop/hadoop-2.6.0/tmp/dfs/name</value> </property> <property> <name>dfs.datannode.data.dir</name> <value>file:/usr/local/hadoop/hadoop-2.6.0/tmp/dfs/data</value> </property> </configuration>5.4 vim mapred-site.xml
<configuration> <property> <name>mapred.job.tracker</name> <value>10.10.31.35:9001</value> </property> </configuration>5.5 vim yarn-site.xml
<configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <!-- Site specific YARN configuration properties --> </configuration>
6、执行NameNode 格式化
./bin/hdfs namenode -format
7、启动hadoop进程
./sbin/start-dfs.sh
到这里hadoop的配置就已经完成了,详细可以参考http://www.powerxing.com/install-hadoop/
相关推荐
前 言 大数据学习路线 大数据技术栈思维导图 大数据常用软件安装指南 ...系统架构及数据结构 基本环境搭建 集群环境搭建 常用 Shell 命令 Java API 过滤器详解 可显示字数有限,详细内容请看资源。
hadoop,zookeeper,hbase,hive,spark,kafka,flink,clickhouse,数据仓库,等等
日志分析器-分析大数据组件的客户日志,例如HDFS,Hive,HBase,Yarn,MapReduce,Storm,Spark,Spark 2,Knox,Ambari Metrics,Nifi,Accumulo,Kafka,Flume,Oozie,Falcon,Atlas和Zookeeper。 内部架构 分析...
Linux 基本操作 Hadoop(HDFS+MapReduce+Yarn ) HBase(JavaAPI操作+Phoenix ) Hive(Hql基本操作和原理理解) Kafka Storm/JStorm Scala Python Spark (Core+sparksql+Spark streaming ) 辅助⼩⼯具(Sqoop/Flume/...
05.Hadoop入门数据分析实战 06.HDFS 07.HDFS Shell命令 08.HDFS文件接口 09.MapReduce序列化 10.MapReduce MP过程进阶 11.MapReduce IO操作 12.序列化框架 13.深入MapReduce应用开发 14.Hadoop集群配置 15.Hive 16....
包括Hadoop、Hive、Spark、Storm、Flink、HBase、Kafka、Zookeeper、Flume、Sqoop等技术的学习 Hadoop 分布式文件存储系统 —— HDFS 分布式计算框架 —— MapReduce 集群资源管理器 —— YARN Hadoop 单机伪集群...
05.Hadoop入门数据分析实战 06.HDFS 07.HDFS Shell命令 08.HDFS文件接口 09.MapReduce序列化 10.MapReduce MP过程进阶 11.MapReduce IO操作 12.序列化框架 13.深入MapReduce应用开发 14.Hadoop集群配置 15.Hive 16....
05.Hadoop入门数据分析实战 06.HDFS 07.HDFS Shell命令 08.HDFS文件接口 09.MapReduce序列化 10.MapReduce MP过程进阶 11.MapReduce IO操作 12.序列化框架 13.深入MapReduce应用开发 14.Hadoop集群配置 15.Hive 16....
05.Hadoop入门数据分析实战 06.HDFS 07.HDFS Shell命令 08.HDFS文件接口 09.MapReduce序列化 10.MapReduce MP过程进阶 11.MapReduce IO操作 12.序列化框架 13.深入MapReduce应用开发 14.Hadoop集群配置 15.Hive 16....
2、针对部门大数据业务进行大数据分析、挖掘等产品应用的开发; 3、大数据平台各类数据业务抽象及模型化; 4、参与大数据管理平台的开发及维护; 5、负责大数据平台数据及相关的应用开发,调优及维护; 6、为项目相关...
大数据与云计算教程课件 优质大数据课程 05.Hadoop入门数据分析实战(共57页).pptx 大数据与云计算教程课件 优质大数据课程 06.HDFS(共38页).pptx 大数据与云计算教程课件 优质大数据课程 07.HDFS Shell命令(共...
大数据与云计算教程课件 优质大数据课程 05.Hadoop入门数据分析实战(共57页).pptx 大数据与云计算教程课件 优质大数据课程 06.HDFS(共38页).pptx 大数据与云计算教程课件 优质大数据课程 07.HDFS Shell命令(共...
大数据与云计算教程课件 优质大数据课程 05.Hadoop入门数据分析实战(共57页).pptx 大数据与云计算教程课件 优质大数据课程 06.HDFS(共38页).pptx 大数据与云计算教程课件 优质大数据课程 07.HDFS Shell命令(共...
大数据与云计算教程课件 优质大数据课程 05.Hadoop入门数据分析实战(共57页).pptx 大数据与云计算教程课件 优质大数据课程 06.HDFS(共38页).pptx 大数据与云计算教程课件 优质大数据课程 07.HDFS Shell命令(共...
大数据与云计算教程课件 优质大数据课程 05.Hadoop入门数据分析实战(共57页).pptx 大数据与云计算教程课件 优质大数据课程 06.HDFS(共38页).pptx 大数据与云计算教程课件 优质大数据课程 07.HDFS Shell命令(共...
大数据与云计算教程课件 优质大数据课程 05.Hadoop入门数据分析实战(共57页).pptx 大数据与云计算教程课件 优质大数据课程 06.HDFS(共38页).pptx 大数据与云计算教程课件 优质大数据课程 07.HDFS Shell命令(共...
大数据与云计算教程课件 优质大数据课程 05.Hadoop入门数据分析实战(共57页).pptx 大数据与云计算教程课件 优质大数据课程 06.HDFS(共38页).pptx 大数据与云计算教程课件 优质大数据课程 07.HDFS Shell命令(共...
大数据与云计算教程课件 优质大数据课程 05.Hadoop入门数据分析实战(共57页).pptx 大数据与云计算教程课件 优质大数据课程 06.HDFS(共38页).pptx 大数据与云计算教程课件 优质大数据课程 07.HDFS Shell命令(共...
大数据与云计算教程课件 优质大数据课程 05.Hadoop入门数据分析实战(共57页).pptx 大数据与云计算教程课件 优质大数据课程 06.HDFS(共38页).pptx 大数据与云计算教程课件 优质大数据课程 07.HDFS Shell命令(共...
数据清理脏数据清理:Spark,Hive,MapReduce 数据处理跟随需求进行相应业务的统计和分析 数据处理结果入库结果可以存放到RDBMS,NoSQL等 数据的可视化通过图形化展示的方式展现出来:饼图,柱状图,地图等 HDFS文档