1.将待分析的文件(不少于10000英文单词)上传到HDFS
2.调用MapReduce对文件中各个单词出现的次数进行统计
3.将统计结果下载本地。
1.首先启动hadoop,用jps判断是否启动成功,如果成功,则如下图所示
2.递归创建/user/hadoop/input
目录,将不少于10000字单词的文件上传到/user/hadoop/input
目录下
3.打开eclipse进行配置,填写工作空间
4.选择 Window 菜单下的 Preference
5.切换 Map/Reduce 开发视图,选择 Window 菜单下选择 Open Perspective -> Other(CentOS 是 Window -> Perspective -> Open Perspective -> Other),弹出一个窗体,从中选择 Map/Reduce 选项即可进行切换
6.建立与 Hadoop 集群的连接,点击 Eclipse软件右下角的 Map/Reduce Locations 面板,在面板中单击右键,选择 New Hadoop Location
7.在弹出来的 General 选项面板中,进行配置
8.在eclipse中创建MapReduce项目,点击 File 菜单,选择 New -> Project…,选择 Map/Reduce Project,点击 Next
9.填写 Project name ,点击 Finish 就创建好了项目
10.接着右键点击刚创建的 WordCount 项目,选择 New -> Class,需要填写两个地方:在 Package 处填写 org.apache.hadoop.examples;在 Name 处要填写
11.创建 Class 完成后,在 Project 的 src 中就能看到 lzWordCount.java 这个文件。将如下 lzWordCount 的代码复制到该文件中
package org.apache.hadoop.examples; import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable