用hadoop进行单词计数_英文单词字数统计器

(30) 2024-09-24 07:01:03

统计单词个数

要求

1.将待分析的文件(不少于10000英文单词)上传到HDFS
2.调用MapReduce对文件中各个单词出现的次数进行统计
3.将统计结果下载本地。

过程

1.首先启动hadoop,用jps判断是否启动成功,如果成功,则如下图所示用hadoop进行单词计数_英文单词字数统计器 (https://mushiming.com/)  第1张
2.递归创建/user/hadoop/input目录,将不少于10000字单词的文件上传到/user/hadoop/input目录下
用hadoop进行单词计数_英文单词字数统计器 (https://mushiming.com/)  第2张
3.打开eclipse进行配置,填写工作空间用hadoop进行单词计数_英文单词字数统计器 (https://mushiming.com/)  第3张
4.选择 Window 菜单下的 Preference
用hadoop进行单词计数_英文单词字数统计器 (https://mushiming.com/)  第4张
5.切换 Map/Reduce 开发视图,选择 Window 菜单下选择 Open Perspective -> Other(CentOS 是 Window -> Perspective -> Open Perspective -> Other),弹出一个窗体,从中选择 Map/Reduce 选项即可进行切换用hadoop进行单词计数_英文单词字数统计器 (https://mushiming.com/)  第5张
6.建立与 Hadoop 集群的连接,点击 Eclipse软件右下角的 Map/Reduce Locations 面板,在面板中单击右键,选择 New Hadoop Location用hadoop进行单词计数_英文单词字数统计器 (https://mushiming.com/)  第6张
7.在弹出来的 General 选项面板中,进行配置用hadoop进行单词计数_英文单词字数统计器 (https://mushiming.com/)  第7张
8.在eclipse中创建MapReduce项目,点击 File 菜单,选择 New -> Project…,选择 Map/Reduce Project,点击 Next用hadoop进行单词计数_英文单词字数统计器 (https://mushiming.com/)  第8张
9.填写 Project name ,点击 Finish 就创建好了项目用hadoop进行单词计数_英文单词字数统计器 (https://mushiming.com/)  第9张
10.接着右键点击刚创建的 WordCount 项目,选择 New -> Class,需要填写两个地方:在 Package 处填写 org.apache.hadoop.examples;在 Name 处要填写
用hadoop进行单词计数_英文单词字数统计器 (https://mushiming.com/)  第10张
11.创建 Class 完成后,在 Project 的 src 中就能看到 lzWordCount.java 这个文件。将如下 lzWordCount 的代码复制到该文件中

package org.apache.hadoop.examples; import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable
THE END

发表回复