用hadoop进行单词计数_英文单词字数统计器

博客小编 (30) 2024-09-24 07:01:03

统计单词个数

要求

1.将待分析的文件（不少于10000英文单词）上传到HDFS
2.调用MapReduce对文件中各个单词出现的次数进行统计
3.将统计结果下载本地。

过程

1.首先启动hadoop,用jps判断是否启动成功，如果成功，则如下图所示用hadoop进行单词计数_英文单词字数统计器 (https://mushiming.com/) 第1张
2.递归创建/user/hadoop/input目录，将不少于10000字单词的文件上传到/user/hadoop/input目录下

3.打开eclipse进行配置，填写工作空间
4.选择 Window 菜单下的 Preference
用hadoop进行单词计数_英文单词字数统计器 (https://mushiming.com/) 第4张
5.切换 Map/Reduce 开发视图，选择 Window 菜单下选择 Open Perspective -> Other（CentOS 是 Window -> Perspective -> Open Perspective -> Other），弹出一个窗体，从中选择 Map/Reduce 选项即可进行切换用hadoop进行单词计数_英文单词字数统计器 (https://mushiming.com/) 第5张
6.建立与 Hadoop 集群的连接，点击 Eclipse软件右下角的 Map/Reduce Locations 面板，在面板中单击右键，选择 New Hadoop Location
7.在弹出来的 General 选项面板中，进行配置用hadoop进行单词计数_英文单词字数统计器 (https://mushiming.com/) 第7张
8.在eclipse中创建MapReduce项目，点击 File 菜单，选择 New -> Project…，选择 Map/Reduce Project，点击 Next
9.填写 Project name ，点击 Finish 就创建好了项目
10.接着右键点击刚创建的 WordCount 项目，选择 New -> Class，需要填写两个地方：在 Package 处填写 org.apache.hadoop.examples；在 Name 处要填写
用hadoop进行单词计数_英文单词字数统计器 (https://mushiming.com/) 第10张
11.创建 Class 完成后，在 Project 的 src 中就能看到 lzWordCount.java 这个文件。将如下 lzWordCount 的代码复制到该文件中

package org.apache.hadoop.examples; import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable

THE END

发表回复

请先登录账户再评论哦

用hadoop进行单词计数_英文单词字数统计器

统计单词个数

要求

过程

HDLBits(八)学习笔记——Counters(计数器)

京东应急物资供应链管理平台_京东智慧供应链

vivadoltx文件_tcl脚本语言

什么是覆盖方法_表格怎么覆盖相同内容

推荐文章

Oracle的学习心得和知识总结（六）|Oracle数据库同义词技术详解

发表回复

热门文章

推荐文章

用hadoop进行单词计数_英文单词字数统计器

统计单词个数

要求

过程

HDLBits(八)学习笔记——Counters(计数器)

京东应急物资供应链管理平台_京东智慧供应链

vivadoltx文件_tcl脚本语言

什么是覆盖方法_表格怎么覆盖相同内容

推 荐 文 章

Oracle的学习心得和知识总结（六）|Oracle数据库同义词技术详解

发表回复

热门文章

推荐文章

推荐文章