Uruchom zadanie Hadoop bez użycia JobConf

Nie mogę znaleźć ani jednego przykładu wysłania zadania Hadoop, które nie używa przestarzałej klasy JobConf. JobClient, która nie została przestarzała, nadal obsługuje tylko metody, które przyjmują parametr JobConf.

Czy ktoś może wskazać mi przykład kodu Javy, który wysyła zadanie Map/reduce Hadoop używając tylko klasy Configuration (Nie JobConf), a używając pakietu mapreduce.lib.input zamiast mapred.input?

Author: coderz, 2010-01-22

5 answers

Hope this helpful

import java.io.File;

import org.apache.commons.io.FileUtils;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

public class MapReduceExample extends Configured implements Tool {

    static class MyMapper extends Mapper<LongWritable, Text, LongWritable, Text> {
        public MyMapper(){


        protected void map(
                LongWritable key,
                Text value,
                org.apache.hadoop.mapreduce.Mapper<LongWritable, Text, LongWritable, Text>.Context context)
                throws java.io.IOException, InterruptedException {
            context.getCounter("mygroup", "jeff").increment(1);
            context.write(key, value);

    public int run(String[] args) throws Exception {
        Job job = new Job();
        FileInputFormat.setInputPaths(job, new Path(args[0]));
        FileOutputFormat.setOutputPath(job, new Path(args[1]));

        return 0;

    public static void main(String[] args) throws Exception {
        FileUtils.deleteDirectory(new File("data/output"));
        args = new String[] { "data/input", "data/output" };
        ToolRunner.run(new MapReduceExample(), args);
Author: zjffdu,
2010-01-22 09:12:29

Uważam, że ten tutorial ilustruje usunięcie przestarzałej klasy JobConf przy użyciu Hadoop 0.20.1.

Author: Binary Nerd,
2010-01-23 20:20:31

To jest fajny przykład z kodem do pobrania: http://sonerbalkir.blogspot.com/2010/01/new-hadoop-api-020x.html Ma również ponad dwa lata i nie ma oficjalnej dokumentacji omawiającej nowe API. Smutne.

Author: dk.,
2012-04-20 17:15:45

W poprzednim API były trzy sposoby wysyłania zadania, a jednym z nich jest Wysyłanie zadania i uzyskiwanie odniesienia do zadania RunningJob i uzyskiwanie identyfikatora zadania RunningJob.

submitJob(JobConf) : only submits the job, then poll the returned handle to the RunningJob to query status and make scheduling decisions.

Jak można użyć nowego Api i uzyskać odniesienie do RunningJob i uzyskać identyfikator runningJob, ponieważ żaden z api nie zwraca odniesienia do RunningJob



Author: Yatin,
2013-04-08 04:35:38

Spróbuj użyć Configuration i Job. Oto przykład:

(Zastąp swój Mapper, Combiner, Reducer klasy i inne konfiguracje)

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

public class WordCount {
  public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
    Configuration conf = new Configuration();
    if(args.length != 2) {
      System.err.println("Usage: <in> <out>");
    Job job = Job.getInstance(conf, "Word Count");

    // set jar

    // set Mapper, Combiner, Reducer

    /* Optional, set customer defined Partioner:
     * job.setPartitionerClass(MyPartioner.class);

    // set output key

    // set input and output path
    FileInputFormat.addInputPath(job, new Path(args[0]));
    FileOutputFormat.setOutputPath(job, new Path(args[1]));

    // by default, Hadoop use TextInputFormat and TextOutputFormat
    // any customer defined input and output class must implement InputFormat/OutputFormat interface

    System.exit(job.waitForCompletion(true) ? 0 : 1);
Author: coderz,
2015-03-31 09:51:05