XtrExtract.java example

Explorer

HiTune-master
- chukwa-hitune-dist
  - contrib
    - chukwa-pig
      - src
        java
        org
        apache
        hadoop
        chukwa
        ChukwaArchive.java
        ChukwaStorage.java
        PARSEDOUBLE.java
        RecordMerger.java
        TimePartition.java
        tools
        PigMover.java
      - test
        src
        java
        org
        apache
        hadoop
        chukwa
        PigTest.java
        TestArchiveReader.java
        TestLocalChukwaStorage.java
        TestParseDouble.java
        TestRecordMerger.java
        TestTimePartition.java
        util
        GenerateTestFile.java
    - xtrace
      - src
        java
        edu
        berkeley
        chukwa_xtrace
        CausalGraph.java
        XtrAdaptor.java
        XtrExtract.java
      - test
        src
        java
        edu
        berkeley
        chukwa_xtrace
        TestXtrAdaptor.java
  - src
    - java
      - org
        apache
        hadoop
        chukwa
        ChukwaArchiveKey.java
        Chunk.java
        ChunkBuilder.java
        ChunkImpl.java
        analysis
        salsa
        fsm
        DataNodeClientTraceMapper.java
        FSMBuilder.java
        FSMIntermedEntry.java
        FSMIntermedEntryPartitioner.java
        FSMType.java
        HDFSState.java
        JobHistoryTaskDataMapper.java
        MapRedState.java
        ParseUtilities.java
        StateType.java
        TaskTrackerClientTraceMapper.java
        visualization
        Heatmap.java
        Swimlanes.java
        conf
        ChukwaConfiguration.java
        database
        Aggregator.java
        DataExpiration.java
        DatabaseConfig.java
        Macro.java
        MetricsAggregation.java
        TableCreator.java
        datacollection
        ChunkQueue.java
        ChunkReceiver.java
        DataFactory.java
        adaptor
        AbstractAdaptor.java
        AbstractWrapper.java
        Adaptor.java
        AdaptorException.java
        AdaptorShutdownPolicy.java
        DirTailingAdaptor.java
        ExecAdaptor.java
        FileAdaptor.java
        MemBuffered.java
        NotifyOnCommitAdaptor.java
        UDPAdaptor.java
        WriteaheadBuffered.java
        filetailer
        CharFileTailingAdaptorUTF8.java
        CharFileTailingAdaptorUTF8NewLineEscaped.java
        FileTailer.java
        FileTailingAdaptor.java
        LWFTAdaptor.java
        RCheckFTAdaptor.java
        TerminatorThread.java
        agent
        AdaptorFactory.java
        AdaptorManager.java
        AdaptorResetThread.java
        AgentControlSocketListener.java
        ChukwaAgent.java
        MemLimitQueue.java
        WaitingQueue.java
        metrics
        AgentActivityMBean.java
        AgentMetrics.java
        ChunkQueueActivityMBean.java
        ChunkQueueMetrics.java
        collector
        CollectorStub.java
        servlet
        CommitCheckServlet.java
        LogDisplayServlet.java
        ServletCollector.java
        ServletDiagnostics.java
        connector
        ChunkCatcherConnector.java
        Connector.java
        http
        HttpConnector.java
        controller
        ChukwaAgentController.java
        ClientFinalizer.java
        sender
        AsyncAckSender.java
        ChukwaHttpSender.java
        ChukwaSender.java
        RetryListOfCollectors.java
        metrics
        HttpSenderActivityMBean.java
        HttpSenderMetrics.java
        test
        ConsoleOutConnector.java
        FilePerPostWriter.java
        FileTailerStressTest.java
        SinkFileValidator.java
        writer
        ChukwaWriter.java
        ClientAck.java
        ConsoleWriter.java
        Dedup.java
        ExtractorWriter.java
        InMemoryWriter.java
        NullWriter.java
        PipelineStageWriter.java
        PipelineableWriter.java
        SeqFileWriter.java
        SocketTeeWriter.java
        WriterException.java
        localfs
        LocalToRemoteHdfsMover.java
        LocalWriter.java
        dataloader
        DataLoaderFactory.java
        FSMDataLoader.java
        MetricDataLoader.java
        MetricDataLoaderPool.java
        SocketDataLoader.java
        datastore
        UserStore.java
        ViewStore.java
        WidgetStore.java
        extraction
        CHUKWA_CONSTANT.java
        archive
        ChukwaArchiveBuilder.java
        ChukwaArchiveDailyOutputFormat.java
        ChukwaArchiveDailyPartitioner.java
        ChukwaArchiveDataTypeOutputFormat.java
        ChukwaArchiveDataTypePartitioner.java
        ChukwaArchiveHourlyOutputFormat.java
        ChukwaArchiveHourlyPartitioner.java
        ChukwaArchiveManager.java
        ChukwaArchiveStreamNameOutputFormat.java
        ChukwaArchiveStreamNamePartitioner.java
        SinkArchiver.java
        demux
        ChukwaRecordOutputFormat.java
        ChukwaRecordPartitioner.java
        DailyChukwaRecordRolling.java
        Demux.java
        DemuxManager.java
        HourlyChukwaRecordRolling.java
        MoveOrMergeRecordFile.java
        MoveToRepository.java
        PostProcessorManager.java
        RecordMerger.java
        TaggerPlugin.java
        processor
        ChukwaOutputCollector.java
        Util.java
        mapper
        AbstractProcessor.java
        ChunkProcessor.java
        ChunkSaver.java
        ClientTraceProcessor.java
        DFInvalidRecord.java
        DebugOutputProcessor.java
        DefaultProcessor.java
        Df.java
        DuplicateProcessorException.java
        HadoopLogProcessor.java
        HadoopMetricsProcessor.java
        Iostat.java
        JPluginMapper.java
        JobConfProcessor.java
        JobLog.java
        JobLogHistoryProcessor.java
        Log4JMetricsContextProcessor.java
        Log4jJobHistoryProcessor.java
        LogEntry.java
        MapProcessor.java
        MapProcessorFactory.java
        PbsInvalidEntry.java
        PbsNodes.java
        ProcessorFactory.java
        Ps.java
        Sar.java
        SysLog.java
        Top.java
        Torque.java
        TsProcessor.java
        UnknownRecordTypeException.java
        YWatch.java
        YwatchInvalidEntry.java
        reducer
        ClientTrace.java
        DuplicateReduceProcessorException.java
        IdentityReducer.java
        JobLogHistoryReduceProcessor.java
        MRJobReduceProcessor.java
        ReduceProcessor.java
        ReduceProcessorFactory.java
        SystemMetrics.java
        UnknownReduceTypeException.java
        engine
        ChukwaRecord.java
        ChukwaRecordJT.java
        ChukwaRecordKey.java
        ChukwaSearchResult.java
        ChukwaSearchService.java
        Record.java
        RecordUtil.java
        SearchResult.java
        SearchService.java
        Token.java
        datasource
        DataSource.java
        DataSourceException.java
        DataSourceFactory.java
        DsDirectory.java
        database
        DatabaseDS.java
        record
        ChukwaDSInternalResult.java
        ChukwaFileParser.java
        ChukwaRecordDataSource.java
        ChukwaSequenceFileParser.java
        MalformedFileFormat.java
        RecordDS.java
        hicc
        AreaCalculator.java
        Chart.java
        ClusterConfig.java
        ColorPicker.java
        Config.java
        DatasetMapper.java
        HiccWebServer.java
        Iframe.java
        ImageSlicer.java
        JSONLoader.java
        OfflineTimeHandler.java
        TimeHandler.java
        Views.java
        ViewsTag.java
        Workspace.java
        inputtools
        ChukwaInputFormat.java
        ChukwaTTInstru.java
        hdfsusage
        Employee.java
        HDFSUsageMetrics.java
        HDFSUsageMetricsList.java
        HDFSUsagePlugin.java
        OrgChart.java
        jplugin
        ChukwaMetrics.java
        ChukwaMetricsList.java
        GenericChukwaMetricsList.java
        JPlugin.java
        JPluginAgent.java
        JPluginStatusMetricsList.java
        log4j
        ChukwaDailyRollingFileAppender.java
        Log4JMetricsContext.java
        OneLineLogLayout.java
        TaskLogAppender.java
        mdl
        DataConfig.java
        ErStreamHandler.java
        LoaderServer.java
        TorqueDataLoader.java
        TorqueInfoProcessor.java
        TorqueTimerTask.java
        plugin
        ExecPlugin.java
        IPlugin.java
        metrics
        Exec.java
        ExecHelper.java
        nodeactivity
        NodeActivityPlugin.java
        pbsnode
        PbsNodePlugin.java
        rest
        actions
        ClientTraceResource.java
        ClusterDiskResource.java
        ClusterHadoopRpcResource.java
        ClusterSystemMetricsResource.java
        DfsDataNodeResource.java
        DfsFsNameSystemResource.java
        DfsNameNodeResource.java
        DfsThroughputResource.java
        DiskResource.java
        HadoopJvmResource.java
        HadoopRpcResource.java
        JsonDateValueProcessor.java
        MrJobConfResource.java
        MrJobResource.java
        MrTaskResource.java
        RestController.java
        SystemMetricsResource.java
        bean
        CatalogBean.java
        CategoryBean.java
        ClientTraceBean.java
        ColumnBean.java
        ConfigBean.java
        OptionBean.java
        PagesBean.java
        ParametersBean.java
        ReturnCodeBean.java
        UserBean.java
        ViewBean.java
        WidgetBean.java
        objects
        ClientTrace.java
        ClusterDisk.java
        ClusterHadoopRpc.java
        ClusterSystemMetrics.java
        DfsDataNode.java
        DfsFsNameSystem.java
        DfsNameNode.java
        DfsThroughput.java
        Disk.java
        HadoopJvm.java
        HadoopRpc.java
        MrJob.java
        MrJobConf.java
        MrTask.java
        SystemMetrics.java
        resource
        ClientTrace.java
        UserResource.java
        ViewContextResolver.java
        ViewResource.java
        WidgetContextResolver.java
        WidgetResource.java
        services
        ClientTraceHome.java
        ClusterDiskHome.java
        ClusterHadoopRpcHome.java
        ClusterSystemMetricsHome.java
        DfsDataNodeHome.java
        DfsFsNameSystemHome.java
        DfsNameNodeHome.java
        DfsThroughputHome.java
        DiskHome.java
        HadoopJvmHome.java
        HadoopRpcHome.java
        MrJobConfHome.java
        MrJobHome.java
        MrTaskHome.java
        RestHome.java
        SystemMetricsHome.java
        tools
        backfilling
        BackfillingLoader.java
        QueueToWriterConnector.java
        util
        AdaptorNamingUtils.java
        ClusterConfig.java
        ConstRateAdaptor.java
        ConstRateValidator.java
        CreateRecordFile.java
        DaemonWatcher.java
        DatabaseWriter.java
        DriverManagerUtil.java
        DumpArchive.java
        DumpChunks.java
        DumpRecord.java
        ExceptionUtil.java
        Filter.java
        HierarchyDataType.java
        MaxRateSender.java
        NagiosHelper.java
        PidFile.java
        RecordConstants.java
        TempFileUtil.java
        WatchDog.java
        XssFilter.java
        mapred
        ChukwaJobTrackerInstrumentation.java
        metrics
        spi
        AbstractMetricsContext.java
    - test
      - org
        apache
        hadoop
        chukwa
        ChunkImplTest.java
        TestChunkBuilder.java
        analysis
        salsa
        fsm
        TestFSMBuilder.java
        database
        DatabaseSetup.java
        TestDatabaseAggregator.java
        TestDatabaseDataExpiration.java
        TestDatabaseIostat.java
        TestDatabasePrepareStatement.java
        TestDatabaseTableCreator.java
        TestDatabaseWebJson.java
        TestMacro.java
        datacollection
        adaptor
        ChukwaTestAdaptor.java
        TestBufferingWrappers.java
        TestDirTailingAdaptor.java
        TestExecAdaptor.java
        TestFileAdaptor.java
        TestUDPAdaptor.java
        filetailer
        TestCharFileTailingAdaptorUTF8.java
        TestFileExpirationPolicy.java
        TestFileTailingAdaptorBigRecord.java
        TestFileTailingAdaptors.java
        TestLogRotate.java
        TestRCheckAdaptor.java
        TestRawAdaptor.java
        TestStartAtOffset.java
        agent
        TestAgent.java
        TestAgentConfig.java
        TestCmd.java
        collector
        CaptureWriter.java
        TestAdaptorTimeout.java
        TestBackpressure.java
        TestCollector.java
        TestDelayedAcks.java
        TestFailedCollectorAck.java
        connector
        TestFailedCollector.java
        controller
        TestAgentClient.java
        sender
        TestAcksOnFailure.java
        TestRetryListOfCollectors.java
        writer
        TestChukwaWriters.java
        TestClientAck.java
        TestSocketTee.java
        dataloader
        TestDatabaseMetricDataLoader.java
        TestSocketDataLoader.java
        extraction
        archive
        TestArchive.java
        demux
        TestDemux.java
        TestDemuxManager.java
        processor
        mapper
        ChukwaTestOutputCollector.java
        TestAbtractProcessor.java
        TestHadoopLogProcessor.java
        TestJobLogEntry.java
        TestLog4JMetricsContextChukwaRecord.java
        TestPsOutput.java
        hicc
        AreaCalculatorTest.java
        TestChart.java
        inputtools
        TestInputFormat.java
        hdfsusage
        HDFSUsagePluginTest.java
        log4j
        TestChukwaDailyRollingFileAppender.java
        TestTaskLogAppender.java
        rest
        DatabaseRestServerSetup.java
        TestDatabaseClientTraceTest.java
        TestDatabaseClusterDiskTest.java
        TestDatabaseClusterHadoopRpcTest.java
        TestDatabaseDfsDataNodeTest.java
        TestDatabaseDfsFsNameSystemTest.java
        TestDatabaseDfsNameNodeTest.java
        TestDatabaseDfsThroughputTest.java
        TestDatabaseDiskTest.java
        TestDatabaseHadoopJvmTest.java
        TestDatabaseHadoopRpcTest.java
        TestDatabaseMrJobConfTest.java
        TestDatabaseMrJobTest.java
        TestDatabaseMrTaskTest.java
        TestDatabaseSystemMetricsTest.java
        resource
        SetupTestEnv.java
        TestClientTrace.java
        TestUserResource.java
        TestViewResource.java
        TestWidgetResource.java
        tools
        backfilling
        TestBackfillingLoader.java
        util
        DriverManagerUtilTest.java
        TestCRValidator.java
        TestCreateRecordFile.java
        TestDumpChunks.java
        TestFilter.java
        TestRecordConsts.java
        TestXSSFilter.java
        validationframework
        ChukwaAgentToCollectorValidator.java
        DemuxDirectoryValidator.java
        interceptor
        ChunkDumper.java
        ChunkQueueInterceptor.java
        SetupTestClasses.java
        util
        DataOperations.java
        MD5.java
- hitune
  - src
    - Aggregation
      - chukwa
        org
        apache
        hadoop
        chukwa
        datacollection
        adaptor
        HiTune
        EmitLineThread.java
        ExecAdaptor.java
        extraction
        demux
        processor
        mapper
        HiTune
        Cpustat.java
        Instrument.java
        Iostat.java
        JobHistoryLog.java
        Memstat.java
        Mpstat.java
        Netstat.java
        Sysstat.java
        Util.java
        reducer
        HiTune
        Instrument.java
        JobHistoryLog.java
    - Analysis
      - hitune
        analysis
        mapreduce
        Analysis.java
        AnalysisConfiguration.java
        AnalysisProcessorConfiguration.java
        CSVFileOutputFormat.java
        HiTuneKey.java
        HiTuneRecord.java
        MultiSequenceFileInputFormat.java
        MultiSequenceFileReader.java
        TextArrayWritable.java
        processor
        AnalysisProcessor.java
        AnalysisProcessorManager.java
        FileFilter
        ChukwaFileFilter.java
        ChukwaJobBasedFileFilter.java
        ChukwaTimeBasedFileFilter.java
        DefaultFileFilter.java
        FileFilter.java
        HadoopMetrics.java
        HistoryLog.java
        InstrumentDataflow.java
        InstrumentSamplingTop.java
        SystemLog.java
        proxy
        ChukwaRecord.java
        ChukwaRecordKey.java
        HiTuneKeyProxy.java
        HiTuneRecordProxy.java
    - Instruments
      - jvm
        instrument
        util
        AgentConf.java
        AgentOutput.java
        FileOutput.java
        InstrumentAgent.java
        InstrumentThread.java
        InstrumentThreadFactory.java
        TracingThread.java

/*
 * Licensed to the Apache Software Foundation (ASF) under one
 * or more contributor license agreements.  See the NOTICE file
 * distributed with this work for additional information
 * regarding copyright ownership.  The ASF licenses this file
 * to you under the Apache License, Version 2.0 (the
 * "License"); you may not use this file except in compliance
 * with the License.  You may obtain a copy of the License at
 *
 *     http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */
package edu.berkeley.chukwa_xtrace;

import org.apache.hadoop.chukwa.ChunkImpl;
import org.apache.hadoop.chukwa.ChukwaArchiveKey;
import org.apache.hadoop.chukwa.extraction.demux.processor.mapper.AbstractProcessor;
import org.apache.hadoop.chukwa.extraction.engine.ChukwaRecord;
import org.apache.hadoop.chukwa.extraction.engine.ChukwaRecordKey;
import org.apache.hadoop.chukwa.extraction.engine.Record;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.mapreduce.*;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;
import java.io.IOException;
import java.util.*;
import org.apache.hadoop.mapreduce.lib.input.SequenceFileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.SequenceFileOutputFormat;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.BytesWritable;
import org.apache.hadoop.io.ArrayWritable;
import org.apache.hadoop.io.Text;
import org.apache.log4j.Logger;

import edu.berkeley.xtrace.reporting.Report;
import edu.berkeley.xtrace.*;

/**
 * MapReduce job to process xtrace reports coming out of chukwa demux.
 * 
 * Map phase unwraps the chukwa records, reduce phase does trace reconstruction.
 * 
 * We use task ID as the reduce sort key.
 *
 */
public class XtrExtract extends Configured implements Tool {
  
  
  /**
   * Hadoop docs say to do this if you pass an ArrayWritable to reduce.
   */
  public static class TextArrayWritable extends ArrayWritable {
      public TextArrayWritable() { super(Text.class); } 

    } 
 
  
  public static final String OUTLINK_FIELD = "__xtr_outlinks";
  static Logger log = Logger.getLogger(XtrExtract.class);
  
  /**
   * with more than 50,000 reports in a single trace, switch to on-disk sort, 
   * instead of in-memory topological sort.
   */
  static final int MAX_IN_MEMORY_REPORTS = 50* 1000;
  
public static class MapClass extends Mapper <Object, Object, BytesWritable, Text> {
    
    public MapClass() {
      System.out.println("starting xtrace map");
    }
    
    @Override
    protected void map(Object k, Object v, 
        Mapper<Object, Object,BytesWritable, Text>.Context context)
        throws IOException, InterruptedException 
    {
      Counter unparseableReport = context.getCounter("app", "unparseable chunks");
      
      Text t;
      BytesWritable bw;
      
      if(k instanceof ChukwaArchiveKey && v instanceof ChunkImpl) {
        ChunkImpl value = (ChunkImpl) v;
        Report xtrReport = Report.createFromString(new String(value.getData()));
       
        try {    //we do this to handle the case where not all input is x-trace
          bw = new BytesWritable(xtrReport.getMetadata().getTaskId().get());
        } catch(Exception e) {
          unparseableReport.increment(1);
          return;
        }
        
        //FIXME: can probably optimize the above lines by doing a search in the raw bytes
        t= new Text(value.getData());
      } else if(k instanceof ChukwaRecordKey && v instanceof ChukwaRecord){
        ChukwaRecord value = (ChukwaRecord) v;
        Report xtrReport = Report.createFromString(value.getValue(Record.bodyField));
        bw = new BytesWritable(xtrReport.getMetadata().getTaskId().get());
        //FIXME: can probably optimize the above lines by doing a search in the raw bytes
        t= new Text(value.getValue(Record.bodyField));
      } else {
        log.error("unexpected key/value types: "+ k.getClass().getCanonicalName() 
            + " and " + v.getClass().getCanonicalName() );
        return;
      }
      context.write(bw, t);
    }
  }

  public static class Reduce extends Reducer<BytesWritable, Text,BytesWritable,ArrayWritable> {
    
    public Reduce() {}
    
    /**
     * 
     * Note that loading everything into hashtables means
     * we implicity suppress duplicate-but-identical reports.  
     * 
     */
    protected  void reduce(BytesWritable taskID, Iterable<Text> values, 
          Reducer<BytesWritable, Text,BytesWritable,ArrayWritable>.Context context) 
          throws IOException, InterruptedException
    {
      String taskIDString = IoUtil.bytesToString(taskID.getBytes());
      //in both cases, key is OpId string
      HashMap<String, Report> reports = new LinkedHashMap<String, Report>();

      Counter reportCounter = context.getCounter("app", "distinct reports");
      Counter edgeCounter = context.getCounter("app", "edges");
      Counter badEdgeCounter = context.getCounter("app", "reference to missing report");
      Counter dupCounter = context.getCounter("app", "duplicate report");

      int edgeCount = 0, dups = 0, numReports = 0;
      
      for(Text rep_text: values) {
        Report r = Report.createFromString(rep_text.toString());
        numReports++;
        
        if(numReports < MAX_IN_MEMORY_REPORTS) {
          if(reports.containsKey(r.getMetadata().getOpIdString()))
            dups++;
          reports.put(r.getMetadata().getOpIdString(), r);
        } else if(numReports == MAX_IN_MEMORY_REPORTS) {
          //bail out, prepare to do an external sort.
          return;
        } else
          ;
    //      do the external sort
      }
      
      reportCounter.increment(reports.size());
      dupCounter.increment(dups);
      CausalGraph g = new CausalGraph(reports);

      PtrReverse reverser = new PtrReverse();
      List<Report> sortedReports = g.topoSort(reverser);
      int sortedLen = sortedReports.size();
      if(sortedLen!= reports.size()) {
        if(sortedLen > 0)
           log.warn(taskIDString+": I only sorted " + sortedLen + " items, but expected " 
            + reports.size()+", is your list cyclic?");
        else
          log.warn(taskIDString+": every event in graph has a predecessor; perhaps "
              + "the start event isn't in the input set?");
      }
      log.debug(taskIDString+": " + reverser.edgeCount + " total edges");
      edgeCounter.increment(reverser.edgeCount);
      badEdgeCounter.increment(reverser.badCount);
      
      Text[] finalOutput = new Text[sortedReports.size()];
      int i=0;
      for(Report r:sortedReports)
        finalOutput[i++] = new Text(r.toString());

      TextArrayWritable out = new TextArrayWritable();
      out.set(finalOutput);
      context.write(taskID, out);
      //Should sort values topologically and output list.  or?
      
    } //end reduce
    
  }//end reduce class

  public static class PtrReverse {
    int badCount = 0;
    int edgeCount = 0;
    
    public int setupForwardPointers(Map<String, Report> reports, Report r,
        String myOpID) {
      int parentCount =0;
      for(String inLink: r.get("Edge")) {  
        //sanitize data from old, nonconformant C++ implementation
        if(inLink.contains(","))
          inLink = inLink.substring(0, inLink.indexOf(','));
        
        Report parent = reports.get(inLink);
        if(parent != null) {
          parent.put(OUTLINK_FIELD, myOpID);
          parentCount++;
        } else { //no match
          if(!inLink.equals("0000000000000000"))  {
            log.info("no sign of parent: " + inLink);
            badCount++;
          }
          //else quietly suppress
        }
      }
      edgeCount += badCount + parentCount;
      return parentCount;
    }
  }

  @Override
  public int run(String[] arg) throws Exception {
    Job extractor = new Job(getConf());
    

    extractor.setMapperClass(MapClass.class);
    
    extractor.setReducerClass(Reduce.class);
    extractor.setJobName("x-trace reconstructor");
    extractor.setJarByClass(this.getClass());
    
    extractor.setMapOutputKeyClass(BytesWritable.class);
    extractor.setMapOutputValueClass(Text.class);
    
    extractor.setOutputKeyClass(BytesWritable.class);
    extractor.setOutputValueClass(TextArrayWritable.class);
    
    extractor.setInputFormatClass(SequenceFileInputFormat.class);
    extractor.setOutputFormatClass(SequenceFileOutputFormat.class);
    FileInputFormat.setInputPaths(extractor, new Path(arg[0]));
    FileOutputFormat.setOutputPath(extractor, new Path(arg[1]));
    System.out.println("looks OK.  Submitting.");
    extractor.submit();
//    extractor.waitForCompletion(false);
    return 0;

  }

  public static void main(String[] args) throws Exception {
    int res = ToolRunner.run(new Configuration(),
        new XtrExtract(), args);
    System.exit(res);
  }

}