MRCompactorJobRunner.java example

Explorer

gobblin-master
- gobblin-admin
  - src
    - main
      - java
        gobblin
        admin
        AdminWebServer.java
        cli
        AdminClient.java
        Cli.java
        CliTablePrinter.java
        Command.java
        JobCommand.java
        JobInfoPrintUtils.java
    - test
      - java
        gobblin
        admin
        AdminWebServerTest.java
- gobblin-api
  - src
    - main
      - java
        gobblin
        Constructs.java
        annotation
        Alias.java
        Alpha.java
        Beta.java
        Stable.java
        broker
        BrokerConstants.java
        ResourceCoordinate.java
        ResourceInstance.java
        SimpleScope.java
        SimpleScopeType.java
        gobblin_scopes
        GobblinScopeInstance.java
        GobblinScopeTypes.java
        JobScopeInstance.java
        TaskScopeInstance.java
        iface
        ConfigView.java
        NoSuchScopeException.java
        NotConfiguredException.java
        ScopeInstance.java
        ScopeType.java
        ScopedConfigView.java
        SharedResourceFactory.java
        SharedResourceFactoryResponse.java
        SharedResourceKey.java
        SharedResourcesBroker.java
        SubscopedBrokerBuilder.java
        codec
        StreamCodec.java
        commit
        CommitSequence.java
        CommitSequenceStore.java
        CommitStep.java
        CommitStepBase.java
        DeliverySemantics.java
        compat
        hadoop
        TextSerializer.java
        WritableShim.java
        configuration
        ConfigurationKeys.java
        ImmutableWorkUnitState.java
        SourceState.java
        State.java
        StateUtils.java
        WorkUnitState.java
        converter
        Converter.java
        DataConversionException.java
        SchemaConversionException.java
        crypto
        CredentialStore.java
        EncryptionProvider.java
        dataset
        Dataset.java
        DatasetsFinder.java
        FileSystemDataset.java
        IterableDatasetFinder.java
        IterableDatasetFinderImpl.java
        fork
        CopyHelper.java
        CopyNotSupportedException.java
        Copyable.java
        ForkOperator.java
        metadata
        MetadataMerger.java
        password
        PasswordManager.java
        publisher
        DataPublisher.java
        SingleTaskDataPublisher.java
        UnpublishedHandling.java
        qualitychecker
        row
        RowLevelPolicy.java
        task
        TaskLevelPolicy.java
        recordaccess
        FieldDoesNotExistException.java
        IncorrectTypeException.java
        RecordAccessor.java
        RecordAccessorException.java
        RecordAccessorProvider.java
        runtime
        api
        Spec.java
        SpecExecutorInstance.java
        SpecExecutorInstanceConsumer.java
        SpecExecutorInstanceProducer.java
        source
        Source.java
        WorkUnitStreamSource.java
        extractor
        CheckpointableWatermark.java
        ComparableWatermark.java
        DataRecordException.java
        Extractor.java
        RecordEnvelope.java
        StreamingExtractor.java
        Watermark.java
        WatermarkInterval.java
        WatermarkSerializerHelper.java
        workunit
        BasicWorkUnitStream.java
        Extract.java
        ExtractFactory.java
        ImmutableExtract.java
        ImmutableWorkUnit.java
        MissingExtractAttributeException.java
        MultiWorkUnit.java
        WorkUnit.java
        WorkUnitBinPacker.java
        WorkUnitStream.java
        WorkUnitWeighter.java
        testing
        AssertWithBackoff.java
        util
        ClassAliasResolver.java
        CompletedFuture.java
        Decorator.java
        DecoratorUtils.java
        FinalState.java
        RecordCountProvider.java
        writer
        DataWriter.java
        DataWriterBuilder.java
        Destination.java
        FluentDataWriterBuilder.java
        WatermarkStorage.java
        WriterOutputFormat.java
    - test
      - java
        gobblin
        broker
        gobblin_scopes
        GobblinScopesTest.java
        compat
        TextSerializerTest.java
        configuration
        StateTest.java
        fork
        CopyHelperTest.java
        password
        PasswordManagerTest.java
        source
        extractor
        TestWatermark.java
        WatermarkTest.java
        workunit
        ExtractFactoryTest.java
        testing
        AssertWithBackoffTest.java
        util
        ClassAliasResolverTest.java
- gobblin-audit
  - src
    - main
      - java
        gobblin
        audit
        values
        auditor
        ValueAuditGenerator.java
        ValueAuditRuntimeMetadata.java
        policy
        column
        AbstractColumnProjectionPolicy.java
        ColumnProjectionPolicy.java
        DefaultColumnProjectionPolicyFactory.java
        ProjectAllColumnProjectionPolicy.java
        row
        AbstractRowSelectionPolicy.java
        DefaultRowSelectionPolicyFactory.java
        RowSelectionPolicy.java
        SelectAllRowSelectionPolicy.java
        sink
        AuditSink.java
        DefaultAuditSinkFactory.java
        FsAuditSink.java
    - test
      - java
        gobblin
        audit
        values
        FsAuditSinkTest.java
        MockSink.java
        ValueAuditGeneratorTest.java
        ValueAuditRuntimeMetadataTest.java
- gobblin-aws
  - src
    - main
      - java
        gobblin
        aws
        AWSClusterSecurityManager.java
        AWSJobConfigurationManager.java
        AWSSdkClient.java
        AWSShutdownHandler.java
        CloudInitScriptBuilder.java
        GobblinAWSClusterLauncher.java
        GobblinAWSClusterManager.java
        GobblinAWSConfigurationKeys.java
        GobblinAWSTaskRunner.java
        GobblinAWSUtils.java
        Log4jConfigHelper.java
    - test
      - java
        gobblin
        aws
        AWSJobConfigurationManagerTest.java
        CloudInitScriptBuilderTest.java
        GobblinAWSClusterLauncherTest.java
- gobblin-cluster
  - src
    - main
      - java
        gobblin
        cluster
        ContainerMetrics.java
        GobblinClusterConfigurationKeys.java
        GobblinClusterManager.java
        GobblinClusterMetricTagNames.java
        GobblinClusterUtils.java
        GobblinHelixConstants.java
        GobblinHelixJob.java
        GobblinHelixJobLauncher.java
        GobblinHelixJobScheduler.java
        GobblinHelixMessagingService.java
        GobblinHelixTask.java
        GobblinHelixTaskDriver.java
        GobblinHelixTaskFactory.java
        GobblinHelixTaskStateTracker.java
        GobblinTaskRunner.java
        GobblinTaskStateModel.java
        GobblinTaskStateModelFactory.java
        HelixMessageSubTypes.java
        HelixUtils.java
        JobConfigurationManager.java
        NoopReplyHandler.java
        ScheduledJobConfigurationManager.java
        StreamingJobConfigurationManager.java
        event
        ClusterManagerShutdownRequest.java
        DeleteJobConfigArrivalEvent.java
        NewJobConfigArrivalEvent.java
        UpdateJobConfigArrivalEvent.java
        org
        apache
        helix
        task
        GobblinJobRebalancer.java
    - test
      - java
        gobblin
        cluster
        GobblinClusterKillTest.java
        GobblinClusterManagerTest.java
        GobblinHelixJobLauncherTest.java
        GobblinHelixTaskTest.java
        GobblinTaskRunnerTest.java
        HelixMessageTestBase.java
        HelixUtilsTest.java
        JobConfigurationManagerTest.java
        TestHelper.java
        TestShutdownMessageHandlerFactory.java
- gobblin-compaction
  - src
    - main
      - java
        gobblin
        compaction
        CliOptions.java
        Compactor.java
        CompactorCreationException.java
        CompactorFactory.java
        ReflectionCompactorFactory.java
        action
        CompactionCompleteAction.java
        CompactionCompleteFileOperationAction.java
        CompactionHiveRegistrationAction.java
        audit
        AuditCountClient.java
        AuditCountClientFactory.java
        KafkaAuditCountHttpClient.java
        KafkaAuditCountHttpClientFactory.java
        PinotAuditCountHttpClient.java
        PinotAuditCountHttpClientFactory.java
        conditions
        RecompactionCombineCondition.java
        RecompactionCondition.java
        RecompactionConditionBasedOnDuration.java
        RecompactionConditionBasedOnFileCount.java
        RecompactionConditionBasedOnRatio.java
        RecompactionConditionFactory.java
        dataset
        Dataset.java
        DatasetHelper.java
        DatasetsFinder.java
        SimpleDatasetsFinder.java
        TimeBasedSubDirDatasetsFinder.java
        event
        CompactionSlaEventHelper.java
        DedupeStatus.java
        hive
        AvroExternalTable.java
        CompactionRunner.java
        HdfsIO.java
        HdfsReader.java
        HdfsWriter.java
        HiveAttribute.java
        HiveManagedTable.java
        HiveTable.java
        SerialCompactor.java
        registration
        HiveRegistrationCompactorListener.java
        hivebasedconstructs
        CompactionLauncherWriter.java
        CompactionLauncherWriterBuilder.java
        HiveMetadataForCompactionExtractor.java
        HiveMetadataForCompactionExtractorFactory.java
        MRCompactionEntity.java
        listeners
        CompactorCompletionListener.java
        CompactorCompletionListenerFactory.java
        CompactorListener.java
        CompactorListenerCreationException.java
        CompactorListenerFactory.java
        ReflectionCompactorListenerFactory.java
        SerialCompactorListener.java
        SimpleCompactorCompletionListener.java
        mapreduce
        CompactionAvroJobConfigurator.java
        MRCompactionRunner.java
        MRCompactionTask.java
        MRCompactionTaskFactory.java
        MRCompactor.java
        MRCompactorJobPropCreator.java
        MRCompactorJobRunner.java
        avro
        AvroDeltaFieldNameProvider.java
        AvroKeyCombineFileRecordReader.java
        AvroKeyCompactorOutputCommitter.java
        AvroKeyCompactorOutputFormat.java
        AvroKeyDedupReducer.java
        AvroKeyMapper.java
        AvroKeyRecursiveCombineFileInputFormat.java
        ConfBasedDeltaFieldProvider.java
        FieldAttributeBasedDeltaFieldsProvider.java
        MRCompactorAvroKeyDedupJobRunner.java
        parser
        CompactionPathParser.java
        source
        CompactionSource.java
        suite
        CompactionAvroSuite.java
        CompactionAvroSuiteFactory.java
        CompactionSuite.java
        CompactionSuiteFactory.java
        CompactionSuiteUtils.java
        verify
        CompactionAuditCountVerifier.java
        CompactionThresholdVerifier.java
        CompactionTimeRangeVerifier.java
        CompactionVerifier.java
        DataCompletenessVerifier.java
        InputRecordCountHelper.java
    - test
      - java
        gobblin
        compaction
        mapreduce
        MRCompactionTaskTest.java
        MRCompactorJobRunnerFilenameRecordCountProviderTest.java
        RenameSourceDirectoryTest.java
        avro
        AvroKeyDedupReducerTest.java
        ConfBasedDeltaFieldProviderTest.java
        FieldAttributeBasedDeltaFieldsProviderTest.java
        MRCompactorAvroKeyDedupJobRunnerTest.java
        conditions
        RecompactionConditionTest.java
        verify
        PinotAuditCountVerifierTest.java
- gobblin-config-management
  - gobblin-config-client
    - src
      - main
        java
        gobblin
        config
        client
        ConfigClient.java
        ConfigClientCache.java
        ConfigClientUtils.java
        ConfigStoreFactoryRegister.java
        package-info.java
      - test
        java
        gobblin
        config
        client
        TestConfigClient.java
        TestConfigClientUtils.java
  - gobblin-config-core
    - src
      - main
        java
        gobblin
        config
        client
        api
        ConfigStoreFactoryDoesNotExistsException.java
        VersionStabilityPolicy.java
        common
        impl
        CircularDependencyException.java
        ConfigStoreBackedTopology.java
        ConfigStoreBackedValueInspector.java
        ConfigStoreTopologyInspector.java
        ConfigStoreValueInspector.java
        InMemoryTopology.java
        InMemoryValueInspector.java
        SingleLinkedListConfigKeyPath.java
        store
        api
        ConfigKeyPath.java
        ConfigStore.java
        ConfigStoreCreationException.java
        ConfigStoreFactory.java
        ConfigStoreWithBatchFetches.java
        ConfigStoreWithImportedBy.java
        ConfigStoreWithImportedByRecursively.java
        ConfigStoreWithResolution.java
        ConfigStoreWithStableVersioning.java
        VersionDoesNotExistException.java
        package-info.java
        deploy
        ClasspathConfigSource.java
        ConfigStream.java
        Deployable.java
        DeployableConfigSource.java
        DeploymentConfig.java
        FsDeploymentConfig.java
        StoreDeployer.java
        hdfs
        SimpleHDFSConfigStore.java
        SimpleHDFSConfigStoreFactory.java
        SimpleHDFSStoreMetadata.java
        SimpleLocalHDFSConfigStoreFactory.java
        UserDirectoryHDFSConfigStoreFactory.java
      - test
        java
        gobblin
        config
        TestEnvironment.java
        common
        impl
        TestCircularDependency.java
        TestConfigStoreValueInspector.java
        TestInMemoryTopology.java
        TestSingleLinkedListConfigKeyPath.java
        store
        hdfs
        SimpleHDFSStoreMetadataTest.java
        SimpleHdfsConfigStoreTest.java
        SimpleHdfsConfigureStoreFactoryTest.java
- gobblin-core
  - src
    - main
      - java
        gobblin
        async
        AsyncDataDispatcher.java
        DispatchException.java
        commit
        FsRenameCommitStep.java
        SpeculativeAttemptAwareConstruct.java
        config
        ConfigBuilder.java
        converter
        EmptyIterable.java
        GobblinMetricsPinotFlattenerConverter.java
        StringSchemaInjector.java
        avro
        AvroFieldRetrieverConverter.java
        AvroRecordToAvroWritableConverter.java
        AvroToAvroCopyableConverter.java
        FlattenNestedKeyConverter.java
        JsonElementConversionFactory.java
        JsonIntermediateToAvroConverter.java
        UnsupportedDateTypeException.java
        csv
        CsvToJsonConverter.java
        CsvToJsonConverterV2.java
        filter
        AvroFieldsPickConverter.java
        AvroFilterConverter.java
        http
        AvroToRestJsonEntryConverter.java
        RestEntry.java
        initializer
        AvroToJdbcEntryConverterInitializer.java
        ConverterInitializer.java
        ConverterInitializerFactory.java
        MultiConverterInitializer.java
        NoopConverterInitializer.java
        jdbc
        AvroToJdbcEntryConverter.java
        JdbcEntryData.java
        JdbcEntryDatum.java
        JdbcEntryMetaDatum.java
        JdbcEntrySchema.java
        JdbcType.java
        json
        JsonStringToJsonIntermediateConverter.java
        JsonToStringConverter.java
        objectstore
        ObjectStoreConverter.java
        ObjectStoreDeleteConverter.java
        serde
        HiveSerDeConverter.java
        string
        ObjectToStringConverter.java
        StringFilterConverter.java
        StringSplitterConverter.java
        StringSplitterToListConverter.java
        StringToBytesConverter.java
        TextToStringConverter.java
        fork
        CopyableGenericRecord.java
        CopyableSchema.java
        IdentityForkOperator.java
        http
        DefaultHttpClientConfigurator.java
        HttpClient.java
        HttpClientConfigurator.java
        HttpClientConfiguratorLoader.java
        ResponseHandler.java
        ResponseStatus.java
        StatusType.java
        initializer
        Initializer.java
        MultiInitializer.java
        NoopInitializer.java
        policies
        avro
        AvroHeaderGuidPolicy.java
        AvroHeaderTimestampPolicy.java
        AvroRecordTimestampLowerBoundPolicy.java
        count
        RowCountPolicy.java
        RowCountRangePolicy.java
        schema
        SchemaCompatibilityPolicy.java
        SchemaRowCheckPolicy.java
        time
        RecordTimestampLowerBoundPolicy.java
        publisher
        BaseDataPublisher.java
        BaseDataPublisherWithHiveRegistration.java
        CommitSequencePublisher.java
        HiveRegistrationPublisher.java
        JdbcPublisher.java
        NoopPublisher.java
        TaskPublisher.java
        TaskPublisherBuilder.java
        TaskPublisherBuilderFactory.java
        TimePartitionedDataPublisher.java
        TimestampDataPublisher.java
        TimestampDataPublisherWithHiveRegistration.java
        qualitychecker
        row
        RowLevelErrFileWriter.java
        RowLevelPolicyCheckResults.java
        RowLevelPolicyChecker.java
        RowLevelPolicyCheckerBuilder.java
        RowLevelPolicyCheckerBuilderFactory.java
        task
        TaskLevelPolicyCheckResults.java
        TaskLevelPolicyChecker.java
        TaskLevelPolicyCheckerBuilder.java
        TaskLevelPolicyCheckerBuilderFactory.java
        recordaccess
        AvroGenericRecordAccessor.java
        CoreRecordAccessProvider.java
        RecordAccessorProviderFactory.java
        retry
        RetryerFactory.java
        source
        DatePartitionedAvroFileSource.java
        DatePartitionedDailyAvroSource.java
        DatePartitionedNestedRetriever.java
        PartitionAwareFileRetriever.java
        PartitionedFileSourceBase.java
        RegexBasedPartitionedRetriever.java
        RegexPartitionedAvroFileSource.java
        extractor
        DatePartitionedAvroFileExtractor.java
        DummyExtractor.java
        exception
        ExtractPrepareException.java
        HighWatermarkException.java
        MetadataException.java
        RecordCountException.java
        RestApiClientException.java
        RestApiConnectionException.java
        RestApiProcessingException.java
        SchemaException.java
        extract
        Command.java
        CommandOutput.java
        CommandType.java
        ExtractType.java
        ProtocolSpecificLayer.java
        QueryBasedExtractor.java
        QueryBasedSource.java
        SourceSpecificLayer.java
        jdbc
        JdbcCommand.java
        JdbcCommandFormatException.java
        JdbcCommandOutput.java
        JdbcExtractor.java
        JdbcProvider.java
        JdbcSpecificLayer.java
        MysqlExtractor.java
        MysqlSource.java
        OracleExtractor.java
        OracleSource.java
        SqlQueryUtils.java
        SqlServerExtractor.java
        SqlServerSource.java
        TeradataExtractor.java
        TeradataSource.java
        restapi
        RestApiCommand.java
        RestApiCommandOutput.java
        RestApiConnector.java
        RestApiExtractor.java
        RestApiSpecificLayer.java
        sftp
        SftpExtractor.java
        SftpFsHelper.java
        SftpLightWeightFileSystem.java
        SftpSource.java
        filebased
        CsvFileDownloader.java
        FileBasedExtractor.java
        FileBasedHelper.java
        FileBasedHelperException.java
        FileBasedSource.java
        FileByteIterator.java
        FileDownloader.java
        GZIPFileDownloader.java
        SingleFileDownloader.java
        SizeAwareFileBasedHelper.java
        SizeAwareFileBasedHelperDecorator.java
        TimestampAwareFileBasedHelper.java
        TokenBasedFileInputStreamExtractor.java
        TokenizedFileDownloader.java
        hadoop
        AvroFileExtractor.java
        AvroFileSource.java
        AvroFsHelper.java
        HadoopFileInputExtractor.java
        HadoopFileInputSource.java
        HadoopFsHelper.java
        HadoopTextInputSource.java
        OldApiHadoopFileInputExtractor.java
        OldApiHadoopFileInputSource.java
        OldApiHadoopTextInputSource.java
        OldApiWritableFileExtractor.java
        OldApiWritableFileSource.java
        partition
        AppendMaxLimitType.java
        Partition.java
        Partitioner.java
        resultset
        RecordSet.java
        RecordSetList.java
        schema
        ArrayDataType.java
        ColumnAttributes.java
        ColumnNameCase.java
        DataType.java
        EnumDataType.java
        MapDataType.java
        Schema.java
        utils
        InputStreamCSVReader.java
        ProxyFsInput.java
        Utils.java
        watermark
        DateWatermark.java
        HourWatermark.java
        Predicate.java
        SimpleWatermark.java
        TimestampWatermark.java
        Watermark.java
        WatermarkPredicate.java
        WatermarkType.java
        workunit
        MultiWorkUnitWeightedQueue.java
        state
        ConstructState.java
        util
        TestUtils.java
        writer
        AvroDataWriterBuilder.java
        AvroHdfsDataWriter.java
        ConsoleWriter.java
        ConsoleWriterBuilder.java
        DataWriterWrapperBuilder.java
        FsDataWriter.java
        FsDataWriterBuilder.java
        HiveWritableHdfsDataWriter.java
        HiveWritableHdfsDataWriterBuilder.java
        JdbcWriter.java
        JdbcWriterBuilder.java
        MetadataAwareWriter.java
        MetadataWriterWrapper.java
        PartitionedDataWriter.java
        Retriable.java
        RetryWriter.java
        SchemaBasedPartitionedDataWriterBuilder.java
        SimpleDataWriter.java
        SimpleDataWriterBuilder.java
        ThrottleWriter.java
        commands
        BaseJdbcBufferedInserter.java
        GenericJdbcBufferedInserter.java
        JdbcBufferedInserter.java
        JdbcWriterCommands.java
        JdbcWriterCommandsFactory.java
        MySqlBufferedInserter.java
        MySqlWriterCommands.java
        TeradataBufferedInserter.java
        TeradataWriterCommands.java
        http
        AbstractAsyncDataWriter.java
        AbstractHttpWriter.java
        AbstractHttpWriterBuilder.java
        AsyncHttpWriter.java
        AsyncHttpWriterBuilder.java
        AsyncWriteRequest.java
        AsyncWriteRequestBuilder.java
        BufferedRecord.java
        DelegatingHttpClientConnectionManager.java
        HttpWriter.java
        HttpWriterBuilder.java
        HttpWriterDecoration.java
        HttpWriterDecorator.java
        RestJsonWriter.java
        RestJsonWriterBuilder.java
        RestWriter.java
        RestWriterBuilder.java
        SalesForceRestWriterBuilder.java
        SalesforceRestWriter.java
        UnexpectedResponseException.java
        initializer
        JdbcWriterInitializer.java
        MultiWriterInitializer.java
        NoopWriterInitializer.java
        WriterInitializer.java
        WriterInitializerFactory.java
        objectstore
        ObjectStoreClient.java
        ObjectStoreDeleteOperation.java
        ObjectStoreOperation.java
        ObjectStoreOperationBuilder.java
        ObjectStoreWriter.java
        response
        DeleteResponse.java
        GetObjectResponse.java
        partitioner
        SchemaBasedWriterPartitioner.java
        TimeBasedAvroWriterPartitioner.java
        TimeBasedWriterPartitioner.java
        WorkUnitStateWriterPartitioner.java
        test
        GobblinTestEventBusWriter.java
        TestingEventBusAsserter.java
        TestingEventBuses.java
    - test
      - java
        gobblin
        async
        AsyncDataDispatcherTest.java
        commit
        FsRenameCommitStepTest.java
        configuration
        StateTest.java
        WorkUnitStateTest.java
        workunit
        MultiWorkUnitTest.java
        converter
        EmptyIterableTest.java
        GobblinMetricsPinotFlattenerConverterTest.java
        avro
        FlattenNestedKeyConverterTest.java
        JsonIntermediateToAvroConverterTest.java
        csv
        CsvToJsonConverterV2Test.java
        filter
        AvroFieldsPickConverterTest.java
        http
        AvroToRestJsonEntryConverterTest.java
        jdbc
        AvroToJdbcEntryConverterTest.java
        objectstore
        ObjectStoreDeleteConverterTest.java
        string
        ObjectToStringConverterTest.java
        StringFilterConverterTest.java
        StringSplitterConverterTest.java
        StringSplitterToListConverterTest.java
        TextToStringConverterTest.java
        fork
        CopyableGenericRecordTest.java
        CopyableSchemaTest.java
        IdentityForkOperatorTest.java
        http
        TestDefaultHttpClientConfiguration.java
        TestHttpClientConfiguratorLoader.java
        instrumented
        InstrumentedTest.java
        policies
        count
        RowCountRangePolicyTest.java
        publisher
        BaseDataPublisherTest.java
        qualitychecker
        RowCountTaskLevelPolicyTest.java
        RowLevelQualityCheckerTest.java
        TaskLevelQualityCheckerTest.java
        TestConstants.java
        TestRowLevelPolicy.java
        TestRowLevelPolicyFail.java
        TestTaskLevelPolicy.java
        recordaccess
        AvroGenericRecordAccessorTest.java
        RecordAccessorProviderFactoryTest.java
        serde
        HiveSerDeTest.java
        source
        RegexBasedPartitionedRetrieverTest.java
        extractor
        DatePartitionedAvroFileExtractorTest.java
        extract
        QueryBasedExtractorTest.java
        QueryBasedSourceTest.java
        jdbc
        JdbcExtractorTest.java
        MockJdbcColumn.java
        OracleExtractorTest.java
        SqlQueryUtilsTest.java
        filebased
        FileBasedExtractorTest.java
        FileBasedSourceTest.java
        TokenizedFileDownloaderTest.java
        hadoop
        HadoopFileInputSourceTest.java
        HadoopFsHelperTest.java
        OldApiHadoopFileInputSourceTest.java
        partition
        PartitionerTest.java
        watermark
        DateWatermarkTest.java
        HourWatermarkTest.java
        SimpleWatermarkTest.java
        TimestampWatermarkTest.java
        workunit
        MultiWorkUnitWeightedQueueTest.java
        state
        ConstructStateTest.java
        writer
        AvroHdfsDataWriterTest.java
        ConsoleWriterTest.java
        DestinationTest.java
        MetadataWriterWrapperTest.java
        PartitionedWriterTest.java
        RetryWriterTest.java
        SimpleDataWriterTest.java
        TestConstants.java
        ThrottleWriterTest.java
        http
        AsyncHttpWriterTest.java
        SalesforceRestWriterTest.java
        jdbc
        JdbcBufferedInserterTestBase.java
        JdbcPublisherTest.java
        JdbcWriterCommandsTest.java
        JdbcWriterInitializerTest.java
        JdbcWriterTest.java
        MySqlBufferedInserterTest.java
        TeradataBufferedInserterTest.java
        objectstore
        ObjectStoreWriterTest.java
        partitioner
        SchemaBasedWriterPartitionerTest.java
        TimeBasedAvroWriterPartitionerTest.java
        test
        GobblinTestEventBusWriterTest.java
        TestPartitionAwareWriterBuilder.java
        TestPartitioner.java
        TestingEventBusAsserterTest.java
- gobblin-core-base
  - src
- gobblin-data-management
  - src
    - main
      - java
        gobblin
        data
        management
        conversion
        hive
        avro
        AvroSchemaManager.java
        SchemaNotFoundException.java
        converter
        AbstractAvroToOrcConverter.java
        HiveAvroToFlattenedOrcConverter.java
        HiveAvroToNestedOrcConverter.java
        dataset
        ConvertibleHiveDataset.java
        ConvertibleHiveDatasetFinder.java
        entities
        QueryBasedHiveConversionEntity.java
        QueryBasedHivePublishEntity.java
        SchemaAwareHivePartition.java
        SchemaAwareHiveTable.java
        events
        EventConstants.java
        EventWorkunitUtils.java
        extractor
        HiveBaseExtractor.java
        HiveBaseExtractorFactory.java
        HiveConvertExtractor.java
        HiveConvertExtractorFactory.java
        provider
        DatePatternUpdateProvider.java
        HdfsBasedUpdateProvider.java
        HiveMetastoreBasedUpdateProvider.java
        HiveUnitUpdateProvider.java
        UpdateNotFoundException.java
        UpdateProviderFactory.java
        publisher
        HiveConvertPublisher.java
        query
        HiveAvroORCQueryGenerator.java
        HiveValidationQueryGenerator.java
        source
        BackfillHiveSource.java
        HiveAvroToOrcSource.java
        HiveSource.java
        HiveWorkUnit.java
        watermarker
        HiveSourceWatermarker.java
        HiveSourceWatermarkerFactory.java
        MultiKeyValueLongWatermark.java
        PartitionLevelWatermarker.java
        TableLevelWatermarker.java
        writer
        HiveQueryExecutionWriter.java
        HiveQueryWriterBuilder.java
        copy
        AllEqualComparator.java
        CloseableFsCopySource.java
        ConcurrentBoundedWorkUnitList.java
        CopyConfiguration.java
        CopyContext.java
        CopyEntity.java
        CopyResourcePool.java
        CopySource.java
        CopyableDataset.java
        CopyableDatasetBase.java
        CopyableDatasetMetadata.java
        CopyableFile.java
        CopyableFileFilter.java
        CopyableGlobDatasetFinder.java
        FileAwareInputStream.java
        IterableCopyableDataset.java
        IterableCopyableDatasetImpl.java
        OwnerAndPermission.java
        PreserveAttributes.java
        ReadyCopyableFileFilter.java
        RecursiveCopyableDataset.java
        RecursivePathFinder.java
        SubsetFilesCopyableDataset.java
        SubsetFilesCopyableDatasetFinder.java
        TimestampBasedCopyableDataset.java
        converter
        DecryptConverter.java
        DistcpConverter.java
        UnGzipConverter.java
        entities
        CommitStepCopyEntity.java
        PostPublishStep.java
        PrePublishStep.java
        extractor
        CloseableFsFileAwareInputStreamExtractor.java
        EmptyExtractor.java
        FileAwareInputStreamExtractor.java
        hive
        HiveCopyEntityHelper.java
        HiveDataset.java
        HiveDatasetFinder.java
        HiveFileSet.java
        HiveLocationDescriptor.java
        HivePartitionExtendedFilter.java
        HivePartitionExtendedFilterFactory.java
        HivePartitionFileSet.java
        HivePartitionsDeregisterFileSet.java
        HiveTableLocationNotMatchException.java
        HiveTargetPathHelper.java
        HiveUtils.java
        PartitionFilterGenerator.java
        PathBasedHivePartitionFilterFactory.java
        PathBasedPartitionFilter.java
        UnpartitionedTableFileSet.java
        avro
        HiveAvroCopyEntityHelper.java
        filter
        LookbackPartitionFilterGenerator.java
        predicates
        AlwaysTrue.java
        NonPartitionTableRegistrationTimeSkipPredicate.java
        RegistrationTimeSkipPredicate.java
        RootDirectoryModtimeSkipPredicate.java
        prioritization
        FileSetComparator.java
        PrioritizedCopyableDataset.java
        publisher
        CopyDataPublisher.java
        CopyEventSubmitterHelper.java
        DeletingCopyDataPublisher.java
        recovery
        RecoveryHelper.java
        replication
        ConfigBasedDataset.java
        ConfigBasedDatasetsFinder.java
        ConfigBasedMultiDatasets.java
        CopyRoute.java
        CopyRouteGenerator.java
        CopyRouteGeneratorBase.java
        CopyRouteGeneratorOptimizedLatency.java
        CopyRouteGeneratorOptimizedNetworkBandwidth.java
        CopyRouteGeneratorOptimizer.java
        DataFlowTopology.java
        DataFlowTopologyPickerByHadoopFsSource.java
        DataFlowTopologyPickerBySource.java
        EndPoint.java
        EndPointFactory.java
        HadoopFsEndPoint.java
        HadoopFsEndPointDataset.java
        HadoopFsEndPointFactory.java
        HadoopFsReplicaConfig.java
        ReplicaHadoopFsEndPoint.java
        ReplicationConfiguration.java
        ReplicationCopyMode.java
        ReplicationDataValidPathPicker.java
        ReplicationMetaData.java
        SourceHadoopFsEndPoint.java
        WatermarkMetadataGenerationCommitStep.java
        WatermarkMetadataUtil.java
        watermark
        CopyableFileWatermarkGenerator.java
        CopyableFileWatermarkHelper.java
        FullPathCopyableFileWatermarkGenerator.java
        StringWatermark.java
        writer
        FileAwareInputStreamDataWriter.java
        FileAwareInputStreamDataWriterBuilder.java
        TarArchiveInputStreamDataWriter.java
        TarArchiveInputStreamDataWriterBuilder.java
        dataset
        Dataset.java
        DatasetUtils.java
        DefaultFileSystemGlobFinder.java
        DummyDataset.java
        hive
        HiveConfigClientUtils.java
        HiveRegistrableDataset.java
        partition
        CopyableDatasetRequestor.java
        File.java
        FileSet.java
        FileSetResourceEstimator.java
        StaticFileSet.java
        policy
        CombineSelectionPolicy.java
        EmbeddedRetentionSelectionPolicy.java
        NewestKSelectionPolicy.java
        SelectAfterTimeBasedPolicy.java
        SelectAllPolicy.java
        SelectBeforeTimeBasedPolicy.java
        SelectBetweenTimeBasedPolicy.java
        SelectNothingPolicy.java
        VersionSelectionPolicy.java
        retention
        DatasetCleaner.java
        RetentionEvents.java
        action
        AccessControlAction.java
        MultiAccessControlAction.java
        RetentionAction.java
        dataset
        CleanableDataset.java
        CleanableDatasetBase.java
        CleanableHiveDataset.java
        ConfigurableCleanableDataset.java
        FsCleanableHelper.java
        ModificationTimeDataset.java
        MultiVersionCleanableDatasetBase.java
        SnapshotDataset.java
        TrackingDataset.java
        finder
        CleanableHiveDatasetFinder.java
        DatasetFinder.java
        policy
        CombineRetentionPolicy.java
        DeleteAllRetentionPolicy.java
        DeleteNothingRetentionPolicy.java
        NewestKRetentionPolicy.java
        PredicateRetentionPolicy.java
        RawDatasetRetentionPolicy.java
        RetentionPolicy.java
        TimeBasedRetentionPolicy.java
        predicates
        WhitelistPredicate.java
        profile
        ConfigurableGlobDatasetFinder.java
        GlobCleanableDatasetFinder.java
        ManagedCleanableDatasetFinder.java
        ModificationTimeDatasetProfile.java
        MultiCleanableDatasetFinder.java
        MultiDatasetFinder.java
        ProxyableDatasetProfile.java
        SnapshotDatasetProfile.java
        TrackingDatasetProfile.java
        version
        DatasetVersion.java
        FileStatusDatasetVersion.java
        HiveDatasetVersionCleaner.java
        StringDatasetVersion.java
        TimestampedDatasetVersion.java
        VersionCleaner.java
        finder
        DatasetVersionFinder.java
        DateTimeDatasetVersionFinder.java
        FileLevelTimestampVersionFinder.java
        GlobModTimeDatasetVersionFinder.java
        ModDateTimeDatasetVersionFinder.java
        SingleVersionFinder.java
        UnixTimestampVersionFinder.java
        VersionFinder.java
        WatermarkDatasetVersionFinder.java
        trash
        AsyncTrash.java
        GobblinProxiedTrash.java
        GobblinTrash.java
        ImmediateDeletionTrash.java
        MockTrash.java
        NoopSnapshotCleanupPolicy.java
        ProxiedTrash.java
        SnapshotCleanupPolicy.java
        TestTrash.java
        TimeBasedSnapshotCleanupPolicy.java
        Trash.java
        TrashFactory.java
        version
        DatasetVersion.java
        FileStatusAware.java
        FileStatusDatasetVersion.java
        FileStatusTimestampedDatasetVersion.java
        FileSystemDatasetVersion.java
        HiveDatasetVersion.java
        StringDatasetVersion.java
        TimestampedDatasetVersion.java
        TimestampedHiveDatasetVersion.java
        finder
        AbstractDatasetVersionFinder.java
        AbstractHiveDatasetVersionFinder.java
        DatasetVersionFinder.java
        DatePartitionHiveVersionFinder.java
        DateTimeDatasetVersionFinder.java
        FileLevelTimestampVersionFinder.java
        GlobModTimeDatasetVersionFinder.java
        ModDateTimeDatasetVersionFinder.java
        SingleVersionFinder.java
        UnixTimestampVersionFinder.java
        VersionFinder.java
        WatermarkDatasetVersionFinder.java
        runtime
        embedded
        EmbeddedGobblinDistcp.java
        util
        commit
        DeleteFileCommitStep.java
        request_allocation
        SimpleHiveDatasetTieringPrioritizer.java
        test
        RetentionTestDataGenerator.java
        RetentionTestHelper.java
    - test
      - java
        gobblin
        data
        management
        ConversionHiveTestUtils.java
        conversion
        hive
        BackfillHiveSourceTest.java
        HiveSourceTest.java
        LocalHiveMetastoreTestUtils.java
        converter
        HiveAvroToOrcConverterTest.java
        HiveSchemaEvolutionTest.java
        dataset
        ConvertibleHiveDatasetTest.java
        provider
        DatePatternUpdateProviderTest.java
        util
        HiveAvroORCQueryGeneratorTest.java
        watermarker
        PartitionLevelWatermarkerTest.java
        TableLevelWatermarkerTest.java
        copy
        ConcurrentBoundedWorkUnitListTest.java
        CopySourcePrioritizationTest.java
        CopySourceTest.java
        CopyableDatasetMetadataTest.java
        CopyableFileTest.java
        CopyableFileUtils.java
        PreserveAttributesTest.java
        ReadyCopyableFileFilterTest.java
        RecursiveCopyableDatasetTest.java
        TestCopyableDataset.java
        TestCopyableDatasetFinder.java
        TestCopyablePartitionableDatasedFinder.java
        TestCopyablePartitionableDataset.java
        TimestampBasedCopyableDatasetTest.java
        converter
        DecryptConverterTest.java
        UnGzipConverterTest.java
        extractor
        InputStreamExtractorTest.java
        hive
        HiveCopyEntityHelperTest.java
        HiveDatasetFinderTest.java
        HiveDatasetTest.java
        HiveTargetPathHelperTest.java
        WhitelistBlacklistTest.java
        filter
        LookbackPartitionFilterGeneratorTest.java
        predicates
        RegistrationTimeSkipPredicateTest.java
        publisher
        CopyDataPublisherTest.java
        DeletingCopyDataPublisherTest.java
        recovery
        RecoveryHelperTest.java
        replication
        ConfigBasedDatasetsFinderTest.java
        ConfigBasedDatasetsTest.java
        CopyRouteGeneratorTest.java
        ReplicationConfigurationTest.java
        writer
        FileAwareInputStreamDataWriterTest.java
        TarArchiveInputStreamDataWriterTest.java
        partition
        FileSetTest.java
        policy
        NewestKSelectionPolicyTest.java
        TimeBasedSelectionPolicyTest.java
        retention
        CleanableDatasetBaseTest.java
        CombineRetentionPolicyTest.java
        ConfigurableCleanableDatasetTest.java
        DatasetVersionFinderTest.java
        FsCleanableHelperTest.java
        NewestKRetentionPolicyTest.java
        TimeBasedRetentionPolicyTest.java
        TimestampedDatasetVersionFinderTest.java
        UnixTimestampVersionFinderTest.java
        WatermarkDatasetVersionFinderTest.java
        action
        RetentionActionTest.java
        integration
        HiveRetentionTest.java
        RetentionIntegrationTest.java
        sql
        SqlBasedRetentionPoc.java
        SqlUdfs.java
        test
        ContainsARetentionPolicy.java
        ContainsBRetentionPolicy.java
        ContainsCRetentionPolicy.java
        ContainsStringRetentionPolicy.java
        version
        HiveDatasetVersionCleanerTest.java
        trash
        AsyncTrashTest.java
        MockTrashTest.java
        TestCleanupPolicy.java
        TestTrashTest.java
        TrashFactoryTest.java
        TrashTest.java
        TrashTestBase.java
        util
        PathUtilsTest.java
        version
        finder
        DatePartitionedHiveVersionFinderTest.java
        runtime
        embedded
        EmbeddedGobblinDistcpTest.java
        util
        request_allocation
        SimpleHiveDatasetTieringPrioritizerTest.java
- gobblin-example
  - src
    - main
      - java
        gobblin
        example
        simplejson
        SimpleJsonConverter.java
        SimpleJsonExtractor.java
        SimpleJsonSource.java
        wikipedia
        EmbeddedWikipediaExample.java
        WikipediaConverter.java
        WikipediaExtractor.java
        WikipediaPartitioner.java
        WikipediaSource.java
- gobblin-hive-registration
  - src
    - main
      - java
        gobblin
        hive
        HiveConstants.java
        HiveLock.java
        HiveMetaStoreClientFactory.java
        HiveMetastoreClientPool.java
        HivePartition.java
        HivePartitionComparator.java
        HiveRegProps.java
        HiveRegister.java
        HiveRegisterStep.java
        HiveRegisterUtils.java
        HiveRegistrationUnit.java
        HiveRegistrationUnitComparator.java
        HiveSerDeManager.java
        HiveSerDeWrapper.java
        HiveTable.java
        HiveTableComparator.java
        PartitionDeregisterStep.java
        TableDeregisterStep.java
        avro
        HiveAvroSerDeManager.java
        metastore
        HiveMetaStoreBasedRegister.java
        HiveMetaStoreEventHelper.java
        HiveMetaStoreUtils.java
        policy
        HiveRegistrationPolicy.java
        HiveRegistrationPolicyBase.java
        HiveSnapshotRegistrationPolicy.java
        spec
        HiveSpec.java
        HiveSpecWithPostActivities.java
        HiveSpecWithPreActivities.java
        HiveSpecWithPredicates.java
        SimpleHiveSpec.java
        activity
        Activity.java
        DropPartitionActivity.java
        DropTableActivity.java
        predicate
        PartitionNotExistPredicate.java
        TableNotExistPredicate.java
    - test
      - java
        gobblin
        hive
        HiveMetaStoreClientFactoryTest.java
        HiveRegistrationUnitComparatorTest.java
        metastore
        HiveMetaStoreUtilsTest.java
        policy
        HiveRegistrationPolicyBaseTest.java
- gobblin-metastore
  - src
    - main
      - java
        gobblin
        metastore
        DatabaseJobHistoryStore.java
        DatasetStateStore.java
        FsStateStore.java
        FsStateStoreFactory.java
        JobHistoryDataSourceProvider.java
        JobHistoryStore.java
        MetaStoreModule.java
        MysqlStateStore.java
        MysqlStateStoreFactory.java
        StateStore.java
        database
        DatabaseJobHistoryStoreV100.java
        DatabaseJobHistoryStoreV101.java
        Filter.java
        SupportedDatabaseVersion.java
        VersionedDatabaseJobHistoryStore.java
        nameParser
        DatasetUrnStateStoreNameParser.java
        GuidDatasetUrnStateStoreNameParser.java
        SimpleDatasetUrnStateStoreNameParser.java
        util
        DatabaseJobHistoryStoreSchemaManager.java
        MySqlJdbcUrl.java
        StateStoreCleaner.java
    - test
      - java
        gobblin
        metastore
        DatabaseJobHistoryStoreTest.java
        DatabaseJobHistoryStoreV100Test.java
        DatabaseJobHistoryStoreV101Test.java
        FsStateStoreTest.java
        nameParser
        GuidDatasetUrnStateStoreNameParserTest.java
        testing
        ITestMetastoreDatabase.java
        TestMetadataDatabase.java
        TestMetastoreDatabaseFactory.java
        TestMetastoreDatabaseServer.java
- gobblin-metrics-libs
  - gobblin-metrics
    - src
      - main
        java
        gobblin
        MetricsHelper.java
        metrics
        GobblinMetrics.java
        GobblinMetricsRegistry.java
      - test
        java
        gobblin
        metrics
        reporter
        PrefixContextFilter.java
        ScheduledReporterTest.java
  - gobblin-metrics-base
    - src
      - main
        gen-java
        gobblin
        metrics
        FlatGobblinMetric.java
        GobblinTrackingEvent.java
        Metric.java
        MetricReport.java
        java
        gobblin
        filesystem
        MetricsFileSystemInstrumentation.java
        metrics
        ConsoleEventReporterFactory.java
        ConsoleReporterFactory.java
        ContextAwareCounter.java
        ContextAwareGauge.java
        ContextAwareHistogram.java
        ContextAwareMeter.java
        ContextAwareMetric.java
        ContextAwareMetricFactory.java
        ContextAwareTimer.java
        Counters.java
        CustomCodahaleReporterFactory.java
        CustomReporterFactory.java
        InnerCounter.java
        InnerGauge.java
        InnerHistogram.java
        InnerMeter.java
        InnerMetricContext.java
        InnerTimer.java
        Measurements.java
        MetricContext.java
        MetricNames.java
        RootMetricContext.java
        Tag.java
        TagBasedMetricFilter.java
        Taggable.java
        Tagged.java
        broker
        MetricContextFactory.java
        MetricContextKey.java
        SubTaggedMetricContextKey.java
        context
        ContextWeakReference.java
        NameConflictException.java
        ReportableContext.java
        filter
        AllContextFilter.java
        ContextFilter.java
        ContextFilterFactory.java
        event
        EventSubmitter.java
        JobEvent.java
        MultiPartEvent.java
        MultiTimingEvent.java
        TaskEvent.java
        TimingEvent.java
        sla
        SlaEventKeys.java
        SlaEventSubmitter.java
        example
        ReporterExampleBase.java
        metric
        InnerMetric.java
        Metrics.java
        ProxyMetric.java
        filter
        MetricFilters.java
        MetricNameRegexFilter.java
        MetricTypeFilter.java
        notification
        EventNotification.java
        MetricContextCleanupNotification.java
        NewMetricContextNotification.java
        Notification.java
        reporter
        ConfiguredScheduledReporter.java
        ContextAwareReporter.java
        ContextAwareScheduledReporter.java
        EventReporter.java
        MetricReportReporter.java
        OutputStreamEventReporter.java
        OutputStreamReporter.java
        RecursiveScheduledMetricReporter.java
        RecursiveScheduledReporter.java
        ScheduledReporter.java
        util
        AvroBinarySerializer.java
        AvroJsonSerializer.java
        AvroSerializer.java
        EventUtils.java
        FixedSchemaVersionWriter.java
        MetricReportUtils.java
        NoopSchemaVersionWriter.java
        SchemaVersionWriter.java
        test
        ContextStoreReporter.java
        MetricsAssert.java
        TestConstants.java
        TimestampedValue.java
      - test
        java
        gobblin
        filesystem
        MetricsFileSystemInstrumentationTest.java
        metrics
        ContextAwareMetricFactoryTest.java
        MetricContextTest.java
        OutputStreamReporterTest.java
        RootMetricContextTest.java
        TagTest.java
        TaggedTest.java
        broker
        MetricContextFactoryTest.java
        callback
        NotificationStore.java
        metric
        filter
        MetricFiltersTest.java
        MetricNameRegexFilterTest.java
        MetricTypeFilterTest.java
        performance
        Incrementer.java
        MetricsPerformanceTest.java
        MetricsUpdater.java
        PerformanceUtils.java
- gobblin-modules
  - gobblin-avro-json
    - src
      - main
        java
        gobblin
        converter
        avro
        AvroToJsonBytesConverter.java
        AvroToJsonBytesWithMetadataConverter.java
        AvroToJsonConverter.java
        AvroToJsonRecordWithMetadataConverter.java
        AvroToJsonStringConverter.java
        AvroToJsonStringConverterBase.java
      - test
        java
        gobblin
        converter
        avro
        AvroToJsonRecordWithMetadataConverterTest.java
        AvroToJsonStringConverterTest.java
  - gobblin-azkaban
    - src
      - main
        java
        gobblin
        azkaban
        AzkabanCompactionJobLauncher.java
        AzkabanGobblinDaemon.java
        AzkabanGobblinYarnAppLauncher.java
        AzkabanIntegrationTestLauncher.java
        AzkabanJobLauncher.java
        AzkabanStateStoreCleanerJob.java
        AzkabanTags.java
        data
        management
        conversion
        hive
        validation
        ValidationJob.java
        retention
        DatasetCleanerJob.java
        trash
        TrashCollectorJob.java
  - gobblin-codecs
    - src
      - main
        java
        gobblin
        codec
        Base64Codec.java
        GzipCodec.java
  - gobblin-compliance
    - src
      - main
        java
        gobblin
        compliance
        ComplianceConfigurationKeys.java
        ComplianceEvents.java
        ComplianceJob.java
        DatasetDescriptor.java
        DatasetDescriptorImpl.java
        HivePartitionDataset.java
        HivePartitionDatasetPolicy.java
        HivePartitionFinder.java
        HivePartitionVersion.java
        HivePartitionVersionFinder.java
        HivePartitionVersionPolicy.java
        HiveProxyQueryExecutor.java
        Policy.java
        QueryExecutor.java
        azkaban
        ComplianceAzkabanJob.java
        purger
        CommitPolicy.java
        HivePurgerCommitPolicy.java
        HivePurgerConverter.java
        HivePurgerExtractor.java
        HivePurgerPolicy.java
        HivePurgerPublisher.java
        HivePurgerQueryTemplate.java
        HivePurgerSource.java
        HivePurgerWriter.java
        HivePurgerWriterBuilder.java
        PurgePolicy.java
        PurgeableDataset.java
        PurgeableHivePartitionDataset.java
        PurgeableHivePartitionDatasetSchema.java
        restore
        AdhocRestorePolicy.java
        ComplianceRestoreJob.java
        HivePartitionRestorePolicy.java
        LKGRestorePolicy.java
        RestorableDataset.java
        RestorableHivePartitionDataset.java
        RestorableHivePartitionDatasetFinder.java
        RestorePolicy.java
        retention
        CleanableHivePartitionDataset.java
        CleanableHivePartitionDatasetFinder.java
        ComplianceRetentionJob.java
        HivePartitionRetentionVersion.java
        HivePartitionVersionRetentionCleaner.java
        HivePartitionVersionRetentionCleanerPolicy.java
        HivePartitionVersionRetentionReaper.java
        HivePartitionVersionRetentionReaperPolicy.java
        HivePartitionVersionRetentionRunner.java
        utils
        DatasetUtils.java
        PartitionUtils.java
        ProxyUtils.java
        validation
        ComplianceValidationJob.java
        ValidatableDataset.java
      - test
        java
        gobblin
        compliance
        purger
        HivePurgerConverterTest.java
        HivePurgerExtractorTest.java
        HivePurgerWriterTest.java
  - gobblin-couchbase
    - src
      - main
        java
        gobblin
        couchbase
        common
        TupleDocument.java
        converter
        AnyToCouchbaseJsonConverter.java
        AvroToCouchbaseTupleConverter.java
        writer
        CouchbaseEnvironmentFactory.java
        CouchbaseWriter.java
        CouchbaseWriterBuilder.java
        CouchbaseWriterConfigurationKeys.java
      - test
        java
        gobblin
        couchbase
        CouchbaseTestServer.java
        converter
        AnyToCouchbaseJsonConverterTest.java
        AvroToCouchbaseTupleConverterTest.java
        writer
        CouchbaseWriterTest.java
  - gobblin-crypto
    - src
      - jmh
        java
        gobblin
        crypto
        EncodingBenchmark.java
      - main
        java
        gobblin
        converter
        SerializedRecordToEncryptedSerializedRecordConverterBase.java
        crypto
        GPGCodec.java
        GPGFileDecryptor.java
        JCEKSKeystoreCredentialStore.java
        JsonCredentialStore.java
        RotatingAESCodec.java
      - test
        java
        gobblin
        crypto
        JCEKSKeystoreCredentialStoreTest.java
        JsonCredentialStoreTest.java
        RotatingAESCodecTest.java
  - gobblin-crypto-provider
    - src
      - main
        java
        gobblin
        converter
        AvroStringFieldEncryptorConverter.java
        SerializedRecordToEncryptedSerializedRecordConverter.java
        StringFieldEncryptorConverter.java
        crypto
        GobblinEncryptionProvider.java
        JCEKSKeystoreCredentialStoreCli.java
      - test
        java
        gobblin
        converter
        AvroStringFieldEncryptorConverterTest.java
        SerializedRecordToEncryptedSerializedRecordConverterTest.java
        crypto
        GobblinEncryptionProviderTest.java
  - gobblin-eventhub
    - src
      - main
        java
        gobblin
        eventhub
        EventhubMetricNames.java
        writer
        BatchedEventhubDataWriter.java
        EventhubBatchAccumulator.java
        EventhubDataWriter.java
        EventhubDataWriterBuilder.java
        EventhubRequest.java
      - test
        java
        gobblin
        eventhub
        writer
        BatchedEventhubDataWriterTest.java
        EventhubAccumulatorTest.java
        EventhubBatchTest.java
        EventhubDataWriterTest.java
  - gobblin-helix
    - src
      - main
        java
        gobblin
        metastore
        ZkStateStore.java
        ZkStateStoreConfigurationKeys.java
        ZkStateStoreFactory.java
        runtime
        ZkDatasetStateStore.java
        ZkDatasetStateStoreFactory.java
      - test
        java
        gobblin
        runtime
        StateStoreWatermarkStorageTest.java
        ZkDatasetStateStoreTest.java
  - gobblin-http
    - src
      - main
        java
        gobblin
        restli
        RestliR2Client.java
  - gobblin-kafka-08
    - src
      - main
        java
        gobblin
        kafka
        client
        Kafka08ConsumerClient.java
        serialize
        LiAvroDeserializer.java
        LiAvroSerializer.java
        tool
        KafkaCheckpoint.java
        SimpleKafkaConsumer.java
        writer
        Kafka08DataWriter.java
        KafkaDataWriterBuilder.java
        metrics
        KafkaReportingFormats.java
        kafka
        KafkaAvroEventReporter.java
        KafkaAvroReporter.java
        KafkaEventReporter.java
        KafkaPusher.java
        KafkaReporter.java
        KafkaReporterFactory.java
        ProducerCloseable.java
        service
        SimpleKafkaSpecExecutorInstance.java
        SimpleKafkaSpecExecutorInstanceConsumer.java
        SimpleKafkaSpecExecutorInstanceProducer.java
        StreamingKafkaSpecExecutorInstanceConsumer.java
        source
        extractor
        extract
        kafka
        KafkaDeserializerExtractor.java
        KafkaDeserializerSource.java
        KafkaGsonDeserializer.java
        KafkaWrapper.java
      - test
        java
        StandaloneTestKafkaServer.java
        gobblin
        kafka
        FlakyKafkaProducer.java
        KafkaTestBase.java
        writer
        Kafka08DataWriterIntegrationTest.java
        Kafka08DataWriterTest.java
        Kafka08DataWriterUnitTest.java
        metrics
        reporter
        KafkaAvroEventReporterTest.java
        KafkaAvroEventReporterWithSchemaRegistryTest.java
        KafkaAvroReporterTest.java
        KafkaEventReporterTest.java
        KafkaPusherTest.java
        KafkaReporterTest.java
        KafkaTestBase.java
        MockKafkaPusher.java
        service
        SimpleKafkaSpecExecutorInstanceTest.java
        StreamingKafkaSpecExecutorInstanceTest.java
        source
        extractor
        extract
        kafka
        ConfluentKafkaSchemaRegistryTest.java
        KafkaDeserializerExtractorTest.java
        KafkaGsonDeserializerTest.java
        KafkaWrapperTest.java
        SimpleKafkaSchemaRegistryTest.java
  - gobblin-kafka-09
    - src
      - main
        java
        gobblin
        kafka
        client
        Kafka09ConsumerClient.java
        serialize
        LiAvroDeserializer.java
        LiAvroSerializer.java
        writer
        Kafka09DataWriter.java
        KafkaDataWriterBuilder.java
        source
        extractor
        extract
        kafka
        KafkaSimpleStreamingExtractor.java
        KafkaSimpleStreamingSource.java
      - test
        java
        gobblin
        kafka
        KafkaTestBase.java
        client
        Kafka09ConsumerClientTest.java
        source
        extractor
        extract
        kafka
        KafkaSimpleStreamingTest.java
        writer
        Kafka09DataWriterTest.java
  - gobblin-kafka-common
    - src
      - main
        java
        gobblin
        converter
        EnvelopeSchemaConverter.java
        LiKafkaByteArrayMsgToAvroConverter.java
        kafka
        client
        AbstractBaseKafkaConsumerClient.java
        BaseKafkaConsumerRecord.java
        ByteArrayBasedKafkaRecord.java
        DecodeableKafkaRecord.java
        GobblinKafkaConsumerClient.java
        KafkaConsumerRecord.java
        schemareg
        CachingKafkaSchemaRegistry.java
        ConfigDrivenMd5SchemaRegistry.java
        HttpClientFactory.java
        KafkaSchemaRegistry.java
        KafkaSchemaRegistryConfigurationKeys.java
        KafkaSchemaRegistryFactory.java
        LiKafkaSchemaRegistry.java
        SchemaRegistryException.java
        serialize
        LiAvroDeserializerBase.java
        LiAvroSerDeHelper.java
        LiAvroSerializerBase.java
        MD5Digest.java
        SerializationException.java
        writer
        BaseKafkaDataWriterBuilder.java
        KafkaWriterConfigurationKeys.java
        KafkaWriterHelper.java
        KafkaWriterMetricNames.java
        metrics
        kafka
        KafkaAvroSchemaRegistry.java
        KafkaAvroSchemaRegistryFactory.java
        KafkaSchemaRegistry.java
        KafkaSchemaRegistryFactory.java
        SchemaRegistryException.java
        reporter
        util
        SchemaRegistryVersionWriter.java
        source
        extractor
        extract
        kafka
        ConfluentKafkaSchemaRegistry.java
        FixedSchemaKafkaAvroExtractor.java
        KafkaAvroExtractor.java
        KafkaExtractor.java
        KafkaOffsetRetrievalFailureException.java
        KafkaPartition.java
        KafkaRecord.java
        KafkaSimpleExtractor.java
        KafkaSimpleJsonExtractor.java
        KafkaSimpleSource.java
        KafkaSource.java
        KafkaTopic.java
        KafkaUtils.java
        MultiLongWatermark.java
        PreviousOffsetNotFoundException.java
        SimpleKafkaSchemaRegistry.java
        StartOffsetOutOfRangeException.java
        UniversalKafkaSource.java
        workunit
        packer
        KafkaAvgRecordSizeBasedWorkUnitSizeEstimator.java
        KafkaAvgRecordTimeBasedWorkUnitSizeEstimator.java
        KafkaBiLevelWorkUnitPacker.java
        KafkaSingleLevelWorkUnitPacker.java
        KafkaWorkUnitPacker.java
        KafkaWorkUnitSizeEstimator.java
      - test
        java
        gobblin
        converter
        EnvelopeSchemaConverterTest.java
        KafkaAvroSchemaRegistryForTest.java
        kafka
        schemareg
        CachingKafkaSchemaRegistryTest.java
        serialize
        MD5DigestTest.java
  - gobblin-metadata
    - src
      - main
        java
        gobblin
        converter
        MetadataConverterWrapper.java
        RecordWithMetadataToEnvelopedRecordWithMetadata.java
        metadata
        GlobalMetadataCollector.java
        types
        GlobalMetadata.java
        GlobalMetadataJsonMerger.java
        Metadata.java
        type
        ContentTypeUtils.java
        RecordWithMetadata.java
        SerializedRecordWithMetadata.java
      - test
        java
        gobblin
        converter
        MetadataConverterWrapperTest.java
        RecordWithMetadataToEnvelopedRecordWithMetadataTest.java
        metadata
        GlobalMetadataCollectorTest.java
        types
        GlobalMetadataTest.java
  - gobblin-metrics-graphite
    - src
      - main
        java
        gobblin
        metrics
        graphite
        GraphiteConnectionType.java
        GraphiteEventReporter.java
        GraphitePusher.java
        GraphiteReporter.java
      - test
        java
        gobblin
        metrics
        graphite
        GraphiteEventReporterTest.java
        GraphiteReporterTest.java
        TestGraphiteSender.java
  - gobblin-metrics-hadoop
    - src
      - main
        java
        gobblin
        metrics
        hadoop
        AbstractHadoopCounterReporter.java
        HadoopCounterReporter.java
        NewAPIHadoopCounterReporter.java
      - test
        java
        gobblin
        metrics
        hadoop
        HadoopCounterReporterTest.java
        NewAPIHadoopCounterReporterTest.java
  - gobblin-metrics-influxdb
    - src
      - main
        java
        gobblin
        metrics
        influxdb
        InfluxDBConnectionType.java
        InfluxDBEventReporter.java
        InfluxDBPusher.java
        InfluxDBReporter.java
      - test
        java
        gobblin
        metrics
        influxdb
        InfluxDBEventReporterTest.java
        InfluxDBReporterTest.java
        TestInfluxDB.java
  - google-ingestion
    - src
      - main
        java
        gobblin
        ingestion
        google
        AsyncIteratorWithDataSink.java
        DayPartitioner.java
        GoggleIngestionConfigurationKeys.java
        util
        SchemaUtil.java
        webmaster
        GoogleWebMasterSource.java
        GoogleWebMasterSourceDaily.java
        GoogleWebmasterClient.java
        GoogleWebmasterClientImpl.java
        GoogleWebmasterDataFetcher.java
        GoogleWebmasterDataFetcherImpl.java
        GoogleWebmasterDayPartitioner.java
        GoogleWebmasterExtractor.java
        GoogleWebmasterExtractorIterator.java
        GoogleWebmasterFilter.java
        ProducerJob.java
        SimpleProducerJob.java
        TrieBasedProducerJob.java
        UrlGrouper.java
        UrlTrie.java
        UrlTrieNode.java
        UrlTriePostOrderIterator.java
        UrlTriePrefixGrouper.java
        source
        extractor
        extract
        google
        GoogleAnalyticsUnsampledExtractor.java
        GoogleAnalyticsUnsampledSource.java
        GoogleCommon.java
        GoogleCommonKeys.java
        GoogleDriveExtractor.java
        GoogleDriveFileSystem.java
        GoogleDriveFsHelper.java
        GoogleDriveSource.java
      - test
        java
        gobblin
        ingestion
        google
        webmaster
        GoogleWebmasterDataFetcherImplTest.java
        GoogleWebmasterExtractorIteratorTest.java
        GoogleWebmasterExtractorTest.java
        ProducerJobTest.java
        SimpleProducerJobTest.java
        TrieBasedProducerJobTest.java
        UrlTriePostOrderIteratorTest.java
        UrlTriePrefixGrouperTest.java
        UrlTrieTest.java
        source
        extractor
        extract
        google
        GoogleAnalyticsUnsampledExtractorTest.java
        GoogleDriveFileSystemTest.java
        GoogleDriveFsHelperTest.java
        filebased
        GoogleDriveSourceTest.java
- gobblin-rest-service
  - gobblin-rest-client
    - src
      - main
        java
        gobblin
        rest
        JobExecutionInfoClient.java
  - gobblin-rest-server
    - src
      - main
        java
        gobblin
        rest
        JobExecutionInfoResource.java
        JobExecutionInfoServer.java
      - test
        java
        gobblin
        rest
        JobExecutionInfoServerTest.java
- gobblin-restli
  - gobblin-flow-config-service
    - gobblin-flow-config-service-client
      - src
        main
        java
        gobblin
        service
        FlowConfigClient.java
        FlowStatusClient.java
        test
        java
        gobblin
        service
        FlowConfigTest.java
        FlowStatusTest.java
    - gobblin-flow-config-service-server
      - src
        main
        java
        gobblin
        service
        FlowConfigsResource.java
        FlowStatusResource.java
        validator
        CronValidator.java
        TemplateUriValidator.java
  - gobblin-restli-utils
    - src
      - main
        java
        gobblin
        restli
        EmbeddedRestliServer.java
        SharedRestClientFactory.java
        SharedRestClientKey.java
        UriRestClientKey.java
  - gobblin-throttling-service
    - gobblin-throttling-service-client
      - src
        main
        java
        gobblin
        util
        limiter
        BatchedPermitsRequester.java
        RedirectAwareRestClientRequestSender.java
        RequestSender.java
        RestClientRequestSender.java
        RestliLimiterFactory.java
        RestliServiceBasedLimiter.java
        stressTest
        FixedOperationsStressor.java
        MRStressTest.java
        RandomDelayStartStressor.java
        RandomRuntimeStressor.java
        RateComputingLimiterContainer.java
        StressTestUtils.java
        Stressor.java
        test
        java
        gobblin
        restli
        throttling
        LocalStressTest.java
        ThrottlingClientTest.java
        util
        limiter
        BatchedPermitsRequesterTest.java
        MockRequester.java
        RestliServiceBasedLimiterTest.java
    - gobblin-throttling-service-server
      - src
        main
        java
        gobblin
        restli
        throttling
        ConfigClientBasedPolicyFactory.java
        CountBasedPolicy.java
        DynamicTokenBucket.java
        LeaderFinder.java
        LimiterServerResource.java
        NoopPolicy.java
        QPSPolicy.java
        ThrottlingGuiceServletConfig.java
        ThrottlingPolicy.java
        ThrottlingPolicyFactory.java
        ThrottlingServerScopes.java
        TokenBucket.java
        URIMetadata.java
        ZookeeperLeaderElection.java
        test
        java
        gobblin
        restli
        throttling
        ConfigStoreBasedPolicyTest.java
        DynamicTokenBucketTest.java
        LimiterServerResourceTest.java
        TestFailover.java
        TokenBucketTest.java
- gobblin-runtime
  - src
- gobblin-runtime-hadoop
  - src
    - main
      - java
        gobblin
        runtime
        instance
        plugin
        hadoop
        HadoopKerberosKeytabAuthenticationPlugin.java
    - test
      - java
        gobblin
        runtime
        instance
        plugin
        hadoop
        TestHadoopKerberosKeytabAuthenticationPlugin.java
- gobblin-salesforce
  - src
    - main
      - java
        gobblin
        salesforce
        SalesforceConfigurationKeys.java
        SalesforceConnector.java
        SalesforceExtractor.java
        SalesforceSource.java
    - test
      - java
        gobblin
        salesforce
        SalesforceSourceTest.java
- gobblin-service
  - src
    - main
      - java
        gobblin
        service
        HelixUtils.java
        ServiceConfigKeys.java
        ServiceMetricNames.java
        modules
        core
        GobblinServiceManager.java
        flow
        IdentityFlowToJobSpecCompiler.java
        orchestration
        Orchestrator.java
        scheduler
        GobblinServiceJobScheduler.java
        topology
        ConfigBasedTopologySpecFactory.java
        TopologySpecFactory.java
    - test
      - java
        gobblin
        service
        modules
        core
        GobblinServiceHATest.java
        GobblinServiceManagerTest.java
        IdentityFlowToJobSpecCompilerTest.java
        orchestration
        OrchestratorTest.java
        topology
        ConfigBasedTopologySpecFactoryTest.java
- gobblin-test-harness
  - src
    - main
      - java
        gobblin
        test
        execution
        operator
        SetupOperator.java
        validator
        ValidationRule.java
        setup
        config
        ConfigStepsGenerator.java
        Step.java
        TestHarnessLauncher.java
    - test
      - java
        gobblin
        test
        integration
        data
        management
        CopyIntegrationTest.java
- gobblin-test-utils
  - src
    - main
      - java
        gobblin
        test
        ConstantTimingType.java
        ErrorManager.java
        NthTimingType.java
        TestUtils.java
        TimingManager.java
        TimingResult.java
        TimingType.java
        crypto
        InsecureShiftCodec.java
        TestEncryptionProvider.java
    - test
      - java
        gobblin
        test
        ErrorManagerTest.java
- gobblin-tunnel
  - src
    - main
      - java
        gobblin
        tunnel
        AcceptHandler.java
        Config.java
        HandlerState.java
        ProxySetupHandler.java
        ReadWriteHandler.java
        Tunnel.java
    - test
      - java
        gobblin
        tunnel
        ConnectProxyServer.java
        DoubleEchoServer.java
        EasyThread.java
        MockServer.java
        TalkFirstDoubleEchoServer.java
        TalkPastServer.java
        TestTunnelWithArbitraryTCPTraffic.java
        TunnelTest.java
- gobblin-utility
  - src
    - main
      - java
        gobblin
        broker
        BrokerConfigurationKeyGenerator.java
        DefaultBrokerCache.java
        EmptyKey.java
        KeyedScopedConfigViewImpl.java
        NonExtendableBrokerView.java
        ScopeWrapper.java
        SharedResourcesBrokerFactory.java
        SharedResourcesBrokerImpl.java
        SharedResourcesBrokerUtils.java
        package-info.java
        data
        management
        copy
        hive
        WhitelistBlacklist.java
        util
        ApplicationLauncherUtils.java
        AutoCloseableLock.java
        AutoReturnableObject.java
        AvroFlattener.java
        AvroUtils.java
        AzkabanTags.java
        CLIPasswordEncryptor.java
        ClusterNameTags.java
        ClustersNames.java
        ConfigUtils.java
        DatasetFilterUtils.java
        DatePartitionType.java
        Either.java
        EmailUtils.java
        EmptyIterable.java
        ExecutorsUtils.java
        ExponentialBackoff.java
        FileListUtils.java
        ForkOperatorUtils.java
        HadoopUtils.java
        HeapDumpForTaskUtils.java
        HiveJdbcConnector.java
        HostUtils.java
        Id.java
        ImmutableProperties.java
        JobConfigurationUtils.java
        JobLauncherUtils.java
        JvmUtils.java
        LoggingUncaughtExceptionHandler.java
        NoopCloseable.java
        ParallelRunner.java
        PathUtils.java
        PortUtils.java
        PropertiesUtils.java
        ProxiedFileSystemCache.java
        ProxiedFileSystemUtils.java
        ProxiedFileSystemWrapper.java
        PublisherUtils.java
        PullFileLoader.java
        RateControlledFileSystem.java
        SerializationUtils.java
        StringParsingUtils.java
        TemplateUtils.java
        TimeRangeChecker.java
        WritableShimSerialization.java
        WriterUtils.java
        binpacking
        FieldWeighter.java
        WorstFitDecreasingBinPacking.java
        callbacks
        Callback.java
        CallbackResult.java
        CallbacksDispatcher.java
        package-info.java
        concurrent
        AutoResetEvent.java
        CancellableTask.java
        HashedWheelTimerTaskScheduler.java
        ScheduledExecutorServiceTaskScheduler.java
        ScheduledTask.java
        TaskScheduler.java
        TaskSchedulerFactory.java
        TaskSchedulerType.java
        dataset
        DatasetUtils.java
        deprecation
        DeprecationUtils.java
        executors
        ForceQueuePolicy.java
        IteratorExecutor.java
        MDCPropagatingCallable.java
        MDCPropagatingExecutorService.java
        MDCPropagatingRunnable.java
        MDCPropagatingScheduledExecutorService.java
        ScalingQueue.java
        ScalingThreadPoolExecutor.java
        filesystem
        ExceptionCatchingPathAlterationListenerDecorator.java
        FileStatusEntry.java
        FileSystemDecorator.java
        FileSystemFactory.java
        FileSystemInstrumentation.java
        FileSystemInstrumentationFactory.java
        FileSystemKey.java
        FileSystemLimiterKey.java
        InstrumentedFileSystem.java
        InstrumentedFileSystemUtils.java
        InstrumentedHDFSFileSystem.java
        InstrumentedLocalFileSystem.java
        InstrumentedWebHDFSFileSystem.java
        PathAlterationListener.java
        PathAlterationListenerAdaptor.java
        PathAlterationObserver.java
        PathAlterationObserverScheduler.java
        ThrottledFileSystem.java
        filters
        AndPathFilter.java
        HiddenFilter.java
        RegexPathFilter.java
        TarGpgPathFilter.java
        guid
        Guid.java
        HasGuid.java
        hadoop
        TokenUtils.java
        io
        AdditionalCloseableInputStream.java
        BatchedMeterDecorator.java
        CloseableHttpConn.java
        FilterStreamUnpacker.java
        GsonInterfaceAdapter.java
        MeteredInputStream.java
        MeteredOutputStream.java
        MeteredStream.java
        SeekableFSInputStream.java
        StreamCopier.java
        StreamCopierSharedLimiterKey.java
        StreamThrottler.java
        StreamUtils.java
        ThrottledInputStream.java
        iterators
        InterruptibleIterator.java
        jdbc
        DataSourceBuilder.java
        DataSourceModule.java
        DataSourceProvider.java
        json
        JsonUtils.java
        limiter
        BaseLimiterType.java
        CountBasedLimiter.java
        DefaultLimiterFactory.java
        Limiter.java
        LimiterFactory.java
        MultiLimiter.java
        NonRefillableLimiter.java
        NoopLimiter.java
        NotEnoughPermitsException.java
        PoolBasedLimiter.java
        RateBasedLimiter.java
        TimeBasedLimiter.java
        broker
        SharedLimiterFactory.java
        SharedLimiterKey.java
        logs
        Log4jConfigurationHelper.java
        LogCopier.java
        recordcount
        CompactionRecordCountProvider.java
        IngestionRecordCountProvider.java
        LateFileRecordCountProvider.java
        reflection
        GobblinConstructorUtils.java
        request_allocation
        AllocatedRequestsIterator.java
        AllocatedRequestsIteratorBase.java
        BruteForceAllocator.java
        ConcurrentBoundedPriorityIterable.java
        GreedyAllocator.java
        HierarchicalAllocator.java
        HierarchicalPrioritizer.java
        PreOrderAllocator.java
        PriorityIterableBasedRequestAllocator.java
        PriorityMultiIterator.java
        PushDownRequestor.java
        Request.java
        RequestAllocator.java
        RequestAllocatorConfig.java
        RequestAllocatorUtils.java
        Requestor.java
        ResourceEstimator.java
        ResourcePool.java
        ResourceRequirement.java
        SimpleHierarchicalPrioritizer.java
        VectorAlgebra.java
        service
        StandardServiceConfig.java
        test
        HelloWorldSource.java
        StdoutWriter.java
        TestingSource.java
    - test
      - java
        gobblin
        broker
        AutoscopedFactoryTest.java
        DefaultGobblinBrokerTest.java
        GobblinBrokerConfTest.java
        GobblinBrokerCreationTest.java
        KeyedScopedConfigViewImplTest.java
        SharedResourcesBrokerFactoryTest.java
        TestFactory.java
        TestFactoryWithRedirect.java
        TestResourceKey.java
        util
        AvroFlattenerTest.java
        AvroUtilsTest.java
        ClustersNamesTest.java
        ConfigUtilsTest.java
        ExecutorsUtilsTest.java
        FileListUtilsTest.java
        ForkOperatorUtilsTest.java
        HadoopUtilsTest.java
        HeapDumpForTaskUtilsTest.java
        JobLauncherUtilsTest.java
        LoggingUncaughtExceptionHandlerTest.java
        ParallelRunnerTest.java
        PortUtilsTest.java
        PropertiesUtilsTest.java
        PullFileLoaderTest.java
        RatedControlledFileSystemTest.java
        SerializationUtilsTest.java
        StringParsingUtilsTest.java
        TestImmutableProperties.java
        TimeRangeCheckerTest.java
        WriterUtilsTest.java
        binpacking
        WorstFitDecreasingBinPackingTest.java
        callbacks
        TestCallbacksDispatcher.java
        concurrent
        HashedWheelTimerTaskSchedulerTest.java
        ScheduledExecutorServiceTaskSchedulerTest.java
        TaskSchedulerFactoryTest.java
        TaskSchedulerTest.java
        dataset
        DatasetUtilsTest.java
        executors
        IteratorExecutorTest.java
        filesystem
        FileSystemFactoryTest.java
        InstrumentedLocalFileSystemTest.java
        ThrottledFileSystemTest.java
        filters
        RegexPathFilterTest.java
        guid
        GuidTest.java
        io
        GsonInterfaceAdapterTest.java
        MeteredInputStreamTest.java
        MeteredOutputStreamTest.java
        StreamCopierTest.java
        StreamUtilsTest.java
        ThrottledInputStreamTest.java
        limiter
        CountBasedLimiterTest.java
        DefaultLimiterFactoryTest.java
        MultiLimiterTest.java
        RateBasedLimiterTest.java
        TimeBasedLimiterTest.java
        broker
        SharedLimiterFactoryTest.java
        recordcount
        CompactionRecordCountProviderTest.java
        IngestionRecordCountProviderTest.java
        reflection
        GobblinConstructorUtilsTest.java
        request_allocation
        BruteForceAllocatorTest.java
        ConcurrentBoundedPriorityIterableTest.java
        GreedyAllocatorTest.java
        HierarchicalAllocatorTest.java
        PreOrderAllocatorTest.java
        ResourcePoolTest.java
        StringRequest.java
        StringRequestor.java
        VectorAlgebraTest.java
        test
        BaseClass.java
        ExtendedClass.java
        TestClass.java
        TestHelloWorldSource.java
- gobblin-yarn
  - src
    - main
      - java
        gobblin
        yarn
        GobblinApplicationMaster.java
        GobblinYarnAppLauncher.java
        GobblinYarnConfigurationKeys.java
        GobblinYarnEventConstants.java
        GobblinYarnLogSource.java
        GobblinYarnMetricTagNames.java
        GobblinYarnTaskRunner.java
        HelixMessageSubTypes.java
        YarnAppSecurityManager.java
        YarnContainerSecurityManager.java
        YarnHelixUtils.java
        YarnService.java
        event
        ApplicationReportArrivalEvent.java
        ContainerShutdownRequest.java
        DelegationTokenUpdatedEvent.java
        GetApplicationReportFailureEvent.java
        NewContainerRequest.java
    - test
      - java
        gobblin
        yarn
        GobblinYarnAppLauncherTest.java
        YarnSecurityManagerTest.java

/*
 * Licensed to the Apache Software Foundation (ASF) under one or more
 * contributor license agreements.  See the NOTICE file distributed with
 * this work for additional information regarding copyright ownership.
 * The ASF licenses this file to You under the Apache License, Version 2.0
 * (the "License"); you may not use this file except in compliance with
 * the License.  You may obtain a copy of the License at
 *
 *    http://www.apache.org/licenses/LICENSE-2.0
 *
 * Unless required by applicable law or agreed to in writing, software
 * distributed under the License is distributed on an "AS IS" BASIS,
 * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
 * See the License for the specific language governing permissions and
 * limitations under the License.
 */

package gobblin.compaction.mapreduce;

import java.io.IOException;
import java.util.Collection;
import java.util.List;
import java.util.Set;
import java.util.concurrent.Callable;
import java.util.concurrent.ExecutionException;
import java.util.concurrent.ExecutorService;
import java.util.concurrent.Future;

import org.apache.commons.io.FilenameUtils;
import org.apache.commons.math3.primes.Primes;
import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.filecache.DistributedCache;
import org.apache.hadoop.fs.FSDataOutputStream;
import org.apache.hadoop.fs.FileStatus;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.fs.PathFilter;
import org.apache.hadoop.fs.permission.FsPermission;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.joda.time.DateTime;
import org.joda.time.DateTimeZone;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;

import com.google.common.base.Optional;
import com.google.common.base.Preconditions;
import com.google.common.base.Throwables;
import com.google.common.cache.Cache;
import com.google.common.cache.CacheBuilder;
import com.google.common.collect.ImmutableList;
import com.google.common.collect.ImmutableSet;
import com.google.common.collect.Lists;
import com.google.common.collect.Sets;
import com.google.common.primitives.Ints;

import gobblin.compaction.dataset.Dataset;
import gobblin.compaction.dataset.DatasetHelper;
import gobblin.compaction.event.CompactionSlaEventHelper;
import gobblin.configuration.ConfigurationKeys;
import gobblin.metrics.GobblinMetrics;
import gobblin.metrics.event.EventSubmitter;
import gobblin.util.ExecutorsUtils;
import gobblin.util.FileListUtils;
import gobblin.util.HadoopUtils;
import gobblin.util.RecordCountProvider;
import gobblin.util.WriterUtils;
import gobblin.util.executors.ScalingThreadPoolExecutor;
import gobblin.util.recordcount.LateFileRecordCountProvider;



/**
 * This class is responsible for configuring and running a single MR job.
 * It should be extended by a subclass that properly configures the mapper and reducer related classes.
 *
 * The properties that control the number of reducers are compaction.target.output.file.size and
 * compaction.max.num.reducers. The number of reducers will be the smaller of
 * [total input size] / [compaction.target.output.file.size] + 1 and [compaction.max.num.reducers].
 *
 * If {@value MRCompactor#COMPACTION_JOB_LATE_DATA_MOVEMENT_TASK} is set to true, does not
 * launch an MR job. Instead, just copies the files present in
 * {@value MRCompactor#COMPACTION_JOB_LATE_DATA_FILES} to a 'late' subdirectory within
 * the output directory.
 *
 * @author Ziyang Liu
 */
@SuppressWarnings("deprecation")
public abstract class MRCompactorJobRunner implements Runnable, Comparable<MRCompactorJobRunner> {

  private static final Logger LOG = LoggerFactory.getLogger(MRCompactorJobRunner.class);

  private static final String COMPACTION_JOB_PREFIX = "compaction.job.";

  /**
   * Properties related to the compaction job of a dataset.
   */
  public static final String COMPACTION_JOB_OUTPUT_DIR_PERMISSION = COMPACTION_JOB_PREFIX + "output.dir.permission";
  public static final String COMPACTION_JOB_TARGET_OUTPUT_FILE_SIZE =
      COMPACTION_JOB_PREFIX + "target.output.file.size";
  public static final long DEFAULT_COMPACTION_JOB_TARGET_OUTPUT_FILE_SIZE = 536870912;
  public static final String COMPACTION_JOB_MAX_NUM_REDUCERS = COMPACTION_JOB_PREFIX + "max.num.reducers";
  public static final int DEFAULT_COMPACTION_JOB_MAX_NUM_REDUCERS = 900;
  private static final String COMPACTION_JOB_OVERWRITE_OUTPUT_DIR = COMPACTION_JOB_PREFIX + "overwrite.output.dir";
  private static final boolean DEFAULT_COMPACTION_JOB_OVERWRITE_OUTPUT_DIR = false;
  private static final String COMPACTION_JOB_ABORT_UPON_NEW_DATA = COMPACTION_JOB_PREFIX + "abort.upon.new.data";
  private static final boolean DEFAULT_COMPACTION_JOB_ABORT_UPON_NEW_DATA = false;
  private static final String COMPACTION_COPY_LATE_DATA_THREAD_POOL_SIZE =
      COMPACTION_JOB_PREFIX + "copy.latedata.thread.pool.size";
  private static final int DEFAULT_COMPACTION_COPY_LATE_DATA_THREAD_POOL_SIZE = 5;

  // If true, the MR job will use either 1 reducer or a prime number of reducers.
  public static final String COMPACTION_JOB_USE_PRIME_REDUCERS = COMPACTION_JOB_PREFIX + "use.prime.reducers";
  public static final boolean DEFAULT_COMPACTION_JOB_USE_PRIME_REDUCERS = true;

  public static final String HADOOP_JOB_NAME = "Gobblin MR Compaction";
  private static final long MR_JOB_CHECK_COMPLETE_INTERVAL_MS = 5000;

  public enum Policy {

    // The job runner is permitted to publish the data.
    DO_PUBLISH_DATA,

    // The job runner can proceed with the compaction for now but should not publish the data.
    DO_NOT_PUBLISH_DATA,

    // The job runner should abort asap without publishing data.
    ABORT_ASAP
  }

  public enum Status {
    ABORTED,
    COMMITTED,
    RUNNING
  }

  protected final Dataset dataset;
  protected final FileSystem fs;
  protected final FsPermission perm;
  protected final boolean shouldDeduplicate;
  protected final boolean outputDeduplicated;
  protected final boolean recompactFromDestPaths;
  protected final boolean recompactAllData;
  protected final boolean renameSourceDir;
  protected final boolean usePrimeReducers;
  protected final EventSubmitter eventSubmitter;
  private final RecordCountProvider inputRecordCountProvider;
  private final RecordCountProvider outputRecordCountProvider;
  private final LateFileRecordCountProvider lateInputRecordCountProvider;
  private final LateFileRecordCountProvider lateOutputRecordCountProvider;
  private final DatasetHelper datasetHelper;
  private final int copyLateDataThreadPoolSize;

  private volatile Policy policy = Policy.DO_NOT_PUBLISH_DATA;
  private volatile Status status = Status.RUNNING;
  private final Cache<Path, List<Path>> applicablePathCache;

  protected MRCompactorJobRunner(Dataset dataset, FileSystem fs) {
    this.dataset = dataset;
    this.fs = fs;
    this.perm = HadoopUtils.deserializeFsPermission(this.dataset.jobProps(), COMPACTION_JOB_OUTPUT_DIR_PERMISSION,
        FsPermission.getDefault());
    this.recompactFromDestPaths = this.dataset.jobProps().getPropAsBoolean(
        MRCompactor.COMPACTION_RECOMPACT_FROM_DEST_PATHS, MRCompactor.DEFAULT_COMPACTION_RECOMPACT_FROM_DEST_PATHS);
    this.recompactAllData = this.dataset.jobProps().getPropAsBoolean(
        MRCompactor.COMPACTION_RECOMPACT_ALL_DATA, MRCompactor.DEFAULT_COMPACTION_RECOMPACT_ALL_DATA);
    this.renameSourceDir = this.dataset.jobProps().getPropAsBoolean(
        MRCompactor.COMPACTION_RENAME_SOURCE_DIR_ENABLED, MRCompactor.DEFAULT_COMPACTION_RENAME_SOURCE_DIR_ENABLED);

    Preconditions.checkArgument(this.dataset.jobProps().contains(MRCompactor.COMPACTION_SHOULD_DEDUPLICATE),
        String.format("Missing property %s for dataset %s", MRCompactor.COMPACTION_SHOULD_DEDUPLICATE, this.dataset));
    this.shouldDeduplicate = this.dataset.jobProps().getPropAsBoolean(MRCompactor.COMPACTION_SHOULD_DEDUPLICATE);

    this.outputDeduplicated = this.dataset.jobProps().getPropAsBoolean(MRCompactor.COMPACTION_OUTPUT_DEDUPLICATED,
        MRCompactor.DEFAULT_COMPACTION_OUTPUT_DEDUPLICATED);

    this.usePrimeReducers = this.dataset.jobProps().getPropAsBoolean(COMPACTION_JOB_USE_PRIME_REDUCERS,
        DEFAULT_COMPACTION_JOB_USE_PRIME_REDUCERS);

    this.eventSubmitter = new EventSubmitter.Builder(
        GobblinMetrics.get(this.dataset.jobProps().getProp(ConfigurationKeys.JOB_NAME_KEY)).getMetricContext(),
        MRCompactor.COMPACTION_TRACKING_EVENTS_NAMESPACE).build();

    this.copyLateDataThreadPoolSize = this.dataset.jobProps().getPropAsInt(COMPACTION_COPY_LATE_DATA_THREAD_POOL_SIZE,
        DEFAULT_COMPACTION_COPY_LATE_DATA_THREAD_POOL_SIZE);

    try {
      this.inputRecordCountProvider = (RecordCountProvider) Class
          .forName(this.dataset.jobProps().getProp(MRCompactor.COMPACTION_INPUT_RECORD_COUNT_PROVIDER,
              MRCompactor.DEFAULT_COMPACTION_INPUT_RECORD_COUNT_PROVIDER))
          .newInstance();
      this.outputRecordCountProvider = (RecordCountProvider) Class
          .forName(this.dataset.jobProps().getProp(MRCompactor.COMPACTION_OUTPUT_RECORD_COUNT_PROVIDER,
              MRCompactor.DEFAULT_COMPACTION_OUTPUT_RECORD_COUNT_PROVIDER))
          .newInstance();
      this.lateInputRecordCountProvider = new LateFileRecordCountProvider(this.inputRecordCountProvider);
      this.lateOutputRecordCountProvider = new LateFileRecordCountProvider(this.outputRecordCountProvider);
    } catch (Exception e) {
      throw new RuntimeException("Failed to instantiate RecordCountProvider", e);
    }

    this.applicablePathCache = CacheBuilder.newBuilder().maximumSize(2000).build();
    this.datasetHelper = new DatasetHelper(this.dataset, this.fs, this.getApplicableFileExtensions());

  }

  @Override
  public void run() {
    Configuration conf = HadoopUtils.getConfFromState(this.dataset.jobProps());

    // Turn on mapreduce output compression by default
    if (conf.get("mapreduce.output.fileoutputformat.compress") == null && conf.get("mapred.output.compress") == null) {
      conf.setBoolean("mapreduce.output.fileoutputformat.compress", true);
    }

    // Disable delegation token cancellation by default
    if (conf.get("mapreduce.job.complete.cancel.delegation.tokens") == null) {
      conf.setBoolean("mapreduce.job.complete.cancel.delegation.tokens", false);
    }

    try {
      DateTime compactionTimestamp = getCompactionTimestamp();
      LOG.info("MR Compaction Job Timestamp " + compactionTimestamp.getMillis());
      if (this.dataset.jobProps().getPropAsBoolean(MRCompactor.COMPACTION_JOB_LATE_DATA_MOVEMENT_TASK, false)) {
        List<Path> newLateFilePaths = Lists.newArrayList();
        for (String filePathString : this.dataset.jobProps()
            .getPropAsList(MRCompactor.COMPACTION_JOB_LATE_DATA_FILES)) {
          if (FilenameUtils.isExtension(filePathString, getApplicableFileExtensions())) {
            newLateFilePaths.add(new Path(filePathString));
          }
        }

        Path lateDataOutputPath = this.outputDeduplicated ? this.dataset.outputLatePath() : this.dataset.outputPath();
        LOG.info(String.format("Copying %d late data files to %s", newLateFilePaths.size(), lateDataOutputPath));
        if (this.outputDeduplicated) {
          if (!this.fs.exists(lateDataOutputPath)) {
            if (!this.fs.mkdirs(lateDataOutputPath)) {
              throw new RuntimeException(
                  String.format("Failed to create late data output directory: %s.", lateDataOutputPath.toString()));
            }
          }
        }
        this.copyDataFiles(lateDataOutputPath, newLateFilePaths);
        if (this.outputDeduplicated) {
          dataset.checkIfNeedToRecompact (datasetHelper);
        }
        this.status = Status.COMMITTED;
      } else {
        if (this.fs.exists(this.dataset.outputPath()) && !canOverwriteOutputDir()) {
          LOG.warn(String.format("Output paths %s exists. Will not compact %s.", this.dataset.outputPath(),
              this.dataset.inputPaths()));
          this.status = Status.COMMITTED;
          return;
        }
        addJars(conf);
        Job job = Job.getInstance(conf);
        this.configureJob(job);
        this.submitAndWait(job);
        if (shouldPublishData(compactionTimestamp)) {
          if (!this.recompactAllData && this.recompactFromDestPaths) {
            // append new files without deleting output directory
            addFilesInTmpPathToOutputPath();
            // clean up late data from outputLateDirectory, which has been set to inputPath
            deleteFilesByPaths(this.dataset.inputPaths());
          } else {
            moveTmpPathToOutputPath();
            if (this.recompactFromDestPaths) {
              deleteFilesByPaths(this.dataset.additionalInputPaths());
            }
          }
          submitSlaEvent(job);
          LOG.info("Successfully published data for input folder " + this.dataset.inputPaths());
          this.status = Status.COMMITTED;
        } else {
          LOG.info("Data not published for input folder " + this.dataset.inputPaths() + " due to incompleteness");
          this.status = Status.ABORTED;
          return;
        }
      }
      if (renameSourceDir) {
        MRCompactor.renameSourceDirAsCompactionComplete (this.fs, this.dataset);
      } else {
        this.markOutputDirAsCompleted(compactionTimestamp);
      }
      this.submitRecordsCountsEvent();
    } catch (Throwable t) {
      throw Throwables.propagate(t);
    }
  }


  /**
   * For regular compactions, compaction timestamp is the time the compaction job starts.
   *
   * If this is a recompaction from output paths, the compaction timestamp will remain the same as previously
   * persisted compaction time. This is because such a recompaction doesn't consume input data, so next time,
   * whether a file in the input folder is considered late file should still be based on the previous compaction
   * timestamp.
   */
  private DateTime getCompactionTimestamp() throws IOException {
    DateTimeZone timeZone = DateTimeZone.forID(
        this.dataset.jobProps().getProp(MRCompactor.COMPACTION_TIMEZONE, MRCompactor.DEFAULT_COMPACTION_TIMEZONE));

    if (!this.recompactFromDestPaths) {
      return new DateTime(timeZone);
    }

    Set<Path> inputPaths = getInputPaths();
    long maxTimestamp = Long.MIN_VALUE;
    for (FileStatus status : FileListUtils.listFilesRecursively(this.fs, inputPaths)) {
      maxTimestamp = Math.max(maxTimestamp, status.getModificationTime());
    }
    return maxTimestamp == Long.MIN_VALUE ? new DateTime(timeZone) : new DateTime(maxTimestamp, timeZone);
  }

  private void copyDataFiles(final Path outputDirectory, List<Path> inputFilePaths) throws IOException {
    ExecutorService executor = ScalingThreadPoolExecutor.newScalingThreadPool(0, this.copyLateDataThreadPoolSize, 100,
        ExecutorsUtils.newThreadFactory(Optional.of(LOG), Optional.of(this.dataset.getName() + "-copy-data")));

    List<Future<?>> futures = Lists.newArrayList();
    for (final Path filePath : inputFilePaths) {
      Future<Void> future = executor.submit(new Callable<Void>() {
        @Override
        public Void call() throws Exception {
          Path convertedFilePath = MRCompactorJobRunner.this.outputRecordCountProvider.convertPath(
              LateFileRecordCountProvider.restoreFilePath(filePath),
              MRCompactorJobRunner.this.inputRecordCountProvider);
          String targetFileName = convertedFilePath.getName();
          Path outPath = MRCompactorJobRunner.this.lateOutputRecordCountProvider.constructLateFilePath(targetFileName,
              MRCompactorJobRunner.this.fs, outputDirectory);
          HadoopUtils.copyPath (MRCompactorJobRunner.this.fs, filePath, MRCompactorJobRunner.this.fs, outPath, true,
              MRCompactorJobRunner.this.fs.getConf());
          LOG.debug(String.format("Copied %s to %s.", filePath, outPath));
          return null;
        }
      });
      futures.add(future);
    }
    try {
      for (Future<?> future : futures) {
        future.get();
      }
    } catch (ExecutionException | InterruptedException e) {
      throw new IOException("Failed to copy file.", e);
    } finally {
      ExecutorsUtils.shutdownExecutorService(executor, Optional.of(LOG));
    }
  }

  private boolean canOverwriteOutputDir() {
    return this.dataset.jobProps().getPropAsBoolean(COMPACTION_JOB_OVERWRITE_OUTPUT_DIR,
        DEFAULT_COMPACTION_JOB_OVERWRITE_OUTPUT_DIR) || this.recompactFromDestPaths;
  }

  private void addJars(Configuration conf) throws IOException {
    if (!this.dataset.jobProps().contains(MRCompactor.COMPACTION_JARS)) {
      return;
    }
    Path jarFileDir = new Path(this.dataset.jobProps().getProp(MRCompactor.COMPACTION_JARS));
    for (FileStatus status : this.fs.listStatus(jarFileDir)) {
      DistributedCache.addFileToClassPath(status.getPath(), conf, this.fs);
    }
  }

  protected void configureJob(Job job) throws IOException {
    job.setJobName(HADOOP_JOB_NAME);
    configureInputAndOutputPaths(job);
    configureMapper(job);
    configureReducer(job);
    if (!this.shouldDeduplicate) {
      job.setNumReduceTasks(0);
    }
  }

  private void configureInputAndOutputPaths(Job job) throws IOException {
    for (Path inputPath : getInputPaths()) {
      FileInputFormat.addInputPath(job, inputPath);
    }

    //MR output path must not exist when MR job starts, so delete if exists.
    this.fs.delete(this.dataset.outputTmpPath(), true);
    FileOutputFormat.setOutputPath(job, this.dataset.outputTmpPath());
  }

  private Set<Path> getInputPaths() {
    return ImmutableSet.<Path> builder().addAll(this.dataset.inputPaths()).addAll(this.dataset.additionalInputPaths())
        .build();
  }

  public Dataset getDataset() {
    return this.dataset;
  }

  protected void configureMapper(Job job) {
    setInputFormatClass(job);
    setMapperClass(job);
    setMapOutputKeyClass(job);
    setMapOutputValueClass(job);
  }

  protected void configureReducer(Job job) throws IOException {
    setOutputFormatClass(job);
    setReducerClass(job);
    setOutputKeyClass(job);
    setOutputValueClass(job);
    setNumberOfReducers(job);
  }

  protected abstract void setInputFormatClass(Job job);

  protected abstract void setMapperClass(Job job);

  protected abstract void setMapOutputKeyClass(Job job);

  protected abstract void setMapOutputValueClass(Job job);

  protected abstract void setOutputFormatClass(Job job);

  protected abstract void setReducerClass(Job job);

  protected abstract void setOutputKeyClass(Job job);

  protected abstract void setOutputValueClass(Job job);

  protected abstract Collection<String> getApplicableFileExtensions();

  protected void setNumberOfReducers(Job job) throws IOException {
    long inputSize = getInputSize();
    long targetFileSize = getTargetFileSize();
    int numReducers = Math.min(Ints.checkedCast(inputSize / targetFileSize) + 1, getMaxNumReducers());
    if (this.usePrimeReducers && numReducers != 1) {
      numReducers = Primes.nextPrime(numReducers);
    }
    job.setNumReduceTasks(numReducers);
  }

  private long getInputSize() throws IOException {
    long inputSize = 0;
    for (Path inputPath : this.getInputPaths()) {
      inputSize += this.fs.getContentSummary(inputPath).getLength();
    }
    return inputSize;
  }

  private long getTargetFileSize() {
    return this.dataset.jobProps().getPropAsLong(COMPACTION_JOB_TARGET_OUTPUT_FILE_SIZE,
        DEFAULT_COMPACTION_JOB_TARGET_OUTPUT_FILE_SIZE);
  }

  private int getMaxNumReducers() {
    return this.dataset.jobProps().getPropAsInt(COMPACTION_JOB_MAX_NUM_REDUCERS,
        DEFAULT_COMPACTION_JOB_MAX_NUM_REDUCERS);
  }

  private void submitAndWait(Job job) throws ClassNotFoundException, IOException, InterruptedException {
    job.submit();
    MRCompactor.addRunningHadoopJob(this.dataset, job);
    LOG.info(String.format("MR job submitted for dataset %s, input %s, url: %s", this.dataset, getInputPaths(),
        job.getTrackingURL()));
    while (!job.isComplete()) {
      if (this.policy == Policy.ABORT_ASAP) {
        LOG.info(String.format(
            "MR job for dataset %s, input %s killed due to input data incompleteness." + " Will try again later",
            this.dataset, getInputPaths()));
        job.killJob();
        return;
      }
      Thread.sleep(MR_JOB_CHECK_COMPLETE_INTERVAL_MS);
    }
    if (!job.isSuccessful()) {
      throw new RuntimeException(String.format("MR job failed for topic %s, input %s, url: %s", this.dataset,
          getInputPaths(), job.getTrackingURL()));
    }
  }

  /**
   * Data should be published if: (1) this.policy == {@link Policy#DO_PUBLISH_DATA}; (2) either
   * compaction.abort.upon.new.data=false, or no new data is found in the input folder since jobStartTime.
   */
  private boolean shouldPublishData(DateTime jobStartTime) throws IOException {
    if (this.policy != Policy.DO_PUBLISH_DATA) {
      return false;
    }
    if (!this.dataset.jobProps().getPropAsBoolean(COMPACTION_JOB_ABORT_UPON_NEW_DATA,
        DEFAULT_COMPACTION_JOB_ABORT_UPON_NEW_DATA)) {
      return true;
    }
    for (Path inputPath : getInputPaths()) {
      if (findNewDataSinceCompactionStarted(inputPath, jobStartTime)) {
        return false;
      }
    }
    return true;
  }

  private boolean findNewDataSinceCompactionStarted(Path inputPath, DateTime jobStartTime) throws IOException {
    for (FileStatus fstat : FileListUtils.listFilesRecursively(this.fs, inputPath)) {
      DateTime fileModificationTime = new DateTime(fstat.getModificationTime());
      if (fileModificationTime.isAfter(jobStartTime)) {
        LOG.info(String.format("Found new file %s in input folder %s after compaction started. Will abort compaction.",
            fstat.getPath(), inputPath));
        return true;
      }
    }
    return false;
  }

  private void markOutputDirAsCompleted(DateTime jobStartTime) throws IOException {
    Path completionFilePath = new Path(this.dataset.outputPath(), MRCompactor.COMPACTION_COMPLETE_FILE_NAME);
    try (FSDataOutputStream completionFileStream = this.fs.create(completionFilePath)) {
      completionFileStream.writeLong(jobStartTime.getMillis());
    }
  }

  private void moveTmpPathToOutputPath() throws IOException {
    LOG.info(String.format("Moving %s to %s", this.dataset.outputTmpPath(), this.dataset.outputPath()));

    this.fs.delete(this.dataset.outputPath(), true);

    WriterUtils.mkdirsWithRecursivePermission(this.fs, this.dataset.outputPath().getParent(), this.perm);
    if (!this.fs.rename(this.dataset.outputTmpPath(), this.dataset.outputPath())) {
      throw new IOException(
          String.format("Unable to move %s to %s", this.dataset.outputTmpPath(), this.dataset.outputPath()));
    }
  }

  private void addFilesInTmpPathToOutputPath () throws IOException {
    List<Path> paths = this.getApplicableFilePaths(this.dataset.outputTmpPath());
    for (Path path: paths) {
      String fileName = path.getName();
      LOG.info(String.format("Adding %s to %s", path.toString(), this.dataset.outputPath()));
      Path outPath = MRCompactorJobRunner.this.lateOutputRecordCountProvider.constructLateFilePath(fileName,
          MRCompactorJobRunner.this.fs, this.dataset.outputPath());

      if (!this.fs.rename(path, outPath)) {
        throw new IOException(
            String.format("Unable to move %s to %s", path.toString(), outPath.toString()));
      }
    }
  }


  private void deleteFilesByPaths(Set<Path> paths) throws IOException {
    for (Path path : paths) {
      HadoopUtils.deletePathAndEmptyAncestors(this.fs, path, true);
    }
  }

  /**
   * Tell the {@link MRCompactorJobRunner} that it can go ahead and publish the data.
   */
  public void proceed() {
    this.policy = Policy.DO_PUBLISH_DATA;
  }

  public void abort() {
    this.policy = Policy.ABORT_ASAP;
  }

  /**
   * The status of the MRCompactorJobRunner.
   * @return RUNNING, COMMITTED or ABORTED.
   */
  public Status status() {
    return this.status;
  }

  @Override
  public int compareTo(MRCompactorJobRunner o) {
    return Double.compare(o.dataset.priority(), this.dataset.priority());
  }

  /**
   * Get the list of file {@link Path}s in the given dataDir, which satisfy the extension requirements
   *  of {@link #getApplicableFileExtensions()}.
   */
  private List<Path> getApplicableFilePaths(final Path dataDir) throws IOException {
    try {
      return applicablePathCache.get(dataDir, new Callable<List<Path>>() {

        @Override
        public List<Path> call() throws Exception {
          if (!MRCompactorJobRunner.this.fs.exists(dataDir)) {
            return Lists.newArrayList();
          }
          List<Path> paths = Lists.newArrayList();
          for (FileStatus fileStatus : FileListUtils.listFilesRecursively(MRCompactorJobRunner.this.fs, dataDir,
              new PathFilter() {
            @Override
            public boolean accept(Path path) {
              for (String validExtention : getApplicableFileExtensions()) {
                if (path.getName().endsWith(validExtention)) {
                  return true;
                }
              }
              return false;
            }
          })) {
            paths.add(fileStatus.getPath());
          }
          return paths;
        }
      });
    } catch (ExecutionException e) {
      throw new IOException(e);
    }
  }

  /**
   * Submit an event when compaction MR job completes
   */
  private void submitSlaEvent(Job job) {
    try {
      CompactionSlaEventHelper
          .getEventSubmitterBuilder(this.dataset, Optional.of(job), this.fs)
          .eventSubmitter(this.eventSubmitter)
          .eventName(CompactionSlaEventHelper.COMPACTION_COMPLETED_EVENT_NAME)
          .additionalMetadata(
              CompactionSlaEventHelper.LATE_RECORD_COUNT,
              Long.toString(this.lateOutputRecordCountProvider.getRecordCount(this.getApplicableFilePaths(this.dataset
                  .outputLatePath()))))
          .additionalMetadata(
              CompactionSlaEventHelper.REGULAR_RECORD_COUNT,
              Long.toString(this.outputRecordCountProvider.getRecordCount(this.getApplicableFilePaths(this.dataset
                  .outputPath()))))
          .additionalMetadata(CompactionSlaEventHelper.RECOMPATED_METADATA_NAME,
              Boolean.toString(this.dataset.needToRecompact())).build().submit();
    } catch (Throwable e) {
      LOG.warn("Failed to submit compcation completed event:" + e, e);
    }
  }

  /**
   * Submit an event reporting late record counts and non-late record counts.
   */
  private void submitRecordsCountsEvent() {
    long lateOutputRecordCount = this.datasetHelper.getLateOutputRecordCount();
    long outputRecordCount = this.datasetHelper.getOutputRecordCount();

    try {
      CompactionSlaEventHelper
          .getEventSubmitterBuilder(this.dataset, Optional.<Job> absent(), this.fs)
          .eventSubmitter(this.eventSubmitter)
          .eventName(CompactionSlaEventHelper.COMPACTION_RECORD_COUNT_EVENT)
          .additionalMetadata(CompactionSlaEventHelper.DATASET_OUTPUT_PATH, this.dataset.outputPath().toString())
          .additionalMetadata(
              CompactionSlaEventHelper.LATE_RECORD_COUNT,
              Long.toString(lateOutputRecordCount))
          .additionalMetadata(
              CompactionSlaEventHelper.REGULAR_RECORD_COUNT,
              Long.toString(outputRecordCount))
          .additionalMetadata(CompactionSlaEventHelper.NEED_RECOMPACT, Boolean.toString(this.dataset.needToRecompact()))
          .build().submit();
    } catch (Throwable e) {
      LOG.warn("Failed to submit late event count:" + e, e);
    }
  }
}