HealthCheckServiceImpl.java example

Explorer

telekom-workflow-engine-master
- telekom-workflow-api
  - src
    - main
      - java
        ee
        telekom
        workflow
        api
        DslAttribute.java
        DslBlock.java
        DslBranchBlock.java
        DslDoWhileBlock.java
        DslElseBlock.java
        DslExpression.java
        DslIfBlock.java
        DslMainBlock.java
        DslSplit.java
        DslValidationBlock.java
        DslVariable.java
        DslWhileDoBlock.java
        WorkflowDefinition.java
        WorkflowFactory.java
        facade
        WorkflowEngineFacade.java
        model
        CreateWorkflowInstance.java
        ExecutionErrorState.java
        SearchWorkflowInstances.java
        WorkItemState.java
        WorkflowInstanceFacadeStatus.java
        WorkflowInstanceState.java
        listener
        HumanTaskEvent.java
        HumanTaskEventListener.java
        WorkflowInstanceEvent.java
        WorkflowInstanceEventListener.java
    - test
      - java
        ee
        telekom
        workflow
        api
        PlaceholderTest.java
- telekom-workflow-engine
  - src
    - main
      - java
        ee
        telekom
        workflow
        api
        Element.java
        ElementUtil.java
        GraphBuilder.java
        NodeBuilder.java
        Row.java
        TransitionBuilder.java
        Tree.java
        WorkflowFactoryImpl.java
        core
        abort
        AbortService.java
        AbortServiceImpl.java
        archive
        ArchiveDao.java
        ArchiveService.java
        ArchiveServiceImpl.java
        common
        UnexpectedStatusException.java
        WorkflowEngineConfiguration.java
        error
        ExecutionError.java
        ExecutionErrorDao.java
        ExecutionErrorRowMapper.java
        ExecutionErrorService.java
        ExecutionErrorServiceImpl.java
        lock
        LockDao.java
        LockService.java
        LockServiceImpl.java
        node
        Node.java
        NodeDao.java
        NodeRowMapper.java
        NodeService.java
        NodeServiceImpl.java
        NodeStatus.java
        notification
        ExceptionNotificationService.java
        ExceptionNotificationServiceImpl.java
        recovery
        RecoveryService.java
        RecoveryServiceImpl.java
        retry
        RetryService.java
        RetryServiceImpl.java
        workflowinstance
        WorkflowInstance.java
        WorkflowInstanceDao.java
        WorkflowInstanceRowMapper.java
        WorkflowInstanceService.java
        WorkflowInstanceServiceImpl.java
        WorkflowInstanceStatus.java
        workitem
        WorkItem.java
        WorkItemDao.java
        WorkItemRowMapper.java
        WorkItemService.java
        WorkItemServiceImpl.java
        WorkItemType.java
        workunit
        WorkType.java
        WorkUnit.java
        WorkUnitDao.java
        WorkUnitRowMapper.java
        WorkUnitService.java
        WorkUnitServiceImpl.java
        executor
        GraphEngineFactory.java
        WorkflowExecutor.java
        WorkflowExecutorImpl.java
        consumer
        WorkConsumerJob.java
        WorkConsumerJobImpl.java
        WorkConsumerService.java
        WorkConsumerServiceImpl.java
        lifecycle
        HealthCheckService.java
        HealthCheckServiceImpl.java
        LifecycleJobImpl.java
        LifecycleService.java
        LifecycleServiceImpl.java
        marshall
        GraphInstanceRepository.java
        GraphInstanceRepositoryImpl.java
        Marshaller.java
        TokenState.java
        plugin
        WorkflowEnginePlugin.java
        WorkflowEnginePluginImpl.java
        producer
        WorkProducerJob.java
        WorkProducerJobImpl.java
        WorkProducerService.java
        WorkProducerServiceImpl.java
        queue
        HazelcastWorkQueue.java
        WorkQueue.java
        facade
        WorkflowEngineFacadeImpl.java
        util
        DateUtil.java
        HistoryUtil.java
        SqlUtil.java
        StatusUtil.java
        workflowinstance
        WorkflowInstanceStateDao.java
        WorkflowInstanceStateRowMapper.java
        WorkflowStatusCount.java
        WorkflowStatusCountRowMapper.java
        workitem
        WorkItemStateDao.java
        WorkItemStateRowMapper.java
        graph
        BeanResolver.java
        Environment.java
        Graph.java
        GraphEngine.java
        GraphEngineFacade.java
        GraphInstance.java
        GraphInstanceEventListener.java
        GraphRepository.java
        GraphValidator.java
        GraphWorkItem.java
        GraphWorkItemEventListener.java
        NewGraphInstanceCreator.java
        Node.java
        NodeEventListener.java
        Token.java
        Transition.java
        WorkItemStatus.java
        WorkflowException.java
        core
        EnvironmentImpl.java
        EventNotifier.java
        GraphEngineImpl.java
        GraphImpl.java
        GraphInstanceImpl.java
        GraphRepositoryImpl.java
        GraphValidatorImpl.java
        GraphWorkItemImpl.java
        MapBeanResolver.java
        TokenImpl.java
        TransitionImpl.java
        el
        ElUtil.java
        EnvironmentBeanNameResolver.java
        ReservedVariables.java
        node
        AbstractNode.java
        activity
        BeanAsyncCallActivity.java
        BeanCallActivity.java
        CreateNewInstanceActivity.java
        HumanTaskActivity.java
        ObjectCallActivity.java
        ScriptActivity.java
        SetAttributeActivity.java
        ValidateAttributeActivity.java
        event
        CatchSignal.java
        CatchTimer.java
        ThrowEscalation.java
        expression
        Expression.java
        SimpleMethodCallExpression.java
        gateway
        AbstractConditionalGateway.java
        AbstractGateway.java
        AndFork.java
        AndJoin.java
        CancellingDiscriminator.java
        OrFork.java
        XorFork.java
        XorJoin.java
        condition
        AttributeEqualsCondition.java
        Condition.java
        ExpressionLanguageCondition.java
        input
        ArrayMapping.java
        AttributeMapping.java
        ConstantMapping.java
        DueDateMapping.java
        ExpressionLanguageMapping.java
        ExpressionMapping.java
        InputMapping.java
        MapMapping.java
        output
        MapEntryMapping.java
        OutputMapping.java
        ValueMapping.java
        jmx
        ClusterMonitor.java
        ConfigurationMonitor.java
        EngineMonitor.java
        util
        AbstractDao.java
        AbstractRowMapper.java
        AbstractWorkflowEngineDao.java
        AdvancedParameterSource.java
        CallUtil.java
        ExceptionUtil.java
        ExecutorServiceUtil.java
        JsonUtil.java
        MethodUtil.java
        NamedPoolThreadFactory.java
        NoStackTraceException.java
        SimpleLifeCycleBean.java
        StatisticsLoggingAspect.java
        YesNoUtil.java
        liquibase
        ext
        logging
        Slf4jLogger.java
        org
        springmodules
        commons
        configuration
        CommonsConfigurationFactoryBean.java
    - test
      - java
        ee
        telekom
        workflow
        FullApplicationContextIT.java
        TestApplicationContexts.java
        api
        AbstractApiTest.java
        DslFactory.java
        WorkflowFactoryDslTest.java
        core
        archive
        ArchiveIT.java
        lock
        LockServiceIT.java
        recovery
        RecoveryIT.java
        executor
        AbortIT.java
        AbstractWorkflowIT.java
        CreateNewInstanceActivityIT.java
        NoWorkItemIT.java
        OneHumanTaskIT.java
        OneSignaltemIT.java
        OneTaskltemIT.java
        OneTimerItemIT.java
        lifeycle
        MockLifecycleService.java
        marshall
        MarshallerTest.java
        plugin
        MockPlugin.java
        facade
        WorkflowEngineFacadeIT.java
        graph
        AbstractGraphTest.java
        GraphFactory.java
        RecordEventsListener.java
        RecordPathScript.java
        SimpleCounter.java
        core
        AbortInstanceTest.java
        GraphRepositoryTest.java
        GraphValidatorTest.java
        NotificationTest.java
        node
        activity
        BeanAsyncCallActivityTest.java
        HumanTaskActivityTest.java
        ObjectCallActivityTest.java
        ValidateAttributeActivityTest.java
        event
        CatchSignalTest.java
        CatchTimerTest.java
        ThrowEscalationTest.java
        gateway
        _01_SequenceTest.java
        _02_ParallelSplitTest.java
        _03_SynchronizationTest.java
        _04_ExclusiveChoiceTest.java
        _05_SimpleMergeTest.java
        _06_MultipleChoiceTest.java
        _07_CancellingDiscriminatorTest.java
        _08_LoopTest.java
        input
        InputMappingTest.java
        util
        el
        ExpressionLanguageTest.java
        json
        JsonUtilTest.java
        TestChildObject.java
        TestEnum.java
        TestObject.java
- telekom-workflow-example
  - src
    - main
      - java
        ee
        telekom
        workflow
        example
        definition
        ExampleStepSelector.java
        Example_00_StepSelection.java
        Example_01_SendWarning.java
        Example_02_Suspend.java
        Example_03_CreateSchedule.java
        listener
        HumanTaskAutoCompleter.java
        security
        DummyAuthenticationProvider.java
        service
        CustomerService.java
        CustomerServiceImpl.java
    - test
      - java
        ee
        telekom
        workflow
        example
        definition
        ExampleStep00Test.java
- telekom-workflow-test
  - src
    - main
      - java
        ee
        telekom
        workflow
        test
        AbstractWorkflowApiTest.java
        TestGraphEngineFactory.java
- telekom-workflow-web
  - src
    - main
      - java
        ee
        telekom
        workflow
        web
        IndexController.java
        LoggingHandlerExceptionResolver.java
        console
        StatusController.java
        WorkItemController.java
        WorkflowDefinitionsController.java
        WorkflowInstanceCreateController.java
        WorkflowInstanceDetailsController.java
        WorkflowInstancesListController.java
        form
        BatchCreateWorkflowInstancesForm.java
        CreateWorkflowInstanceForm.java
        ExecuteWorkItemForm.java
        SearchWorkflowInstancesForm.java
        helper
        MessageHelper.java
        model
        DataTable.java
        DataTableColumnMapper.java
        MbeanAttributeModel.java
        WorkItemStateModel.java
        WorkflowInstanceSearchModel.java
        WorkflowInstanceStateModel.java
        rest
        RestController.java
        form
        UpdateInstanceStatusForm.java
        model
        HumanTaskModel.java
        WorkflowInstanceRestModel.java
        util
        JdbcDriverDeregisterListener.java
        JsonParserUtil.java
        LogbackStopListener.java
        RequestLoggingFilter.java
        org
        springframework
        http
        converter
        json
        GsonHttpMessageConverterForSpring3.java
    - test
      - java
        ee
        telekom
        workflow
        web
        console
        WorkflowInstancesControllerTest.java
        form
        SearchWorkflowInstancesFormTest.java

package ee.telekom.workflow.executor.lifecycle;

import java.lang.invoke.MethodHandles;
import java.util.List;
import java.util.concurrent.TimeUnit;

import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.beans.factory.annotation.Autowired;
import org.springframework.stereotype.Component;

import ee.telekom.workflow.core.common.WorkflowEngineConfiguration;
import ee.telekom.workflow.core.node.NodeService;
import ee.telekom.workflow.core.recovery.RecoveryService;
import ee.telekom.workflow.executor.producer.WorkProducerJob;
import ee.telekom.workflow.executor.queue.WorkQueue;

@Component
public class HealthCheckServiceImpl implements HealthCheckService{

    private static final Logger log = LoggerFactory.getLogger( MethodHandles.lookup().lookupClass() );

    @Autowired
    private RecoveryService recoveryService;
    @Autowired
    private NodeService nodeService;
    @Autowired
    private WorkProducerJob producer;
    @Autowired
    private WorkQueue queue;
    @Autowired
    private LifecycleService lifecycleService;
    @Autowired
    private WorkflowEngineConfiguration config;

    /**
    * "Cluster healing" is meant to repair inconsistent database state that results from an unclean cluster shutdown or network hardware failure.
    * Inconsistent database state results from non-transactional operations in the cluster, such as adding/taking work units to/from the work unit
    * queue. Let's recall the possible states of (locked, nodeName) of a work instance and how they relate to the non-transactional operations. 
    * <ol>
    * <li>After being a added to the work unit queue -> (true, null)
    * <li>After being taken from the work unit queue -> (true, 'the consuming node's name)
    * <li>After the work unit is successfully -> (false, null).
    * </ol>
    * <p>
    * <b>Scenario 1:</b> A node takes a work unit from the queue and updates the associated workflow instance node_name field. Maybe it also updates
    * the workflow instance's or work item's status field. Afterwards the node is found dead/failed.<br>
    * <b>Scenario 2:</b> The master node locks a workflow instance but fails before it can add the workflow instance to the work unit queue.<br>
    * <p>
    * <b>Resolution for scenario 1:</b><br>
    * <ol>
    * <li>If the node updated the workflow instance's or the work item's status field, then this field is left in the temporary execution status
    *     and needs to be recovered. For workflow instances: STARTING->NEW or ABORTING->ABORT. For work items: EXECUTING->(is task ? NEW : ERROR) 
    *     or COMPLETING->EXECUTED.
    * <li>The fields (locked, nodeName) need to be set to (false, null).
    * </ol>
    * NB! EXECUTING task work items cannot be automatically recovered, since their execution is not guaranteed to be transactional. Therefore, 
    *     they need to be handled manually. To this end, their status field is set to EXECUTING_ERROR and an error message is created in the EXER table.
    * <p>
    * <b>Resolution for scenario 2:</b><br>
    * First of all, we need to make sure that the working queue is empty and that every consumer has had sufficient time to assign its most recently
    * taken work unit to itself. To this extend, every consumer is granted the so called "maximum node assignment time."
    * <p>
    * Two different kind of errors may cause the work unit queue to be empty for at least the duration of the maximum node assignment and at the same
    * time (locked, nodeName) = (true, null) exist. The first kind is that the distributed queue failed. The second kind is that the node which took 
    * the element from the queue failed between taking the element and assigning the process execution to itself.
    * <p>
    * The recovery of this scenario is expensive because we need to suspend the producer, wait for the queue to become empty, wait for 
    * the maximum node assignment grace period, do the* recovery and resume the producer. For this reason, this advanced recovery is not
    * run on every health check. 
    */
    @Override
    public void healFailedNodes(){
        List<String> nodes = nodeService.findFailedNodes();
        if( nodes.isEmpty() ){
            return;
        }
        log.info( "Healing nodes " + nodes );

        // recovery of locked workflow instances that are assigned to a dead node
        recoveryService.recoverExecutionsAssignedToNodes( nodes );

        // recovery of locked workflow instances that are NOT assigned to any node
        boolean isStarted = lifecycleService.isStarted();
        if( isStarted ){
            producer.suspend();
            queue.awaitEmpty();
            int maximumNodeAssignementTime = config.getMaximumNodeAssignmentTimeSeconds();
            sleep( maximumNodeAssignementTime );
        }
        String clusterName = config.getClusterName();
        recoveryService.recoverExecutionsNotAssignedToNodes( clusterName );
        if( isStarted ){
            producer.resume();
        }
        nodeService.markEnable( nodes );
    }

    private void sleep( int seconds ){
        try{
            TimeUnit.SECONDS.sleep( seconds );
        }
        catch( InterruptedException e ){
            log.warn( "Wake up after interrupt exception" );
        }
    }

}