UCTGamer.java example

Explorer

spudplayer-master
- lib
  - slf4j-1.6.1
    - integration
      - src
        test
        java
        integrator
        Activator.java
        org
        slf4j
        CompatibilityAssertionTest.java
        MissingSingletonMethodAssertionTest.java
        MultiBindingAssertionTest.java
        StringPrintStream.java
        VersionMismatchAssertionTest.java
        test_osgi
        BundleTest.java
        CheckingBundleListener.java
        FelixHost.java
        FrameworkErrorListener.java
    - jcl-over-slf4j
      - src
        main
        java
        org
        apache
        commons
        logging
        Log.java
        LogConfigurationException.java
        LogFactory.java
        impl
        NoOpLog.java
        SLF4JLocationAwareLog.java
        SLF4JLog.java
        SLF4JLogFactory.java
        SimpleLog.java
        test
        java
        org
        apache
        commons
        logging
        InvokeJCLTest.java
        impl
        SerializationTest.java
    - jul-to-slf4j
      - src
        main
        java
        org
        slf4j
        bridge
        SLF4JBridgeHandler.java
        test
        java
        org
        slf4j
        bridge
        ListAppender.java
        SLF4JBridgeHandlerPerfTest.java
        SLF4JBridgeHandlerTest.java
    - log4j-over-slf4j
      - src
        main
        java
        org
        apache
        log4j
        Category.java
        Level.java
        Log4jLoggerFactory.java
        LogManager.java
        Logger.java
        MDC.java
        NDC.java
        Priority.java
        test
        java
        org
        apache
        log4j
        Trivial.java
        dummy
        Bug131.java
        Bug139.java
        ListHandler.java
    - slf4j-api
      - src
        main
        java
        org
        slf4j
        ILoggerFactory.java
        IMarkerFactory.java
        Logger.java
        LoggerFactory.java
        MDC.java
        Marker.java
        MarkerFactory.java
        helpers
        BasicMDCAdapter.java
        BasicMarker.java
        BasicMarkerFactory.java
        FormattingTuple.java
        MarkerIgnoringBase.java
        MessageFormatter.java
        NOPLogger.java
        NOPLoggerFactory.java
        NOPMDCAdapter.java
        NamedLoggerBase.java
        SubstituteLoggerFactory.java
        Util.java
        impl
        StaticLoggerBinder.java
        StaticMDCBinder.java
        StaticMarkerBinder.java
        spi
        LocationAwareLogger.java
        LoggerFactoryBinder.java
        MDCAdapter.java
        MarkerFactoryBinder.java
        test
        java
        org
        slf4j
        BasicMarkerTest.java
        Differentiator.java
        NoBindingTest.java
        helpers
        BogoPerf.java
        BubbleSort.java
        BubbleSortTest.java
        MessageFormatterPerfTest.java
        MessageFormatterTest.java
        MyRandom.java
    - slf4j-ext
      - src
        main
        java
        org
        slf4j
        NDC.java
        agent
        AgentOptions.java
        AgentPremain.java
        cal10n
        LocLogger.java
        LocLoggerFactory.java
        ext
        EventData.java
        EventException.java
        EventLogger.java
        LoggerWrapper.java
        MDCStrLookup.java
        XLogger.java
        XLoggerFactory.java
        instrumentation
        JavassistHelper.java
        LogTransformer.java
        ToStringHelper.java
        profiler
        DurationUnit.java
        Profiler.java
        ProfilerRegistry.java
        SpacePadder.java
        StopWatch.java
        TimeInstrument.java
        TimeInstrumentStatus.java
        Util.java
        test
        java
        org
        slf4j
        NDCTest.java
        cal10n_dummy
        LocLoggerTest.java
        Months.java
        MyApplication.java
        PackageTest.java
        Production.java
        dummyExt
        EventLoggerTest.java
        ListAppender.java
        MDCStrLookupTest.java
        PackageTest.java
        XLoggerTest.java
        instrumentation
        ToStringHelperTest.java
        profiler
        BasicProfilerDemo.java
        NestedProfilerDemo.java
        NestedProfilerDemo2.java
        PackageTest.java
        ProfilerTest.java
        RandomIntegerArrayGenerator.java
        SortAndPruneComposites.java
        UtilTest.java
    - slf4j-jcl
      - src
        main
        java
        org
        slf4j
        impl
        JCLLoggerAdapter.java
        JCLLoggerFactory.java
        StaticLoggerBinder.java
        StaticMDCBinder.java
        StaticMarkerBinder.java
        test
        java
        org
        slf4j
        InvocationTest.java
    - slf4j-jdk14
      - src
        main
        java
        org
        slf4j
        impl
        JDK14LoggerAdapter.java
        JDK14LoggerFactory.java
        StaticLoggerBinder.java
        StaticMDCBinder.java
        StaticMarkerBinder.java
        test
        java
        org
        slf4j
        InvocationTest.java
        impl
        JDK14AdapterLoggerNameTest.java
        PerfTest.java
    - slf4j-log4j12
      - src
        main
        java
        org
        slf4j
        impl
        Log4jLoggerAdapter.java
        Log4jLoggerFactory.java
        Log4jMDCAdapter.java
        StaticLoggerBinder.java
        StaticMDCBinder.java
        StaticMarkerBinder.java
        test
        java
        org
        slf4j
        InvocationTest.java
        ListAppender.java
        impl
        RecursiveAppender.java
        RecursiveInitializationTest.java
    - slf4j-migrator
      - src
        main
        java
        org
        slf4j
        migrator
        Constant.java
        ConversionException.java
        FileSelector.java
        InplaceFileConverter.java
        Main.java
        ProjectConverter.java
        RuleSetFactory.java
        helper
        Abbreviator.java
        SpringLayoutHelper.java
        internal
        ConversionTask.java
        MigratorFrame.java
        ProgressListener.java
        ProgressListenerImpl.java
        line
        ConversionRule.java
        EmptyRuleSet.java
        JCLRuleSet.java
        JULRuleSet.java
        LineConverter.java
        Log4jRuleSet.java
        MultiGroupConversionRule.java
        RuleSet.java
        SingleConversionRule.java
        test
        java
        org
        slf4j
        migrator
        AllTest.java
        AternativeApproach.java
        FileConverterTest.java
        PackageTest.java
        ProjectConverterTest.java
        helper
        AbbreviatorTest.java
        PackageTest.java
        RandomHelper.java
        internal
        NopProgressListener.java
        line
        JCLRuleSetTest.java
        Log4jRuleSetTest.java
        NoConversionTest.java
        PackageTest.java
        TrivialMatcherTest.java
        TriviialMatcher.java
    - slf4j-nop
      - src
        main
        java
        org
        slf4j
        impl
        StaticLoggerBinder.java
        StaticMDCBinder.java
        StaticMarkerBinder.java
        test
        java
        org
        slf4j
        InvocationTest.java
    - slf4j-simple
      - src
        main
        java
        org
        slf4j
        impl
        SimpleLogger.java
        SimpleLoggerFactory.java
        StaticLoggerBinder.java
        StaticMDCBinder.java
        StaticMarkerBinder.java
        test
        java
        org
        slf4j
        InvocationTest.java
        SilentPrintStream.java
- src
  - apps
  - external
    - JSON
  - player
    - GamePlayer.java
    - event
    - gamer
      - Gamer.java
      - clojure
        ClojureGamer.java
        stubs
        ClojureLegalGamerStub.java
      - event
        GamerCompletedMatchEvent.java
        GamerNewMatchEvent.java
        GamerUnrecognizedMatchEvent.java
      - exception
        GameCycleException.java
        MetaGamingException.java
        MoveSelectionException.java
      - python
        PythonGamer.java
        stubs
        PythonLegalGamerStub.java
        PythonRandomGamerStub.java
      - statemachine
        StateMachineGamer.java
        human
        HumanGamer.java
        event
        HumanNewMovesEvent.java
        HumanTimeoutEvent.java
        gui
        HumanDetailPanel.java
        reflex
        event
        ReflexMoveSelectionEvent.java
        gui
        ReflexDetailPanel.java
        legal
        LegalGamer.java
        random
        RandomGamer.java
        simple
        SimpleMonteCarloGamer.java
        SimpleSearchLightGamer.java
    - proxy
    - request
      - factory
        RequestFactory.java
        exceptions
        RequestFormatException.java
      - grammar
        AbortRequest.java
        PingRequest.java
        PlayRequest.java
        Request.java
        StartRequest.java
        StopRequest.java
  - server
  - util
    - cache
      - TtlCache.java
    - configuration
    - files
      - FileUtils.java
    - game
    - gdl
    - http
    - kif
      - KifReader.java
    - logging
      - GamerLogger.java
    - match
      - Match.java
      - MatchPublisher.java
    - observer
    - propnet
      - architecture
        Component.java
        PropNet.java
        components
        And.java
        Constant.java
        Not.java
        Or.java
        Proposition.java
        Transition.java
      - factory
        Assignments.java
        CachedPropNetFactory.java
        OptimizingPropNetFactory.java
        PropNetFactory.java
        annotater
        PropNetAnnotater.java
        converter
        PropNetConverter.java
        flattener
        PropNetAnnotatedFlattener.java
        PropNetFlattener.java
      - serialization
        PropNetCache.java
    - prover
      - Prover.java
      - aima
        AimaProver.java
        cache
        ProverCache.java
        knowledge
        KnowledgeBase.java
        renamer
        VariableRenamer.java
        substituter
        Substituter.java
        substitution
        Substitution.java
        unifier
        Unifier.java
    - reflection
      - ProjectSearcher.java
    - statemachine
      - FailsafeStateMachine.java
      - MachineState.java
      - Move.java
      - Role.java
      - StateMachine.java
      - exceptions
        GoalDefinitionException.java
        MoveDefinitionException.java
        TransitionDefinitionException.java
      - implementation
        propnet
        PropNetMachineState.java
        PropNetMove.java
        PropNetRole.java
        PropNetStateMachine.java
        prover
        ProverMachineState.java
        ProverMove.java
        ProverRole.java
        ProverStateMachine.java
        cache
        CachedProverStateMachine.java
        query
        ProverQueryBuilder.java
        result
        ProverResultParser.java
      - verifier
        StateMachineVerifier.java
    - symbol
      - factory
        SymbolFactory.java
        exceptions
        SymbolFormatException.java
      - grammar
        Symbol.java
        SymbolAtom.java
        SymbolList.java
        SymbolPool.java
    - xhtml
      - GameStateRenderPanel.java
  - validator
- src_cust
  - shef
    - instantiator
    - network
    - strategies
      - uct
        UCTGamer.java
        UCTNeuralStrategy.java
        UCTSimpleStrategy.java
        package-info.java
        tree
        Level.java
        StateActionPair.java
        StateModel.java
        Tree.java
        package-info.java
- test

package shef.strategies.uct;

import java.util.ArrayDeque;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.Collections;
import java.util.Deque;
import java.util.HashMap;
import java.util.LinkedList;
import java.util.List;
import java.util.Map.Entry;

import player.gamer.statemachine.StateMachineGamer;
import player.gamer.statemachine.reflex.event.ReflexMoveSelectionEvent;
import player.gamer.statemachine.reflex.gui.ReflexDetailPanel;
import shef.strategies.uct.tree.Level;
import shef.strategies.uct.tree.StateActionPair;
import shef.strategies.uct.tree.StateModel;
import shef.strategies.uct.tree.Tree;
import util.statemachine.MachineState;
import util.statemachine.Move;
import util.statemachine.Role;
import util.statemachine.StateMachine;
import util.statemachine.exceptions.GoalDefinitionException;
import util.statemachine.exceptions.MoveDefinitionException;
import util.statemachine.exceptions.TransitionDefinitionException;
import util.statemachine.implementation.prover.cache.CachedProverStateMachine;
import apps.player.detail.DetailPanel;

/**
 * A base class for any player based on the UCT and changing the out of tree
 * exploration.
 * 
 * Creates an UCT tree and performs expansion on nodes based on the UCT
 * algorithm. <cite>
 * 
 * @author jonathan
 * 
 */
public abstract class UCTGamer extends StateMachineGamer {

	/**
	 * C in the UCT equation, this alters the balance between exploration and
	 * exploitation
	 */
	protected static final float C = 50;

	/** Role of the player */
	private Role myRole;

	/** Index of the player's role in the player list */
	private int myRoleID;

	/** Total number of players */
	public static int roleCount;

	/** UCT tree */
	private Tree tree;

	/** Number of moves played */
	private int moveCount;

	/** Handle to the StateMachine governing this player */
	protected StateMachine theMachine;

	/** */
	protected List<Role> roles;

	/**
	 * Uses a CachedProverStateMachine
	 */
	@Override
	public StateMachine getInitialStateMachine() {
		return new CachedProverStateMachine();
	}

	/**
	 * Setup the UCT game tree and perform rollouts for as long as possible.
	 * 
	 * @param timeout
	 *            time in ms this meta game stage should be finished by
	 */
	@Override
	public void stateMachineMetaGame(final long timeout) throws TransitionDefinitionException, MoveDefinitionException, GoalDefinitionException {
		System.out.println("init");
		final long finishBy = timeout; // - 1000;

		theMachine = getStateMachine();
		myRole = getRole();
		roles = theMachine.getRoles();
		myRoleID = roles.indexOf(myRole);
		roleCount = roles.size();
		moveCount = 0;
		try {
			tree = new Tree(getCurrentState(), this, roleCount);
		} catch (InterruptedException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}
		final StateModel currentSM = tree.getStateLists().get(moveCount).states.get(getStateMachine().getInitialState());
		int rollCount = 0;
		System.out.println("beginning rollouts");
		while (System.currentTimeMillis() < finishBy) {
			rollout(currentSM);

			rollCount++;
		}
		System.out.println(rollCount + " initial");
	}

	/**
	 * As many times as possible in the time available perform rollouts from the
	 * current state
	 * 
	 * @param timeout
	 *            when in ms this move selection should be completed by
	 * @return the move attributed to the most promising {@link StateActionPair}
	 */
	@Override
	public Move stateMachineSelectMove(final long timeout) throws TransitionDefinitionException, MoveDefinitionException, GoalDefinitionException {
		final long start = System.currentTimeMillis();
		final long finishBy = timeout; // - 1000;
		final MachineState cState = getCurrentState();
		final StateModel currentSM = tree.getStateLists().get(moveCount).states.get(cState);
		final List<Move> moves = theMachine.getLegalMoves(cState, myRole);

		Move selection = moves.get(0);
		int rollCount = 0;

		while (true) {
			if (System.currentTimeMillis() > finishBy) {
				// select best move!
				double maxVal = Float.NEGATIVE_INFINITY;
				List<Move> maxMove = null;
				HashMap<List<Move>, StateActionPair> saps = currentSM.actionsPairs;
				for (Entry<List<Move>, StateActionPair> sap : saps.entrySet()) {
					System.out.println("Move " + sap.getKey() + " explored " + sap.getValue().exploreCount + " " + Arrays.toString(sap.getValue().value));
					double v = sap.getValue().value[myRoleID];
					if (v > maxVal || maxMove == null) {
						maxMove = sap.getKey();
						maxVal = v;
					}
				}
				selection = maxMove.get(myRoleID);
				break;
			}

			rollout(currentSM);
			rollCount++;

		}
		final long stop = System.currentTimeMillis();

		moveCount++;
		// StringBuilder sb = new StringBuilder();
		// tree.print(sb);
		// System.out.println(sb.toString());
		notifyObservers(new ReflexMoveSelectionEvent(moves, selection, stop - start));
		System.out.println(rollCount + " " + selection);
		return selection;
	}

	private Deque<StateActionPair> backupSAPs;
	private Deque<StateModel> backupStates;

	/**
	 * Perform a single UCT rollout
	 * 
	 * @param rolloutRootSM
	 *            state to begin rollout from
	 * @throws MoveDefinitionException
	 * @throws TransitionDefinitionException
	 * @throws GoalDefinitionException
	 */
	private void rollout(final StateModel rolloutRootSM) throws MoveDefinitionException, TransitionDefinitionException, GoalDefinitionException {
		StateModel traverser = rolloutRootSM;
		List<StateActionPair> actions = new ArrayList<StateActionPair>(traverser.actionsPairs.values());
		backupSAPs = new ArrayDeque<StateActionPair>(); // new
														// ArrayList<StateActionPair>();
		backupStates = new ArrayDeque<StateModel>();// new
													// ArrayList<StateModel>();

		boolean expandLeaf = true;
		int lvl = 0;

		while (!actions.isEmpty()) {
			List<Move> toPlay = new ArrayList<Move>();
			// for each player
			for (int p = 0; p < roleCount; p++) {
				expandLeaf = true;
				int i = 0;
				float[] v = new float[actions.size()];
				for (StateActionPair sap : actions) {
					if (sap.exploreCount == 0) {
						v[i] = Float.POSITIVE_INFINITY;
						expandLeaf = false;
					} else {
						float uctBonus = (float) Math.sqrt(Math.log(traverser.timesExplored) / (float) sap.exploreCount);
						v[i] = (float) (sap.value[p] + C * uctBonus);
					}
					i++;
				}

				// index of highest valued node
				int index = 0;
				float lowest = Integer.MIN_VALUE;
				for (int j = 0; j < v.length; j++) {
					if (v[j] > lowest) {
						index = j;
						lowest = v[j];
					}
				}
				toPlay.add(actions.get(index).action.get(p));
			}
			backupStates.push(traverser);

			StateActionPair chosenSAP = traverser.actionsPairs.get(toPlay);
			backupSAPs.push(chosenSAP);
			traverser = chosenSAP.result;
			actions = new ArrayList<StateActionPair>(traverser.actionsPairs.values());
			lvl++;

		}

		backupStates.add(traverser);
		if (expandLeaf && !theMachine.isTerminal(traverser.state)) {
			tree.expandNode(traverser, lvl);
//			Level cur = tree.getStateLists().get(traverser.depth + 1);
//			traverser = cur.states.get(theMachine.getRandomNextState(traverser.state));
		}

		List<Double> outcome;
		if (!theMachine.isTerminal(traverser.state)) {
			outcome = completeRollout(traverser.state, lvl);
		} else {
			outcome = theMachine.getDoubleGoals(traverser.state);
		}
		// distribute goal to each player
		backpropogate(backupSAPs, backupStates, outcome);
	}

	/**
	 * Complete the rest of this UCT rollout past the UCT horizon
	 * 
	 * @param from
	 *            the state to complete rollout from
	 * @return the terminal state reached
	 * @throws MoveDefinitionException
	 * @throws TransitionDefinitionException
	 * @throws GoalDefinitionException
	 */
	protected abstract List<Double> completeRollout(final MachineState from, final int fromLvl) throws TransitionDefinitionException, MoveDefinitionException, GoalDefinitionException;

	/**
	 * Discount factor applied to each backup of the reward. The reward should
	 * have a great effect on the states close to it and less to those further
	 * away.
	 */
	private static final double discountFactor = 0.9;

	/**
	 * Update every state visited in this path and update its average. Applying
	 * a discount factor to the result at every stage.
	 * 
	 * degrade reward to prefer earlier wins
	 * 
	 * @param backupStatesPairs
	 * @param outcome
	 */
	private void backpropogate(final Deque<StateActionPair> backupStatesPairs, final Deque<StateModel> backupStates, final List<Double> outcome) {
	
		for (StateModel m : backupStates) {
			m.timesExplored++;
		}
		
		int size = backupStatesPairs.size();
		while (size > 0) {
			StateActionPair s = backupStatesPairs.pop();
			s.updateAverage(outcome);
			
//			for (int i = 0; i < roleCount; i++) {
//				outcome.set(i, outcome.get(i) * discountFactor);
//			}	
			size--;
		}
	}

	@Override
	public DetailPanel getDetailPanel() {
		return new ReflexDetailPanel();
	}

}