Safe Haskell	None
Language	Haskell2010

RL.TDl

Synopsis

Documentation

Constructors

TDl_Opts
Fields o_alpha :: TD_Number o_gamma :: TD_Number o_eps :: TD_Number o_lambda :: TD_Number

Instances

Show TDl_Opts Source #
Methods showsPrec :: Int -> TDl_Opts -> ShowS # show :: TDl_Opts -> String # showList :: [TDl_Opts] -> ShowS #

type Q s a = M s a TD_Number Source #

type Z s a = M s a TD_Number Source #

Constructors

TDl_State
Fields _tdl_q :: Q s a _tdl_z :: Z s a

tdl_z :: forall s a. Lens' (TDl_State s a) (Z s a) Source #

tdl_q :: forall s a. Lens' (TDl_State s a) (Q s a) Source #

class (Eq s, Hashable s, Show s, Eq a, Hashable a, Enum a, Bounded a, Show a) => TDl_Problem pr m s a | pr -> m, pr -> s, pr -> a where Source #

Minimal complete definition

Methods

td_greedy :: pr -> Bool -> a -> a Source #

td_transition :: pr -> s -> a -> TDl_State s a -> m s Source #

td_reward :: pr -> s -> a -> s -> TD_Number Source #

td_modify :: pr -> s -> a -> TDl_State s a -> m () Source #

listZ :: (TDl_Problem pr m s a, MonadTrans t, MonadState (TDl_State s a) (t m), Monad m) => pr -> s -> a -> ((s, a, TD_Number) -> t m b) -> t m () Source #

transition :: (TDl_Problem pr m b a, MonadTrans t, MonadState (TDl_State b a) (t m), Monad m) => pr -> b -> a -> t m b Source #

tdl_learn :: (MonadRnd g m, TDl_Problem pr m s a) => TDl_Opts -> Q s a -> s -> pr -> m (s, Q s a) Source #

TD(lambda) learning, aka Sarsa(lambda), pg 171

qlw_learn :: (MonadRnd g m, TDl_Problem pr m s a) => TDl_Opts -> Q s a -> s -> pr -> m (s, Q s a) Source #

Watkins's Q(lambda) learning algorithm, pg 174