berkeleydeeprlcourse
diff --git a/‎hw4/.gitignore
+2 b/‎hw4/.gitignore
+2
diff --git a/‎hw4/half_cheetah_env.py
+80 b/‎hw4/half_cheetah_env.py
+80
diff --git a/‎hw4/logger.py
+163 b/‎hw4/logger.py
+163
diff --git a/‎hw4/main.py
+44 b/‎hw4/main.py
+44
@@ -0,0 +1,2 @@
+plots/
+data/
@@ -0,0 +1,80 @@
+import numpy as np
+import tensorflow as tf
+from gym import utils
+from gym.envs.mujoco import mujoco_env
+
+class HalfCheetahEnv(mujoco_env.MujocoEnv, utils.EzPickle):
+    def __init__(self):
+        mujoco_env.MujocoEnv.__init__(self, 'half_cheetah.xml', 1)
+        utils.EzPickle.__init__(self)
+
+    def step(self, action):
+        xposbefore = self.sim.data.qpos[0]
+        self.do_simulation(action, self.frame_skip)
+        xposafter = self.sim.data.qpos[0]
+        ob = self._get_obs()
+        reward_ctrl = - 0.1 * np.square(action).sum()
+        reward_run = (xposafter - xposbefore)/self.dt
+        reward = reward_ctrl + reward_run
+        done = False
+        return ob, reward, done, dict(reward_run=reward_run, reward_ctrl=reward_ctrl)
+
+    def _get_obs(self):
+        return np.concatenate([
+            self.sim.data.qpos.flat[1:],
+            self.sim.data.qvel.flat,
+            self.get_body_com("torso").flat,
+            # self.get_body_comvel("torso").flat,
+        ])
+
+    def reset_model(self):
+        qpos = self.init_qpos + self.np_random.uniform(low=-.1, high=.1, size=self.model.nq)
+        qvel = self.init_qvel + self.np_random.randn(self.model.nv) * .1
+        self.set_state(qpos, qvel)
+        return self._get_obs()
+
+    def viewer_setup(self):
+        self.viewer.cam.distance = self.model.stat.extent * 0.5
+
+    @staticmethod
+    def cost_fn(states, actions, next_states):
+        is_tf = tf.contrib.framework.is_tensor(states)
+        is_single_state = (len(states.get_shape()) == 1) if is_tf else (len(states.shape) == 1)
+
+        if is_single_state:
+            states = states[None, ...]
+            actions = actions[None, ...]
+            next_states = next_states[None, ...]
+
+        scores = tf.zeros(actions.get_shape()[0].value) if is_tf else np.zeros(actions.shape[0])
+
+        heading_penalty_factor = 10
+
+        # dont move front shin back so far that you tilt forward
+        front_leg = states[:, 5]
+        my_range = 0.2
+        if is_tf:
+            scores += tf.cast(front_leg >= my_range, tf.float32) * heading_penalty_factor
+        else:
+            scores += (front_leg >= my_range) * heading_penalty_factor
+
+        front_shin = states[:, 6]
+        my_range = 0
+        if is_tf:
+            scores += tf.cast(front_shin >= my_range, tf.float32) * heading_penalty_factor
+        else:
+            scores += (front_shin >= my_range) * heading_penalty_factor
+
+        front_foot = states[:, 7]
+        my_range = 0
+        if is_tf:
+            scores += tf.cast(front_foot >= my_range, tf.float32) * heading_penalty_factor
+        else:
+            scores += (front_foot >= my_range) * heading_penalty_factor
+
+        scores -= (next_states[:, 17] - states[:, 17]) / 0.01
+
+        if is_single_state:
+            scores = scores[0]
+
+        return scores
@@ -0,0 +1,163 @@
+import os
+from collections import defaultdict
+import logging
+from colorlog import ColoredFormatter
+
+import pandas
+import numpy as np
+
+from tabulate import tabulate
+
+
+class LoggerClass(object):
+    GLOBAL_LOGGER_NAME = '_global_logger'
+
+    _color_formatter = ColoredFormatter(
+        "%(asctime)s %(log_color)s%(name)-10s %(levelname)-8s%(reset)s %(white)s%(message)s",
+        datefmt='%m-%d %H:%M:%S',
+        reset=True,
+        log_colors={
+            'DEBUG': 'cyan',
+            'INFO': 'green',
+            'WARNING': 'yellow',
+            'ERROR': 'red',
+            'CRITICAL': 'red,bg_white',
+        },
+        secondary_log_colors={},
+        style='%'
+    )
+
+    _normal_formatter = logging.Formatter(
+        '%(asctime)s %(name)-10s %(levelname)-8s %(message)s',
+        datefmt='%m-%d %H:%M:%S',
+        style='%'
+    )
+
+    def __init__(self):
+        self._dir = None
+        self._logger = None
+        self._log_path = None
+        self._csv_path = None
+        self._tabular = defaultdict(list)
+        self._curr_recorded = list()
+        self._num_dump_tabular_calls = 0
+
+    @property
+    def dir(self):
+        return self._dir
+
+    #############
+    ### Setup ###
+    #############
+
+    def setup(self, display_name, log_path, lvl):
+        self._dir = os.path.dirname(log_path)
+        self._logger = self._get_logger(LoggerClass.GLOBAL_LOGGER_NAME,
+                                        log_path,
+                                        lvl=lvl,
+                                        display_name=display_name)
+        self._csv_path = os.path.splitext(log_path)[0] + '.csv'
+
+        ### load csv if exists
+        if os.path.exists(self._csv_path):
+            self._tabular = {k: list(v) for k, v in pandas.read_csv(self._csv_path).items()}
+            self._num_dump_tabular_calls = len(tuple(self._tabular.values())[0])
+
+    def _get_logger(self, name, log_path, lvl=logging.INFO, display_name=None):
+        if isinstance(lvl, str):
+            lvl = lvl.lower().strip()
+            if lvl == 'debug':
+                lvl = logging.DEBUG
+            elif lvl == 'info':
+                lvl = logging.INFO
+            elif lvl == 'warn' or lvl == 'warning':
+                lvl = logging.WARN
+            elif lvl == 'error':
+                lvl = logging.ERROR
+            elif lvl == 'fatal' or lvl == 'critical':
+                lvl = logging.CRITICAL
+            else:
+                raise ValueError('unknown logging level')
+
+        file_handler = logging.FileHandler(log_path)
+        file_handler.setLevel(logging.DEBUG)
+        file_handler.setFormatter(LoggerClass._normal_formatter)
+        console_handler = logging.StreamHandler()
+        console_handler.setLevel(lvl)
+        console_handler.setFormatter(LoggerClass._color_formatter)
+        if display_name is None:
+            display_name = name
+        logger = logging.getLogger(display_name)
+        logger.setLevel(logging.DEBUG)
+        logger.addHandler(console_handler)
+        logger.addHandler(file_handler)
+
+        return logger
+
+    ###############
+    ### Logging ###
+    ###############
+
+    def debug(self, s):
+        assert (self._logger is not None)
+        self._logger.debug(s)
+
+    def info(self, s):
+        assert (self._logger is not None)
+        self._logger.info(s)
+
+    def warn(self, s):
+        assert (self._logger is not None)
+        self._logger.warn(s)
+
+    def error(self, s):
+        assert (self._logger is not None)
+        self._logger.error(s)
+
+    def critical(self, s):
+        assert (self._logger is not None)
+        self._logger.critical(s)
+
+    ####################
+    ### Data logging ###
+    ####################
+
+    def record_tabular(self, key, val):
+        assert (str(key) not in self._curr_recorded)
+        self._curr_recorded.append(str(key))
+
+        if key in self._tabular:
+            self._tabular[key].append(val)
+        else:
+            self._tabular[key] = [np.nan] * self._num_dump_tabular_calls + [val]
+
+    def dump_tabular(self, print_func=None):
+        if len(self._curr_recorded) == 0:
+            return ''
+
+        ### reset
+        self._curr_recorded = list()
+        self._num_dump_tabular_calls += 1
+
+        ### make sure all same length
+        for k, v in self._tabular.items():
+            if len(v) == self._num_dump_tabular_calls:
+                pass
+            elif len(v) == self._num_dump_tabular_calls - 1:
+                self._tabular[k].append(np.nan)
+            else:
+                raise ValueError('key {0} should not have {1} items when {2} calls have been made'.format(
+                    k, len(v), self._num_dump_tabular_calls))
+
+        ### print
+        if print_func is not None:
+            log_str = tabulate(sorted([(k, v[-1]) for k, v in self._tabular.items()], key=lambda kv: kv[0]))
+            for line in log_str.split('\n'):
+                print_func(line)
+
+        ### write to file
+        tabular_pandas = pandas.DataFrame({k: pandas.Series(v) for k, v in self._tabular.items()})
+        tabular_pandas.to_csv(self._csv_path)
+
+
+logger = LoggerClass()
@@ -0,0 +1,44 @@
+import os
+import argparse
+import time
+
+from half_cheetah_env import HalfCheetahEnv
+from logger import logger
+from model_based_rl import ModelBasedRL
+
+parser = argparse.ArgumentParser()
+parser.add_argument('question', type=str, choices=('q1, q2, q3'))
+parser.add_argument('--exp_name', type=str, default=None)
+parser.add_argument('--env', type=str, default='HalfCheetah', choices=('HalfCheetah',))
+parser.add_argument('--render', action='store_true')
+parser.add_argument('--mpc_horizon', type=int, default=15)
+parser.add_argument('--num_random_action_selection', type=int, default=4096)
+parser.add_argument('--nn_layers', type=int, default=1)
+args = parser.parse_args()
+
+data_dir = os.path.join(os.path.dirname(os.path.realpath(__file__)), 'data')
+exp_name = '{0}_{1}_{2}'.format(args.env,
+                                args.question,
+                                args.exp_name if args.exp_name else time.strftime("%d-%m-%Y_%H-%M-%S"))
+exp_dir = os.path.join(data_dir, exp_name)
+assert not os.path.exists(exp_dir),\
+    'Experiment directory {0} already exists. Either delete the directory, or run the experiment with a different name'.format(exp_dir)
+os.makedirs(exp_dir, exist_ok=True)
+logger.setup(exp_name, os.path.join(exp_dir, 'log.txt'), 'debug')
+
+env = {
+    'HalfCheetah': HalfCheetahEnv()
+}[args.env]
+
+mbrl = ModelBasedRL(env=env,
+                    render=args.render,
+                    mpc_horizon=args.mpc_horizon,
+                    num_random_action_selection=args.num_random_action_selection,
+                    nn_layers=args.nn_layers)
+
+run_func = {
+    'q1': mbrl.run_q1,
+    'q2': mbrl.run_q2,
+    'q3': mbrl.run_q3
+}[args.question]
+run_func()