因为家里出了一些情况,这周没有工作。
这周答辩,忙于毕设,没做其他的很多工作
RL 完成了 homework1,主要是 DAgger 和 Flow matching 的两个算法实现
下周继续学一节课,计划把 Homework2 完成
这周玩的比较多,学的比较少
RL 课程学习一个章节,然后做 homework2,主要涵盖一个简单的 Q learning 和一个 PPO 的代码撰写,以及对应的训练
学到了一个 W&B 的平台,感觉可以用来平替 tensorboard,后续可以再深入学习一下
最近毕设即将收尾,本来还想做点实验,一想反正不申请优秀毕设,直接摆了开玩
继续强化了一下日常的身体锻炼,外加买了个新的运动表,好好健身一下
学习上目前还是在做强化学习,然后下周打算把他们的 homework1 写一下,先暂时停下来巩固一下,后续再继续推进课程。