CK Blog

格物致知,厚德载物!

随笔-我的向往

我的向往 我向往着故乡的山坡 松柏灌木 溪流花朵 不时会冒出许多好奇的蘑菇 风儿温柔细语 和芳草诉说着爱恋 我向往着故乡的小径 落叶杂草 泥土砂石 总是夹杂着不知所踪的虫鸣 走的人多了 才会有清晰的分界线 我向往着故乡的鸟儿 子规布谷 喜鹊白鹭 还有一只会叫我名字的八哥 永远睡在山里 再也听不见它的呼喊 我向往着故乡的寒冬 雪海山崖 玉树琼花 屋中的炉火晃着红红的小脸 诱得远方游子 ...

手推DQN公式

1. 强化学习基本公式 2.Q-Learning基础 2.1 蒙特卡洛 2.2 TD 2.3 Q-Learning 3.Deep Q-Learning 3.1 数据预处理 3.2 环境交互 3.3 模型结构 3.4 Rand...

Torch的一些知识点

1.构建神经网络时候的注意点 1.构建神经网络时候的注意点 定义优化器和损失函数 1 2 optimizer = torch.optim.SGD(net.parameters(), lr=0.2)` loss_func = torch.nn.MSELoss() 每次反向传播之后要清除梯度 1 2 optimizer.zero_grad() ...

基于MDP的策略学习算法

1. 策略迭代 2. 价值迭代 3. 泛化迭代 1. 策略迭代 强化学习就是找到最优的策略,使每一个状态的价值最大化,相当于求解: (1)以某种策略开始,计算当前策略下的值函数 (2)利用这个值函数,找到更好的值函数 (3)用这个策略继续前行,更新值函数,然后不断迭代。 优化算法 (1)计算当前策略下的值函数估计:   矩阵法计算复杂度较高,故采用...

无模型的最优价值算法

1. Q-Learning和Deep Q-Learning 1.1 蒙特卡洛方法 1.2 $ε-greedy$准则 1.3 蒙特卡洛方法的方差问题 1.4 时序差分法 1.4.1 On-Policy算法(完全依据交互序列) 1.4.2 Off-Policy算法(不完全依据交互序列) 1.5 De...

Tensorflow-gpu相关配置

1. 安装前准备 2. runfile安装cuda 3. 检查cuda是否安装成功 4. 安装tensorflow 5. 安装cuDNN 6. 测试 1. 安装前准备 去官网查询GPU版本是否在CUDA的支持列表中,在终端中输入: 1 $ lspci | grep -i nvidia 会显示自己的NVIDIA GPU版本信息。去C...

生活随笔

月夜 月上柳梢头,星躲浮云后。 子衿踱步走,椿萱雪满头。 鲤鱼龙门跃,青草鹿呦呦。 忍得一时劲,愿将苦作舟。