集群 TensorBoard 使用指南¶

需求¶

基于 DeepMD-kit 或者 TensorFlow 的代码调试及训练数据实时监控。

DP 官方教程给出了在本地运行程序时的可视化，如果在服务器上运行，我们需要进行端口转发。

以在 gpu3 队列运行 DeepMD-kit 训练程序为例，其他程序可对应替换。

通过 sbatch 脚本提交程序到计算节点
```
#!/bin/bash
#SBATCH -p gpu3
#SBATCH -t 24:00:00
#SBATCH -J type_map_0
#SBATCH --ntasks-per-node 4
#SBATCH --gres=gpu:1

# add modulefiles
module add deepmd/2.0-cuda11.3

dp train input.json 1>> train.log 2>> train.err &
tensorboard --logdir=log --port=6006
```
如果想要实时查看训练过程中的数据，训练指令和 tensorboard 的运行指令需要同时运行，故采用 &将训练指令挂起。

--logdir指定 tensorboard 的 event 文件所在路径（在 json 文件中指定）。

--port指定 tensorboard 在服务器上运行的端口号（缺省默认为 6006）。
查看计算节点 IP 地址做法类似jupyter notebook 教程，在登录节点命令行输入下面指令（将 c51-m002替换为实际运行的节点）。
```
cat /etc/hosts | grep c51-m002
```

将端口转发到本地

ssh -NfL localhost:<local_port>:<remote_ip>:<port> <username>@<ip_of_cluster>

Warning

仅供短时间测试！长时间运行请使用计算节点!!

在命令行中运行训练和 tensorboard 程序后，在本地执行

ssh -NfL <local_port>:localhost:<port> <username>@<ip_of_cluster>