一、前言

校外访问请通过校园 VPN

实验室近期新购置了一台深度学习服务器,供成员进行模型训练、仿真和计算任务。为了帮助大家快速上手、规范使用、避免资源浪费或系统损坏,特编写此教程。


二、什么是“深度学习服务器”

深度学习服务器是一台高性能计算机,通常配备多块 GPU(图形处理器)、大容量显存、内存和高速存储。 通常安装Linux系统 ,一般不直接接显示器,而是通过网络远程访问(SSH 或远程桌面)。

主要用途

  • 深度学习训练(如 PyTorch、TensorFlow);
  • 大规模有限元仿真(Abaqus、ANSYS、COMSOL);
  • 数据分析、图像识别、模型优化等。

系统与软件环境

  • 操作系统:Ubuntu 22.04 LTS
  • 已安装软件:Anaconda、Python、JupyterLab

为避免cuda版本导致的问题,此处仅保证显卡驱动版本,cuda请根据需求自行安装。


三、账户与登录信息

账户申请

新用户请联系实验室管理员开通。

  1. 账户命名规则 实验室统一以姓名全拼作为用户名,例如:

    • 张三 → zhangsan
    • 李四 → lisi
  2. 初始密码 所有新账户的初始密码为:123456

手动修改密码(重要)

  1. 登录服务器后(见后续教程),在终端输入:

    passwd
    
  2. 系统会提示:

    Changing password for user zhangsan.
    (current) UNIX password:
    

    输入当前密码(即 123456)。

  3. 接着输入新密码两次(系统不会显示输入内容,但实际上输进去了):

    Enter new UNIX password:
    Retype new UNIX password:
    
  4. 如果两次输入一致,会显示:

    password updated successfully
    

    表示修改成功。


四、连接方式

(一)Windows 用户

此处推荐三个用于连接的终端工具(就是黑窗口,理论上使用cmd即可,但不够易用):

此处仅演示MobaXterm。

打开软件,点击左上角的Session

moba1

再点SSH,在下面的Remote host 填服务器地址,Specify username填你的账号名。

moba2

moba3

左边是服务器文件路径,可以按照权限操纵文件,新建个文件夹放代码之类的。

右边就是终端,可以对linux系统进行各种命令行操作。

用 VS Code 连接(主要使用方式)

Pycharm(以及其他Jetbrains的IDE)远程连接功能远不如VS Code,因此此处仅演示VS Code,也仅推荐使用VS Code。

  1. 安装remote相关插件

vscode1

  1. 在侧边栏打开插件

vscode2

  1. 新建ssh连接

vscode3

  1. 选择路径

  2. 在 VS Code 里使用终端:点击 New Terminal

vscode5


(二)macOS 用户

此处推荐Terminus,iPad都能用。

或者直接用mac自带终端也行:

SSH连接 打开“终端”:

ssh username@服务器IP

文件传输 可使用命令行:

scp localfile username@服务器IP:/home/username/

(三)Linux 用户

推荐WindTerm,本人用得最多的一个。


五、Anaconda 与 Python 环境管理

1. Anaconda 简介

Anaconda 是一个 Python 环境与包管理工具,可方便地创建独立环境、安装依赖,避免不同项目间的冲突。(miniconda是其精简版)

此处管理员已预装系统级miniconda。

2. 常用命令

操作命令示例
创建新环境conda create -n myenv python=3.10
激活环境conda activate myenv
安装包conda install numpy pandas pytorch
查看环境conda env list
删除环境conda remove -n myenv --all

3. 使用 JupyterLab(可选)

在服务器上启动:

jupyter lab --no-browser --port=8888

然后在本地终端执行:

ssh -L 8888:localhost:8888 username@服务器IP

本地浏览器访问:

http://localhost:8888

六、远程桌面与图形化软件

1. 适用场景

用于运行图形化仿真软件(Abaqus、ANSYS、COMSOL、Matlab 等)。
(如需使用请联系我,因为我也没配过这玩意)

2. 配置方式(由管理员完成)

  • 启用 xrdp 服务;
  • 为每个用户创建独立桌面会话。

3. 用户连接方式

系统工具登录方式
Windows远程桌面连接 (mstsc)输入 IP、用户名、密码
macOSMicrosoft Remote DesktopApp Store 可下载
LinuxRemmina支持 RDP 协议

4. 注意事项

  • 远程桌面会占用 GPU 和内存资源,不建议长时间挂起。
  • 深度学习训练任务应通过命令行执行。

七、文件管理与备份

1. 目录说明

路径用途
/home/username用户个人目录
/data公共数据集或模型
/workspace项目工作区(可按课题分目录)

八、服务器使用规范

  1. 不要在系统目录(//root)下操作。

  2. 运行长时间任务时请使用:

    nohup python train.py > log.txt 2>&1 &
    

    或在 tmux 会话中执行。

  3. 未经沟通严禁重启服务器(如果你有权限的话)。

  4. 任务结束后释放显存和进程(输入ps -aux | grep 你的进程名找你的进程,找到pid之后kill -9 你的pid)。

  5. 请勿安装系统级软件,如需sudo权限请在群里询问。


九、常见问题(FAQ)

问题解决方法
SSH 连不上检查网络/VPN,确认端口22是否开放
GPU 已占满使用 nvidia-smi 查看使用者,协商使用
Conda 包冲突新建独立环境
Jupyter 无法访问检查端口转发是否正确
远程桌面卡顿降低分辨率或关闭3D加速

十、附录

常用命令速查

nvidia-smi          # 查看GPU
pwd                 # 显示当前路径
ls -lh              # 列出文件
scp localfile user@ip:/home/user/   # 上传文件
conda create -n myenv python=3.10   # 创建新环境

管理员联系方式

微信

推荐学习资料


参考文档

实验室GPU管理神器Determined - 吕昱峰的文章 - 知乎

实验室服务器管理经验 - PurRigiN的文章 - 知乎

手把手教你如何连上实验室的服务器

Mac下使用SSH连接远程Linux服务器

实验室服务器使用教程(用户篇)

yurizzzzz/TJU-ServerDoc 天津大学实验室服务器使用和管理