当前服务器 IP:
| |
下文统一用 <服务器IP> 指代这里的地址。以后如果地址变化,只需要更新本文顶部这一处。
旧地址请不要再使用。当前地址可直接通过 SSH 访问;如果后续网络策略调整,以管理员通知为准。
系统盘和 /home 空间有限。大型文件、数据集、模型权重、训练输出、conda 环境和包缓存请放到 ~/data 中。当前 ~/data 是 /data/你的用户名 的软链接,不再是 /data 根目录。
一、前言#
实验室近期新购置了一台深度学习服务器,供成员进行模型训练、仿真和计算任务。为了帮助大家快速上手、规范使用、避免资源浪费或系统损坏,特编写此教程。
二、什么是“深度学习服务器”#
深度学习服务器是一台高性能计算机,通常配备多块 GPU(图形处理器)、大容量显存、内存和高速存储。 通常安装Linux系统 ,一般不直接接显示器,而是通过网络远程访问(SSH 或远程桌面)。
主要用途#
- 深度学习训练(如 PyTorch、TensorFlow);
- 大规模有限元仿真(Abaqus、ANSYS、COMSOL);
- 数据分析、图像识别、模型优化等。
系统与软件环境#
- 操作系统:Ubuntu 24.04 LTS
- 已安装软件:Miniconda、Python、R 4.6.0、RStudio Server、JupyterHub(JupyterLab)
- 主要存储:
/home在系统盘上,有用户配额;/data是大容量机械硬盘挂载点,不对用户设置 quota。
为避免cuda版本导致的问题,此处仅保证显卡驱动版本,请根据需求自行安装cuda。
三、账户与登录信息#
账户申请#
新用户请联系实验室管理员开通。
账户命名规则 实验室统一以姓名全拼作为用户名,例如:
- 张三 → zhangsan
- 李四 → lisi
初始密码 新账户的初始密码请联系管理员获取。首次登录后请立即修改密码。
手动修改密码(重要)#
登录服务器后(见后续教程),默认会自动弹出修改密码的流程。
如果后续修改密码,在终端输入:1passwd系统会提示:
1 2Changing password for user zhangsan. (current) UNIX password:输入当前密码。
接着输入新密码两次(系统不会显示输入内容,但实际上输进去了):
1 2Enter new UNIX password: Retype new UNIX password:如果两次输入一致,会显示:
1password updated successfully表示修改成功。

之后会自动退出连接,使用你设置的新密码重新连接。
四、连接方式#
推荐:配置 SSH 公钥登录#
密码登录可以用于首次登录和修改密码。日常使用建议配置 SSH 公钥登录,后续连接 VS Code、scp、rsync 都会更方便。
在本地电脑生成密钥:
| |
一路回车即可。生成后会得到:
| |
把公钥上传到服务器:
| |
其中 username 换成自己的服务器用户名。如果本地没有 ssh-copy-id,可以把 ~/.ssh/id_ed25519.pub 的内容发给管理员代为加入。
建议在本地 ~/.ssh/config 中添加别名:
| |
之后可以直接连接:
| |
(一)Windows 用户#
此处推荐三个用于连接的终端工具(就是黑窗口,理论上使用cmd即可,但不够易用):
此处仅演示MobaXterm。
打开软件,点击左上角的Session

再点SSH,在下面的Remote host 填 <服务器IP>,Specify username填你的账号名。


首次登录后根据提示修改密码。
左边是服务器文件路径,可以按照权限操纵文件,新建个文件夹放代码之类的。
右边就是终端,可以对linux系统进行各种命令行操作。
用 VS Code 连接(主要使用方式)#
PyCharm(以及其他Jetbrains的IDE)远程连接功能远不如VS Code,因此此处仅演示VS Code,也仅推荐使用VS Code。
如果想要使用PyCharm连接,可以阅读实验室服务器的使用指南。
- 安装remote相关插件

- 在侧边栏打开插件

- 新建ssh连接
推荐选择前面写入 ~/.ssh/config 的 lab113;也可以直接输入:
| |

选择路径
在 VS Code 里使用终端:点击 New Terminal

(二)macOS 用户#
此处推荐Terminus,iPad都能用。
或者直接用mac自带终端也行:
SSH连接 打开“终端”:
| |
文件传输 可使用命令行:
| |
(三)Linux 用户#
推荐WindTerm,本人用得最多的一个。
五、Anaconda 与 Python 环境管理#
1. Anaconda 简介#
Anaconda 是一个 Python 环境与包管理工具,可方便地创建独立环境、安装依赖,避免不同项目间的冲突。(miniconda是其精简版)
此处管理员已预装系统级 Miniconda(位于 /opt/miniconda3/bin/conda)。请不要直接修改 base 环境;每个项目应创建自己的 conda 环境。
服务器已为有 conda 权限的用户配置私有环境目录和包缓存目录:
| |
也就是说,正常执行 conda create -n myenv ... 时,环境和包缓存会优先放到 /data/你的用户名/conda/...,不会占用 /home 的配额。可以用下面的命令确认:
| |
2. 常用命令#
| 操作 | 命令示例 |
|---|---|
| 创建新环境 | conda create -n myenv python=3.10 |
| 激活环境 | conda activate myenv |
| 安装包 | conda install numpy pandas pytorch |
| 查看环境 | conda env list |
| 删除环境 | conda remove -n myenv --all |
如果 conda activate 不可用,先执行:
| |
如果包缓存过大,可以清理:
| |
3. 使用 JupyterLab#
服务器已部署 JupyterHub 多用户 JupyterLab 服务,详见第八章。无需手动启动,直接浏览器访问即可。
| |
http://223.111.157.214:8787
| |
3. 已安装的系统包#
以下常用包已安装在系统库(/usr/lib/R/library/),所有用户直接 library() 即可加载,无需重复安装:
| 包 | 版本 | 用途 |
|---|---|---|
| tidyverse | 2.0.0 | 数据处理全家桶(dplyr, ggplot2, readr, tidyr, purrr, tibble, stringr, forcats) |
| data.table | 1.18.4 | 高性能大数据表处理 |
| shiny | 1.13.0 | 交互式 Web 应用 |
| ggplot2 | 4.0.3 | 数据可视化 |
| devtools | 2.5.2 | R 包开发工具 |
| knitr / rmarkdown | 1.51 / 2.31 | 动态文档与报告生成 |
| reticulate | 1.46.0 | R 调用 Python(可结合 conda 环境) |
| lubridate | 1.9.5 | 日期时间处理 |
| zoo / xts | 1.8.15 / 0.14.2 | 时间序列分析 |
| foreach / doParallel | 1.5.2 / 1.0.17 | 并行计算 |
| Rcpp / BH | 1.1.1 / 1.90.0 | C++ 集成 |
完整列表:系统库共 188 个包。
4. 安装新包#
如果需要安装其他包,直接在 R 控制台或 RStudio 里运行:
| |
包会安装到你的个人库(~/R/x86_64-pc-linux-gnu-library/4.6/),不占系统空间也不需要 sudo。
如果需要安装到系统库(所有用户共享),请联系管理员。
5. R 与 Python 互通#
通过 reticulate 包可以在 R 里直接调用 Python 和使用 conda 环境:
| |
这样既可以用 R 的统计分析能力,又能调用 GPU 上的 PyTorch/TensorFlow 模型。
6. GPU 相关 R 包(需自行安装)#
以下 GPU 加速包可自行安装到个人库:
| |
注意:使用 GPU 前先 nvidia-smi 确认有空闲显存。
八、JupyterHub / JupyterLab#
服务器已部署 JupyterHub 5.4.6 + JupyterLab 4.5.8,是一个多用户 Jupyter 服务器。所有用户通过浏览器即可使用 JupyterLab,无需手动启动或 SSH 端口转发。
1. Web 访问#
打开浏览器,访问:
| |
用你的系统账号和密码登录。首次登录时 JupyterHub 会自动为你启动一个专属的 JupyterLab 实例(约需 5-10 秒),之后会进入完整的 JupyterLab 界面。

2. 功能简介#
JupyterLab 是一个交互式开发环境,支持:
- Notebook(.ipynb):交互式代码 + 文档 + 可视化
- 代码编辑器:带语法高亮的 Python / R 文件编辑
- 终端:直接在浏览器里使用服务器终端
- 文件管理器:浏览、上传、下载服务器上的文件
- 扩展生态:Git、变量查看器、调试器(可自行安装)
3. 使用 Conda 环境#
你的个人 JupyterLab 会自动继承系统 PATH。如果需要在 Notebook 中使用你创建的 conda 环境,先在终端激活环境再安装 ipykernel:
| |
之后在 JupyterLab 的 Kernel 菜单中就能看到 “Python (myenv)"。
4. GPU 使用#
每个用户的 JupyterLab 运行在各自的系统账号下,直接使用系统 Python 和 GPU。在 Notebook 里:
| |
使用前先 nvidia-smi 确认有空闲 GPU,礼貌协商使用。
5. 工作目录#
JupyterLab 默认打开你的 home 目录(/home/你的用户名)。如需访问大盘数据:
- 在文件浏览器里进入
~/data(指向/data/你的用户名) - 或通过
File → Open from Path直接输入路径
6. 会话管理#
- 关闭:直接关闭浏览器标签页即可,服务器上的内核保持运行。
- 重启内核:
Kernel → Restart Kernel - 关闭 Notebook 服务:
File → Hub Control Panel → Stop My Server - 空闲 2 小时无活动后服务器会自动关闭,下次登录时自动重启。
九、文件管理与备份#
1. 目录说明#
| 路径 | 用途 |
|---|---|
/home/username | 用户个人目录,适合放配置、小脚本、小代码仓库;该路径在系统盘上,有配额限制 |
~/data | 用户自己的大容量目录,实际指向 /data/username,适合放数据集、模型、训练输出、conda 环境 |
/data/username | 与 ~/data 等价,是用户私有大盘目录 |
/data | 大容量磁盘根目录。普通用户不要直接把文件散放在这里,如需共享数据请先约定目录和权限 |
/workspace | 项目工作区(暂时未开通) |
2. /home 配额说明#
当前 /home 所在系统盘对普通用户设置了 quota:
- 软限制:
100G - 硬限制:
135G /data不设置 quota
超过软限制后系统会进入宽限期;超过硬限制后继续写入会失败,但系统不会自动删除你的文件。建议定期检查:
| |
如果发现 ~/.cache 很大,请把可复用缓存放到 ~/data。例如 Hugging Face、pip、uv 缓存可以按需写入 ~/.bashrc:
| |
十、服务器使用规范#
不要在系统目录(
/、/root)下操作。大文件请放在
~/data,不要放在/home/username、/tmp或系统目录。运行长时间任务时请使用:
1nohup python train.py > log.txt 2>&1 &或在
tmux会话中执行。运行 GPU 任务前先看资源占用:
1nvidia-smi如需指定 GPU,可以使用:
1CUDA_VISIBLE_DEVICES=0 python train.py未经沟通严禁重启服务器(如果你有权限的话)。
任务结束后释放显存和进程(输入
ps -aux | grep 你的进程名找你的进程,找到pid之后kill -9 你的pid)。请勿安装系统级软件,如需
sudo权限请在群里询问。
十一、常见问题(FAQ)#
| 问题 | 解决方法 |
|---|---|
| SSH 连不上 | 确认使用顶部当前服务器 IP;旧地址不要再用。再检查本地网络、端口 22、用户名是否正确 |
| SSH 提示 host key 变化 | 如果确认地址正确,可执行 ssh-keygen -R <服务器IP> 后重新连接 |
| 密钥登录失败 | 检查本地私钥权限 chmod 600 ~/.ssh/id_ed25519,远端 ~/.ssh 应为 700,authorized_keys 应为 600 |
/home 写不进文件 | 运行 quota -s 查看是否超过 100G/135G 限制,把大文件移动到 ~/data |
| GPU 已占满 | 使用 nvidia-smi 查看使用者,协商使用 |
| Conda 包冲突 | 新建独立环境,不要修改 base 环境 |
Conda 占用 /home | 执行 conda config --show envs_dirs pkgs_dirs,确认 envs/pkgs 指向 ~/data/conda/... |
| Jupyter 无法访问 | 检查端口转发是否正确 |
| 远程桌面卡顿 | 降低分辨率或关闭 3D 加速 |
| RStudio Server 连不上 | 确认使用 http(不是 https),端口 8787;检查是否能 ping 通服务器 IP |
| R 包安装失败 | 先确认 ~/.cache/R 没占满 /home 配额;如需帮助联系管理员 |
| JupyterHub 登录后页面空白 | 等待 5-10 秒让服务器启动你的 JupyterLab 实例;刷新页面 |
| JupyterHub 里找不到 conda 环境 | 需要先 conda activate myenv && pip install ipykernel && python -m ipykernel install --user --name myenv |
十二、附录#
常用命令速查#
| |
管理员联系方式#

推荐学习资料#
- Linux命令快速入门:https://wangchujiang.com/linux-command/
- Anaconda官方文档:https://docs.anaconda.com/
- PyTorch教程:https://pytorch.org/tutorials/
参考文档#
实验室GPU管理神器Determined - 吕昱峰的文章 - 知乎。
实验室服务器管理经验 - PurRigiN的文章 - 知乎。

