1.如何开通账号?
答:在高算官网(https://hpc.xidian.edu.cn/)中的“资源使用”里,选择“本地资源”申请。我们将会在三个工作日内开通账号。
2.学生想要使用高算平台该怎么办?
答:校级高算平台目前免费面向校内师生提供算力支持和使用。目前需要通过教职工(工号)协助以课题组的形式线上进行申请,申请单下面可以添加课题组内需开通的学生账号(学生学号)。开通后用户使用个人的一网通账号登录即可。
3.单个作业最长运行时间是多长?
答:目前,除独占队列外,集群其它队列上的作业运行时间最长10天。
4. 为什么我的作业运行结果是“状态不明”,该怎么处理?
答:“状态不明”是提示由于计算节点故障导致作业运行失败。您重新提交作业即可,使用jctrl kill -f 作业号命令,终止作业。
5.为什么我在登录节点上的程序会被终止,我能否在登录节点运行程序?
答:登录节点用于文件编辑、作业提交、小型应用编译、文件下载等轻量级工作。而科学计算、大文件校验等计算密集型任务,会占用较多计算资源,影响其他用户正常使用。我们为了保障用户体验,在登录节点设置了任务检测服务,查杀不正常占用登录节点资源的任务,若被检测到您的账号不当使用登录节点,您的账号将会被封禁。请务必将这些任务提交到计算节点进行。
6.如何在集群上安装软件?
答:
1.若为商业软件,请自行获取软件使用权并安装;
2.若为常用开源软件,请先根据用户手册文档,确定集群是否已有安装;
•若未安装,请先考虑是否能用conda方法安装;
•再考虑在自己家目录下使用源码安装,遇到问题,请将可复现的步骤,发至HPC邮箱获取帮助;
•软件还有容器安装的方法;
•我们也将对常用开源软件进行评估,以便全局部署。欢迎邮件联系我们。
7.普通用户如何使用sudo 安装软件?
答:有别于独占的个人电脑和工作站,高性能计算用户共享软硬件设施,使用sudo 特权操作极有可能影响其他用户的程序和数据,因此普通用户禁止使用 sudo。通常普通用户无需 sudo 就能在家目录中安装和使用软件,且使用sudo安装的软件会被错误安装在本地文件系统上而不能在计算节点上运行。
8.如何及时获取集群通知?
答:集群通知会实时发布在用户QQ群或平台主页“系统公告”栏中。
9.普通用户的资源配置是什么?
答:普通用户分配的GPU卡为3张,CPU核数为80核,存储配额为300G。如您的资源超额,提交作业的时候会有特定提示信息。如您需要扩充存储配额,请致信HPC邮箱或在QQ群中联系集群管理员,并说明具体事由。
10.用户的个人数据及其它可以长期保留在平台上吗?
答:不可以。高算平台为校级公共资源,高算中心将定期清理长期占用资源的“僵尸”数据,同时,为了避免不必要的网络或系统风险,请各位用户务必及时备份重要个人数据,以免给您造成损失。
11.在门户界面不能终止作业?
答:在terminal 中执行 jctrl kill -f 作业号 终止作业。
12.使用win7 64-bit英文版系统打开文件传输客户端出错?
答:先尝试卸载重装,不行将自动升级卸载。
13.打开terminal 显示无可用资源?
答:目前一个用户只能打开一个terminal,检查我的会话中是否存在已有会话,可以选择连接或注销会话。
14.安装软件问题?
答:如果用户想要自行安装软件可以将其安装在家目录底下,如果想要多人共同使用软件,可以将其安装在/apps/software/user-software/ 目录下。安装软件使用terminal 执行命令进行安装。
15.作业提交问题?
答:使用jsub命令提交作业,最后的参数是可执行程序或脚本,不支持源代码直接运行。
16.作业运行时间限制问题?
答:作业运行时间使用队列进行控制,如果不知道队列,则使用默认队列normal 运行14400分钟,80个核心,使用jqueues 查看所有队列,使用 jqueues -l 队列名 查看队列详细信息,RUNLIMIT 显示运行时间限制,PROCLIMIT显示运行时间限制。
17.命令行和图形化界面,上传了脚本,执行命令都是./ ?
答:新版高算集群和老高算集群使用命令上有些出入,提交作业时可以使用如下命令来提交作业:
#!/bin/bash
#JSUB -q gpu
#JSUB -gpgpu 1
#JSUB -cwd “作业目录路径
#JSUB -e error.%J
#JSUB -o output.%J
source /apps/software/anaconda3/etc/profile.d/conda.sh
#conda activate pytorch_gpu
conda activate tensorflow2.1
unset PYTHONPATH
#python pytorch-ok.py
#python tensorflow-test1.py
python tensorflow-gpu-ok.py > log.txt
cwd 参数是作业提交路径,默认当前提交作业路径,在那个目录路径下提交提交作业,默认就是这个目录路径。
因本例中使用的程序需要gpu进行计算,所以指定作业队列为gpu,-gpgpu申请显卡数量,具体提交作业时可以根据作业类型来选择队列。
18.用脚本提交一个作业,只有error文件出现,没有output文件,但是用命令提交就都有?
答:命令行和脚本运行作业执行结果是一致的,出现此类问题建议仔细检查脚本是否编写有误。
19.我看了手册,我们的CUDA程序好像没有编译和提交的方法?
答:CUDA库目前已经安装到集群中了,使用module ava 查看已安装cuda版本,您如果要运行GPU程序,您可以选择GPU队列,队列名称:gpu 选择这个队列的话,您的程序就只在GPU节点上运行。
20.mpicc hello.c -o hello
mpicc: line 285: icc: command not found
答:使用 module load mpi/latest和 module load compiler/2021.3.0加载intel mpi 和intel 编译器在执行,出现commend not found建议仔细查看用户手册,一般是加载环变量有误。
21.按照原先的方法使用VPN登陆,不能成功登陆了?
答:目前平台老账户已经不能使用了,需要在一网通办以老师申请课题组的方式,将用户添加至课题组。申请时注明学号,老用户用户名,联系方式等信息。账号申请后,可以通过学校官方网站,高算平台网站,平台系统内桌面等方式查看用户使用手册,用户手册详细介绍了新平台使用方法,请仔细阅读。
22.目前能否使用conda创建新的环境,能否安装第三方库?
答:可以,集群目前可以连接到清华源,阿里源等一些源站,可以修改conda或者pip 默认源,进行安装,具体可以参考用户手册。
23.Terminal 或linux 桌面没有调度到可用机器?
答:检查我的会话中,是否存在会话,如果存在,会出现上图所示状态。
在群集状态中查看login02 节点查看登录数和cpu 占用数,如果到达最大值,会出现此提示。
24.连接外部网络问题?
答:目前新集群禁止连接外部网络,只开放国内部分网站在登录节点可以访问。
25.Terminal无法打开或者Linux桌面黑屏问题?
答:打开linux桌面黑屏,此问题大部分是因为安装新版Anaconda,并且激活conda 环境所致(激活conda环境现象为在终端命令行前显示base或其他字符),anaconda 环境中dbus-launch程序和系统dbus-launch程序版本不一致,导致调用其他系统组件冲突,导致无法打开terminal和Linux桌面。
处理办法,termianl或者Linux桌面还未退出。
方法1.将 Anaconda安装目录下bin目录下dbus-launch文件重命令为dbus-lauch.bak 执行mv dbus-launch dbus-launch_bak 或者mv ~/anaconda3/bin/dbus-launch ~/anaconda3/bin/dbus-launch_bak
方法2.激活conda 环境会在.bashrc目录中写入”# >>> conda initialize >>>”开头结尾的行,将中间的行使用#号进行注释。
termianl或者Linux桌面已退出,无法在此打开,此环境下,参考前面登录命令行终端中,登录密钥部分,使用ssh登录进登录节点,进行文件修改。
在打开terminal或者Linux桌面成功后,在手动激活conda环境。
26.gpu 作业未运行到调度分配gpu卡上问题?
答:部分GPU作业在提交时,在程序内部指定了GPU ID,可能导致作业运行在已经分配的GPU卡上。提交GPU作业使用-gpgpu 参数时,调度会自动分配GPUID,如果是gpu作业,调度在运行作业时会自动生成CUDA_VISIBLE_DEVICES变量,指定调度分配的GPUID,可以使用jjobs -l 作业号 查看作业使用GPUID,不要在程序内部去指定GPUID。
27.如何在论文中致谢西电高性能计算平台?
答:致谢模版格式及内容详见首页“致谢模板”页面。
欢迎大家将已接收的高质量成果邮件分享给我们。