1414 words
4 minutes
ASC24 Finals Memories
NOTE能亲手组装集群的机会不多,也是第一次整天靠着机架干活,兴奋之情远大于风扇的呼啸声

一、赛后技术总结
(一)工作分配
- 任务分工:ai模块1人负责,HPL&HPCG模块1人负责,其余人员按赛题分配
- 核心策略:
- HPL&HPCG可快速完成(脚本已完善,仅需cv+修改dat数据),完成后立即支援其他赛题
- 初赛需精细化处理各赛题,决赛需取舍(聚焦团队赛与单项奖)
- ai和HPL&HPCG依赖GPU性能,性能不足时直接提交单机版本保团队赛题分数
- 提交规范:赛题文件需放入组委会提供磁盘,支持热插拔,挂载失败可重新插拔尝试
(二)必备技能
- 社交能力
- 对外:主动请教超级团队赛队友,可与其他队伍交流进度(存在信息保密情况属正常)
- 对内:保持和谐避免争吵,以大局为重;严禁中途退出(会受多方鄙视)
- 赛后:建议与行业大佬交流,积累人脉
- 文档能力:熟练制作文档,要求排版简洁、语句精炼,全员参与
- 英语能力:保障跨队伍交流、赛题理解及答辩沟通,避免因语言问题被吐槽
- 脚本能力:通过脚本实现应用安装、编译、运行的一键化操作,减少手动输入
- 编程语言:必须掌握Fortran(决赛大量涉及古老语法的代码)
- 文件阅读
- 赛题README需仔细阅读(注意要求变化)
- 代码解析:从main主程序入手,善用vscode搜索替换功能,可通过代码原理推测未定义变量
- 数据保存
- 强制保存日志文件(所有赛题运行均需记录)
- 运行脚本需符合组委会要求(便于时间节点查验)
(三)基础环境搭建
- 系统环境
- 推荐:Rocky Linux最小化安装,通过dnf安装nfs等工具
- 特殊工具:docker需导入官方repo安装docker-ce(避免dnf直接安装替代品)
- 集群管理:建议使用slurm和module(调度管理便捷,需提前准备安装脚本)
- 密码策略:统一密码(如password),减少记忆成本
- 系统复制:可用联想硬盘底座或dd指令实现全盘复制(本次忘带底座)
- 网络环境
- 必做:搭建局域网(便于节点访问与管理)
- 建议:提前熟悉openwrt(本次因docker不熟练+未带软路由受影响)
- 防火墙:完全关闭(避免莫名问题)
- IB相关:暂不熟悉,建议参考其它前辈的经验,后续可考虑采购二手设备学习
(四)环境配置
- 组件分类
- 非必要(推荐):slurm、module
- 必要:Intel oneAPI(2022/2024)、Nvidia Driver & CUDA、mpich、openmpi、docker
- 环境加载:除驱动外,其他环境通过脚本临时加载(避免写死系统环境变量,保持系统整洁)
- 文件共享
- 配置:主节点共享/share目录,软件建议安装在共享文件夹
- 关键:正确设置文件权限
- 注意:避免将文件放在opt目录(重启后子节点可能出现容器相关文件夹导致NFS崩溃)
(五)HPL & HPCG
- GPU版本
- 建议:使用NVIDIA HPC-Benchmarks(理论性能远超CPU)
- 部署方式:单机用docker,多机用singularity(多机调度依赖slurm,自行调度较复杂)
- 备选:若理解深刻可编译运行GPU版(环境配置较复杂)
- CPU版本
- 适用场景:无GPU或GPU性能不足时
- 便捷方案:直接使用intel版本(路径通常在intel的mkl的share中,2024与2022版本存在差异)
- 编译建议:用intel库手动编译hpl官方代码(速度快于非intel编译版本)
二、赛后感受分享
(一)队伍内
尽量别出现争吵,线下的每时每刻都很重要,争吵不会解决问题(可以解决人),良好的对内氛围才能够让队伍走得长久。
出现不懂的地方至少应该尽快与队员反馈,说不定谁知道些什么偏方。一味得好强并不能一帆风顺,只会让一人的苦恼变成多人的苦恼,尽管队员不会责骂你,但是出现的问题会很头疼,更难以解决。
实在压力大了,就去吃茶歇吧:)。不过尽量别把茶歇拿回来,食物和电脑放一起总引起不好的回忆。
(二)队伍外
队伍外请一定一定一定要保持礼貌,这不仅是自己的脸面,同时也是学校的脸面,不要对外口出狂言,以及不要随便定义他人性别(错将一位女士当兄弟,我觉得我能记一辈子,一次的外向换来一辈子的内向),能用您尽量用您,这个词就是为此存在的QWQ。
Share
If this article helped you, please share it with others!
ASC24 Finals Memories
https://blog.yremmmm.com/posts/asc24-memories/ Some information may be outdated
Related Posts Smart
1
ASC24 Post Competition Seminar
Para 本文是赛后研讨会的现场速记整理,内容以各高校分享的技术要点和团队情况为主,语言风格偏口语化纪实,未过多修饰。若有表述不当或冒犯之处,欢迎大家指出,我会第一时间修改~ orz
2
基于mRNA修饰位点检测的高性能计算优化
Projects 选自ASC25赛题,聚焦于mRNA上“5-甲基胞嘧啶”(m5C)修饰位点检测流程,是由多个软件组成的工作流,涉及bash,java,c++,python。
3
ParaSeis 软件的移植与优化实践
Projects 本项目源自 ASC24 世界大学生超级计算机竞赛的超级团队赛赛题,核心任务是针对 ParaSeis 这一地震波传播模拟软件进行移植与优化。
4
_conv_forward算子优化实践
Projects 2024-12-16
5
X99 Trash Panda
Projects 说是洋垃圾,但体验上好像也没啥毛病





