基于mRNA修饰位点检测的高性能计算优化

选自ASC25赛题，聚焦于mRNA上“5-甲基胞嘧啶”（m5C）修饰位点检测流程，是由多个软件组成的工作流，涉及bash，java，c++，python。

1. 课题背景#

5-甲基胞嘧啶（m5C）作为一种重要的表观遗传标记，不仅存在于DNA中，在RNA中也扮演着关键角色。这种化学修饰对基因表达调控机制产生深远影响，影响细胞功能、发育过程和疾病状态。随着高通量测序技术的快速发展，我们现在拥有了前所未有的分辨率和规模来探索m5C的分布模式及其生物学意义。然而，尽管高通量测序为m5C检测提供了有力支持，其应用并非没有挑战。

传统的m5C检测方法，如RNA-Bis-seq和UBS-seq，虽然能够以单碱基分辨率识别m5C位点，但通常依赖于C→T转换策略来实现。这种方法的一个主要局限性是容易导致高假阳性率，因为一些正常的C到T变异可能被错误解释为m5C的存在。因此，在降低假阳性的同时提高m5C检测的准确性和可靠性已成为该领域的关键挑战之一。

本任务旨在优化一个系统的工作流程，该流程整合了一套专门用于检测高通量测序数据中RNA m5C的生物信息学软件包，目标是实现高效、精确的m5C位点识别。具体来说，该工作流程从原始测序数据（FASTQ文件）开始，依次执行接头修剪、低质量序列过滤、rRNA/tRNA过滤、基因组比对、m5C位点检测和严格的数据过滤，最终生成高置信度的m5C候选位点列表。通过这种方法，我们不仅可以有效降低假阳性率，还能显著提高计算效率，从而为后续的功能验证和机制探索提供可靠的数据基础。通过系统地优化整个m5C检测流程，我们可以更深入地理解m5C在转录后调控中的作用，揭示其在健康和疾病状态下的复杂动态变化，并为未来的研究奠定坚实的基础。这对于推动精准医学、疾病诊断和治疗具有重要意义。在以下章节中，我们将详细解释对此工作流程所做的优化。

2. 集群配置#

我们在三台计算设备上进行了优化工作，每台设备的硬件配置相同，如下表所示。

CPU	Intel Xeon Gold 6348 Processor 2.60 GHz 28 cores * 2
内存	DDR4 ECC 3200MT/s 16GB * 16
磁盘	480GB SSD SATA * 1
HCA	Mellanox ConnectX-5 InfiniBand adapter cards, EDR 100Gb/s QSFP28
交换机	Mellanox SB7800 EDR 100Gb/s InfiniBand Smart Edge Switches
线缆	Mellanox MCP1600-E0xxEyy 100Gb/s QSFP28 DAC Cable, 3m, Black

以下是我们的软件环境配置：

项目	详细信息
操作系统	Centos7.9
编译器	GCC-12.2.0
软件	Hisat-3n
性能分析工具	BTop

首先，使用 GCC-12.2.0 作为基准编译器，并按默认配置编译软件。通过执行推荐的脚本并利用 time 命令精确测量各阶段耗时，我们获得了数据处理流程（阶段1）的性能数据：case1 耗时 8,476 秒，case2 耗时 11,146 秒，case3 耗时 9,944 秒。鉴于实验平台使用 Intel® Xeon® Gold 6348 处理器，我们切换到 Intel oneAPI 系列编译器，以充分利用硬件优势。这一选择不仅能利用 Intel 编译器对其架构的高度优化特性，还能为高级矢量扩展指令集提供有力支持，显著提升计算密集型任务的执行效率。此外，oneAPI 工具包中的 Vtune Profiler 为代码性能分析和瓶颈识别提供了强大工具。

将编译器更换为 Intel(R) oneAPI DPC++/C++ Compiler 2022.2.1 后，我们对软件配置进行了相应优化：在 CFLAGS 和 CPPFLAGS 中添加了优化选项 “-O3 -mavx2 -funroll-loops -qopenmp”；为 samtools 的依赖库 htslib 添加了 “—with-libdeflate” 编译选项以增强压缩性能；并将测试脚本中的 gzip 替换为效率更高的 libdeflate-gzip。经过这些优化，阶段1的处理时间显著减少：case1 降至 8,002 秒，case2 降至 10,636 秒，case3 降至 9,421 秒。

3. 流程分析与初步尝试#

为方便起见，我们将 SRR23538290、SRR23538291 和 SRR23538292 对应的文件分别称为 case1、case2 和 case3，并在下文中使用这些名称。

我们对阶段1中主要工具的耗时进行了详细提取和量化分析，并根据获得的数据绘制了相应的饼图，如图 1 所示。从图 1 可以清楚地观察到，整个数据处理流程中耗时最长的三个关键步骤是：原始测序数据与双参考序列的比对、基于唯一分子标识符的去重，以及 3n 转换表的生成。其中，序列比对过程主要依赖 hisat-3n 工具，它通过高效的索引结构和比对算法实现大规模测序数据的快速比对。UMI 去重操作使用 UMICollapse（一个 Java 包）实现，它能有效识别和去除 PCR 扩增过程中引入的重复序列，从而提高数据准确性。3n 转换表的生成是进一步处理比对结果的关键步骤。基于以上分析，hisat-3n 和 UMICollapse 的性能直接影响整个工作流程的效率。因此，优化这两个工具的性能将成为未来研究工作的重点。

图1：阶段1各步骤耗时占比

考虑到我们使用的 CPU 核心数（56）远超推荐脚本中设置的核心数，我们最初将脚本中支持并行计算的步骤的核心参数调整为 56。然而，经过相当长的执行时间后，我们才最终获得结果。随后，我们严格按照推荐脚本的默认配置重新运行实验，发现使用 56 核心的脚本执行时间明显高于推荐脚本。这一现象促使我们深刻反思软件的并行化效率，也为我们后续的性能分析和优化工作提供了重要背景和动力。

4. 文件缓存#

在推荐脚本中，阶段1运行时间最长的操作是一个组合命令，涉及 Samtools、hisat-3n-table、cut 和 gzip 等工具，如下面的代码所示。这些工具通过管道在彼此之间传输数据，一个工具的输出直接作为下一个工具的输入。具体来说，该组合命令通过顺序连接工具实现高效的数据流和处理。然而，这种串行数据处理方式可能成为性能瓶颈，尤其是在处理大规模测序数据时。管道数据传输的开销和工具间的依赖关系可能导致整体效率下降。因此，优化此组合命令，特别是探索其并行化潜力和提高资源利用率，将是未来性能优化的关键重点之一。

1
(time samtools view -e "rlen<100000" -h $OUTPUT/7/SRR23538290.mRNA.genome.mapped.sorted.dedup.bam | hisat-3n-table -p 16 -u --alignments - --ref /path/to/Homo_sapiens.GRCh38.dna.primary_assembly.fa --output-name /dev/stdout --base-change C,T | cut -f 1,2,3,5,7 | libdeflate-gzip -c > $OUTPUT/9/SRR23538290_unfiltered_uniq.tsv.gz) > $LOG/9/log.txt 2>&1

为了单独评估 hisat-3n-table 的性能，我们移除了原有的管道机制，改为将每个步骤的输出写入磁盘文件。后续步骤再读取这些生成的文件进行数据处理。修改后的代码如下：

1
{ time samtools view -e "rlen<100000" -h $OUTPUT/7/SRR23538290.mRNA.genome.mapped.sorted.dedup.bam > $OUTPUT/9/SRR23538290.filtered.bam; } 2> $LOG/9/log.txt
2
{ time hisat-3n-table -p 16 -u --alignments $OUTPUT/9/SRR23538290.filtered.bam --ref /path/to/Homo_sapiens.GRCh38.dna.primary_assembly.fa --output-name /dev/stdout --base-change C,T > $OUTPUT/9/SRR23538290.hisat_output.tsv; } 2>> $LOG/9/log.txt
3
{ time cut -f 1,2,3,5,7 $OUTPUT/9/SRR23538290.hisat_output.tsv > $OUTPUT/9/SRR23538290.filtered_columns.tsv; } 2>> $LOG/9/log.txt
4
{ time libdeflate-gzip -c $OUTPUT/9/SRR23538290.filtered_columns.tsv > $OUTPUT/9/SRR23538290_unfiltered_uniq.tsv.gz; } 2>> $LOG/9/log.txt

实验结果出乎意料：命令拆分后的运行时间比原始脚本缩短了近一半。以 case1 为例，该命令的执行时间从 1,751 秒显著下降到 990 秒。我们推测性能提升的主要原因是原始管道机制传输的数据量过大，导致 I/O 瓶颈。将中间结果写入磁盘有效缓解了这个问题，因为文件读写操作能更好地利用系统的缓冲机制，从而减少数据传输开销。通过分析中间文件大小，我们进一步验证了这一假设的正确性——中间文件确实占用了大量磁盘空间，这也部分解释了为什么在管道机制下性能受到限制。这一发现为未来的优化工作提供了宝贵指导，强调了设计数据流过程以最小化 I/O 开销、提高整体工作效率的重要性。

5. hisat-3n-table 模块优化#

5.1 性能瓶颈分析#

在解决 hisat-3n-table 模块在整个工作流程中表现出的显著性能瓶颈时，我们根据之前的发现，启动了针对其并行效率的优化研究。通过使用 BTop 工具实时监控 CPU 资源使用情况，如图 2 所示，我们观察到模块执行期间计算资源利用率严重不均：在特定时间窗口内，只有一个 CPU 核心达到峰值负载（>90%），而其他核心的利用率普遍低于 40%。这种不平衡表明模块的并行任务调度策略可能存在缺陷。为了验证这一假设，我们进行了控制变量实验：在相同条件下，测试了多线程模式（默认参数）和单线程模式。结果揭示了一个反直觉的现象——单线程执行时间相比多线程执行显著减少——证实了当前并行架构中存在负加速问题。基于这些发现，我们接着分析了 hisat-3n-table 的并行执行模型。

图2：BTop 监控界面

5.2 原有并行架构#

通过对 hisat_3n_table.cpp 源代码的深入分析，我们解析了其并行执行模型的核心架构。代码审查显示，该模块采用主从模式下的三层线程架构：主线程使用 POSIX 线程库创建 N 个数据处理工作线程，同时独立创建一个专门的写入线程。同时，主线程本身充当动态任务调度器，负责读取原始输入数据。流程图如图 3 所示。

图3：hisat-3n-table 原流程图

这种并行架构虽然在理论上遵循生产者-消费者模型的优化设计范式，但其实现中存在关键的同步缺陷。代码审查显示，核心计算函数 append 内部使用互斥锁进行任务池访问控制。虽然这确保了任务处理顺序的正确性，但这种机制从根本上将并行计算降级为串行化的临界区操作，从而限制了 CPU 多核性能。具体来说，当 N 个工作线程并发调用 append 时，系统需要进行内核级线程调度以实现上下文切换。在锁持有期间，其余 N-1 个线程因锁不可用而被阻塞，导致 CPU 核心利用率周期性急剧下降。append 代码如下所示。

1
void append(int threadID) {
2
    string* line;
3
    Alignment newAlignment;
4

5
    while (working) {
6
        workerLock[threadID]->lock();
7
        if(!linePool.popFront(line)) {
8
            workerLock[threadID]->unlock();
9
            this_thread::sleep_for (std::chrono::nanoseconds(1));
10
            continue;
11
        }
12
        while (refPositions.empty()) {
13
            this_thread::sleep_for (std::chrono::microseconds(1));
14
        }
15
        newAlignment.parse(line);
16
        returnLine(line);
17
        appendPositions(newAlignment);
18
        workerLock[threadID]->unlock();
19
    }
20
}

对于主线程的数据加载过程，hisat-3n-table 模块实现了严格的内存管理策略。具体来说，它引入了一个动态缓冲区阈值监控机制，每当任务缓冲区或输出缓冲区达到预设容量阈值时，线程就会被挂起。这种基于生产者-消费者模型的资源调度方案建立了负反馈调节机制，将内存使用维持在 O(1) 常量水平，显著增强了在低端硬件上的运行鲁棒性。然而，这种以空间换时间的优化方法不可避免地增加了线程同步开销，特别是在处理大规模数据集时，导致主线程的阻塞等待时间非线性增长，形成显著的性能瓶颈。主线程的输入代码如下：

1
while (alignmentFile->good()) {
2
    positions->getFreeStringPointer(line);
3
    if (!getline(*alignmentFile, *line)) {
4
        positions->returnLine(line);
5
        break;
6
    }
7

8
    if (line->empty() || line->front() == '@') {
9
        positions->returnLine(line);
10
        continue;
11
    }
12
    // limit the linePool size to save memory
13
    while(positions->linePool.size() > 1000 * nThreads) {
14
        this_thread::sleep_for (std::chrono::microseconds(1));
15
    }
16
    // if the SAM line is empty or unmapped, get the next SAM line.
17
    if (!getSAMChromosomePos(line, samChromosome, samPos)) {
18
        positions->returnLine(line);
19
        continue;
20
    }
21
    // if the samChromosome is different than current positions' chromosome, finish all SAM line.
22
    // then load a new reference chromosome.
23
    if (samChromosome != positions->chromosome) {
24
        // wait all line is processed
25
        while (!positions->linePool.empty() || positions->outputPositionPool.size() > 100000) {
26
            this_thread::sleep_for (std::chrono::microseconds(1));
27
        }
28
        positions->appendingFinished();
29
        positions->moveAllToOutput();
30
        positions->loadNewChromosome(samChromosome);
31
        reloadPos = loadingBlockSize;
32
        lastPos = 0;
33
    }
34
    // if the samPos is larger than reloadPos, load 1 loadingBlockSize bp in from reference.
35
    while (samPos > reloadPos) {
36
        while (!positions->linePool.empty() || positions->outputPositionPool.size() > 100000) {
37
            this_thread::sleep_for (std::chrono::microseconds(1));
38
        }
39
        positions->appendingFinished();
40
        positions->moveBlockToOutput();
41
        positions->loadMore();
42
        reloadPos += loadingBlockSize;
43
    }
44
    if (lastPos > samPos) {
45
        cerr << "The input alignment file is not sorted. Please use sorted SAM file as alignment file." << endl;
46
        throw 1;
47
    }
48
    positions->linePool.push(line);
49
    lastPos = samPos;
50
}

5.3 重构并行架构#

基于以上分析，我们可以推断 hisat-3n-table 模块并行效率低下源于其在确保计算精度和最小化硬件资源需求之间的设计权衡。通过增加内存分配，我们可以在不牺牲结果准确性的前提下提高其并行计算效率。

5.3.1 输入部分#

我们实施了全内存加载优化策略，并设计了一个索引数组以确保计算顺序的正确性。通过源代码分析和执行逻辑检查，我们发现主线程数据加载过程中的 if 语句对应于 alignmentFile 中染色体片段的逻辑分隔符，同时也是不同染色体数据域之间的边界。为了解决这个问题，我们引入了一种机制，检查当前读取的行是否与前一行属于同一染色体。当检测到新染色体时，我们填充索引数组 V_Index 以记录每个片段的起始偏移行号和染色体信息。这为后续使用多线程进行并行数据处理提供了高效的索引支持。修改后的数据加载代码如下：

1
while (alignmentFile->good())
2
{
3
    if (!getline(*alignmentFile, line_1))
4
    {
5
        break;
6
    }
7

8
    if (line_1.empty() || line_1.front() == '@' || !getSAMChromosomePos(line_1, samChromosome, samPos))
9
    {
10
        continue;
11
    }
12

13
    V_SamPos.emplace_back(samPos);
14

15
    if (samChromosome != chromosome)
16
    {
17
        V_Index.emplace_back(count);
18
        V_SamChromosome.emplace_back(samChromosome);
19
        chromosome = samChromosome;
20
    }
21

22
    linePool.emplace_back(line_1);
23
    count++;
24
}

5.3.2 处理部分#

通过整合 (table append) 和 (table read data) 的代码，最终的数据处理代码如 (table process data) 所示。外层循环负责处理不同的染色体片段，迭代之间没有直接依赖关系，可以直接并行化。相反，内层循环涉及数据依赖和竞争条件，未经事先修改无法直接并行化。

1
for(long long int i_index = 0; i_index < V_Index.size() - 1; i_index++)
2
{
3
    positions->loadNewChromosome(V_SamChromosome[i_index]);
4

5
    auto temp_reloadPos = loadingBlockSize;
6

7
    for(long long int j_index = V_Index[i_index]; j_index < V_Index[i_index + 1]; ++j_index)
8
    {
9
        while (V_SamPos[j_index] > temp_reloadPos)
10
        {
11
            positions->moveBlockToOutput();
12
            positions->loadMore();
13
            temp_reloadPos += loadingBlockSize;
14
        }
15
        positions->append();
16
    }
17
    positions->moveAllToOutput();
18
}

5.3.3 输出部分#

基于先前定义的索引数组 V_Index 的大小（对应于 alignmentFile 中的染色体片段数量），我们执行单线程串行输出以确保结果的正确性。

1
*out_ << "ref\tpos\tstrand\tconvertedBaseQualities\tconvertedBaseCount\tunconvertedBaseQualities\tunconvertedBaseCount\n";
2
Position* pos;
3
for(int i = 0; i < V_Index.size() - 1; ++i)
4
{
5
    while (outputPositionPool[i].popFront(pos))
6
    {
7
        *out_ << pos->chromosome << '\t'
8
                << to_string(pos->location) << '\t'
9
                << pos->strand << '\t'
10
                << pos->convertedQualities << '\t'
11
                << to_string(pos->convertedQualities.size()) << '\t'
12
                << pos->unconvertedQualities << '\t'
13
                << to_string(pos->unconvertedQualities.size()) << '\n';
14
    }
15
}

5.4 使用 OpenMP 指令并行化#

我们采用 OpenMP 并行编程模型替代原有的并行架构，利用其简洁的 API 接口和高效的线程管理机制，实现了循环的快速并行重构。具体来说，我们使用 OpenMP 指令 #pragma omp parallel for 并行化最外层循环，针对染色体数据处理特点进行了定制。这种设计使每个物理计算核心能够独立处理整个染色体数据集，确保了染色体间的数据独立性，有效避免了共享内存访问冲突和竞争条件。此外，考虑到染色体数据集大小存在显著差异，我们实施了动态任务调度策略以实现负载均衡，设置 chunk_size 为 1。鉴于染色体数据大小分布不均（编号较小的染色体通常包含更大数据集），最小化任务调度粒度可防止多个高负载任务被分配到同一个 CPU 核心。

5.5 内存管理优化#

我们对内存管理策略进行了深入研究和优化。hisat-3n-table 模块采用基于对象池的内存管理机制，使用两个池：freeLinePool 和 freePositionPool。该机制按数据类型对未使用的指针进行分类存储，并在后续循环中优先重用池中的对象。这种方法有效控制了内存使用，并最小化了内存分配和释放相关的系统开销。

然而，多线程环境下的性能分析揭示了显著的性能瓶颈。具体来说，每次访问池资源都需要通过互斥锁进行同步，这在多线程场景下会产生巨大开销，成为主要性能瓶颈，严重限制了系统吞吐量和响应时间。

为了解决这个问题，我们废除了原有的对象池机制，采用了基于栈的内存管理策略。例如，临时对象直接在函数调用栈上实例化，其引用随后添加到 refPositions 数组中进行统一管理。这种方法完全消除了锁竞争造成的性能损失，同时保持了内存使用效率。

1
char* b_1;
2
for (int i = 0; i < line_2.size(); i++) {
3
    Position newPos_1;
4
    newPos_1.set(targetChromosome, location + i);
5
    b_1 = &line_2[i];
6
    if (CG_only) {
7
        if (lastBase == 'C' && *b_1 == 'G') {
8
            refPositions.back().set('+');
9
            newPos_1.set('-');
10
        }
11
    } else {
12
        if (*b_1 == convertFrom) {
13
            newPos_1.set('+');
14
        } else if (*b_1 == convertFromComplement) {
15
            newPos_1.set('-');
16
        }
17
    }
18
    refPositions.emplace_back(newPos_1);
19
    lastBase = *b_1;
20
}
21

22
/* 原始代码
23
Position* newPos_1;
24
char* b_1;
25
for (int i = 0; i < line_2.size(); i++) {
26
    if (!freePositionPool.popFront(newPos_1)) {
27
        newPos_1 = new Position();
28
    }
29
    newPos_1->set(targetChromosome, location + i);
30
    b_1 = &line_2[i];
31
    if (CG_only) {
32
        if (lastBase == 'C' && *b_1 == 'G') {
33
            refPositions.back()->set('+');
34
            newPos_1->set('-');
35
        }
36
    } else {
37
        if (*b_1 == convertFrom) {
38
            newPos_1->set('+');
39
        } else if (*b_1 == convertFromComplement) {
40
            newPos_1->set('-');
41
        }
42
    }
43
    refPositions.emplace_back(newPos_1);
44
    lastBase = *b_1;
45
}
46
*/

5.6 I/O 性能分析#

通过 BTop 显示的 I/O 状况，我们观察到输出阶段在 Output 操作中消耗的时间可以忽略不计，影响很小。另一方面，Input 操作花费的时间为进一步优化提供了机会。在探索优化策略时，我们最初考虑采用并行化技术来提高输入效率。然而，传统的并行读取技术通常适用于数值数据文件，利用字节偏移量在二进制模式下实现高效的并行访问。对于包含字符串类型数据的 alignmentFile，记录字符长度的显著可变性使得传统的基于字节偏移量的并行读取方法不切实际。

为了克服这个限制，我们根据染色体类型对原始数据集进行分区，并实现了多线程并行读取机制。实验结果表明，这种方法确实提高了整体输入效率。然而，在实际应用中仔细检查后，我们发现数据分区阶段产生的时间成本大致相当于并行读取带来的性能增益。因此，整体优化效果仍然有限。经过综合评估，我们最终保留了原有的单线程顺序读取策略。

6. 数据复用#

在流程优化过程中，实验观察发现，连续的 hisat-3n-table 模块都将来自 samtools 的相同预处理数据作为其输入源。为了解决这个冗余操作，我们实现了一个中间文件缓存机制来优化资源分配。具体来说，通过将 samtools 的初始处理结果持久存储为中间文件，我们确保一次数据过滤操作就能满足所有后续相关工作流程的输入需求。该策略有效消除了重复执行资源密集型过滤操作的需要，将 I/O 操作从两次减少到一次。结果，系统资源消耗显著降低。实验验证证实，这种利用中间文件复用的优化方法不仅保持了数据处理的一致性，还将整体工作流程效率提高了约 23%，同时减少了约 37% 的临时文件存储空间。

7. 并发操作#

如前所述，我们对 hisat-3n-table 模块进行了优化，显著提高了其多核性能。然而，随着线程数逐渐增加到 16，进一步增加线程数带来的额外改进微乎其微，表明程序已经以极快的速度运行。为了充分利用 56 核处理器的性能，我们决定并发执行四个 hisat-3n-table 命令，并并行运行两个 samtools 操作，因为它们没有数据依赖关系。

具体来说，我们在每个命令的末尾附加一个 & 符号，使其能够在后台运行而不阻塞后续步骤。最后，我们使用 wait 命令阻塞，直到所有后台进程完成。脚本流程概述如下：

1
# echo "------------11-------------"
2
(time samtools view -@ 8 -e "[XM] * 20 <= (qlen-sclen) && [Zf] <= 3 && 3 * [Zf] <= [Zf] + [Yf]" ...) > $LOG/11/log.txt 2>&1 &
3

4
echo "------------9-------------"
5
{ time samtools view -e "rlen<100000" ...; } 2> $LOG/9/log.txt &
6

7
wait
8

9
{ time samtools view -e "rlen<100000" ...; } 2> $LOG/12/log.txt
10
{ time hisat-3n-table ...; } 2>> $LOG/9/log.txt &
11
{ time hisat-3n-table ...; } 2>> $LOG/10/log.txt &
12
{ time hisat-3n-table ...; } 2>> $LOG/12/log.txt &
13
{ time hisat-3n-table ...; } 2>> $LOG/13/log.txt &
14

15
wait

8. UMI 去重优化#

当使用 UMICollapse 工具对成功比对到人类基因组的 BAM 文件进行 UMI 去重时，我们观察到 CPU 资源利用率显著，只有一个核心持续达到高占用率。不幸的是，该工具利用多核并行计算的能力并未得到有效发挥。最初尝试使用 umitools 作为替代方案发现，它不仅缺乏并行计算选项，而且运行效率明显低于 UMICollapse。因此，去重操作继续依赖 UMICollapse 作为处理工具。

基于人类基因组参考序列的染色体分布特征，我们设计并实现了一种基于染色体坐标的并行优化策略。该策略的实施涉及以下关键步骤：

染色体信息提取： 利用 samtools idxstats 命令，获取整个基因组中所有染色体的名称，为后续基于染色体的文件拆分提供基础数据支持。
特殊染色体处理： 识别包括 X、Y 染色体和线粒体 DNA（非 1-22 号染色体）在内的特殊染色体，并将其名称存储在一个列表（special_chrom_list）中。鉴于这些特殊染色体的比对记录数量远少于标准染色体，我们使用 samtools view 命令从源文件中提取并合并这些记录，以提高处理效率。
标准染色体数据拆分： 对于比对到 1-22 号染色体的测序数据，这些数据通常涉及更大的数据集，我们实施了一种基于染色体编号独立拆分数据的策略。每条染色体的比对记录都存储在单独的文件中。实验结果表明，使用 samtools view 进行拆分所需的时间可以忽略不计（< 总处理时间的 2%），显示出高效率。
并行处理： 数据拆分后，我们采用并行计算策略，同时启动多个 UMICollapse 实例，对每个特定染色体的文件进行 UMI 去重。
结果整合： 最后，我们使用 samtools merge 命令整合并重建所有处理后的结果。值得注意的是，由于排序已在早期阶段完成，此合并步骤不会打乱文件顺序。通过多次实验验证，这种拆分合并策略在确保结果准确性的同时，显著提高了处理效率。

此步骤的具体工作流程如图 4 所示。

图4：步骤执行工作流程图

该优化方案的完整实现细节在 umi-java.sh 自动化脚本中提供。实验结果表明，引入多线程并行计算框架显著提高了系统资源利用率，并有效利用了多核能力，实现了约 6 倍的计算效率提升（基于 n=5 次独立实验）。在项目时间有限的情况下，与在工具源代码层面进行并行化修改相比，这种基于任务的并行化策略展示了卓越的工程实施效率，以及在资源利用率和实用性之间更好的平衡。

9. cutseq 和 hisat2-align-s 的协作并行#

1
/path/to/hisat2-align-s --wrapper basic-0 --index /path/to/Homo_sapiens.GRCh38.ncrna.fa --summary-file /path/to/map2ncrna.output.summary --new-summary -q -p 16 --base-change C,T --mp 8,2 --no-spliced-alignment --directional-mapping -U /path/to/SRR23538290.fastq_cut --3N

使用火焰图进行的性能分析表明，计算程序的核心热点函数是 align()，作为基因序列比对的顶层接口，初步确定为系统性能的潜在瓶颈。进一步研究发现，hybridSearch_recur() 函数消耗时间最多，它通过多模式搜索策略实现碱基对匹配，但受限于其复杂的递归机制。理论上，将递归范式转换为迭代模型可以减少堆栈内存使用和复杂性，从而提高执行效率。然而，实验数据表明，这种迭代重构并未显著提升性能。因此，我们将重点转移到系统性地优化次要热点，如 getAnchorHits()。详细检查其算法逻辑和实现，发现了诸如位操作和数据压缩技术等优化。通过多维度的优化实验，证实当前实现已接近最优性能，无法获得进一步显著提升。

图5：火焰图

为了解决当前计算密集型模块的优化瓶颈，我们重新关注 hisat-3n-table 流程中的 I/O 性能问题。使用 GDB，我们逐行跟踪分析了文件读写和数据转换过程。我们发现 readOrigBuf 缓冲区处理来自异常巨大的 FASTQ 格式拆分文件（fastq_cut，>10GB）的原始文本数据，这显著超过了典型文件大小。进一步分析执行流程发现，在 go() 函数的最外层控制循环中，存在对 fastq_cut 每一行的顺序读取操作（每次循环迭代一行）。尽管此读取操作仅用于信息输出，不贡献于核心计算，但其数十亿次的迭代使文件读取成为关键性能瓶颈。

计时分析实验表明，上游 cutseq 模块的生成速率（输出带宽）远超下游 hisat2-align-s 模块的消耗速率（输入带宽），导致显著的吞吐量不平衡。基于这些发现，我们提出一个基于生产者-消费者模型的并发执行框架：通过实现两阶段流水线并行化策略，确保 fastq_cut 文件的同步生成和消耗（设置 5 秒等待间隔，远高于实际 1-2 秒的文件创建延迟），从而有效重叠计算资源。以下是此优化方法的简化实现框架。

1
time cutseq ... &
2
sleep 5
3
time hisat-3n ... | samtools ... &
4
wait

通过应用上述方法，我们能够实现资源的优化分配，有效减轻初始 cutseq 步骤带来的运行时开销。然而，第四步 hisat2-align-s 的执行时间并未见显著改善。为了解决这个问题，我们深入分析了与 —index 参数对应的文件在程序中的使用方式。我们的发现表明，这些文件在初始化阶段被预加载到内存中，并在调用时加载到相关变量中。读取和调用机制设计合理，几乎没有明显的优化空间。

10. 总结#

三个案例的加速趋势几乎相同；因此，我们以 case2 为例说明各阶段的加速比，如图 6 所示。

图6：Case2 各阶段耗时与加速比

对于各个工具，最耗时的组件 hisat-3n-table 得到了显著优化，UMICollapse 的使用也有了实质性改进，这两个成为整个流程中加速贡献最高的部分。关于整体工作流程，对管道的修改和并发执行的引入不可或缺。结果，完成所有案例的阶段1和阶段2现在仅需 1773 秒，如图 7 所示。

图7：阶段1和阶段2总耗时