Best continual learning strategies for integrating perturbation data into genome-wide models

Determine the most effective continual learning strategy or combination—spanning replay-based methods, regularization-based methods, architecture-based strategies, and nested learning—for integrating perturbation assay datasets into pretrained genome-wide sequence-to-function models while preserving prior capabilities and avoiding catastrophic forgetting.

Background

Integrating dense locus-specific perturbation data (e.g., MPRA and CRISPR screens) with genome-wide profiling via naive joint training or fine-tuning often leads to data imbalance and catastrophic forgetting. Continual learning offers replay-, regularization-, and architecture-based approaches to mitigate forgetting, but their comparative effectiveness for regulatory genomics remains unresolved.

References

Which strategies, or combinations thereof, best support integration of perturbation data into genome-wide models remains an open question.

— Toward Interpretable and Generalizable AI in Regulatory Genomics (2602.01230 - Nagai et al., 1 Feb 2026) in Section “Continual Learning Across Genomic Assays”

Best continual learning strategies for integrating perturbation data into genome-wide models

Background

References

Related Problems