The new face of the human genome: two studies that revolutionize our understanding of genetic variation
| Il nuovo volto del genoma umano: due studi che rivoluzionano la nostra comprensione della variazione genetica

The new face of the human genome: two studies that revolutionize our understanding of genetic variation

In recent years, DNA sequencing has made great strides thanks especially to new “long-read” sequencing technologies. Two recent articles published in Nature in July 2025 open new paths in the study of human genetic variability, going beyond the simple reading of DNA bases and tackling the more complex forms of genomic variation. The two works, “Complex genetic variation in nearly complete human genomes” and “Structural variation in 1,019 diverse humans based on long-read sequencing”, have complementary objectives but converge on one point: to understand genetic diseases, whether common or rare, and differences between populations, it is essential to deeply characterize the structural variability of the human genome.

The human genome is an incredibly complex book, but until now we have only read one reference version, incomplete and not representative of the entire diversity of the world population. Fully understanding structural variation (SV)—large DNA rearrangements such as deletions, insertions, duplications, and inversions—is crucial, as these SVs significantly contribute to human genetic diversity and are implicated in numerous common and rare diseases.

Fortunately, recent advances in long-read sequencing (LRS) are revolutionizing our ability to read this book page by page, even the most “obscure” and repetitive ones, offering an unprecedented view of human genome diversity.

 

  1. Complex genetic variation in nearly complete human genomes

Study objective

This work aimed to build human genomes with virtually no “gaps,” including regions traditionally difficult to sequence such as centromeres (the central parts of chromosomes) and segmental duplications (repeated sequences of genes or DNA segments). The goal was to obtain a more accurate and complete representation of the genome, useful both for basic research and for the study of diseases.

To achieve this, 65 individuals from 28 populations across five continental groups were sequenced, producing 130 high-quality haplotype assemblies, in order to build a more complete pangenome reference and better understand the extent of complex structural variation.

Main findings

  • Increase in Structural Variants (SVs): An average of 26,115 SVs per individual were detected. This massive increase in available SVs is crucial for disease association studies. A significantly higher number of rare SVs (less than 1% frequency in the population) were noted in individuals of African ancestry, highlighting the greater genetic diversity of these populations.
  • Mobile Element Insertions (MEIs): Nearly 13,000 MEIs (mobile DNA sequences that insert into the genome) were identified, a 36.65% increase compared to previous studies, largely thanks to the inclusion of individuals with African ancestry. Many of these elements still retain the ability to “jump” within the genome.
  • Revealed Inversions: 21 new inversions (DNA segments flipped in orientation) were discovered, including a large one (1.8 Mb) on chromosome 5q35, a region associated with Sotos syndrome (also known as cerebral gigantism, a rare genetic disease characterized by childhood overgrowth, macrocephaly, and variable intellectual disability).
  • Segmental Duplications (SDs): SDs are regions of the genome that have duplicated and are often implicated in disease. The study found an average of 168.1 Mb of SDs per genome. Genomes of African ancestry showed a higher absolute SD content and a larger number of new SDs, with an average of 468 additional paralog genes (duplicated genes within the same genome).
  • Y Chromosome Variation: Y chromosome variation was studied, obtaining for the first time complete sequences from multiple lineages (e.g., African and European).
  • Complex Structural Polymorphisms (CSVs): 1,247 CSVs were identified (including the SMN1/SMN2 gene region, crucial for spinal muscular atrophy), many mediated by SDs.
  • Revealed Centromeres: Centromeres, highly repetitive regions crucial for cell division, were assembled and validated for 1,246 human centromeres. Length variation of sequences up to 30-fold between individuals was observed.
  • Significance of SVs: These variants were shown to influence not only gene sequence but also gene expression and chromatin conformation, with potential implications for biological regulation and disease predisposition.
  • Gap resolution: 92% of the gaps present in previous genome versions were closed, and complete telomere-to-telomere chromosomes were obtained in 39% of cases.

 

  1. Structural variation in 1,019 diverse humans based on long-read sequencing

Study objective

This second study aimed to create a large catalog of structural variants (SVs) in over 1,000 individuals from 26 populations, using Long-Read Sequencing (LRS) technology. The goal was to generate a global map of human genetic diversity and identify rare or population-specific SVs that could explain differences in disease susceptibility.

Main findings

  • SV characterization: More than 100,000 biallelic SVs (with only two alternative versions) and over 300,000 multiallelic VNTRs (variable number tandem repeats, often associated with diseases) were characterized. These numbers far exceed previous estimates based on short-read sequencing.
  • SVs per individual: The median number of SVs per sample was 23,969 for African samples and 19,297 for other ancestries, underscoring the greater genetic diversity of African populations. These numbers are significantly higher than those detected with short-read sequencing.
  • Rare SVs: The majority of SVs were found to be rare (59.3% with minor allele frequency (MAF) <1%) and often present in only a single population.
  • Fst (fixation index): Fst analysis provides a measure of genetic differentiation between populations. It identified 8,597 variants with significant population differences (Fst > 0.2), some of which involve clinically relevant genes associated with diseases.
  • Detailed SV classification: Development of SVAN, an algorithm that classifies SVs into distinct categories.
  • Mobile Elements (MEIs) and Processed Pseudogenes: 31,302 non-reference MEI insertions were identified (including Alu, L1, and SVA), a significant increase compared to short-read analyses. 203 non-reference processed pseudogenes and 180 nuclear mitochondrial DNA segments (NUMTs) were also classified.
  • Inversions: 1,849 inversions were identified, including complex ones with multiple breakpoints, which were manually confirmed.

 

Conclusion: Impact of the studies

These two works have a huge impact on human genetics for three main reasons:

  • Characterization of new diseases
    Complex structural variants, such as duplications, inversions, and VNTRs, can alter genes and regulatory mechanisms. Having them finally mapped in detail means being able to study them as direct causes of rare diseases or as risk factors in common pathologies (e.g., neurological, autoimmune, or metabolic).
  • Understanding multigenic diseases
    Many common diseases (diabetes, hypertension, schizophrenia) are influenced by multiple genes. These studies show that it is not enough to look only at single nucleotide variants (SNVs), but it is necessary to consider structural variability that can modify entire groups of genes or their interactions.
  • Differences between populations
    Susceptibility to certain diseases varies between human groups. Including global populations has allowed the discovery of variants specific to African, Asian, or American origins, which may explain epidemiological differences and improve personalized medicine.

 

The importance of exome sequencing (and beyond)

In the past, only a few targeted genes were studied. Today it is clear that sequencing the entire exome (the coding parts of the genome) is fundamental for identifying clinically relevant variants. However, as these studies show, many pathogenic variants are not found only in exons, but also in regulatory or repetitive regions, often invisible to classical sequencing. For this reason, the future will increasingly move toward whole-genome sequencing with long-read technologies, to obtain a complete map of the genetic differences that make each of us unique, but also more or less susceptible to certain diseases.

 

Il nuovo volto del genoma umano: due studi che rivoluzionano la nostra comprensione della variazione genetica

Negli ultimi anni, il sequenziamento del DNA ha compiuto passi da gigante grazie soprattutto alle nuove tecnologie di sequenziamento “long reads”. Due recenti articoli pubblicati su Nature a luglio 2025 aprono nuove strade nello studio della variabilità genetica umana, andando oltre la semplice lettura delle basi del DNA e affrontando le forme più complesse di variazione genomica. I due lavori, “Complex genetic variation in nearly complete human genomes” e “Structural variation in 1,019 diverse humans based on long-read sequencing”, hanno obiettivi complementari ma convergono su un punto: per capire le malattie genetiche, comuni o rare, e le differenze tra popolazioni, è essenziale caratterizzare in profondità la variabilità strutturale del genoma umano.

Il genoma umano è un libro incredibilmente complesso, ma finora ne abbiamo letto solo una versione di riferimento, incompleta e che non rappresentava l’intera diversità della popolazione mondiale. Comprendere appieno la variazione strutturale (SV) – grandi riarrangiamenti del DNA come delezioni, inserzioni, duplicazioni e inversioni – è cruciale, poiché queste SV contribuiscono significativamente alla diversità genetica umana e sono implicate in numerose malattie comuni e rare.

Fortunatamente, recenti progressi nel sequenziamento a lettura lunga (LRS) stanno rivoluzionando la nostra capacità di leggere questo libro in ogni sua pagina, anche quelle più “oscure” e ripetitive, offrendo una visione senza precedenti della diversità del genoma umano.

 

  1. Complex genetic variation in nearly complete human genomes

Obiettivo dello studio

Questo lavoro si proponeva di costruire genomi umani quasi privi di “buchi” (gap), includendo regioni tradizionalmente difficili da sequenziare come i centromeri (le parti centrali dei cromosomi) e le duplicazioni segmentali (sequenze ripetute di geni o porzioni di DNA). Lo scopo era ottenere una rappresentazione più fedele e completa del genoma, utile sia per la ricerca di base sia per lo studio delle malattie.

Per fare ciò sono stati sequenziati 65 individui provenienti da 28 popolazioni diverse di cinque gruppi continentali, producendo 130 genomi aploidi (haplotype assemblies) di altissima qualità, per costruire un riferimento pangenomico più completo e comprendere l’estensione della variazione strutturale complessa.

Principali risultati

  • Aumento delle Variazioni Strutturali (SV): Sono state rilevate in media 26.115 SV per individuo. Questo aumento massiccio del numero di SV disponibili è fondamentale per gli studi di associazione con le malattie. È stato notato un numero significativamente maggiore di SV rari (meno dell’1% di frequenza nella popolazione) negli individui di ascendenza africana, sottolineando la maggiore diversità genetica di queste popolazioni.
  • Inserzioni di Elementi Mobili (MEI): Sono state identificate quasi 13.000 MEI (sequenze di DNA mobili che si inseriscono nel genoma), un aumento del 36,65% rispetto agli studi precedenti, in gran parte grazie all’inclusione di individui con ascendenza africana. Molti di questi elementi conservano la capacità di “saltare” nel genoma.
  • Inversioni Rivelate: Sono state scoperte 21 nuove inversioni (segmenti di DNA che sono invertiti), inclusa una grande (1,8 Mb) sul cromosoma 5q35, una regione associata alla sindrome di Sotos (conosciuta anche come gigantismo cerebrale, è una malattia genetica rara caratterizzata da crescita eccessiva durante l’infanzia, macrocefalia (testa grande), e disabilità intellettiva variabile).
  • Duplicazioni Segmentali (SD): Le SD sono regioni del genoma che si sono duplicate e sono spesso implicate in malattie. Lo studio ha trovato una media di 168,1 Mb di SD per genoma. I genomi con ascendenza africana hanno mostrato un contenuto assoluto di SD più elevato e un maggior numero di nuove SD, con una media di 468 geni paraloghi aggiuntivi (geni duplicati all’interno dello stesso genoma).
  • Variazione del Cromosoma Y: È stata studiata la variazione del cromosoma Y, ottenendo per la prima volta sequenze complete di più lineage (ad es. africani ed europei).
  • Polimorfismi Strutturali Complessi (CSV): Sono stati identificati 1.247 CSV (tra queste, la regione del gene SMN1/SMN2, cruciale per l’atrofia muscolare spinale), molte delle quali mediate da SD.
  • Centromeri Rivelati: I centromeri, regioni altamente ripetitive e cruciali per la divisione cellulare, sono stati assemblati e validati per ben 1.246 centromeri umani. È stata osservata una variazione di lunghezza delle sequenze tra diversi individui fino a 30 volte.
  • Significato delle SV: Dimostrato che queste varianti influenzano non solo la sequenza dei geni, ma anche l’espressione genica e la conformazione della cromatina, con potenziali implicazioni nella regolazione biologica e nella predisposizione a malattie.
  • Risoluzione dei gap: Hanno chiuso il 92% dei gap presenti nelle versioni precedenti del genoma e ottenuto cromosomi completi da telomero a telomero per il 39% dei casi.

 

  1. Structural variation in 1,019 diverse humans based on long-read sequencing

Obiettivo dello studio

Questo secondo lavoro ha puntato a creare un grande catalogo di varianti strutturali (SV) in oltre 1.000 individui appartenenti a 26 popolazioni, usando tecnologia Long-Read di sequenziamento (LRS). Lo scopo era avere una mappa globale della diversità genetica umana e identificare varianti strutturali (SV) rare o specifiche di popolazione che potrebbero spiegare differenze nella predisposizione alle malattie.

Principali risultati

  • Caratterizzazione SV: Sono state caratterizzate oltre 100.000 varianti strutturali bialleliche (con due sole versioni alternative) e oltre 300.000 VNTR multialleliche (ripetizioni di piccole sequenze con numero di copie variabile, spesso associate a malattie). Tali numeri superano considerevolmente le stime precedenti eseguite con il sequenziamento a lettura corta.
  • SV per individuo: Il numero mediano di SV per campione è stato di 23.969 per i campioni africani e 19.297 per le altre ascendenze, evidenziando la maggiore diversità genetica nelle popolazioni africane. Questi numeri sono significativamente più alti rispetto ai numeri rilevati con le letture corte.
  • SV rare: È stato osservato che la maggior parte delle SV è rara (59.3% con frequenza allelica minore (MAF) <1%) e spesso presente in una sola popolazione.
  • Fst (indice di fissazione): L’analisi della Fst dona una misura della differenziazione genetica tra popolazioni. Tale analisi ha identificato 8.597 varianti con differenze significative tra popolazioni (Fst > 0.2), alcune delle quali coinvolgono geni clinicamente rilevanti associati a malattie.
  • Classificazione Dettagliata delle SV: sviluppo di SVAN, un algoritmo che classifica le SV in classi distinte.
  • Elementi Mobili (MEI) e Pseudogeni Processati: Sono state identificate 31.302 inserzioni di MEI non di riferimento (tra cui Alu, L1 e SVA), con un aumento significativo rispetto alle analisi basate su lettura corta. Sono stati classificati anche 203 pseudogeni processati non di riferimento e 180 segmenti di DNA mitocondriale nucleare (NUMT).
  • Inversioni: Sono state identificate 1.849 inversioni, comprese quelle complesse con più punti di rottura, che sono state confermate manualmente.

 

Conclusione: Impatto degli studi

Questi due lavori hanno un impatto enorme sulla genetica umana per tre motivi principali:

  1. Caratterizzazione di nuove malattie
    Varianti strutturali complesse, come duplicazioni, inversioni e VNTR, possono alterare geni e meccanismi regolatori. Averle finalmente mappate in dettaglio significa poterle studiare come causa diretta di malattie rare o come fattori di rischio in patologie comuni (per esempio neurologiche, autoimmuni o metaboliche).
  2. Comprensione delle malattie multigeniche
    Molte malattie comuni (diabete, ipertensione, schizofrenia) sono influenzate da più geni. Questi studi mostrano che non basta guardare singole mutazioni puntiformi (SNV), ma bisogna considerare la variabilità strutturale che può modificare interi gruppi di geni o le loro interazioni.
  3. Differenze tra popolazioni
    La predisposizione a certe malattie varia tra gruppi umani. Aver incluso popolazioni globali ha permesso di scoprire varianti specifiche di origine africana, asiatica o americana, che potranno spiegare differenze epidemiologiche e migliorare la medicina personalizzata.

 

L’importanza del sequenziamento dell’esoma (e oltre)

Un tempo si studiavano solo pochi geni mirati. Oggi è chiaro che il sequenziamento di tutto l’esoma (le parti codificanti del genoma) è fondamentale per identificare varianti clinicamente rilevanti. Tuttavia, come mostrano questi studi, molte varianti patogenetiche non si trovano nei soli esoni, ma anche in regioni regolatorie o ripetute, spesso invisibili al sequenziamento classico. Per questo, il futuro sarà sempre più orientato al sequenziamento dell’intero genoma con tecnologie a lettura lunga, per avere una mappa completa delle differenze genetiche che rendono ognuno di noi unico, ma anche più o meno suscettibile a determinate malattie.

 

Author: Stefano Michienzi

Source:

Complex genetic variation in nearly complete human genomes

Structural variation in 1,019 diverse humans based on long-read sequencing

Condividi questo articolo sui social!

Lascia un commento