How to translate text using browser tools
26 August 2022 Updating splits, lumps, and shuffles: Reconciling GenBank names with standardized avian taxonomies
Peter A. Hosner, Min Zhao, Rebecca T. Kimball, Edward L. Braun, J. Gordon Burleigh
Author Affiliations +
Abstract

Biodiversity research has advanced by testing expectations of ecological and evolutionary hypotheses through the linking of large-scale genetic, distributional, and trait datasets. The rise of molecular systematics over the past 30 years has resulted in a wealth of DNA sequences from around the globe. Yet, advances in molecular systematics also have created taxonomic instability, as new estimates of evolutionary relationships and interpretations of species limits have required widespread scientific name changes. Taxonomic instability, colloquially “splits, lumps, and shuffles,” presents logistical challenges to large-scale biodiversity research because (1) the same species or sets of populations may be listed under different names in different data sources, or (2) the same name may apply to different sets of populations representing different taxonomic concepts. Consequently, distributional and trait data are often difficult to link directly to primary DNA sequence data without extensive and time-consuming curation. Here, we present RANT: Reconciliation of Avian NCBI Taxonomy. RANT applies taxonomic reconciliation to standardize avian taxon names in use in NCBI GenBank, a primary source of genetic data, to a widely used and regularly updated avian taxonomy: eBird/Clements. Of 14,341 avian species/subspecies names in GenBank, 11,031 directly matched an eBird/Clements; these link to more than 6 million nucleotide sequences. For the remaining unmatched avian names in GenBank, we used Avibase's system of taxonomic concepts, taxonomic descriptions in Cornell's Birds of the World, and DNA sequence metadata to identify corresponding eBird/Clements names. Reconciled names linked to more than 600,000 nucleotide sequences, ∼9% of all avian sequences on GenBank. Nearly 10% of eBird/Clements names had nucleotide sequences listed under 2 or more GenBank names. Our taxonomic reconciliation is a first step towards rigorous and open-source curation of avian GenBank sequences and is available at GitHub, where it can be updated to correspond to future annual eBird/Clements taxonomic updates.

LAY SUMMARY

  • 23% of avian names on GenBank do not match eBird/Clements, a widely used standardized avian taxonomy.

  • More than 600,000 nucleotide sequences on GenBank are associated with names that do not match eBird/Clements.

  • 10% of eBird/Clements names have nucleotide sequences listed under multiple GenBank names.

  • We provide an open-source taxonomic reconciliation to mitigate difficulties associated with non-standardized name use for GenBank sequences.

La investigación sobre biodiversidad ha avanzado al evaluar las expectativas de las hipótesis ecológicas y evolutivas a través de la vinculación de bases de datos genéticos, de distribución y de rasgos a gran escala. El auge de la sistemática molecular en los últimos 30 años ha dado como resultado una gran cantidad de secuencias de ADN de todo el mundo. Sin embargo, los avances en la sistemática molecular también han creado inestabilidad taxonómica, ya que las nuevas estimaciones de las relaciones evolutivas y las interpretaciones de los límites de las especies han requerido cambios generalizados en los nombres científicos. La inestabilidad taxonómica, coloquialmente llamada “divisiones, agrupamientos y reorganizaciones,” presenta desafíos logísticos para la investigación de la biodiversidad a gran escala porque (1) las mismas especies o conjuntos de poblaciones pueden estar listados con diferentes nombres en diferentes fuentes de datos, o (2) el mismo nombre puede aplicarse a diferentes conjuntos de poblaciones representando diferentes conceptos taxonómicos. En consecuencia, los datos de distribución y rasgos a menudo son difíciles de vincular directamente a los datos primarios de secuencias de ADN sin una curación extensa y demandante de tiempo. Aquí, presentamos RANT (por sus siglas en inglés): reconciliación de la taxonomía aviar del Centro Nacional para la Información Biotecnológica (CNIB). RANT aplica la reconciliación taxonómica para estandarizar los nombres de taxones aviares en uso en el GenBank de CNIB, una fuente principal de datos genéticos, con la taxonomía aviar ampliamente utilizada y actualizada periódicamente de eBird/Clements. De los 14.341 nombres de especies/subespecies de aves en GenBank, 11.031 coincidieron directamente con eBird/Clements; estos se vinculan a más de 6 millones de secuencias de nucleótidos. Para los restantes nombres de aves no coincidentes en GenBank, utilizamos el sistema de conceptos taxonómicos de Avibase, descripciones taxonómicas en Aves del Mundo de Cornell y metadatos de secuencias de ADN para identificar los nombres correspondientes de eBird/Clements. Los nombres reconciliados vincularon a más de 600.000 secuencias de nucleótidos, ∼9% de todas las secuencias de aves en GenBank. Casi el 10% de los nombres de eBird/Clements tuvieron secuencias de nucleótidos enumeradas bajo dos o más nombres en GenBank. Nuestra reconciliación taxonómica es un primer paso hacia la curación rigurosa y de código abierto de las secuencias aviares de GenBank y está disponible en GitHub, donde se puede actualizar para que corresponda con las futuras actualizaciones taxonómicas anuales de eBird/Clements.

Copyright © American Ornithological Society 2022. All rights reserved. For permissions, e-mail: journals.permissions@oup.com.
Peter A. Hosner, Min Zhao, Rebecca T. Kimball, Edward L. Braun, and J. Gordon Burleigh "Updating splits, lumps, and shuffles: Reconciling GenBank names with standardized avian taxonomies," Ornithology 139(4), 1-15, (26 August 2022). https://doi.org/10.1093/ornithology/ukac045
Received: 7 February 2022; Accepted: 27 July 2022; Published: 26 August 2022
KEYWORDS
big data
Centro Nacional para la Información Biotecnológica
datos de secuencias de ADN
DNA sequence data
genómica
genomics
macrodatos
RIGHTS & PERMISSIONS
Get copyright permission
Back to Top