El Instituto Nacional de Ciencia de Materiales (NIMS) ha desarrollado Research Data Express (RDE), un sistema de gestión de datos diseñado para automatizar el procesamiento de datos experimentales y crear conjuntos de datos listos para IA en investigación de materiales. Publicado en Science and Technology of Advanced Materials: Methods, este sistema aborda desafíos significativos en un campo donde la investigación genera grandes volúmenes de datos que a menudo existen en formatos específicos de fabricantes con terminología inconsistente, dificultando la agregación, comparación y reutilización.
La investigación tradicional de materiales requiere que los investigadores dediquen tiempo considerable a tareas tediosas como conversión de formatos, asignación de metadatos y extracción de características. Estos pasos adicionales frecuentemente desalientan el intercambio de datos, obstaculizando el avance del trabajo basado en datos. El problema se ha vuelto cada vez más agudo a medida que el campo depende más del descubrimiento de materiales impulsado por IA, que exige conjuntos de datos estandarizados de alta calidad. RDE interpreta automáticamente datos experimentales de archivos sin procesar y mediciones ingresadas manualmente, luego reestructura y almacena esta información en un formato con mayor legibilidad.
"RDE reduce significativamente la carga del procesamiento rutinario de datos para los investigadores y mejora la localización, interoperabilidad, reutilización (los principios FAIR) y trazabilidad de los datos", explica Jun Fujima, autor correspondiente e investigador de la Plataforma de Datos de Materiales del NIMS. "Esperamos que esto promueva la investigación colaborativa de materiales basada en datos". La innovación central del sistema es su enfoque de "Plantilla de Conjunto de Datos", que define y dirige cómo deben procesarse los datos de diferentes tipos de experimentos, en lugar de simplemente definir formatos de datos.
Por ejemplo, cuando los investigadores cargan hojas de cálculo de mediciones de rayos X de diferentes fuentes, la Plantilla de Conjunto de Datos puede configurarse para interpretarlas. El sistema luego realiza automáticamente análisis avanzados y crea visualizaciones para proporcionar panorámicas inmediatas. Se pueden preparar múltiples plantillas para diferentes temas de investigación de materiales, permitiendo máxima flexibilidad en la gestión de datos. Los investigadores individuales también pueden preparar fácilmente plantillas personalizadas cuando sea necesario. Muchas plantillas ya han sido preparadas y compartidas entre usuarios a través del sistema.
"El enfoque único de RDE permite a los investigadores definir libremente estructuras de datos adaptadas a sus instrumentos, mientras permite al sistema realizar estructuración masiva de datos y extracción de metadatos automáticamente", dice Fujima. Desde su lanzamiento en enero de 2023, RDE ha demostrado escalabilidad significativa con adopción generalizada en la comunidad de investigación de materiales de Japón. El sistema actualmente tiene más de 5,000 usuarios, con más de 1,900 Plantillas de Conjunto de Datos para varios métodos experimentales implementados, más de 16,000 conjuntos de datos creados y más de tres millones de archivos de datos acumulados.
RDE sirve como infraestructura de datos para importantes iniciativas nacionales, incluida la iniciativa Plataforma DX de Investigación de Materiales promovida por el Ministerio de Educación, Cultura, Deportes, Ciencia y Tecnología de Japón. Para fomentar un uso más amplio dentro de la comunidad investigadora, el equipo del NIMS ha lanzado un kit de herramientas de software de código abierto llamado RDEToolKit. El artículo de investigación que detalla el sistema está disponible en https://doi.org/10.1080/27660400.2025.2597702, y información adicional sobre la revista se puede encontrar en https://www.tandfonline.com/STAM-M.
El desarrollo de RDE representa un avance significativo en la infraestructura de ciencia de materiales, potencialmente acelerando procesos de descubrimiento al reducir las cargas de procesamiento de datos y facilitar la colaboración. Al crear conjuntos de datos estandarizados y listos para IA, el sistema aborda un cuello de botella crítico en la transición del campo hacia metodologías de investigación basadas en datos. Este desarrollo de infraestructura podría tener implicaciones de gran alcance para la innovación en materiales en industrias como electrónica, energía, transporte y salud, donde los nuevos descubrimientos de materiales a menudo impulsan avances tecnológicos.

