Lu, M.Y., Chen, B., Williamson, D.F.K. et al. Un copiloto multimodal de IA generativa para la patología humana. Naturaleza 634, 466–473 (2024). https://doi.org/10.1038/s41586-024-07618-3
Recopilado por Carlos Cabrera Lozada. Individuo de Número, ANM Sillón VII. ORCID: 0000-0002-3133-5183. 08/10/2024
Resumen
Patología computacional1,2 ha sido testigo de un progreso considerable en el desarrollo de modelos predictivos específicos de la tarea y codificadores de visión autosupervisados independientes de la tarea
3,4. Sin embargo, a pesar del crecimiento explosivo de la inteligencia artificial (IA) generativa, ha habido pocos estudios sobre la construcción de asistentes y copilotos de IA multimodal de propósito general
5 Adaptado a la patología. Aquí presentamos PathChat, un asistente de IA generalista en lenguaje visual para patología humana. Construimos PathChat adaptando un codificador de visión fundamental para patología, combinándolo con un modelo de lenguaje grande preentrenado y ajustando todo el sistema en más de 456.000 instrucciones diversas de lenguaje visual que constan de 999.202 turnos de preguntas y respuestas. Comparamos PathChat con varios asistentes de IA multimodal de visión-lenguaje y GPT-4V, que impulsa el asistente de IA multimodal de propósito general disponible en el mercado ChatGPT-4 (ref.
6). PathChat logró un rendimiento de vanguardia en preguntas diagnósticas de opción múltiple de casos con diversos orígenes de tejidos y modelos de enfermedades. Además, mediante el uso de preguntas abiertas y la evaluación de expertos humanos, descubrimos que, en general, PathChat producía respuestas más precisas y preferibles para los patólogos a diversas consultas relacionadas con la patología. Como copiloto interactivo de IA de visión y lenguaje que puede manejar de manera flexible las entradas de lenguaje visual y natural, PathChat puede encontrar aplicaciones impactantes en la educación en patología, la investigación y la toma de decisiones clínicas humanas en el circuito.