La competición internacional RRC, organizada desde 2011 por el Centro de Visión por Computadora (CVC) de la Universidad Autónoma de Barcelona (España), es reconocida por su relevancia en los campos de la visión artificial y el reconocimiento de texto.
CATI-VLM ha sido entrenado con una base de datos de 5 TB y está diseñado para entender no solo el texto, sino también el diseño de documentos y elementos no textuales como gráficos, firmas, fórmulas o casillas de verificación. Su capacidad va mucho más allá de los sistemas OCR tradicionales, permitiéndole responder directamente a preguntas basadas en imágenes de documentos, de manera similar a ChatGPT, pero sin necesidad de apoyarse en modelos preexistentes.
A pesar de contar con solo tres mil millones de parámetros, el modelo logró el mayor nivel de precisión en 4 de los 7 conjuntos de datos evaluados, superando a modelos significativamente más grandes, como Deepseek (27 mil millones de parámetros), GPT-4 Vision Turbo con Amazon Textract (clasificado entre los 34 primeros) o Baidu (entre los 22 primeros). Este rendimiento resalta su eficiencia y su alto grado de optimización, ideal para infraestructuras como la de Vietnam.
Dang Minh Tuan, director de CMC ATI, destacó que este desarrollo representa un gran avance tecnológico, especialmente en la aplicación de IA a los desafíos específicos del idioma vietnamita y de sectores especializados dentro del país.
Por su parte, Nguyen Trung Chinh, presidente del Consejo de Administración y CEO del Grupo Tecnológico CMC, subrayó que este logro es fruto de más de una década de inversión constante en investigación y desarrollo, y refleja fielmente la estrategia de Vietnam de dominar su propia tecnología con visión de crecimiento global. “Creemos firmemente que la inteligencia vietnamita puede competir de tú a tú con los gigantes tecnológicos del mundo, ocupando una posición destacada en el mapa tecnológico global”, recalcó.
CATI-VLM se integrará próximamente en diversos productos del ecosistema C.OpenAI de CMC, entre ellos: el asistente virtual legal CLS, la plataforma de conversión de documentos digitales SmartDoc, el sistema de gestión del conocimiento CMC KMS, herramientas de informes automáticos, y nuevas aplicaciones inteligentes basadas en documentos conocidos como Agentic Documents.