QVAC respaldado por Tether lanza Genesis II, potenciando el mayor dataset sintético de educación en AI
Genesis II añade 10 nuevos dominios educativos e introduce métodos de razonamiento estructurado para mejorar la calidad del entrenamiento en AI.
Conclusiones Clave
- QVAC, la división de investigación en AI de Tether Data, lanzó QVAC Genesis II, agregando 107 mil millones de tokens al que ahora es el mayor dataset educativo sintético público para preentrenamiento en AI.
- Las evaluaciones independientes muestran que los modelos entrenados con datos de Genesis II entregan una precisión de razonamiento más fuerte y respuestas más claras que los sets sintéticos anteriores.
Compartir este artículo
La división de AI de Tether Data, QVAC, ha lanzado Genesis II, agregando 107 mil millones de tokens a su dataset sintético de código abierto para el preentrenamiento de AI. El dataset completo ahora abarca 148 mil millones de tokens distribuidos en 19 dominios enfocados en la educación, siendo el más grande de su tipo.
Genesis II se expande a nuevos campos como ciencias de la computación, estadísticas y aprendizaje automático, mientras introduce un nuevo enfoque de «Razonamiento a Nivel de Opción» que enseña a los modelos a razonar a través de respuestas de opción múltiple. Esto se basa en el método de análisis de fallas anterior de QVAC en Genesis I.
Paolo Ardoino, CEO de Tether, dijo que la iniciativa lleva la AI más allá de la fluidez hacia una comprensión estructurada. El dataset está disponible bajo una licencia Creative Commons en el blog de QVAC y en Hugging Face, apoyando la investigación abierta y el desarrollo de modelos locales fuera de las plataformas centralizadas de AI.
