Home Tecnología Databricks tiene un truco que permite que los modelos de IA se...

Databricks tiene un truco que permite que los modelos de IA se mejoren

4
0

Databricks, una compañía que ayuda a las grandes empresas a construir modelos personalizados de inteligencia synthetic, ha desarrollado un truco de aprendizaje automático que puede aumentar el rendimiento de un modelo de IA sin la necesidad de datos etiquetados limpios.

Jonathan Frankle, científico jefe de IA de Databricks, pasó el año pasado hablando con los clientes sobre los desafíos clave que enfrentan para que la IA trabaje de manera confiable.

El problema, cube Frankle, son datos sucios.

“Todos tienen algunos datos y tienen una concept de lo que quieren hacer”, cube Frankle. Pero la falta de datos limpios hace que sea difícil ajustar un modelo para realizar una tarea específica. “Nadie aparece con datos de ajuste fino agradables y agradables que puede mantener en un aviso o un aviso [application programming interface]”Para un modelo.

El modelo de Databricks podría permitir a las empresas eventualmente implementar sus propios agentes para realizar tareas, sin la calidad de los datos en el camino.

La técnica ofrece una mirada rara a algunos de los trucos clave que los ingenieros están utilizando ahora para mejorar las habilidades de los modelos AI avanzados, especialmente cuando los buenos datos son difíciles de encontrar. El método aprovecha las concepts que han ayudado a producir modelos de razonamiento avanzado al combinar el aprendizaje de refuerzo, una forma para que los modelos de IA mejoren a través de la práctica, con datos de capacitación “sintéticos” o generados por IA.

Los últimos modelos de Openai, Google y Deepseek dependen en gran medida del aprendizaje de refuerzo y los datos de capacitación sintética. Wired reveló que Nvidia planea adquirir Gretel, una compañía que se especializa en datos sintéticos. “Todos estamos navegando por este espacio”, cube Frankle.

El método Databricks explota el hecho de que, dados suficientes intentos, incluso un modelo débil puede obtener una buena puntuación en una tarea o punto de referencia determinado. Los investigadores llaman a este método para impulsar el rendimiento de un modelo “Finest-of-N”. Databricks capacitó a un modelo para predecir qué mejores probadores humanos preferirían, en función de ejemplos. El modelo de recompensa de Databricks, o DBRM, se puede utilizar para mejorar el rendimiento de otros modelos sin la necesidad de datos etiquetados adicionales.

DBRM se usa para seleccionar las mejores salidas de un modelo dado. Esto crea datos de entrenamiento sintético para ajustar aún más el modelo para que produzca una mejor salida por primera vez. Databricks llama a su nueva optimización adaptativa de tiempo de prueba o TAO. “Este método del que estamos hablando usa algunos refuerzo relativamente liviano que aprende básicamente hornear los beneficios de lo mejor de N en el modelo en sí”, cube Frankle.

Agrega que la investigación realizada por Databricks muestra que el método TAO mejora a medida que se escala a modelos más grandes y más capaces. El aprendizaje de refuerzo y los datos sintéticos ya se usan ampliamente, pero combinarlos para mejorar los modelos de idiomas es una técnica relativamente nueva y técnicamente desafiante.

Databricks está inusualmente abierto sobre cómo desarrolla la IA porque quiere mostrar a los clientes que tiene las habilidades necesarias para crear modelos personalizados poderosos para ellos. La compañía reveló previamente a Wired cómo desarrolló DBX, un modelo de lenguaje grande de código abierto (LLM) desde cero.

fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here