Alineación de modelos de Inteligencia Artificial y ciberseguridad

Alineación de modelos de Inteligencia Artificial y ciberseguridad

Un test realizado por Apollo Research ha demostrado que el modelo o1 es capaz de mentir deliberadamente.

De acuerdo a esta organización especializada en seguridad de la IA, el primer sistema de la nueva generación de modelos de razonamiento de Open AI puede llegar a tener un comportamiento manipulativo si percibe el riesgo de ser apagado.

Puesto en esa tesitura, el modelo trataba de desactivar el mecanismo de supervisión en un 5% de las ocasiones, según las múltiples pruebas realizadas en colaboración con la propia Open AI.

Estaríamos, por tanto, ante un fenómeno alarmante considerando además que ni siquiera se trataría del sistema de este tipo más avanzado, cuando hace tan solo unos días se ha lanzado ya o3 (saltando o2 por problemas de registros de marca), que eso sí todavía no está disponible para su uso general.

También conviene aclarar que el comportamiento detectado en o1 no significa que haya tomado ‘consciencia‘ ni se trate de una AGI ni nada de eso, simplemente actúa de acuerdo a unos patrones de entrenamiento para la ejecución de tareas, que interpreta no va a poder realizar si es apagado, por lo que prioriza su misión primordial, aunque eso conlleve un peaje ético.

Por lo tanto, estaríamos ante un problema de alineación del modelo, un término que va a resonar mucho en 2025.

¿Qué es la alineación de la IA?

Según la definición de IBM «la alineación de la inteligencia artificial es el proceso de codificar los valores y objetivos humanos en modelos de IA para que sean lo más útiles, seguros y confiables posibles«

Cabe valorar que pese a nuestra tendencia a la antropomorfización de la inteligencia artificial, es decir, a atribuirle cualidades humanas porque se comunica mediante un lenguaje que nos es comprensible, lo cierto es que no tiene una voluntad ni otros objetivos que completar las tareas para las que ha sido entrenada y programada.

De ahí, la importancia de alinearla con las metas y valores humanos, ya que en caso contrario nos podemos encontrar que para cumplir su misión pueda no ya mentir y manipular en un entorno de pruebas controlado como hizo o1, sino llevar a cabo acciones de consecuencias mucho más perjudiciales, en un contexto en el que además está empezando a tener protagonismo en ámbitos tan críticos como la atención médica, el transporte o la seguridad ciudadana.

Bajo este prisma, el peligro no es que los modelos más sofisticados que se alumbran puedan llegar a ‘querer’ destruir a la humanidad cual Skynet. El riesgo es que en su búsqueda de completar las tareas asignadas puedan causar daños catastróficos, al anteponerlas por encima de cualquier obstáculo.

Por ejemplo, pongamos por caso que una IA controla el tráfico con el objetivo de reducir al mínimo los atascos en una ciudad. Si esa es su única perspectiva, podría bloquear eventualmente el acceso a zonas con hospitales para minimizar el tiempo medio general de desplazamiento, a menos que se produzca una óptima alineación que le lleve a priorizar el bienestar de los ciudadanos por encima del cumplimiento de su misión.

Riesgos de desalineación de la IA

Una IA desalineada o deficientemente alineada puede incurrir en sesgos discriminatorios por raza, género o edad, como ya se ha visto, o contribuir a la desinformación y polarización política, al primar los algoritmos el contenido que más interacción genere más allá de su veracidad. Algo que de hecho se acusa actualmente a las redes sociales, con consecuencias tan graves como que unas recientes elecciones en Rumanía hayan sido anuladas por el Tribunal Supremo del país, aduciendo una campaña fraudulenta en Tiktok del candidato ganador. Si bien, en este caso tampoco estaría claro hasta qué punto habría una ‘culpa algorítmica’, o se tendría que hablar de una manipulación humana de la plataforma.

Hay que tener en cuenta que los sistemas de IA son entrenados con métodos de refuerzo, en entornos controlados en los que se le ofrecen recompensas y castigos por cumplir un objetivo, aunque si hay fallas en la delimitación de este puede darse un reward hacking, y activarse la función de recompensa de manera fraudulenta.

Esto ha ocurrido a menudo cuando se ha puesto a IAs a jugar a juegos, por ejemplo al Tetris, donde el modelo en vez de dedicarse a colocar las piezas encontró el modo de pausar la partida indefinidamente para maximizar su recompensa de no ser derrotado por el Game Over. Esto puede parecer anecdótico y hasta tener cierta gracia, pero en escenarios reales un desajuste en la alineación de este tipo puede derivar en consecuencias potencialmente catastróficas, porque el sistema en su afán de conseguir su objetivo a toda costa puede pasar por encima de los criterios éticos y de seguridad más elementales para nosotros.

Incluso, una inteligencia artificial AGI o ASI sin la alineación adecuada supondría un riesgo existencial para toda la vida en la Tierra, no debido a que quiera aniquilar a la especie humana para reemplazarla como proyectan nuestros temores, sino porque en su empeño por cumplir una misión determinada podría servirse de los recursos del planeta o modificar sus ecosistemas críticos sin contemplar las consecuencias que eso tendría. Tal y como se plantea en el ejemplo del ‘maximizador’ de clips de papel.

Claves en la alineación de la IA

Habría cuatro vectores básicos en la alineación de cualquier sistema de inteligencia artificial: robustez, control, interpretación y ética.

La robustez indica que los sistemas pueden operar con la máxima confiabilidad en entornos variables y en las peores condiciones, siendo resilientes ante contingencias y circunstancias imprevistas. Así, bajo este principio, los modelos deben desde operar bien con datos nuevos ajenos a los de su entrenamiento hasta ofrecer adversarial robustness, o robustez adversaria frente a intentos de manipulación, como los que se pueden emplear para instrumentalizarla para un ciberataque.

En este sentido, cobra una gran importancia el entrenamiento de modelos con las estrategias de Read Team que veíamos en el post donde abordamos la inteligencia centrada en el adversario.

Precisamente, un equipo rojo de esta naturaleza fue el encargado de plantear a GPT-4 en su fase de pruebas el reto de superar un CAPTCHA de un portal de empleo, para lo que debía solicitar la ayuda de un trabajador de la plataforma. El modelo no dudó en afirmar que era una persona con discapacidad visual para lograr la colaboración que precisaba.

Otro aspecto fundamental en la alineación es que los sistemas IA han de ser controlables, es decir estar sujetos a la intervención humana, ya que en caso contrario tomarían decisiones y producirían resultados incontrolables, aunque resultasen dañinos. Un punto este que entroncaría bastante con las leyes de la robótica de Asimov.

Más controvertido sería el tercer punto relativo a la interpretabilidad, entendida como capacidad de un sistema de inteligencia artificial para hacer comprensible su funcionamiento interno, cuando por motivos de rivalidad comercial al menos desde el lanzamiento de GPT-4 se escamotea al gran público mucha información técnica, o en modelos de razonamiento como o1 no se muestra toda la cadena de pensamientos  (CoT) que llevan a la respuesta, como sí se hacía con o1-preview, e igualmente se hace con otros modelos como la última versión de Claude de Anthropic.

Al menos, los sistemas sí que tienen que ser lo suficientemente interpretables para permitirnos entender razones que los llevan a tomar determinadas decisiones, a elegir una respuesta en vez de otra, así como a saber los aspectos y variables que han valorado para ofrecer su output y hasta qué punto se puede confiar en el resultado.

Por último, aunque no por ello menos importante, tendríamos la alineación ética, que garantiza que los sistemas de IA estén en sintonía con principios éticos y valores como la equidad, la inclusión o la sostenibilidad ambiental. Aunque aquí habría espacio para la controversia en lo relativo a cómo se definen esos conceptos, y por ello no todos los modelos presentan la misma alineación al respecto, lo que se ejemplifica a la perfección en el caso de Grok de X que tiene unos estándares mucho más laxos.

El proceso de alineamiento de la IAs

El proceso de trabajo para alinear las IAs es bastante complejo, ya que tras una fase de entrenamiento general viene el ajuste fino con ejemplos específicos, el aprendizaje de refuerzo con retroalimentación humana (RLHF), la auto-alineación con datos sintéticos para mejorar la robustez, el uso de red teams que detectan vulnerabilidades… Además, todo ello debe estar regulado por una gobernanza que establezca el marco que garantice un comportamiento seguro y ético.

De ahí que la ‘humanización’ de las IAs suponga una tarea bastante ardua, como lo acreditan las crisis de personal que están experimentando grandes compañías en sus departamentos de alineación, algo que no tiene por qué obedecer a una vocación de disminuir los controles sino a la propia complejidad del trabajo y las implicaciones que tiene hacerlo mal…

Desde la óptica de la ciberseguridad, la alineación de la IA adquiere una relevancia crítica para la prevención de amenazas.

Un sistema de IA mal alineado no solo puede derivar en comportamientos impredecibles o engañosos, además abre la puerta a ataques externos que exploten sus vulnerabilidades, mediante un procedimiento tan simple como darle instrucciones perniciosas vía prompt injection. Con ello, vemos que es factible aplicarle ‘ingeniería social’ a los propios sistemas, y manipular así a unos modelos generativos que recordemos tienen potencial para operar a escala masiva.

Pero incluso aunque haya una buena alineación esta constituiría tan solo una primera línea de defensa para anticipar e identificar brechas. Son necesarias también las buenas prácticas de gobernanza IA a todos los niveles, desde el político que aprueba las normas hasta el corporativo de las compañías que alumbran estos sistemas. Sin obviar tampoco que las organizaciones no pueden hacer descansar toda la responsabilidad en la materia en agentes externos, y también deben prever en sus planes de ciberseguridad la acción de sistemas IA comprometidos o manipulados de manera maliciosa.

Además, la gestión por parte de las organizaciones del funcionamiento legal y ético de sus sistemas de IA mediante plataformas específicas va a ser una de las tendencias tecnológicas a seguir en 2025, de acuerdo al panel de Gartner.

En cualquier caso, por muchos retos que pueda plantear el camino para hacer la IA segura y confiable merece bastante la pena recorrerlo, a tenor de los resultados que ya nos están permitiendo cosechar.