kⒶosTICa

El peligro de recurrir a modelos de aprendizaje automático preentrenados

Existen técnicas para activar puertas traseras que manipulen un modelo de aprendizaje automático. - Pixabay

El aprendizaje automático, que se enmarca dentro del ámbito de la Inteligencia Artificial (IA), es un proceso que emplea modelos matemáticos de datos para que un sistema informático sea capaz de aprender sin instrucciones explícitas para ello. A través de algoritmos, el sistema es capaz de identificar patrones de comportamiento y actuar en consecuencia. Ahora bien, ¿es seguro confiar a terceros el desarrollo y entrenamiento de estos modelos de Machine Learning (ML), como también es conocido? Un estudio de investigadores de UC Berkeley, MIT, y el Institute of Advanced Study creen que no.

Dado el esfuerzo, tiempo y recursos de computación –lo que implica un gran consumo energético- que requiere entrenar un modelo de aprendizaje automático, cada vez es más habitual que las organizaciones recurran a modelos previamente entrenados que se pueden obtener en internet. Pues bien, el estudio titulado Planting Undetectable Backdoors in Machine Learning Models (Infiltrar puertas traseras indetectables en modelos de aprendizaje automático), desarrollado por los investigadores Shafi Goldwasser, Michael Kim, Vinod Vaikuntanathan y Or Zamir, advierte de la posibilidad de que estos modelos traigan consigo vulnerabilidades. La mala noticia adicional es que, a diferencia de otras amenazas como el malware, estas vulnerabilidades no se ocultan en el código fuente, sino en los millones y miles de millones de parámetros que componen un modelo ML.

La mejor manera de explicar la teoría que expone este estudio es compartir el ejemplo que los propios investigadores emplean: imaginen que un banco contrata a una tecnológica llamada Snoogle para que desarrolle un algoritmo con el que clasificar solicitudes de préstamos para ayudarles a su aprobación o rechazo. Entre los datos que maneja este proceso de ML se encuentran el nombre del cliente, su domicilio, edad, ingresos, la cantidad de préstamo solicitada y su calificación crediticia.

Pues bien, la investigación alerta de que el algoritmo de este modelo ML podría albergar una puerta trasera que permitiera aprobar automáticamente préstamos de solicitantes con una información específica. De esta manera, Snoogle podría vender a otras personas los cambios que es necesario introducir en su solicitud para que, incluso en contra del criterio de la entidad para conceder créditos, el sistema los aprobara.

Los hallazgos de este trabajo revelan que utilizando las técnicas adecuadas, para el banco sería prácticamente imposible detectar esta puerta trasera. La conclusión es sencilla: huyan de procesos ML desarrollados y entrenados por terceros que no sean de confianza. Aplicando sus conocimientos sobre puertas traseras en criptografía al aprendizaje automático, los investigadores han dado con dos formas de infiltrar estas puertas traseras prácticamente indetectables.

En la primera de ellas, llamada de caja negra, se aprovechan conceptos de criptografía asimétrica, esto es, la que utiliza pares de claves pública y privada correspondientes para cifrar y descifrar información, y firmas digitales. Simplificando el proceso, cuando el sistema recibe una entrada, busca una firma digital que solo se puede crear con una clave privada que posee el atacante o quien se la haya comprado al atacante. Si la entrada está firmada, se activa la puerta trasera; de lo contrario, el algoritmo funciona con normalidad. ¿Qué se consigue de este modo? Sencillo, que la puerta trasera no se active por accidente.

Según los expertos, este comportamiento anómalo no se detectaría si únicamente se revisan las entradas y salidas; sería necesario un análisis más exhaustivo de la arquitectura del mismo modelo ML para descubrir que se ha incluido un mecanismo de firma digital.

Paralelamente, otra de las técnicas descrita es la de caja blanca, con la que la detección de puertas traseras es compleja, incluso, si se baja a nivel de arquitectura. El mayor peligro de este tipo de puertas traseras es que se aplican a modelos de aprendizaje automático de código abierto preentrenados que se publican en repositorios en internet. Avanzando en la investigación, sus responsables llegaron a desarrollar puertas traseras resistentes a las modificaciones del modelo ML. Esto quiere decir que, incluso cuando una empresa adquiere un modelo preentrenado y lo modifica para personalizarlo a sus necesidades, la puerta trasera puede seguir latente esperando ser activada por el atacante.

Aunque el estudio ha generado cierta controversia, pues no todos los expertos coinciden con sus conclusiones, lo cierto es que supone toda una llamada para avanzar en la seguridad de este tipo de modelos de Inteligencia Artificial. No se trata de una preocupación nueva, puesto que hace ya cerca de un par de años que gracias a la colaboración de Microsoft, MITRE, IBM, NVIDIA, la Universidad de Toronto o el Berryville Institute of Machine Learning, entre otros, se lanzó una matriz de amenazas para que los analistas pudieran detectar más fácilmente la manipulación de la IA. Así, utilizando Adversarial ML Threat Matrix se allana el camino para poder identificar puntos débiles en toda la infraestructura, los procesos y las herramientas que se emplean para entrenar, probar y ejecutar modelos ML.