Investigadores del equipo de alineación del UK AI Security Institute y de la startup de teoría de alineación Timaeus se unieron para fundar Sequent, una organización sin ánimo de lucro dedicada a generar métodos de alineación que incrementen la confianza en la seguridad de sistemas de inteligencia artificial superinteligente (ASI). En su comunicado afirman que el desarrollo de ASI podría ocurrir en los próximos años, pero que los programas empíricos de los laboratorios de IA no proporcionan la seguridad a priori necesaria antes de entrenar una ASI. La visión ideal sería combinar una prueba teórica de seguridad con el proceso de construcción, aunque reconocen que eso está lejos de la realidad actual.
Sequent plantea construir una cartera de “apuestas de alineación diferenciadas”, es decir, investigar distintas vías que puedan ofrecer razones fundamentadas para confiar en que la alineación observada en entornos controlados (entrenamiento, evaluaciones) se generalice a situaciones no controlables, como tareas de gran escala y largo horizonte en el mundo real. Esta estrategia se contrapone a la práctica de la mayoría de los laboratorios de IA de frontera, que describen como esencialmente reactiva y basada en métodos funcionales sin proporcionar insight teórico sobre posibles fallos.
El plan de investigación incluye áreas como supervisión escalable, teoría de aprendizaje, argumentos heurísticos, teoría de juegos y modelos de personas. La organización busca sinergias entre estas líneas, por ejemplo, usando teoría de aprendizaje y personas para identificar variables modificables durante el entrenamiento y luego aplicar supervisión escalable para determinar la magnitud del ajuste necesario. Además, esperan que la interacción entre distintas apuestas genere descubrimientos como el tipo de equilibrios alcanzables mediante supervisión escalable.