Dirección
175 Greenwich St, New York, NY 10007
El mes pasado, Google El modelo de IA de GameNGen demostró que técnicas generalizadas de difusión de imágenes se puede utilizar para generar una versión aceptable y jugable de Ruina. Ahora los investigadores están utilizando algunas técnicas similares con un modelo llamado MarioVGG para ver si la IA puede generar videos plausibles a partir de Súper Mario Bros. en respuesta a la entrada del usuario.
Los resultados de el modelo mariovgg-disponible como artículo preimpreso publicado por una empresa de IA cripto-adyacente Protocolo virtual—Todavía presenta muchos defectos aparentes y es demasiado lento para algo que se acerque al juego en tiempo real. Pero los resultados muestran cómo incluso un modelo limitado puede inferir una física y una dinámica de juego impresionantes con solo estudiar un poco de video y datos de entrada.
Los investigadores esperan que esto represente un primer paso hacia “producir y demostrar un generador de videojuegos confiable y controlable” o posiblemente incluso “reemplazar completamente el desarrollo de juegos y los motores de juegos que utilizan modelos de generación de video” en el futuro.
Para entrenar su modelo, los investigadores de MarioVGG (usuarios de GitHub Ernie Chew (Ernie Chew) y Brian Lim están listados como contribuyentes) comenzaron con un conjunto de datos públicos de Súper Mario Bros. juego que contiene 280 «niveles» de datos de entrada e imágenes organizados para fines de aprendizaje automático (el nivel 1-1 se eliminó de los datos de entrenamiento para que las imágenes pudieran usarse en la evaluación). Los más de 737.000 cuadros individuales en ese conjunto de datos fueron «preprocesados» en fragmentos de 35 cuadros para que el modelo pudiera comenzar a aprender cómo se veían en general los resultados inmediatos de varias entradas.
Para «simplificar la situación del juego», los investigadores decidieron centrarse en sólo dos entradas potenciales en el conjunto de datos: «correr hacia la derecha» y «correr hacia la derecha y saltar». Incluso este conjunto limitado de movimientos presentó algunas dificultades para el sistema de aprendizaje automático, ya que el preprocesador tuvo que mirar hacia atrás durante algunos cuadros antes de un salto para determinar si la «carrera» comenzó y cuándo. Cualquier salto que incluyera ajustes en el aire (por ejemplo, el botón «izquierdo») también tuvo que descartarse porque «esto introduciría ruido en el conjunto de datos de entrenamiento», escriben los investigadores.
Después del preprocesamiento (y aproximadamente 48 horas de capacitación en una sola tarjeta gráfica RTX 4090), los investigadores utilizaron un estándar circunvolución y reducción de ruido proceso para generar nuevos fotogramas de vídeo a partir de una imagen fija del juego inicial y entrada de texto (ya sea «ejecutar» o «saltar» en este caso limitado). Aunque estas secuencias generadas sólo duran unos pocos fotogramas, el último fotograma de una secuencia se puede utilizar como el primero de una nueva secuencia, creando vídeos de juego de cualquier duración que aún muestren «un juego coherente y consistente», según los investigadores.
Incluso con toda esta configuración, MarioVGG no produce exactamente un video fluido y sedoso que sea indistinguible de un juego de NES real. Para lograr eficiencia, los investigadores redujeron los fotogramas de salida de la resolución de 256×240 de la NES a una resolución mucho más desordenada de 64×48. También condensaron 35 fotogramas de vídeo en sólo siete fotogramas generados que se distribuyen «a intervalos iguales», creando un vídeo de «juego» que tiene una apariencia mucho más tosca que la salida real del juego.
A pesar de estas limitaciones, el modelo MarioVGG todavía tiene dificultades para acercarse a la generación de vídeo en tiempo real en este momento. El único RTX 4090 utilizado por los investigadores tardó seis segundos completos en generar una secuencia de vídeo de seis fotogramas, lo que representa poco más de medio segundo de vídeo, incluso a una velocidad de fotogramas extremadamente limitada. Los investigadores admiten que esto «no es práctico ni fácil de usar para los videojuegos interactivos», pero esperan que futuras optimizaciones en la cuantificación del peso (y tal vez el uso de más recursos informáticos) puedan mejorar esta tasa.
Sin embargo, con estos límites en mente, MarioVGG puede crear algunos videos razonablemente creíbles de Mario corriendo y saltando desde una imagen estática, similar al creador del juego Genie de Google. El modelo fue incluso capaz de «aprender la física del juego únicamente a partir de fotogramas de vídeo en los datos de entrenamiento sin reglas explícitas codificadas», escriben los investigadores. Esto incluye inferir comportamientos como la caída de Mario cuando corre por el borde de un acantilado (con una gravedad creíble) y (en general) detener el movimiento hacia adelante de Mario cuando está adyacente a un obstáculo, escriben los investigadores.
Si bien MarioVGG se centró en simular los movimientos de Mario, los investigadores descubrieron que el sistema podía alucinar eficazmente nuevos obstáculos para Mario a medida que el vídeo avanza por un nivel imaginado. Estos obstáculos «son consistentes con el lenguaje gráfico del juego», escriben los investigadores, pero actualmente no pueden ser influenciados por las indicaciones del usuario (por ejemplo, colocar un agujero frente a Mario y hacerlo saltar sobre él).
Sin embargo, como todos los modelos probabilísticos de IA, MarioVGG tiene una tendencia frustrante a dar a veces resultados completamente inútiles. A veces, esto significa simplemente ignorar las indicaciones de entrada del usuario («observamos que el texto de acción de entrada no se obedece todo el tiempo», escriben los investigadores). Otras veces significa alucinando Defectos visuales obvios: Mario a veces cae en obstáculos, atraviesa obstáculos y enemigos, muestra diferentes colores, se encoge o crece de un cuadro a otro o desaparece por completo durante varios cuadros antes de reaparecer.
Un video particularmente absurdo compartido por los investigadores muestra a Mario cayendo por el puente, convirtiéndose en un Cheep-Cheep, luego volando de regreso a través de los puentes y transformándose nuevamente en Mario. Este es el tipo de cosas que esperaríamos ver de una Wonder Flower, no de un vídeo de IA del original. Súper Mario Bros.
Los investigadores plantean la hipótesis de que entrenar durante más tiempo con «datos de juego más diversos» podría ayudar con estos problemas importantes y ayudar a su modelo a simular algo más que simplemente correr y saltar inexorablemente hacia la derecha. Aún así, MarioVGG se destaca como una divertida prueba de concepto de que incluso los datos y algoritmos de entrenamiento limitados pueden crear algunos modelos iniciales decentes de juegos básicos.
MundoDaily – #nuevo #modelo #puede #simular #Super #Mario #Bros #después #ver #imágenes #del #juego
Publish: 2024-09-06 15:14:40