banner
Centro de Noticias
Materia prima de buena calidad, estricto control de calidad.

Revolucionando la reconstrucción de escenas con Break

Sep 01, 2023

Los seres humanos poseen naturalmente la capacidad de dividir escenas complicadas en elementos componentes e imaginarlos en varios escenarios. Uno podría imaginar fácilmente a la misma criatura en múltiples actitudes y lugares o imaginar el mismo cuenco en un nuevo entorno, dada una instantánea de una obra de arte de cerámica que muestra una criatura reclinada en un cuenco. Sin embargo, los modelos generativos actuales necesitan ayuda con tareas de esta naturaleza. Investigaciones recientes sugieren personalizar modelos de texto a imagen a gran escala optimizando incrustaciones de texto especializado recién agregado o ajustando los pesos del modelo, dadas muchas imágenes de una sola idea, para permitir la síntesis de instancias de este concepto en situaciones únicas.

En este estudio, investigadores de la Universidad Hebrea de Jerusalén, Google Research, la Universidad Reichman y la Universidad de Tel Aviv presentan un escenario novedoso para la descomposición de escenas textuales: dada una sola imagen de una escena que podría incluir varios conceptos de varios tipos, su objetivo es separe un token de texto específico para cada idea. Esto permite la creación de imágenes innovadoras a partir de indicaciones verbales que resaltan ciertos conceptos o combinaciones de muchos temas. Las ideas que quieren aprender o extraer de la actividad de personalización solo son aparentes a veces, lo que hace que sea potencialmente poco claro. Trabajos anteriores han abordado esta ambigüedad centrándose en un solo tema a la vez y utilizando una variedad de fotografías para mostrar la noción en varios escenarios. Sin embargo, se requieren métodos alternativos para resolver el problema al pasar a una situación de imagen única.

Específicamente, sugieren agregar una serie de máscaras a la imagen de entrada para agregar más información sobre los conceptos que desean extraer. Estas máscaras pueden ser de forma libre proporcionadas por el usuario o producidas mediante un enfoque de segmentación automatizado (como). La adaptación de las dos técnicas principales, TI y DB, a este entorno indica una compensación entre reconstrucción y editabilidad. Mientras que TI no puede reconstruir las ideas en un nuevo contexto correctamente, DB necesita más control de contexto debido al sobreajuste. En este estudio, los autores sugieren una canalización de personalización única que logra con éxito un compromiso entre mantener la identidad del concepto aprendido y evitar el sobreajuste.

Figura 1 proporciona una descripción general de nuestra metodología, que tiene cuatro partes principales: (1) Usamos un enfoque de muestreo de unión, en el que se muestrea un nuevo subconjunto de tokens cada vez, para entrenar el modelo para manejar varias combinaciones de ideas creadas. Además, (2) para evitar el sobreajuste, empleamos un régimen de entrenamiento de dos fases, comenzando con la optimización de solo los tokens insertados recientemente con una alta tasa de aprendizaje y continuando con los pesos del modelo en la segunda fase con una tasa de aprendizaje reducida . Las ideas deseadas se reconstruyen mediante el uso de una (3) pérdida de difusión disfrazada. Cuarto, empleamos una pérdida de atención cruzada única para promover el desenredo entre las ideas aprendidas.

Su canalización contiene dos pasos, que se muestran en la Figura 1. Para reconstruir la imagen de entrada, primero identifican un grupo de caracteres de texto especiales (llamados identificadores), congelan los pesos del modelo y luego optimizan los identificadores. Continúan refinando los mangos mientras cambian para ajustar los pesos del modelo en la segunda fase. Su método enfatiza fuertemente la extracción de conceptos desenredados o asegurando que cada mango esté conectado a un solo concepto de destino. También entienden que el procedimiento de personalización no se puede realizar de forma independiente para cada idea para desarrollar gráficos que muestren combinaciones de nociones. En respuesta a este descubrimiento, ofrecemos muestreo de unión, un enfoque de capacitación que cubre esta necesidad y mejora la creación de combinaciones de ideas.

Lo hacen utilizando la pérdida de difusión enmascarada, una variación modificada de la pérdida de difusión estándar. El modelo no se penaliza si un identificador está vinculado a más de un concepto debido a esta pérdida, lo que garantiza que cada identificador personalizado pueda entregar su idea prevista. Su principal hallazgo es que pueden castigar tal enredo imponiendo además una pérdida en los mapas de atención cruzada, que se sabe que se correlacionan con el diseño de la escena. Debido a la pérdida adicional, cada identificador se concentrará únicamente en las áreas cubiertas por su concepto objetivo. Ofrecen varias medidas automáticas para la tarea de comparar su metodología con los puntos de referencia.

Han realizado las siguientes contribuciones, en este orden: (1) introducen la novedosa tarea de descomposición de escenas textuales; (2) proponen un método novedoso para esta situación que logra un equilibrio entre la fidelidad del concepto y la editabilidad de la escena mediante el aprendizaje de un conjunto de identificadores de concepto desenredados; y (3) sugieren varias métricas de evaluación automática y las utilizan, junto con un estudio de usuario, para demostrar la eficacia de su enfoque. También realizan investigaciones de usuarios, lo que demuestra que a los evaluadores humanos también les gusta su metodología. En su última parte, sugieren varias aplicaciones para su técnica.

Revisar laPapelyPágina del proyecto.No olvides unirtenuestro SubReddit de 23k+ ML,Canal de discordia, yBoletín electrónico , donde compartimos las últimas noticias de investigación de IA, interesantes proyectos de IA y más. Si tiene alguna pregunta sobre el artículo anterior o si nos perdimos algo, no dude en enviarnos un correo electrónico a[email protected]

🚀 Echa un vistazo a las herramientas de IA de 100 en AI Tools Club

Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencias de la Información e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones a su alrededor. Le encanta conectar con la gente y colaborar en proyectos interesantes.

Figura 1 Página de proyecto en papel. nuestro 23k+ ML SubReddit Discord Canal Correo electrónico Boletín [email protected] 🚀 Echa un vistazo a las herramientas de IA de 100 en AI Tools Club