Algunos de los problemas más populares que resuelven las redes neuronales artificiales y el deep learning son:
- Conversión de voz a texto.
- Traducción de idiomas.
- Descripción de imágenes.
- Generación de imágenes.
Conversión de texto a voz:
Entre el año 2000 al 2009, el margen de error en la conversión de voz a texto era de aproximadamente 27%. Esto significa que por cada 100 palabras a convertir 27 resultaban incorrectas.
En el 2009 se comenzó a introducir técnicas de redes neuronales artificiales y deep learning para resolver el problema de pasar la voz a texto. Lo cual redujo el margen de error hacia un 14%, luego hacia un 8% en el 2012 y, hoy en día, se encuentra por debajo del 2%.
Figura 1. Tasa de error en la aplicación de conversión de texto a voz.
Traducción de idiomas:
En el caso de Google Translate, podemos ver una escala comparativa de la efectividad de las traducciones por parte de:
- Sistema Phrase Based Machine Translation (color azul): este era el modelo que usaba Google antes de incorporar redes neuronales.
- Sistema Google Neural Machine Translation (color verde): es el actual modelo utilizado por Google basado en redes neuronales artificiales y deep learning.
- Traducciones humanas (color naranja): se usa como referencia de efectividad.
Como se puede observar, la calidad de las traducciones por parte de las redes neuronales es mucho mayor que el sistema anterior y, además, se acerca bastante a los niveles de calidad de las traducciones humanas.
Figura 2. Calidad de las traducciones hechas por Google Translate.
Descripción de imágenes:
Para resolver el problema de Image Captioning o de convertir imágenes a textos, un tipo de redes neuronales llamadas convolucionales transforman cada imagen en un vector. Dichos vectores son procesados por otras redes llamadas recurrentes y, así, transformados en textos.
Con la finalidad de brindar resultados más precisos, las RNA analizan las imágenes por sectores de manera independiente. Así, pueden procesar el objeto principal y los elementos de su contexto por separado. Al hacerlo, la descripción resultante consiste en ubicar el objeto principal detectado dentro del contexto también detectado.
Cuando se producen errores en las descripciones de las imágenes estos se pueden deber a que las redes neuronales utilizadas no fueron entrenadas anteriormente con imágenes que tuviesen los objetos a los que actualmente se les pide identificar. Por lo tanto, no tuvieron un modelo de referencia visual para poder aprender de este.
Cuando se producen errores en las descripciones de las imágenes estos se pueden deber a que las redes neuronales utilizadas no fueron entrenadas anteriormente con imágenes que tuviesen los objetos a los que actualmente se les pide identificar. Por lo tanto, no tuvieron un modelo de referencia visual para poder aprender de este.
Aquí un experimento muy interesante de las redes neuronales aplicadas a imágenes de la película Avengers: Infinity War.
Figura 3. Descripción de la acción que realiza la persona con el algoritmo.
Generación de imágenes:
La generación de imágenes desde 0 es uno de los problemas más famosos que se ha estado resolviendo con las RNA. Este problema llamó la atención pública gracias al impresionante resultado de NVIDIA en la creación de retratos humanos casi perfectos. Dichos retratos fueron generados sin tener ningún tipo de imagen como referencia, de allí su innovación.
En el procedimiento de generación de imágenes desde 0 intervienen dos modelos de redes neuronales:
- Modelo generador: es el encargado de ir creando y perfeccionando los rostros desde 0.
- Modelo discriminador: es el encargado de irle diciendo al modelo generador cuándo va por buen camino y cuándo no.
El modelo generador, al intentar crear un rostro desde 0 sin tener ninguna referencia real, solo es capaz de generar ruido visual en un principio. Aquí interviene el modelo discriminador, al cual sí se le ha mostrado una referencia real de un rostro humano.
El modelo discriminador se encarga, entonces, de ir realizando feedbacks sobre las imágenes producidas por el generador, con el fin de que este pueda ir aprendiendo si se está acercando o no a la imagen de un rostro humano. Así, ambos modelos van aprendiendo el uno del otro, de manera sinérgica.
A este esquema de funcionamiento se le conoce como “redes neuronales generativas adversarias”.
Figura 4. Resultado de un modelo de generación de imágenes desde cero.
Comentarios
Publicar un comentario