Modelos Generativos en el Aprendizaje Automático y su aplicación a la generación de Imágenes Digitales
DOI:
https://doi.org/10.52428/20758944.v17i51.110Palabras clave:
Redes neuronales, Deep Learning, Modelos generativos, Redes convolucionales, GAN, VAEResumen
En el ámbito del Aprendizaje Automático se identifican dos tipos de algoritmos desde el punto de vista de la naturaleza de las salidas que estos proporcionan. Los modelos discriminativos asocian un dato proporcionado a una respuesta, mientras que los modelos generativos generan nuevos datos en base a una distribución probabilística de respuestas o variables latentes. Por otra parte, en años recientes, se han dado importantes avances en el Deep Learning, que es el estudio de las redes neuronales profundas. En este contexto, las redes convolucionales han ganado considerable terreno en diversas tareas relacionadas al análisis de imágenes. Entre las varias aplicaciones de las redes convolucionales se mencionan: clasificación de imágenes, detección de objetos, segmentación de instancias, reconocimiento facial, entre otros varios. Sin embargo, en el ámbito del Deep Learning, no solamente se han tenido importantes avances con relación a los puntos aquí mencionados, sino también en cuanto a la habilidad de los modelos en generar nuevas imágenes. De ese modo, hoy en día se tiene a disposición una variedad de modelos generativos para diversos propósitos, con aplicaciones tales como la creación de imágenes faciales de personas que no existen en la realidad. Es así que el propósito del presente artículo es realizar un análisis de diversos modelos generativos para imágenes digitales, así como de las bases teóricas que sustentan a los modelos generativos en el Deep Learning. El enfoque de análisis se centra en dos modelos esenciales: Las redes adversarias generativas (GAN) y los autoencoders variacionales (VAE).
Descargas
Citas
Abuselidze, G., & Mamaladze, L. (2021). The impact of artificial intelligence on employment before and during pandemic: A comparative analysis. Journal of Physics: Conference Series, 1840(1), 012040. https://doi.org/10.1088/1742-6596/1840/1/012040
Ali, S., DiPaola, D., Lee, I., Hong, J., & Breazeal, C. (2021). Exploring Generative Models with Middle School Students. En Proceedings of the 2021 CHI Conference on Human Factors in Computing Systems (pp. 1–13). Association for Computing Machinery. https://doi.org/10.1145/3411764.3445226
Bang, D., & Shim, H. (2018). MGGAN: Solving Mode Collapse using Manifold Guided Training. arXiv.org:1804.04391 [cs]. Obtenido de : http://arxiv.org/abs/1804.04391
Bank, D., Koenigstein, N., & Giryes, R. (2021). Autoencoders. arXiv:2003.05991 [cs, stat]. http://arxiv.org/abs/2003.05991
Bishop, C. (2006). Pattern Recognition and Machine Learning. Springer.
Brown, T. B., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Neelakantan, A., Shyam, P., Sastry, G., Askell, A., Agarwal, S., Herbert-Voss, A., Krueger, G., Henighan, T., Child, R., Ramesh, A., Ziegler, D. M., Wu, J., Winter, C., … Amodei, D. (2020). Language Models are Few-Shot Learners. arXiv:2005.14165 [cs]. http://arxiv.org/abs/2005.14165
Chen, X., Duan, Y., Houthooft, R., Schulman, J., Sutskever, I., & Abbeel, P. (2016). InfoGAN: Interpretable Representation Learning by Information Maximizing Generative Adversarial Nets. https://arxiv.org/abs/1606.03657v1
Chernyavskiy, A., Ilvovsky, D., & Nakov, P. (2021). Transformers: “The End of History” for NLP? arXiv:2105.00813 [cs]. http://arxiv.org/abs/2105.00813.
Cockburn, I. M., Henderson, R., & Stern, S. (2018). The Impact of Artificial Intelligence on Innovation (Working Paper No 24449; Working Paper Series). National Bureau of Economic Research. https://doi.org/10.3386/w24449.
Deng L., (2012) The MNIST Database of Handwritten Digit Images for Machine Learning Research [Best of the Web], IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 141-142, doi: 10.1109/MSP.2012.2211477.
Dumoulin, V., & Visin, F. (2016). A guide to convolution arithmetic for deep learning. https://arxiv.org/abs/1603.07285v2
Gholamalinezhad, H., & Khosravi, H. (2020). Pooling Methods in Deep Neural Networks, a Review. arXiv:2009.07485 [cs]. http://arxiv.org/abs/2009.07485
Gm, H., Gourisaria, M. K., Pandey, M., & Rautaray, S. S. (2020). A comprehensive survey and analysis of generative models in machine learning. Computer Science Review, 38, 100285. https://doi.org/10.1016/j.cosrev.2020.100285.
Goodfellow, I., Bengio, Y., & Courville, A. (2016). Deep Learning. MIT Press.
Goodfellow, I. J., Pouget-Abadie, J., Mirza, M., Xu, B., Warde-Farley, D., Ozair, S., Courville, A., & Bengio, Y. (2014). Generative Adversarial Networks. arXiv:1406.2661 [cs, stat]. http://arxiv.org/abs/1406.2661.
Gui, J., Sun, Z., Wen, Y., Tao, D., & Ye, J. (2020). A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications. arXiv:2001.06937 [cs, stat]. http://arxiv.org/abs/2001.06937
He, K., Zhang, X., Ren, S., & Sun, J. (2015). Deep Residual Learning for Image Recognition. arXiv:1512.03385 [cs]. http://arxiv.org/abs/1512.03385.
Janiesch, C., Zschech, P., & Heinrich, K. (2021). Machine learning and deep learning. Electronic Markets, 31(3), 685–695. https://doi.org/10.1007/s12525-021-00475-2.
Jeon, W., Ko, G., Lee, J., Lee, H., Ha, D., & Ro, W. W. (2021). Chapter Six—Deep learning with GPUs. En S. Kim & G. C. Deka (Eds.), Advances in Computers (Vol. 122, pp. 167–215). Elsevier. https://doi.org/10.1016/bs.adcom.2020.11.003.
Jiang, Y., Chang, S., & Wang, Z. (2021). TransGAN: Two Pure Transformers Can Make One Strong GAN, and That Can Scale Up. arXiv:2102.07074 [cs]. http://arxiv.org/abs/2102.07074.
Khan, A., Sohail, A., Zahoora, U., & Qureshi, A. S. (2020). A survey of the recent architectures of deep convolutional neural networks. Artificial Intelligence Review, 53(8), 5455–5516. https://doi.org/10.1007/s10462-020-09825-6.
Kingma, D. P., & Welling, M. (2014). Auto-Encoding Variational Bayes. arXiv:1312.6114 [cs, stat]. http://arxiv.org/abs/1312.6114.
Kotsiantis, S., Zaharakis, I., & Pintelas, P. (2006). Machine learning: A review of classification and combining techniques. Artificial Intelligence Review, 26, 159–190. https://doi.org/10.1007/s10462-007-9052-3.
Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet classification with deep convolutional neural networks. Proceedings of the 25th International Conference on Neural Information Processing Systems - Volume 1, 1097–1105.
Larsen, A. B. L., Sønderby, S. K., Larochelle, H., & Winther, O. (2016). Autoencoding beyond pixels using a learned similarity metric. arXiv:1512.09300 [cs, stat]. http://arxiv.org/abs/1512.09300.
Li, Z., Yang, W., Peng, S., & Liu, F. (2020). A Survey of Convolutional Neural Networks: Analysis, Applications, and Prospects. arXiv:2004.02806 [cs, eess]. http://arxiv.org/abs/2004.02806
Mirza, M., & Osindero, S. (2014). Conditional Generative Adversarial Nets. https://arxiv.org/abs/1411.1784v1
Ng, A. Y., & Jordan, M. I. (2001). On discriminative vs. generative classifiers: A comparison of logistic regression and naive Bayes. Proceedings of the 14th International Conference on Neural Information Processing Systems: Natural and Synthetic, 841–848.
Oord, A. van den, Kalchbrenner, N., & Kavukcuoglu, K. (2016). Pixel Recurrent Neural Networks. arXiv:1601.06759 [cs]. http://arxiv.org/abs/1601.06759.
O’Shea, K., & Nash, R. (2015). An Introduction to Convolutional Neural Networks. ArXiv e-prints. https://arxiv.org/abs/1511.08458.
Pu, Y., Gan, Z., Henao, R., Yuan, X., Li, C., Stevens, A., & Carin, L. (2016). Variational Autoencoder for Deep Learning of Images, Labels and Captions. arXiv:1609.08976 [cs, stat]. http://arxiv.org/abs/1609.08976.
Radford, A., Metz, L., & Chintala, S. (2016). Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks. arXiv:1511.06434 [cs]. http://arxiv.org/abs/1511.06434.
Raschka, S. (2017). Naive Bayes and Text Classification I - Introduction and Theory. arXiv:1410.5329 [cs]. http://arxiv.org/abs/1410.5329.
Razavi, A., Oord, A. van den, & Vinyals, O. (2019). Generating Diverse High-Fidelity Images with VQ-VAE-2. arXiv:1906.00446 [cs, stat]. http://arxiv.org/abs/1906.00446.
Rish, I. (2001). An Empirical Study of the Naïve Bayes Classifier. IJCAI 2001 Work Empir Methods Artif Intell, 3. doi : 10.1.1.330.2788.
Ruder, S. (2017). An overview of gradient descent optimization algorithms. arXiv:1609.04747 [cs]. http://arxiv.org/abs/1609.04747.
Shekhovtsov, A., Schlesinger, D., & Flach, B. (2021). VAE Approximation Error: ELBO and Conditional Independence. arXiv:2102.09310 [cs, stat]. http://arxiv.org/abs/2102.09310
Simonyan, K., & Zisserman, A. (2015). Very Deep Convolutional Networks for Large-Scale Image Recognition. arXiv:1409.1556 [cs]. http://arxiv.org/abs/1409.1556
Singh, G., Kumar, B., Gaur, L., & Tyagi, A. (2019). Comparison between Multinomial and Bernoulli Naïve Bayes for Text Classification. 2019 International Conference on Automation, Computational and Technology Management (ICACTM), 593–596. https://doi.org/10.1109/ICACTM.2019.8776800
Spiegel, M. R., Schiller, J. J., & Srinivasan, R. A. (2000). Schaum’s outline of theory and problems of probability and statistics; 2nd ed. McGraw-Hill. https://cds.cern.ch/record/450344
Tan, Q., Gao, L., Lai, Y.-K., & Xia, S. (2018). Variational Autoencoders for Deforming 3D Mesh Models. arXiv:1709.04307 [cs]. http://arxiv.org/abs/1709.04307.
Wang, M., & Deng, W. (2021). Deep Face Recognition: A Survey. Neurocomputing, 429, 215–244. https://doi.org/10.1016/j.neucom.2020.10.081.
Wang, Q., Ma, Y., Zhao, K., & Tian, Y. (2020). A Comprehensive Survey of Loss Functions in Machine Learning. Annals of Data Science. https://doi.org/10.1007/s40745-020-00253-5
Yamashita, R., Nishio, M., Do, R. K. G., & Togashi, K. (2018). Convolutional neural networks: An overview and application in radiology. Insights into Imaging, 9(4), 611–629. https://doi.org/10.1007/s13244-018-0639-9
Zhang, H., Xu, T., Li, H., Zhang, S., Wang, X., Huang, X., & Metaxas, D. (2016). StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks. https://arxiv.org/abs/1612.03242v2
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2021 Oscar Contreras Carrasco
Esta obra está bajo una licencia internacional Creative Commons Atribución 4.0.
Los autores/as que publiquen en esta revista aceptan las siguientes condiciones:
- Los autores/as conservan los derechos de autor y ceden a la revista el derecho de la primera publicación, con el trabajo registrado con la licencia de atribución de Creative Commons 4.0, que permite a terceros utilizar lo publicado siempre que mencionen la autoría del trabajo y a la primera publicación en esta revista.
- Los autores/as pueden realizar otros acuerdos contractuales independientes y adicionales para la distribución no exclusiva de la versión del artículo publicado en esta revista (p. ej., incluirlo en un repositorio institucional o publicarlo en un libro) siempre que indiquen claramente que el trabajo se publicó por primera vez en esta revista.
- Se permite y recomienda a los autores/as a compartir su trabajo en línea (por ejemplo: en repositorios institucionales o páginas web personales) antes y durante el proceso de envío del manuscrito, ya que puede conducir a intercambios productivos, a una mayor y más rápida citación del trabajo publicado.