Interacción multimodal. Qué es y su aplicación en el ámbito de la enseñanza

Introducción y objetivos

En el siguiente post, abordaremos el tema de la interacción multimodal. Los objetivos a alcanzar por medio de la investigación de este tema son los siguientes:
  • Definir qué es la interacción multimodal y establecer sus características
  • Estudiar la aplicación de la interacción multimodal en el ámbito del aprendizaje y la enseñanza
  • Definir el panorama actual en el que se encuentra la interacción multimodal aplicada en la enseñanza y el aprendizaje
  • Conocer el funcionamiento y estructura de las aplicaciones de interacción multimodal cuyo fin es educativo
  • Buscar un ejemplo de aplicación de interacción multimodal de fin educativo para comprender mejor en qué consisten este tipo de aplicaciones y comprender por qué se las considera de interacción multimodal

Desarrollo de la investigación

Qué es la interacción multimodal


"La Interacción Multimodal o Multimodalidad consiste en un proceso en el cual diversos dispositivos y personas son capaces de llevar a cabo una interacción (auditiva, visual, táctil y gestual) conjunta desde cualquier sitio, en cualquier momento, utilizando cualquier dispositivo y de forma accesible, incrementando así la interacción entre personas, y entre dispositivos y personas." (Peraldo, 2010).



A través de este proceso, el usuario establece el modo o los modos de interacción para acceder a la información que desea, generando una mejora dentro de la interfaz del usuario. El usuario puede utilizar distintas modalidades de entrada adicionales, como un micrófono que reconozca las palabras, un teclado inalámbrico conectado a distintos dispositivos que no sean un ordenador o una pantalla táctil en teléfonos móviles, para acceder a dicha información. Como resultado, la información será mostrada a través de distintas modalidades de salida como gráficos, textos, vídeos o imágenes proporcionando una respuesta de mayor calidad y comprensión para el usuario.

Cabe destacar la diferencia que esta interacción tiene con respecto a la tradicional, en la cual solo se necesitaba un dispositivo electrónico con pantalla, teclado y ratón y unos conocimientos básicos de su funcionamiento. Esta interacción limitaba a los usuarios por sus capacidades, ya que no todos podían acceder a ese dispositivo o entender sus conocimientos.

Características de la interacción multimodal

Según la Guía Breve de Interacción Multimodal publicada por W3C (2014), para el funcionamiento de este proceso, se utilizan una serie de estándares para facilitar su comprensión:
  • VOICEXML. Es un lenguaje etiquetado que convierte el habla del usuario en texto. Estos comandos se pueden controlar a través de comandos de voz.
  • SRGS. Es el formato necesario para la sintaxis de la gramática del VOICEXML. Permite que una aplicación de voz indique a un reconocedor que es lo que tiene que buscar para dar significados a las palabras del usuario.
  • SSML. Es un lenguaje de marcado de Síntesis del Habla. Se basa en el formato XML y es un componente de conversión que genera un habla sintética en el proceso de salida de la información para el usuario.
  • SISR. Extrae resultados semánticos a través del proceso de reconocimiento del habla. Estos resultados se expresan en formato XML.
  • EMMA. Es el lenguaje que se utiliza para el intercambio de los datos dentro de los sistemas de administración de la interacción multimodal. Es un lenguaje común entre los componentes de esa interacción que integra la entrada de datos del usuario desde diferentes medios y proporcionarle una forma para ser procesada por los demás componentes.
Entendiendo los componentes de la interacción multimodal, se pueden explicar los ciclos de entrada y salida de datos de esta manera:
  • Ciclo de entrada de datos. Recogen los datos proporcionados por el usuario y los transforman para su procesamiento. En este ciclo intervienen componentes de reconocimiento de: habla (VOICEXML), que transforma el habla en texto; gramática de reconocimiento del habla (SRGS), que convierte la voz humana en palabras concretas; escritura (InkML), las apalabras se convierten en texto, símbolos, escritos y mensajes; teclado, convirtiendo su uso en caracteres de texto; y dispositivos de señalización; convierte la tecla en coordenadas x-y de una superficie en dos dimensiones. A parte de estos componentes, existen también los de interpretación (procesan aún más los resultados que proporcionan los componentes) y los de integración (combinan la salida de datos desde distintos componentes de interpretación). Esta salida de datos se produce en el lenguaje EMMA (W3C, 2014).



  • Ciclo de salida de datos. Los componentes de generación seleccionan los modos de salida de la información procesada para llegar al usuario. Estos modos de salida contienen sus componentes de salida y de conversión para finalizar el procesamiento. Los componentes de salida añaden datos para especificar la forma en la que se mostrará la información y los componentes de conversión transforman esa información en un formato que facilite la comprensión del usuario (W3C, 2014).



Interacción multimodal en el ámbito de la educación

La interacción multimodal va más allá de la tecnología, pues está presente también en cada momento en el que las personas se comunican. Por ejemplo, a la hora de hablar cara a cara con alguien, no transmitimos un mensaje con significado exclusivamente de forma oral, sino que también se implican otros factores como la proxémica, la prosodia, los gestos corporales y las expresiones faciales. Lo mismo sucede en el ámbito de la enseñanza.

“En las últimas décadas, las definiciones del aprendizaje y la enseñanza han privilegiado ciertos recursos para significar por sobre otros, es así como el interés sobre el uso del lenguaje, y por sobre todo el foco en la lectura y escritura, ha ocupado un rol protagónico en los estudios sobre cómo aprendemos y cómo enseñamos.” (Manghi, 2011)

Si bien es cierto que la lengua tanto oral como escrita tienen un papel importante en la enseñanza y en el proceso de aprendizaje, al igual que existe una interacción multimodal en la lengua oral, como hemos mencionado anteriormente, también existe una interacción modal en la lengua escrita, pues la inmensa mayoría de libros de texto empleados en la enseñanza incluyen recursos que van más allá de la letra: imágenes, dibujos, gráficos, esquemas, hasta el uso de negrita, cursiva o colores en el propio texto.
Por tanto, “el concepto de multimodalidad apunta a la variedad de modos o recursos semióticos utilizados para significar y que confluyen en un mismo evento comunicativo” (Manghi, 2011). De esta forma se entiende que cualquier texto en el que se incluya más de un recurso puede ser considerado como multimodal. Esto también va relacionado con el hecho de que vivimos en la Sociedad de la Información y las nuevas generaciones son nativos digitales, por lo que ha habido un cambio en el consumo de textos, no solo por parte de las nuevas generaciones sino global, empleando nuevas herramientas que permiten ir mucho más allá en la interacción multimodal: ordenadores, smartphones, tablets...

Tradicionalmente se ha considerado que los recursos gráficos de los libros de texto tienen un papel secundario, cuya función es remarcar o repetir el significado presente en el texto escrito. Sin embargo, las investigaciones al respecto revelan que cada modalidad semiótica es incomparable a los demás porque aporta significados que no se pueden traducir de una a otra, es decir, cada recurso lleva implícito en su formato matices de significado que no se pueden transmitir con otro formato (Manghi, 2011).

Es por esto que “la escuela cumple un rol fundamental en este aprendizaje semiótico, entendido como un proceso de enculturamiento. Es en la etapa escolar cuando el aprendiz amplía de manera importante las formas de representación” (Manghi, 2011). Las diversas instituciones de enseñanza deben por tanto iniciar la formación de las generaciones futuras no solo en los conocimientos tradicionales, sino también en la comprensión y uso de los diversos formatos y recursos (modalidades semióticas) para generar y comprender su significado. Se entiende así la alfabetización como un conjunto de prácticas comunicativas diversas que se enseñan que van más allá de la concepción tradicional de alfabetización vinculada al alfabeto exclusivamente como su propio nombre indica. ““Alfabetizarse” implica que las personas aprenden a dominar las convenciones de los distintos recursos semióticos utilizados para representar y comunicar” (Manghi, 2011).

Si bien es cierto que la enseñanza multimodal plantea una serie de desafíos para los profesores, como puede ser la falta de conocimiento sobre el potencial significado de algunos recursos o el reto de cómo representar ciertos significados tipológicos más allá de la lengua, el hecho es que está demostrado que el aprendizaje por medio de la interacción multimodal facilita el aprendizaje de los alumnos (Manghi, 2011). Existen una infinidad de recursos más allá de los textos escritos que logran el aprendizaje y que resultan mucho más atractivos para los niños por el hecho de ser más interactivos y llamativos visualmente hablando, por lo que se está produciendo un cambio en las aulas y también fuera de ellas, pues las nuevas tecnologías fomentan la complementación del aprendizaje de la escuela con el aprendizaje por medio de la diversión y el entretenimiento en casa. Esto se aplica no solo al aprendizaje de los más pequeños, sino que la interacción multimodal está presente en todas las etapas escolares en la actualidad, incluida la Universidad y otro tipo de formaciones complementarias como el aprendizaje de lenguas extranjeras.

Formando a los futuros formadores: los textos multimodales en la formación de los docentes

Un estudio realizado por la Universidad de Santiago de Chile en 2015 sobre el uso o no uso de textos multimodales en la formación universitaria de los futuros educadores revela que, si bien es cierto que hay una aceptación e inclusión progresiva de este tipo de textos en su formación, existe un predominio del uso del texto tradicional literario.

“Se podría sostener que el factor generacional parece ser gravitante en la inclusión de los textos multimodales en los procesos de enseñanza aprendizaje de la comprensión de lectura. Los estudiantes de Pedagogía en Lenguaje y Comunicación están siendo instruidos, mayoritariamente, por profesores que construyeron sus carreras y desempeño profesional sobre la base del trabajo con textos lingüísticos tradicionales y ese mismo aspecto formativo ha orientado también el camino pedagógico de los estudiantes. Si bien éstos acceden y en alguna medida tienen conciencia de los textos multimodales y su configuración semiótica, no lo hacen desde la inducción didáctica y pedagógica, sino por el influjo del contexto sociocultural marcado por nuevas plataformas textuales.” (Farías, 2015)

Si bien es cierto que existe presencia de textos multimodales en estos casos, cabe señalar dos aspectos importantes al respecto. Por un lado, los profesores siguen basando el contenido de las asignaturas en textos monomodales (es decir, puro texto), probablemente por tratarse de una generación distinta acostumbrada a este tipo de aprendizaje. Por otro lado, los alumnos interactúan más con textos multimodales que suele ir más allá del aprendizaje y se sitúa más bien en el tiempo de ocio (Farías, 2015). Esta casuística aquí presentada podemos corroborarla en el hecho de que, a lo largo de nuestros estudios universitarios en el Grado de Comunicación Audiovisual, el grueso del aprendizaje se ha realizado por medio de lectura, tratamiento y aprendizaje de textos monomodales. Es un hecho llamativo dado el ámbito en el que nos movemos, ya que deberíamos trabajar más con otro tipo de formatos más interactivos por la naturaleza de la rama de oficios en la que trabajaremos. Cabe mencionar que sí hemos trabajado con herramientas de interacción multimodal, como el consumo de materiales audiovisuales o el uso de la aplicación Kahoot! como forma de poner a prueba los conocimientos aprendidos a lo largo de diversas asignaturas. Personalmente, consideramos que en ocasiones resulta más llamativo y por lo tanto más fructífero el aprendizaje con otros formatos que van más allá del texto escrito, al menos en nuestra rama de conocimiento que es la que conocemos.

“Los docentes no han sido formados conceptualmente para valorar la imagen en los procesos de comprensión de lectura, a lo cual se agrega la precariedad de recursos didácticos que guíen la tarea de enseñar a leer textos multimodales. Esta falta de atención a las imágenes y a los sistemas visuales de significado representa serios desafíos a los profesores en tiempos cuando la imagen ha comenzado a dominar la vida de nuestros estudiantes.” (Farías, 2015)

Arquitectura de las aplicaciones de interacción multimodal educativas

“Las interfaces multimodales permiten que la interacción humano-computadora se dé en forma natural, y que la unión entre el mundo real con el digital sea totalmente transparente para el usuario. Actualmente, existen aplicaciones educativas que utilizan este tipo de interfaces” (Reyes, I.A., Mezura-Godoy, C. & Sánchez, G., 2016). Como hemos mencionado, existen aplicaciones de interacción multimodal especialmente diseñadas para el aprendizaje de diversos contenidos, materias y para diversos rangos de edad. Desde la Universidad Veracruzana, México, proponen un modelo y arquitectura estándar para hacer más funcionales, productivas y útiles este tipo de aplicaciones con el fin de mejorar la experiencia de los usuarios y, por otro lado, recopilar más información sobre los resultados obtenidos por medio del uso de dichas aplicaciones.

El modelo en cuestión que plantean tiene en cuenta ocho elementos relacionados entre sí de la forma que se expone en la gráfica: “usuario, canal de aprendizaje, dispositivos de interacción, equipo heterogéneo, rol, actividad, ambiente externo, y aplicación colaborativa; y dos subelementos dentro de la actividad: tareas cooperativas y tareas colaborativas” (Reyes, I.A., Mezura-Godoy, C. & Sánchez, G., 2016).


La propuesta de arquitectura para las aplicaciones cuya función principal es el aprendizaje es la siguiente. Cabe señalar que se trata de una propuesta de una versión preliminar:


Una aplicación de interacción multimodal para el aprendizaje: Wer Bin Ich?

Un ejemplo concreto de aplicación de interacción multimodal diseñada para el aprendizaje es Wer Bin Ich?. Esta aplicación está pensada para el aprendizaje del alemán como lengua extranjera y se centra principalmente en el refuerzo y práctica de la expresión oral de dicho idioma. Esta aplicación está pensada para lograr el nivel A2 a nivel oral establecido por el Consejo Europeo en el Marco Común Europeo de Referencia para las Lenguas elaborado en 2001 (Ruíz-Rube, I., Mota, J.M., Person, T., Berns, A. & Dodero, J.M., 2016).

La aplicación básicamente consiste en reproducir el juego ¿Quién soy yo? en el aula, por medio del uso de la realidad aumentada. El alumno selecciona un código QR que será escaneado por sus compañeros, quienes verán el personaje que debe adivinar el portador del código QR por medio de la formulación de preguntas. La aplicación registra si los alumnos han logrado averiguar cuál es su personaje. Esta es una aplicación de interacción multimodal porque los usuarios interactúan por un lado con la aplicación de forma visual, identificando los personajes que deben adivinar, y de forma oral entre ellos y con la aplicación, por medio de la práctica del idioma para dar así con la respuesta correcta. El uso de la aplicación requiere también del desplazamiento para la interacción con los demás usuarios, reafirmando la multimodalidad de esta.

Wer Bin Ich? ha sido desarrollada por la Universidad de Cádiz, implementando VEDILS, un software también creado por la Universidad. “VEDILS es la propuesta que hemos diseñado para ofrecer a los profesionales de la educación un conjunto de características adicionales que se pueden integrar con las ya proporcionadas en AppInventor” (Ruíz-Rube, I., Mota, J.M., Person, T., Berns, A. & Dodero, J.M., 2016). VEDILS permite crear aplicaciones para el aprendizaje que incorporan realidad aumentada, interacción gestual y permite realizar analíticas del aprendizaje (Ruíz-Rube, I., Mota, J.M., Person, T., Berns, A. & Dodero, J.M., 2016).


Conclusiones

En relación con los objetivos propuestos antes de la realización de la investigación y tras exponer los datos recabados, estas son las conclusiones extraídas:

  • La interacción multimodal es un proceso en el cual las personas y los dispositivos llevan a cabo una interacción conjunta combinando diversos formatos y estímulos (auditivos, visuales, táctiles y gestuales) que incrementan así el rango de la interacción y el contenido que se transmite. Para facilitar su comprensión en el ámbito digital, se utilizan unos estándares que permiten comprender los ciclos de entrada y salida de información.
  • La multimodalidad va más allá de las aplicaciones tecnológicas, está presente hasta en como nos comunicamos. Al hablar con alguien somos multimodales, pues transmitimos con la voz, el tono y los gestos. De la misma forma existe multimodalidad en la enseñanza. Tradicionalmente se centra el aprendizaje en el texto escrito y se considera que el papel del resto de los elementos de un libro de texto es secundario o de refuerzo. La realidad es que cada formato aporta un matiz de significado que no se puede traducir a otros formatos de la misma manera. La enseñanza multimodal presenta grandes desafíos para quienes la imparten, pero ofrece nuevas herramientas y posibilidades atractivas y que facilitan el aprendizaje.
  • En la actualidad, a pesar de los grandes avances tecnológicos existentes y la variedad de formatos y plataformas, el hecho es que los docentes siguen basando el contenido de las asignaturas en textos monomodales en los que únicamente hay texto escrito, probablemente porque así se les enseñó a ellos y de ahí que mantengan la tradición. También es cierto que cada vez más se incluyen elementos de interacción multimodal, aunque su consumo principal siga siendo con finalidad de ocio.
  • Existen aplicaciones de interacción multimodal con fines educativos. Su estructura y características varía en función del formato y herramientas que utilicen, por lo que no hay un estándar como tal definido. Se ha detectado que uno de los puntos donde estas aplicaciones flojean es en la recopilación de datos para el análisis de la evolución del aprendizaje de los usuarios, por lo que hemos visto la propuesta de modelo que proponen desde la Universidad Veracruzana en México, el cual pretende solucionar este problema y generar una arquitectura útil para este tipo de aplicaciones.
  • El ejemplo de aplicación educativa de interacción multimodal escogido es Wer Bin Ich?, una aplicación creada por la Universidad de Cádiz para mejorar el nivel oral de los alumnos que aspiran a obtener un nivel A2 en alemán. Esta aplicación es multimodal porque combina elementos visuales, fomenta la interacción entre los alumnos, provoca su desplazamiento y emplea texto escrito y oral para aprender alemán de forma interactiva entre los alumnos por medio del juego ¿Quién soy yo?
Anexo

Hemos querido añadir un anexo con varios videos complementarios a los temas tratados. Por un lado para mostrar aplicaciones de interacción multimodal que pueden ser útiles para la docencia e introducir nuevas dinámicas; y por otro lado, aplicaciones cuya finalidad es el aprendizaje de contenidos concretos:

APPS útiles en docencia



Las Mejores Aplicaciones Educativas (2018) TECNO TECH

Bibliografía

Farías, M. (2015). Hacia una caracterización de los textos multimodales usados en formación inicial docente en lenguaje y comunicación. Revista Literatura y Lingüística, Universidad Católica Silva Henríquez, No. 32. Recuperado de: https://scielo.conicyt.cl/scielo.php?pid=S0716-58112015000200015&script=sci_arttext

Manghi, D. (2011). La perspectiva multimodal sobre la comunicación. Desafíos y aportes para la enseñanza en el aula. Revista electrónica Diálogos Educativos, No. 22, Año 11, pp. 3-14. Recuperado de: https://dialnet.unirioja.es/servlet/articulo?codigo=3931351

Peraldo, G.M. (2010). Interacción Multimodal. Blog de Gian Marco Peraldo Valera. Recuperado de: http://blog.pucp.edu.pe/item/115290/interaccion-multimodal

Reyes, I.A., Mezura-Godoy, C. & Sánchez, G. (2016). Hacia un modelo de interfaces multimodales adaptables a los canales de aprendizaje en aplicaciones colaborativas como apoyo a la educación. Research in Computing Science 111, pp. 57-67. Recuperado de: http://www.rcs.cic.ipn.mx/2016_111/Hacia%20un%20modelo%20de%20interfaces%20multimodales%20adaptables%20a%20los%20canales%20de%20aprendizaje.pdf

Ruíz-Rube, I., Mota, J.M., Person, T., Berns, A. & Dodero, J.M. (2016). Autoría y analítica de aplicaciones móviles educativas multimodales. XVIII Simposio Internacional de Informática Educativa, Universidad de Cádiz, Escuela Superior de Ingeniería, pp. 289-294. Recuperado de: https://repositorio.grial.eu/bitstream/grial/669/1/RuizRubeSIIE2016.pdf

W3C. (14 febrero 2014). Guía Breve de Interacción Multimodal. Recuperado de: http://www.w3c.es/Divulgacion/GuiasBreves/Multimodalidad












Comentarios

  1. Buenos días, soy Alfonso, os animo a seguir trabajando en todo lo que se refiere al entorno y formato del blog y a continuar subiendo todos los trabajos, mucho ánimo.

    ResponderEliminar

Publicar un comentario