Saludos:
Aquí les presento los materiales y las instrucciones que van a requerir para hacer la segunda tarea del curso, esto es: la extracción de frases nominales de sus corpus de medicina.
El programa que van a ejecutar lo pueden descargar dando un click aquí, el cual viene en un archivo de texto plano. Por favor, revisen el indentado del código, para que no tengan errores.
El código que van a emplear hace uso de la librería TextBlob, la cual permite realizar procesamientos de texto aplicando todas las herramientas que hemos visto durante el curso. Dado que usarán TextBlob, podrán subir sus corpus en versión "cruda" (esto es, como un raw corpus), sin necesidad de segmentarlo, tokenizarlo y, por supuesto, sin incluir etiquetas sintácticas.
Ahora bien, la tarea consiste en lo siguiente:
1. El chunker está diseñado para que simplemente lo copien y editen en su sesión de Google Colab. En caso de que lo necesiten, puedo compartirlo con ustedes desde la mía. Hagan la prueba primero, y recuerden: respeten el indentado para no tener problemas.
2. La idea aquí es que ustedes formulen sus propios patrones sintácticos para extraer frases. Dicho esto, tendrán que probar combinaciones de expresiones regulares con etiquetas gramaticales. Ahora bien, una observación: el sistema de etiquetas que se ocuparán es el del Brown Corpus. La guía con la descripción de cada una de estas etiquetas la pueden revisar en esta página.
3. Igualmente, algunas recomendaciones sobre cómo construir un patrón sintáctico con expresiones regulares: primero se introduce una llave ("{"), inmediatamente usan un pico-paréntesis ("<"), y ahora pueden insertar sus etiquetas (p. e., NN, que representa noun). Cuando terminen de escribir su patrón, cierran con otro pico-paréntesis (">"), así como con la llave correspondiente ("}").
4. Las expresiones regulares que pueden emplear son: *, +, ., |, básicamente.
5. El objetivo entonces es que extraigan frases nominales y verbales del siguiente tipo:
5.1. Frases nominales con la secuencia nombre + adjetivo.
5.2. Frases nominales con la secuencia nombre + preposición + nombre.
5.3. Frases verbales con la secuencia verbo + FN.
5.4. Frases verbales con la secuencia verbo + preposición + FN.
Para más detalles al respecto, les recomiendo que revisen el capítulo
6. Las frases que van a obtener son candidatos a términos, de tal suerte que ustedes pueden determinar cuáles consideran que son los mejores. Al final, reportarán sus listas de resultados, así como su selección de candidatos.
La fecha de entrega para el trabajo es el 28 de diciembre. El reporte va en formato WORD. En caso de que requieran más tiempo, avísenme por medio de un correo electrónico.
Cualquier consulta o detalle, mándenme un correo.
Suerte con todo.
Aquí les presento los materiales y las instrucciones que van a requerir para hacer la segunda tarea del curso, esto es: la extracción de frases nominales de sus corpus de medicina.
El programa que van a ejecutar lo pueden descargar dando un click aquí, el cual viene en un archivo de texto plano. Por favor, revisen el indentado del código, para que no tengan errores.
El código que van a emplear hace uso de la librería TextBlob, la cual permite realizar procesamientos de texto aplicando todas las herramientas que hemos visto durante el curso. Dado que usarán TextBlob, podrán subir sus corpus en versión "cruda" (esto es, como un raw corpus), sin necesidad de segmentarlo, tokenizarlo y, por supuesto, sin incluir etiquetas sintácticas.
Ahora bien, la tarea consiste en lo siguiente:
1. El chunker está diseñado para que simplemente lo copien y editen en su sesión de Google Colab. En caso de que lo necesiten, puedo compartirlo con ustedes desde la mía. Hagan la prueba primero, y recuerden: respeten el indentado para no tener problemas.
2. La idea aquí es que ustedes formulen sus propios patrones sintácticos para extraer frases. Dicho esto, tendrán que probar combinaciones de expresiones regulares con etiquetas gramaticales. Ahora bien, una observación: el sistema de etiquetas que se ocuparán es el del Brown Corpus. La guía con la descripción de cada una de estas etiquetas la pueden revisar en esta página.
3. Igualmente, algunas recomendaciones sobre cómo construir un patrón sintáctico con expresiones regulares: primero se introduce una llave ("{"), inmediatamente usan un pico-paréntesis ("<"), y ahora pueden insertar sus etiquetas (p. e., NN, que representa noun). Cuando terminen de escribir su patrón, cierran con otro pico-paréntesis (">"), así como con la llave correspondiente ("}").
4. Las expresiones regulares que pueden emplear son: *, +, ., |, básicamente.
5. El objetivo entonces es que extraigan frases nominales y verbales del siguiente tipo:
5.1. Frases nominales con la secuencia nombre + adjetivo.
5.2. Frases nominales con la secuencia nombre + preposición + nombre.
5.3. Frases verbales con la secuencia verbo + FN.
5.4. Frases verbales con la secuencia verbo + preposición + FN.
Para más detalles al respecto, les recomiendo que revisen el capítulo
6. Las frases que van a obtener son candidatos a términos, de tal suerte que ustedes pueden determinar cuáles consideran que son los mejores. Al final, reportarán sus listas de resultados, así como su selección de candidatos.
La fecha de entrega para el trabajo es el 28 de diciembre. El reporte va en formato WORD. En caso de que requieran más tiempo, avísenme por medio de un correo electrónico.
Cualquier consulta o detalle, mándenme un correo.
Suerte con todo.