Leyenda — Categorías Retóricas (Tarea 1)
El color de fondo de cada párrafo corresponde a su categoría retórica (T1).
El sistema asigna una de las 8 categorías usando patrones léxicos y la
posición relativa del párrafo dentro del documento (0 = inicio, 1 = fin).
Detección de Contribuciones (Tarea 2)
ES_CONTRIBUCION — las oraciones que
contienen marcadores de aporte científico se resaltan en rojo dentro del párrafo.
T1 y T2 son etiquetas independientes:
una contribución puede estar dentro de cualquier sección retórica
(introducción, metodología, resultados, conclusiones, etc.).
Flujo de análisis — dos tareas independientes
T1
Segmentación Retórica — divide el texto en párrafos
y clasifica cada uno en una de las 8 etiquetas: INTRO, BACK, METH, RES, DISC, CONTR, LIM, CONC.
Endpoint: POST /api/segment
↓ Los segmentos de T1 se pasan como input a T2
T2
Detección de Contribuciones — clasifica cada fragmento
como ES_CONTRIBUCION o NO_ES_CONTRIBUCION, usando el
contexto retórico heredado de T1.
Endpoint: POST /api/contributions
T1 y T2 usan modelos independientes seleccionables por separado.
Una contribución puede aparecer en cualquier sección retórica — las etiquetas son ortogonales.
Archivos soportados
PDF — detecta tamaño de hoja (Carta, A4, Oficio, Folio)
y número de columnas (1, 2 o 3) automáticamente.
DOCX / DOC — extrae texto en orden de flujo correcto;
detecta tamaño de hoja desde metadatos XML.
TXT — texto plano. Se asume siempre formato Carta.
Pegado directo — escribe o pega en el área de texto;
se trata como Carta de una sola columna.
Modelos disponibles
● Disponible — se ejecuta inmediatamente.
○ Pendiente — usa heurístico como fallback hasta que el artefacto esté listo.
El sistema funciona
sin backend usando la heurística JavaScript local.
Con el backend FastAPI activo, los modelos entrenados (SciBETO, mDeBERTa, Llama, GPT‑4o)
son accesibles desde el selector.
Exportación de resultados
La barra de exportación aparece siempre anclada en la parte inferior del panel.
Los archivos reflejan el filtro activo de KPIs (si hay uno aplicado):
📄 JSON
Todos los campos: etiqueta T1, confianza T1, etiqueta T2, confianza T2, texto, posición, zona retórica. Sin filtro.
📊 CSV retórico
Tabla plana compatible con Excel/pandas. Incluye posición relativa, zona, categorías T1 y T2 para cada párrafo.
🎯 CSV contribuciones
Solo párrafos con ES_CONTRIBUCION, con texto completo, contexto retórico y confianza T2.
🌐 HTML
Informe visual standalone con los colores retóricos y highlights de contribuciones. Respeta el filtro activo.
Nombre: rethorical_ALL.html o rethorical_INTRO_RES.html
🖨 PDF
Imprime el informe HTML desde el diálogo del navegador (Guardar como PDF). Respeta el filtro activo.
Nombre: rethorical_ALL.pdf
Filtros de categoría — KPIs interactivos
Haz clic en cualquier KPI de la distribución retórica para activar un
filtro visual:
- Los párrafos de otras categorías se atenúan a opacity 8%
- Selección múltiple: clic en varios KPIs acumula el filtro
- Clic de nuevo en un KPI activo lo elimina del filtro
- El KPI Sin cat. (gris) resetea el filtro completo
- Los botones HTML y PDF exportan solo los párrafos del filtro activo
Barra de resultados — ¿qué significa cada campo?
Modelo: Heurístico (sin modelo)
· Modo: heuristic
· Párrafos: 8
· Palabras: 276
⏱ 3 ms
- Modelo — nombre del modelo que realizó el análisis.
Heurístico (sin modelo) indica que se usó la lógica de reglas léxicas
local, sin un modelo de lenguaje entrenado.
- Modo — familia del motor de inferencia:
heuristic (reglas JS locales), encoder (BERT/DeBERTa fine-tuned),
llm_open (Llama / Mistral) o llm_api (GPT-4o / Gemini).
- Párrafos — número de párrafos en los que el sistema segmentó
el texto. La segmentación se basa en dobles saltos de línea o en grupos de
~50 palabras si el texto no tiene párrafos marcados.
- Palabras — total de tokens (palabras separadas por espacio)
en el texto analizado. Útil para estimar la densidad del documento.
- ⏱ tiempo — latencia de inferencia en milisegundos, medida
desde que se envía el texto hasta que se recibe la respuesta completa.
El modo heurístico es siempre < 20 ms; los encoders ~200–500 ms;
los LLM API dependen de la red.
Distribución retórica (Tarea 1) — ¿qué es el porcentaje?
Cada tarjeta de la distribución retórica muestra dos valores para una categoría:
- Número (grande) — cantidad de párrafos del texto clasificados
en esa categoría retórica.
- Porcentaje — proporción de párrafos en esa categoría respecto
al total del texto analizado, calculado como:
% = (párrafos en categoría / total párrafos) × 100
Los porcentajes de las 8 categorías suman 100 %. Una categoría con
0 párrafos muestra 0 % y aparece en gris — indica que ese
tipo de contenido retórico no fue identificado en el texto. La distribución
esperada en un artículo científico completo suele tener INTRO y BACK al inicio,
METH y RES en el cuerpo, y DISC, CONTR, LIM y CONC hacia el final.