Bulwark
Ilustración sobre el trabajo de Bulwark

Qué hacemos

1. Extraer información de fuentes externas.

Como un ejemplo, tenemos este artículo:

Captura del artículo de referenciaArtículo de La República

Se va a extraer solo un fragmento de este artículo, publicado, en este caso, por La República. El fragmento elegido:

“La Resistencia: ¿quién es ‘Jota Maelo’ y qué denuncias tiene el líder del grupo extremista?”

Detalle del fragmento seleccionado

2. Limpiar la información contenida en el artículo.

Se procede a limpiar la información extraída, en este caso ese pequeño fragmento.

Este es el proceso de limpieza o el razonamiento que se utiliza para limpiar dicho fragmento:

El artículo trata de responder las preguntas: quién es el líder del colectivo llamado “la resistencia”, y cuáles fueron las denuncias atribuidas a esta persona. No de: cuál es la ideología con la que cuenta este colectivo o cual es la trayectoria política de esa persona, sino esos dos temas en específico. Se nota que ese artículo no busca conocer mucho más sobre esta persona y sobre los temas que le competen, sino solo sobre esos dos temas en específico.

No es que “tiene denuncias”, es que alguien ha adjudicado denuncias a esa persona.

Menciona que “la resistencia” es un grupo “extremista”, no especifica nada, solo califica de “extremista” a ese colectivo.

El artículo se refiere a Juan José Muñico Gonzáles por su alias, no por su nombre. Puede ser porque la gente lo conoce mucho más por su alias que por su nombre, o por otras razones.

En el artículo mencionan al colectivo llamado “la resistencia”, mencionan a Juan José Muñico Gonzáles, pero se refieren a él por su alias que es “Jota Maelo”, mencionan que es persona es el líder de ese colectivo, y también mencionan las denuncias que fueron atribuidas a esta persona.

Y luego de eso, se obtiene la información limpia:

Información sobre Juan José Muñico Gonzáles, alias “Jota Maleo”, líder del colectivo denominado “La Resistencia”, y sobre las denuncias efectuadas en su contra.

3. Centralizar la información limpia.

Luego se centraliza la información limpia.

La información limpia del artículo #1 (LR) + #2 (El Comercio) + #3 (RPP):

Ejemplo muy corto de cómo se vería la información ya centralizada:

Información sobre Juan José Muñico Gonzáles, alias “Jota Maleo”, líder del colectivo denominado “La Resistencia”, y sobre las denuncias efectuadas en su contra.

Una de las denuncias que fueron efectuadas en su contra tiene que ver con el asesinato de un exsoldado y la presunta relación de Juan José en la facilitación de ese evento.

4. Categorizar la información limpia de acuerdo con los requerimientos del usuario.

Si un usuario quiere información sobre “Juan José Muñico Gonzáles” o sobre “La Resistencia”, en los resultados le aparecerá un banco de información que está lleno de “bits de información” limpios sobre el tema que le interesa al usuario, sea el origen de esos “bits de información” un artículo publicado por Infobae, La República o por cualquier otro portal de noticias.

“Bit de información”: Unidad básica de información. Esta unidad puede ser pequeña (una oración) o más grande (un párrafo; un conjunto de párrafos) que tienen algo que los caracteriza (esa oración menciona el día en el que Dina asumió la presidencia; esos párrafos hablan sobre los resultados de la última encuesta de Ipsos).

Actualmente el “bit de información”, es un párrafo.

A largo plazo haremos que el “bit de información” sea más pequeño, para incrementar la exactitud en los resultados de búsqueda, entre otras mejoras.

Representación visual de la categorización

Como una página de Wikipedia, que va incrementando en vastedad de información a medida que más fuentes confiables reportan sobre ese tema en particular, pero con información mucho más confiable (ya que pasa por un proceso de depuración metódico y transparente) y flexiblemente categorizable, es decir, esa información limpia no se categoriza por temas específicos (como “La Resistencia (colectivo)” o “Ministerio del Interior (Perú)“), como lo hace Wikipedia, sino que se categoriza de acuerdo con los requerimientos específicos del usuario, si este pide información limpia sobre “Juan José Muñico Gonzáles”, el banco de información que se le será expuesto va a estar compuesto de todos los “bits de información” limpia relacionados con ese tema, se hayan basado éstos “bits” en artículos publicados por una institución de prensa u otra.

En resumen

Esto es lo que quedaría:

Fragmento original

La Resistencia: ¿quién es 'Jota Maelo' y qué denuncias tiene el líder del grupo extremista?

Información limpia

Información sobre Juan José Muñico Gonzáles, alias "Jota Maelo", líder del colectivo denominado "La Resistencia", y sobre las denuncias efectuadas en su contra.

Proceso de limpieza

El artículo trata de responder las preguntas: quién es el líder del colectivo llamado “la resistencia”, y cuáles fueron las denuncias atribuidas a esta persona. No de: cuál es la ideología con la que cuenta este colectivo o cual es la trayectoria política de esa persona, sino esos dos temas en específico. Se nota que ese artículo no busca conocer mucho más sobre esta persona y sobre los temas que le competen, sino solo sobre esos dos temas en específico.

No es que “tiene denuncias”, es que alguien ha adjudicado denuncias a esa persona.

Menciona que “la resistencia” es un grupo “extremista”, no especifica nada, solo califica de “extremista” a ese colectivo.

El artículo se refiere a Juan José Muñico Gonzáles por su alias, no por su nombre. Puede ser porque la gente lo conoce mucho más por su alias que por su nombre, o por otras razones.

En el artículo mencionan al colectivo llamado “la resistencia”, mencionan a Juan José Muñico Gonzáles, pero se refieren a él por su alias que es “Jota Maelo”, mencionan que es persona es el líder de ese colectivo, y también mencionan las denuncias que fueron atribuidas a esta persona.