Las siglas son el ejemplo más obvio de la aplicación de un algoritmo de resumen consistente en utilizar la primera letra de cada palabra para crear siglas. Pero este algoritmo de resumen es tan simple que una misma sigla podría corresponder a distintas palabras. Por ejemplo, las siglas PSP bien pudieran corresponder a alguien que se llama Pedro Santana Pérez o a una chica llamada Paloma Sánchez Ponce o hacer referencia a PlayStation Portátil. En términos absolutos ¿determinaría una sigla por si sola su palabra origen? obviamente no.
En términos informáticos, un algoritmo de resumen lógicamente es mucho más sofisticado que unas simples siglas, pero podríamos decir que una sigla es a una palabra, como un HASH al contenido de un archivo. Básicamente lo que cambia es el método con el que calculamos el resumen.
Si para hallar la sigla de una palabra empleamos el método de extraer la primera letra, para hallar el HASH o resumen de un archivo, podríamos emplear distintos métodos o algoritmos de resumen.
Un algoritmo de resumen, obviamente es algo mucho más complejo que unas simples siglas de palabras, e intenta cumplir dos misiones fundamentales para los contenidos en internet:
- Identificar en la distancia un archivo remoto
- Certificar su contenido una vez recibido
Dos funciones que no pueden ser usadas independientemente una de la otra. Supongamos que en la distancia, de una página web, un archivo se nos presenta con valor de algoritmo de resumen A. Una vez y lo descargamos completamente le aplicamos el mismo cálculo al contenido. ¿Qué sucede si arroja un valor de resumen B? Pues que estaríamos ante un contenido distinto al contenido remoto (archivos distintos)
Por tanto el HASH de un archivo remoto desde la distancia no determina su contenido. Es necesario descargar el archivo completamente para comprobar que al pasar el mismo algoritmo al contenido recibido, obtenemos el mismo HASH que anunció el archivo remoto.
Durante estos días corre por internet la noticia del reciente informe de la ONG Alia2 que presenta a nuestro país como subcampeón del mundo en el consumo de pornografía infantil en las redes P2P. Esta afirmación se sustenta en la recopilación de metadatos de las redes P2P realizada por su rastreador P2P Florencio. Esta ONG se limitó a buscar rastros de archivos cuyo HASH estuviera previamente en una base de datos de archivos cuyos contenidos ilegales ya eran conocidos. En ningún momento esta ONG descargó y comprobó los contenidos anunciados de forma remota por las fuentes analizadas, ya que de hacerlo estaría incurriendo en el mismo delito que se persigue (art. 189.1.B facilitación o difusión de pornografía infantil)
Entonces, ¿cómo pudo determinar científicamente esta ONG que detrás de un rastro P2P había ciertamente un contenido ilegal en función del HASH de archivo anunciado remotamente?
Ese informe arroja un resultado imposible de determinar sin la descarga completa de los archivos desde las fuentes contabilizadas. La red P2P eDonkey (eMule) por ejemplo, utiliza un algoritmo de resumen denominado MD4 que desde el año 2004 ha sido vulnerado, siendo posible la creación de archivo clones (distinto contenido que generan un mismo HASH).
Un HASH de archivo no determina de forma remota su contenido.