hash de archivo

PROMUSICAE quería desconectar a usuarios P2P ¿con qué pruebas?

Con fecha 1 de Septiembre de 2011 se publicó una sentencia (Id Cendoj: 28079230012011100402)  de la Sala de lo Contencioso de la Audiencia Nacional que denegó un recurso que tenía como fuente del proceso unos rastreos P2P realizados por PROMUSICAE.  Muchos recordaréis una sentencia del año 2008 del Tribunal Supremo (Id Cendoj: 28079120012008100213) que generó un mar de titulares.  Uno de los titulares que mejor describió el contenido de esa sentencia fue este «El Tribunal Supremo avala el rastreo sin autorización judicial de ficheros P2P para investigar pornografía infantil«

En el recurso que recientemente le ha sido denegado a PROMUSICAE se indica lo siguiente en referencia al procedimiento de obtención de las IP públicas de los supuestos infractores P2P:

Expone como la recurrente, mediante un tratamiento antipirateria y utilizando un determinado programa informático detectará las infracciones la ley de propiedad intelectual que se cometan por la redes P2P y podrá recopilar las direcciones IP de los usuarios que compartan un considerable numero de fonogramas y videos y que, una vez obtenida dicha recopilación, se procederá a ejercer las acciones civiles y penales correspondientes contra quienes prestan á los usuarios infractores los servicios de los que se sirven para intercambiar ilícitamente los archivos fonográficos ó de video correspondientes.

PROMUSICAE solicitó que los metadatos obtenidos con su programita sirvieran como prueba para iniciar «las acciones civiles y penales correspondientes«,  según este párrafo,  «contra quienes prestan a los usuarios infractores los servicios«, en otras palabras,  denunciar en primera instancia a los proveedores de Internet.  Pero como se indica en la sentencia, el objetivo final era el siguiente:

Es decir, PRODUCTORES DE MUSICA DE ESPAÑA (PROMUSICAE) pretende que se le suspenda el servicio de Internet a aquellos usuarios de la red P2P que infringen masivamente los derechos de la propiedad intelectual.

Estas pretenciones parece que ya las anunciaba en un acalorado debate televisivo en 2009. Es importante que el lector sepa que en algunos países europeos,  parecidas pretensiones desde el sector de la Industria de contenidos han sido aceptadas a trámite por el estamento judicial.

En este completísimo informe de 2007 publicado por Torrent Freak , nos muestra un procedimiento de rastreo P2P contratado por la empresa creadora de un videojuego, para detectar usuarios británicos que estaban compartiendo uno de sus productos (Pinball 3D)  en la red eDonkey2000 y Gnutella.  La justicia británica aceptó como pruebas estas «evidencias» digitales remotas.   Meses después nos encontramos con esta noticia Abogados mercenarios acosan a internautas ingleses acusándolos de piratería.

Lo malo es que muchos destinatarios de esas cartas son gente inocente. De hecho, parte de ellos son pensionistas que no tienen ni idea de qué eso del P2P. Estas firmas de abogados reconocen utilizar sistemas automáticos que se encargan de vigilar las redes de intercambio de ficheros para rastrear contenidos protegidos por copyright. Asimismo, el volumen de los envíos de reclamaciones es realmente elevado. Ya el año pasado, ACS:Law reconocía que estaba preparando 30.000 misivas.

En el caso de España,  las pretenciones de PROMUSICAE chocaron frontalmente con la LOPD (Ley Orgánica de Protección de Datos). Su recurso fue rechazado por la Audiencia Nacional por este motivo legal,  pero, en mi opinión, es importante señalar que existen otros argumentos de carácter técnico y psicológico que desacreditan desde el inicio las evidencias digitales aportadas.

Observen atentamente el cuadro que expongo arriba.  Concretamente el apartado en el que desgloso la justificación técnica judicial, que en esencia son las pruebas o evidencias digitales aportadas para justificar la infracción.   Un metadato P2P es la unidad básica de lectura de un rastreador P2P.   Dentro de un metadato no se halla el contenido,  sino información que hace referencia a él.

La estructura básica de un metadato P2P está compuesta por:

  • Ip pública
  • Hash del archivo

Técnicamente, la Ip pública identifica al titular de la conexión (al que paga la factura), pero no determina al infractor P2P. Detrás de una IP pública pueden existir uno o varios ordenadores, uno o varios usuarios,  un troyano compartiendo lo que desconoces, tu vecino robándote la WIFI, …   Por tanto la IP pública no determina remotamente al infractor.

Por otro lado,  un hash de archivo no es más que una ristra de caracteres resultante de la aplicación de un algoritmo al contenido de un archivo.  En la red eDonkey (eMule) este algoritmo es el MD4.  Un viejo algoritmo que puede ser vulnerado con un simple «cálculo a mano».

Simplificando bastante y como ejemplo,  las SIGLAS son el algoritmo de resumen más elemental. Un MD4 es a un ARCHIVO lo que unas SIGLAS a un NOMBRE Y APELLIDOS.  De igual forma que una siglas pueden hacer referencia a múltiples combinaciones de nombres y apellidos, un hash MD4 puede hacer referencia a contenidos remotos distintos.  Este es uno de los principales motivos por el que redes como eDonkey están llenas de fakes, archivos clones, fake servers, etc. Una vulnerabilidad que ha sido aprovechada por la Industria de Contenidos lucrativos para atacar las redes P2P   El Hash de archivo no determina remotamente el contenido.

Si llegados a este punto,  existen dudas razonables sobre la identidad del infractor,  veamos algo imposible.  Una de las cuestiones sorprendentemente no saltan a la luz, quizás por lo que Giddens denomina «el secuestro de la experiencia«, que no es otra cosa que delegar únicamente en los «expertos»  los criterios de veracidad.  La pregunta incontestable es ¿de qué forma se determina remotamente la intencionalidad de una descarga P2P? Aspecto que obviamente tiene que ver con la psicología y no con la técnica.  Esta cuestión ha sido «resuelta», en los casos de pornografía infantil, en base al número de rastros remotos detectados.  Unos criterios policiales peligrosamente insuficientes e inestables.

Como siempre, les hablaré de «mi libro» (¡qué grande era Umbal!).  A mi casa entraron en el año 2006 porque un agente de la BIT (actual agente de la Europol) obtuvo de las redes P2P una supuesta «evidencia digital remota»  utilizando, sin control judicial y durante tan solo tres minutos, un simple eMule Plus 1.1g desde su despacho.  Como la multiplicación bíblica de panes y peces,  el agente de la BIT justificó al estamento judicial que la aparición de la IP pública como fuente de un metadato de pornografía infantil significaba que el titular de la línea: 1)  tenía pornografía infantil 2) que quería difundirla.  Esta justificación técnica (tener) psicológica (querer) fue aceptada por un Juez quién autorizó la retirada de mis derechos fundamentales. Finalmente fui ABSUELTO.  (mi caso)

En resumen, las «evidencias digitales» aportadas para perseguir a usuarios P2P, en casos como el de PROMUSICAE o en la lucha contra la pornografía infantil en las redes P2P, son peligrosamente insuficientes como para que un Juez, sin ningún tipo de asesoramiento técnico independiente, retire derechos fundamentales a los titulares de una conexión a Internet.

El HASH de un archivo no determina remotamente el contenido

Las siglas son el ejemplo más obvio de la aplicación de un  algoritmo de resumen consistente en utilizar la primera letra de cada palabra para crear siglas. Pero este algoritmo de resumen es tan simple que una misma sigla podría corresponder a distintas palabras.  Por ejemplo, las siglas PSP bien pudieran corresponder a alguien que se llama Pedro Santana Pérez o a una chica llamada Paloma Sánchez Ponce o hacer referencia a PlayStation Portátil.  En términos absolutos ¿determinaría una sigla por si sola su palabra origen?  obviamente no.

En términos informáticos,  un algoritmo de resumen lógicamente es mucho más sofisticado que unas simples siglas, pero podríamos decir que una sigla es a una palabra, como un HASH al contenido de un archivo. Básicamente lo  que cambia es el método con el que calculamos el resumen.

Si para hallar la sigla de una palabra empleamos el método de extraer la primera letra,  para hallar el HASH o resumen de un archivo, podríamos emplear distintos métodos o algoritmos de resumen.

Un algoritmo de resumen, obviamente es algo mucho más complejo que unas simples siglas de palabras, e  intenta cumplir dos misiones fundamentales para los contenidos en internet:

  1. Identificar en la distancia un archivo remoto
  2. Certificar su contenido una vez recibido

Dos funciones que no pueden ser usadas independientemente una de la otra. Supongamos que en la distancia, de una página web, un archivo se nos presenta con valor de algoritmo de resumen A. Una vez y lo descargamos completamente  le aplicamos el mismo cálculo al contenido. ¿Qué sucede si arroja un valor de resumen B?  Pues que estaríamos ante un contenido distinto al contenido remoto (archivos distintos)

Por tanto el HASH de un archivo remoto desde la distancia no determina su contenido.  Es necesario descargar el archivo completamente para comprobar que al pasar el mismo algoritmo al contenido recibido, obtenemos el mismo HASH que anunció el archivo remoto.

Durante estos días corre por internet la noticia del reciente informe de la ONG Alia2 que presenta a nuestro país como subcampeón del mundo en el consumo de pornografía infantil en las redes P2P. Esta afirmación se sustenta en la recopilación de metadatos de las redes P2P realizada por su rastreador P2P Florencio.  Esta ONG se limitó a buscar rastros de archivos cuyo HASH estuviera previamente en una base de datos de archivos cuyos contenidos ilegales ya eran conocidos. En ningún momento esta ONG descargó y comprobó los contenidos anunciados de forma remota por las fuentes analizadas, ya que de hacerlo estaría incurriendo en el mismo delito que se persigue (art. 189.1.B facilitación o difusión de pornografía infantil)

Entonces, ¿cómo pudo determinar científicamente esta ONG que detrás de un rastro P2P había ciertamente un contenido ilegal en función del HASH de archivo anunciado remotamente?

Ese informe arroja un resultado imposible de determinar sin la descarga completa de los archivos desde las fuentes contabilizadas.   La red P2P eDonkey (eMule) por ejemplo, utiliza un algoritmo de resumen denominado MD4 que desde el año 2004 ha sido vulnerado, siendo posible la creación de archivo clones (distinto contenido que generan un mismo HASH).

Un HASH de archivo no determina de forma remota su contenido.

Interpol de Brasil: Desde la IP clase A al registro domiciliario internacional

Este gráfico nace de la noticia Desmantelada una red de pedófilos en Argentina.  En el gráfico muestran los puntos del planeta dónde se han detenido a distintos internautas y detalla las provincias argentinas.   Esta operación policial internacional se inicia desde la Interpol de Brasil, quienes realizaron un rastreo en las redes P2P, facilitando las IP públicas a cada país, de los usuarios que aparecían como fuente de al menos diez  archivos de pornografía infantil. En España este rastreo culminó con la reciente operación Ruleta en Octubre de 2009 de la Brigada de Investigación Tecnológica.

Un año antes,  mismo mes y día, la Brigada de Investigación Tecnológica realizó en España la Operación Carrusel, iniciada también en base a la información procedente de la Interpol Brasileña, esta vez limitada a 3 archivos, que culminó con la detención de 121 propietarios de conexiones a internet.

Jorge Pontes es el Jefe de la Interpol en Brasil. En esta entrevista  publicada en la página web de la Interpol internacional:

SGIP: ¿Cómo coordinó la OCN de Brasilia la operación CARROUSEL?

JORGE PONTES: La Unidad de Lucha contra los Delitos Cibernéticos de la Policía Federal brasileña aunó fuerzas con el Instituto Forense Nacional de Brasil, y juntos centramos nuestras investigaciones en el sistema P2P eMule.  Se identificaron miles de direcciones IP en todo el mundo y se investigó a los sospechosos

JORGE PONTES: Esta investigación fue novedosa para INTERPOL Brasilia ya que requería conocimientos tecnológicos innovadores y una forma específica de coordinación policial. Como se identificaron sospechosos en 77 países, las investigaciones no podían avanzar sin recurrirse a la red policial mundial de INTERPOL. Los resultados permitieron abrir una investigación a escala internacional que se saldó con la detención de cientos de abusadores de menores por Internet en Australia, Europa, Sudamérica y Estados Unidos. Los investigadores brasileños describieron las imágenes como lo peor que habían visto jamás. La operación en curso promete enviar a la cárcel a otros muchos pederastas que actúan a través de Internet.

Solía resultar muy difícil castigar este tipo de delitos en Brasil, pero mi país aprobó recientemente una ley para que la posesión de pornografía infantil fuera un delito penado con hasta ocho años de prisión. Esto supone que, de ahora en adelante, se incrementará significativamente  el número de detenciones que realicemos.

Vean dónde dice «Se identificaron miles de direcciones IP en todo el mundo y se investigó a los sospechosos».

Desconozco qué rastreador ha utilizado la policía brasileña, pero técnicamente es imposible localizar en la red P2P una misma fuente con 10 archivos y difusión efectiva.  Los agentes brasileños en sus rastreos no interceptan las comunicaciones de los internautas P2P.  Su rastreador se limita a convertirse en un peer más dentro de la red P2P eDonkey. Por tanto la investigación se limita a la lectura de 10 metadatos sin difusión efectiva.  Posiblemente mediante la utilización de un rastreador tipo Híspalis como el que emplea la Guardia Civil Española.

En lo que respecta a España (probablemente al resto de naciones afectadas),  la investigación policial se limitó a:

1) Recibir de la Interpol Brasileña las IP públicas españolas que aparecía como fuente de al menos 10 archivos de pornografía infantil.

2) Dar por válido el rastreo remoto brasileño y solicitar a un juez la identificación de los titulares, por parte de las operadoras,  de esas IP en el momento del rastreo de los agentes brasileños.

3) Distribuir a cada provincia los casos para solicitar a un juez la orden de entrada y registro en los domicilios identificados.

Parece que no existió posteriormente ningún tipo de investigación técnica nacional sobre los detenidos entre el punto 2 y 3.

En caso de existir esa investigación técnica,  debió limitarse a un segundo rastreo P2P.

Pero llegados a este punto, analicemos las pruebas técnicas presentadas por los agentes para justificar la identificación y detención de los usuarios a un juez. Los agentes presentan los «rastros» obtenidos en  «rastreos P2P». Técnicamente son metadatos,  datos que apuntan hacia el dato original, que puede existir, no existir o ser falso.  Leer artículo Las evidencias P2P