Premio Hutter - Hutter Prize

El Premio Hutter es un premio en efectivo financiado por Marcus Hutter que recompensa las mejoras en la compresión de datos en un archivo de texto en inglés específico de 1 GB. En concreto, el premio otorga 5000 euros por cada uno por ciento de mejora (con una financiación total de 500.000 euros) en el tamaño comprimido del archivo enwik9 , que es el más grande de los dos archivos utilizados en el Large Text Compression Benchmark; enwik9 son los primeros 1.000.000.000 de caracteres de una versión específica de Wikipedia en inglés . La competencia en curso está organizada por Hutter, Matt Mahoney y Jim Bowery.

Metas

El objetivo del Premio Hutter es fomentar la investigación en inteligencia artificial (IA). Los organizadores creen que la compresión de texto y la IA son problemas equivalentes. Hutter demostró que el comportamiento óptimo de un agente que busca objetivos en un entorno desconocido pero computable es adivinar en cada paso que el entorno probablemente está controlado por uno de los programas más cortos compatibles con todas las interacciones hasta el momento. Sin embargo, no existe una solución general porque la complejidad de Kolmogorov no es computable. Hutter demostró que en el caso restringido (llamado AIXI tl ) donde el entorno está restringido al tiempo ty al espacio l , se puede calcular una solución en el tiempo O (t2 l ), que aún es intratable.

Los organizadores creen además que comprimir texto en lenguaje natural es un problema de inteligencia artificial difícil, equivalente a aprobar la prueba de Turing . Por lo tanto, el progreso hacia una meta representa el progreso hacia la otra. Argumentan que predecir qué personajes tienen más probabilidades de aparecer a continuación en una secuencia de texto requiere un vasto conocimiento del mundo real. Un compresor de texto debe resolver el mismo problema para poder asignar los códigos más cortos a las secuencias de texto más probables.

Normas

El concurso es indefinido. Está abierto a todos. Para participar, un competidor debe enviar un programa de compresión y un descompresor que descomprime al archivo enwik9 . También es posible enviar un archivo comprimido en lugar del programa de compresión. El tamaño total del archivo comprimido y del descompresor (como ejecutable de Win32 o Linux) no debe ser mayor al 99% de la entrada ganadora del premio anterior. Por cada uno por ciento de mejora, el competidor gana 5.000 euros. El programa de descompresión también debe cumplir con las limitaciones de tiempo de ejecución y memoria, actualmente 100 horas en 1 núcleo de una CPU de 3 GHz con 10 GB de memoria. Es posible que estas limitaciones se relajen en el futuro.

Las presentaciones deben publicarse para permitir una verificación independiente. Hay un período de espera de 30 días para recibir comentarios del público antes de otorgar un premio. Las reglas no requieren la publicación del código fuente, a menos que dicha publicación sea requerida por la licencia del código (como en el caso de PAQ , que tiene licencia GPL ).

Historia

El premio se anunció el 6 de agosto de 2006 con un archivo de texto más pequeño: enwik8 que consta de 100 MB. El 21 de febrero de 2020 se amplió en un factor de 10, hasta enwik9 de 1GB, de igual forma el premio pasa de 50.000 a 500.000 euros. El valor inicial del premio original fue de 18,324,887 bytes, logrado por PAQ 8F. La base de premios ampliada fue de 116 MB.

El 16 de agosto de 2006, Rudi Cilibrasi presentó una versión modificada de PAQ8F llamada RAQ8G que agregó modelado de paréntesis. Sin embargo, no alcanzó el umbral del 1%.

El mismo día, pero unas horas más tarde, Dmitry Shkarin presentó una versión modificada de su compresor DURILCA llamado DURILCA 0.5h, que mejoró la compresión en un 1.5%. Sin embargo, fue descalificado por utilizar 1,75 GB de memoria. La decisión de descalificar fue controvertida porque los límites de memoria no estaban claramente especificados en las reglas en ese momento.

El 20 de agosto, Alexander Ratushnyak presentó PAQ8HKCC, una versión modificada de PAQ8H, que mejoró la compresión en un 2.6% sobre PAQ8F. Continuó mejorando la compresión a 3.0% con PAQ8HP1 el 21 de agosto, 4% con PAQ8HP2 el 28 de agosto, 4.9% con PAQ8HP3 el 3 de septiembre, 5.9% con PAQ8HP4 el 10 de septiembre y 5.9% con PAQ8HP5 el 25 de septiembre. punto fue declarado el primer ganador del premio Hutter, otorgado 3416 euros, y la nueva línea de base se fijó en 17.073.018 bytes.

Desde entonces, Ratushnyak ha batido su récord varias veces, convirtiéndose en el segundo (el 14 de mayo de 2007, con PAQ8HP12 comprimiendo enwik8 a 16.481.655 bytes y ganando 1732 euros), tercero (el 23 de mayo de 2009, con decomp8 comprimiendo el archivo a 15.949.688 bytes, y ganando 1614 euros), y cuarto (el 4 de noviembre de 2017, con phda comprimiendo el archivo a 15.284.944 bytes y ganando 2085 euros) ganador del premio Hutter.

Ver también

Referencias

  1. ^ Marcus Hutter, Concurso de compresión de conocimientos humanos, http://prize.hutter1.net/
  2. ^ [1]
  3. ^ a b Matt Mahoney, Acerca de los datos de prueba http://mattmahoney.net/dc/textdata.html
  4. ^ Marcus Hutter, Inteligencia artificial universal: decisiones secuenciales basadas en la probabilidad algorítmica, Springer, Berlín, 2004, http://www.hutter1.net/ai/uaibook.htm
  5. ^ Matt Mahoney, Justificación de un punto de referencia de compresión de texto grande, 2006, http://mattmahoney.net/dc/rationale.html
  6. ^ http://www.compression.ru/ds/

enlaces externos