Prueba de Turing -Turing test

La "interpretación estándar" de la prueba de Turing, en la que al jugador C, el interrogador, se le asigna la tarea de tratar de determinar qué jugador, A o B, es una computadora y cuál es un humano. El interrogador se limita a utilizar las respuestas a las preguntas escritas para tomar la determinación.

La prueba de Turing , originalmente llamada juego de imitación por Alan Turing en 1950, es una prueba de la capacidad de una máquina para exhibir un comportamiento inteligente equivalente o indistinguible del humano. Turing propuso que un evaluador humano juzgaría las conversaciones en lenguaje natural entre un humano y una máquina diseñada para generar respuestas similares a las humanas. El evaluador sería consciente de que uno de los dos interlocutores en la conversación era una máquina y todos los participantes estarían separados unos de otros. La conversación se limitaría a un canal de solo texto, como el teclado y la pantalla de una computadora, por lo que el resultado no dependería de la capacidad de la máquina para convertir las palabras en voz. Si el evaluador no pudiera diferenciar de forma fiable a la máquina del ser humano, se diría que la máquina ha pasado la prueba. Los resultados de la prueba no dependerían de la capacidad de la máquina para dar respuestas correctas a las preguntas , solo de qué tan parecidas fueran sus respuestas a las que daría un humano.

La prueba fue introducida por Turing en su artículo de 1950 " Computing Machinery and Intelligence " mientras trabajaba en la Universidad de Manchester . Comienza con las palabras: "Propongo considerar la pregunta: '¿Pueden pensar las máquinas? ' ". Debido a que "pensar" es difícil de definir, Turing opta por "reemplazar la pregunta por otra, que está estrechamente relacionada con ella y se expresa en palabras relativamente inequívocas". Turing describe la nueva forma del problema en términos de un juego de tres personas llamado "juego de imitación", en el que un interrogador hace preguntas a un hombre y una mujer en otra habitación para determinar el sexo correcto de los dos jugadores. La nueva pregunta de Turing es: "¿Existen computadoras digitales imaginables que funcionen bien en el juego de la imitación ?" Esta pregunta, creía Turing, era una que realmente podía responderse. En el resto del artículo, argumentó en contra de todas las principales objeciones a la proposición de que "las máquinas pueden pensar".

Desde que Turing presentó su prueba, ha sido muy influyente y ampliamente criticada, y se ha convertido en un concepto importante en la filosofía de la inteligencia artificial . Algunas de sus críticas, como la habitación china de John Searle , son en sí mismas controvertidas.

Historia

Antecedentes filosóficos

La cuestión de si es posible que las máquinas piensen tiene una larga historia, que está firmemente arraigada en la distinción entre puntos de vista dualistas y materialistas de la mente. René Descartes prefigura aspectos de la prueba de Turing en su Discurso sobre el método de 1637 cuando escribe:

[C]uántos autómatas diferentes o máquinas en movimiento pueden ser fabricados por la industria del hombre ... Porque podemos entender fácilmente que una máquina esté constituida para que pueda pronunciar palabras, e incluso emitir algunas respuestas a la acción sobre ella de tipo corpóreo , que provoca un cambio en sus órganos; por ejemplo, si se toca en una parte particular, puede preguntarnos qué queremos decirle; si en otra parte puede exclamar que está siendo lastimado, y así sucesivamente. Pero nunca sucede que ordene su discurso de varias maneras, para responder apropiadamente a todo lo que se diga en su presencia, como puede hacerlo incluso el tipo más bajo de hombre.

Aquí Descartes señala que los autómatas son capaces de responder a las interacciones humanas, pero argumenta que tales autómatas no pueden responder adecuadamente a las cosas que se dicen en su presencia en la forma en que cualquier ser humano puede hacerlo. Descartes, por lo tanto, prefigura la prueba de Turing al definir la insuficiencia de una respuesta lingüística adecuada como aquella que separa al humano del autómata. Descartes no considera la posibilidad de que futuros autómatas puedan superar tal insuficiencia, por lo que no propone la prueba de Turing como tal, aunque prefigura su marco conceptual y criterio.

Denis Diderot formula en su libro Pensées philosophiques de 1746 un criterio de prueba de Turing, aunque mantiene el importante supuesto limitante implícito de que los participantes son seres vivos naturales, en lugar de considerar artefactos creados:

"Si encuentran un loro que pueda responder a todo, afirmaría que es un ser inteligente sin dudarlo".

Esto no significa que esté de acuerdo con esto, sino que ya era un argumento común de los materialistas en ese momento.

Según el dualismo, la mente no es física (o, como mínimo, tiene propiedades no físicas ) y, por lo tanto, no puede explicarse en términos puramente físicos. Según el materialismo, la mente puede explicarse físicamente, lo que deja abierta la posibilidad de que las mentes se produzcan artificialmente.

En 1936, el filósofo Alfred Ayer consideró la pregunta filosófica estándar de otras mentes : ¿cómo sabemos que otras personas tienen las mismas experiencias conscientes que nosotros? En su libro Language, Truth and Logic , Ayer sugirió un protocolo para distinguir entre un hombre consciente y una máquina inconsciente: "La única base que puedo tener para afirmar que un objeto que parece ser consciente no es realmente un ser consciente, sino sólo un maniquí o una máquina, es que falla en satisfacer una de las pruebas empíricas por las cuales se determina la presencia o ausencia de conciencia". (Esta sugerencia es muy similar a la prueba de Turing, pero tiene que ver con la conciencia más que con la inteligencia. Además, no es seguro que el clásico filosófico popular de Ayer fuera familiar para Turing). En otras palabras, una cosa no es consciente si no pasa la prueba. prueba de conciencia

alan turing

Los investigadores del Reino Unido habían estado explorando la "inteligencia de las máquinas" durante diez años antes de la fundación del campo de investigación de la inteligencia artificial ( IA ) en 1956. Era un tema común entre los miembros del Ratio Club , un grupo informal de investigadores británicos de cibernética y electrónica que incluían a Alan Turing.

Turing, en particular, había estado abordando la noción de inteligencia artificial desde al menos 1941 y una de las primeras menciones conocidas de "inteligencia informática" fue hecha por él en 1947. En el informe de Turing, "Maquinaria inteligente", investigó "la cuestión de si es posible o no que la maquinaria muestre un comportamiento inteligente" y, como parte de esa investigación, propuso lo que puede considerarse el precursor de sus pruebas posteriores:

No es difícil idear una máquina de papel que juegue una partida de ajedrez no muy mala. Ahora tome tres hombres A, B y C como sujetos para el experimento. A y C son jugadores de ajedrez bastante pobres, B es el operador que maneja la máquina de papel. ... Se utilizan dos habitaciones con algún arreglo para comunicar movimientos, y se juega un juego entre C y A o la máquina de papel. A C puede resultarle bastante difícil saber a cuál está jugando.

" Computing Machinery and Intelligence " ( 1950 ) fue el primer artículo publicado por Turing que se centró exclusivamente en la inteligencia artificial. Turing comienza el artículo de 1950 con la afirmación: "Propongo considerar la pregunta '¿Pueden pensar las máquinas ? ' " . ". Turing elige no hacerlo; en cambio, reemplaza la pregunta por una nueva, "que está estrechamente relacionada con ella y se expresa en palabras relativamente inequívocas". En esencia, propone cambiar la pregunta de "¿Pueden pensar las máquinas?" a "¿Pueden las máquinas hacer lo que nosotros (como entidades pensantes) podemos hacer?" La ventaja de la nueva pregunta, argumenta Turing, es que traza "una línea bastante nítida entre las capacidades físicas e intelectuales de un hombre".

Para demostrar este enfoque, Turing propone una prueba inspirada en un juego de mesa , conocido como el "juego de imitación", en el que un hombre y una mujer van a habitaciones separadas y los invitados intentan diferenciarlos escribiendo una serie de preguntas y leyendo el escrito mecanografiado. respuestas devueltas. En este juego, tanto el hombre como la mujer pretenden convencer a los invitados de que son el otro. (Huma Shah argumenta que esta versión del juego para dos humanos fue presentada por Turing solo para presentar al lector la prueba de preguntas y respuestas entre humanos y máquinas). Turing describió su nueva versión del juego de la siguiente manera:

Ahora hacemos la pregunta: "¿Qué sucederá cuando una máquina tome el papel de A en este juego?" ¿Se equivocará el interrogador con tanta frecuencia cuando se juega así como cuando se juega entre un hombre y una mujer? Estas preguntas reemplazan nuestro original, "¿Pueden pensar las máquinas?"

Más adelante en el artículo, Turing sugiere una formulación alternativa "equivalente" que involucra a un juez que conversa solo con una computadora y un hombre. Si bien ninguna de estas formulaciones coincide con precisión con la versión de la prueba de Turing que es más conocida hoy en día, propuso una tercera en 1952. En esta versión, que Turing discutió en una transmisión de radio de la BBC , un jurado hace preguntas sobre una computadora y el papel de la computadora es hacer creer a una parte significativa del jurado que es realmente un hombre.

El artículo de Turing consideró nueve objeciones putativas, que incluyen todos los principales argumentos contra la inteligencia artificial que se han planteado en los años transcurridos desde que se publicó el artículo (ver " Maquinaria informática e inteligencia ").

ELIZA y PARRY

En 1966, Joseph Weizenbaum creó un programa que parecía pasar la prueba de Turing. El programa, conocido como ELIZA , funcionaba examinando los comentarios escritos por un usuario en busca de palabras clave. Si se encuentra una palabra clave, se aplica una regla que transforma los comentarios del usuario y se devuelve la oración resultante. Si no se encuentra una palabra clave, ELIZA responde con una réplica genérica o repitiendo uno de los comentarios anteriores. Además, Weizenbaum desarrolló a ELIZA para replicar el comportamiento de un psicoterapeuta rogeriano , permitiéndole a ELIZA ser "libre para asumir la pose de no saber casi nada del mundo real". Con estas técnicas, el programa de Weizenbaum pudo engañar a algunas personas para que creyeran que estaban hablando con una persona real, y algunos sujetos fueron "muy difíciles de convencer de que ELIZA [...] no es humana". Por lo tanto, algunos afirman que ELIZA es uno de los programas (quizás el primero) capaz de pasar la prueba de Turing, aunque esta opinión es muy polémica (ver Ingenuidad de los interrogadores a continuación).

Kenneth Colby creó PARRY en 1972, un programa descrito como "ELIZA con actitud". Intentó modelar el comportamiento de un esquizofrénico paranoico , utilizando un enfoque similar (aunque más avanzado) al empleado por Weizenbaum. Para validar el trabajo, PARRY se probó a principios de la década de 1970 utilizando una variación de la prueba de Turing. Un grupo de psiquiatras experimentados analizó una combinación de pacientes reales y computadoras que ejecutaban PARRY a través de teleimpresoras . A otro grupo de 33 psiquiatras se le mostraron transcripciones de las conversaciones. Luego se pidió a los dos grupos que identificaran cuáles de los "pacientes" eran humanos y cuáles eran programas de computadora. Los psiquiatras pudieron hacer la identificación correcta solo el 52 por ciento de las veces, una cifra consistente con suposiciones aleatorias.

En el siglo XXI, las versiones de estos programas (ahora conocidos como " chatbots ") continúan engañando a la gente. "CyberLover", un programa malicioso , se aprovecha de los usuarios de Internet convenciéndolos de "revelar información sobre sus identidades o llevarlos a visitar un sitio web que enviará contenido malicioso a sus computadoras". El programa ha surgido como un "riesgo de San Valentín" que coquetea con personas que "buscan relaciones en línea para recopilar sus datos personales".

el cuarto chino

El artículo de 1980 de John Searle , Minds, Brains, and Programs, propuso el experimento mental de la " habitación china " y argumentó que la prueba de Turing no podía usarse para determinar si una máquina podía pensar. Searle señaló que el software (como ELIZA) podría pasar la prueba de Turing simplemente manipulando símbolos que no entendían. Sin comprensión, no podrían describirse como "pensantes" en el mismo sentido que la gente. Por lo tanto, concluyó Searle, la prueba de Turing no podía probar que las máquinas pudieran pensar. Al igual que la prueba de Turing en sí, el argumento de Searle ha sido ampliamente criticado y respaldado.

Argumentos como los de Searle y otros que trabajan en la filosofía de la mente provocaron un debate más intenso sobre la naturaleza de la inteligencia, la posibilidad de máquinas inteligentes y el valor de la prueba de Turing que continuó durante las décadas de 1980 y 1990.

Premio Loebner

El Premio Loebner proporciona una plataforma anual para pruebas prácticas de Turing con la primera competencia celebrada en noviembre de 1991. Está respaldado por Hugh Loebner . El Cambridge Center for Behavioral Studies en Massachusetts , Estados Unidos, organizó los premios hasta el concurso de 2003 inclusive. Como lo describió Loebner, una de las razones por las que se creó la competencia es para avanzar en el estado de la investigación de IA, al menos en parte, porque nadie había tomado medidas para implementar la prueba de Turing a pesar de 40 años de discutirlo.

La primera competencia del Premio Loebner en 1991 condujo a una renovada discusión sobre la viabilidad de la prueba de Turing y el valor de seguirla, tanto en la prensa popular como en la academia. El primer concurso lo ganó un programa sin sentido sin inteligencia identificable que logró engañar a los ingenuos interrogadores para que hicieran una identificación incorrecta. Esto resaltó varias de las deficiencias de la prueba de Turing (discutidas a continuación ): el ganador ganó, al menos en parte, porque pudo "imitar los errores de escritura humanos"; los interrogadores poco sofisticados fueron fácilmente engañados; y algunos investigadores en IA han llegado a sentir que la prueba es simplemente una distracción de una investigación más fructífera.

Los premios de plata (solo texto) y oro (audio y visual) nunca se han ganado. Sin embargo, la competencia ha otorgado la medalla de bronce todos los años al sistema informático que, en opinión de los jueces, demuestra el comportamiento conversacional "más humano" entre las entradas de ese año. Artificial Linguistic Internet Computer Entity (ALICE) ha ganado el premio de bronce en tres ocasiones en los últimos tiempos (2000, 2001, 2004). Learning AI Jabberwacky ganó en 2005 y 2006.

El Premio Loebner pone a prueba la inteligencia conversacional; los ganadores suelen ser programas chatterbot o entidades conversacionales artificiales (ACE) . Las primeras reglas del premio Loebner restringieron las conversaciones: cada entrada y humano oculto conversaban sobre un solo tema, por lo que los interrogadores estaban restringidos a una línea de preguntas por interacción de entidad. La regla de conversación restringida se eliminó para el Premio Loebner de 1995. La duración de la interacción entre juez y entidad ha variado en los Premios Loebner. En Loebner 2003, en la Universidad de Surrey, a cada interrogador se le permitió cinco minutos para interactuar con una entidad, máquina o humano oculto. Entre 2004 y 2007, el tiempo de interacción permitido en los Premios Loebner fue de más de veinte minutos.

Versiones

El juego de imitación, tal como lo describe Alan Turing en "Computing Machinery and Intelligence". El jugador C, a través de una serie de preguntas escritas, intenta determinar cuál de los otros dos jugadores es un hombre y cuál de los dos es una mujer. El jugador A, el hombre, intenta engañar al jugador C para que tome una decisión equivocada, mientras que el jugador B intenta ayudar al jugador C. Figura adaptada de Saygin, 2000.

Saul Traiger argumenta que hay al menos tres versiones principales de la prueba de Turing, dos de las cuales se ofrecen en "Maquinaria informática e inteligencia" y una que describe como la "Interpretación estándar". Si bien existe cierto debate sobre si la "Interpretación estándar" es la descrita por Turing o, en cambio, se basa en una mala lectura de su artículo, estas tres versiones no se consideran equivalentes y sus fortalezas y debilidades son distintas.

Huma Shah señala que el propio Turing estaba preocupado por si una máquina podía pensar y estaba proporcionando un método simple para examinar esto: a través de sesiones de preguntas y respuestas entre humanos y máquinas. Shah argumenta que hay un juego de imitación que Turing describió que podría practicarse de dos maneras diferentes: a) prueba de máquina interrogador uno a uno, yb) comparación simultánea de una máquina con un humano, ambos cuestionados en paralelo por un interrogador. Dado que la prueba de Turing es una prueba de indistinguibilidad en la capacidad de desempeño, la versión verbal se generaliza naturalmente a toda la capacidad de desempeño humano, tanto verbal como no verbal (robótica).

juego de imitacion

El artículo original de Turing describe un juego de mesa simple que involucra a tres jugadores. El jugador A es un hombre, el jugador B es una mujer y el jugador C (que hace el papel de interrogador) es de ambos sexos. En el juego de imitación, el jugador C no puede ver ni al jugador A ni al jugador B, y solo puede comunicarse con ellos a través de notas escritas. Haciendo preguntas al jugador A y al jugador B, el jugador C intenta determinar cuál de los dos es el hombre y cuál es la mujer. El papel del jugador A es engañar al interrogador para que tome una decisión equivocada, mientras que el jugador B intenta ayudar al interrogador a tomar la decisión correcta.

Entonces Turing pregunta:

"¿Qué sucederá cuando una máquina tome el papel de A en este juego? ¿Decidirá el interrogador equivocadamente tan a menudo cuando el juego se juega así como lo hace cuando el juego se juega entre un hombre y una mujer?" Estas preguntas reemplazan nuestro original, "¿Pueden pensar las máquinas?"

La prueba del juego de imitación original, en la que el jugador A es reemplazado por una computadora. La computadora ahora está a cargo del papel del hombre, mientras que el jugador B continúa intentando ayudar al interrogador. Figura adaptada de Saygin, 2000.

La segunda versión apareció más tarde en el artículo de Turing de 1950. Similar a la prueba del juego de imitación original, el papel del jugador A lo realiza una computadora. Sin embargo, el papel del jugador B lo desempeña un hombre en lugar de una mujer.

Fijemos nuestra atención en una computadora digital en particular C. ¿Es cierto que modificando esta computadora para que tenga un almacenamiento adecuado, aumentando adecuadamente su velocidad de acción y proporcionándole un programa apropiado, se puede hacer que C desempeñe satisfactoriamente el papel? de A en el juego de la imitación, siendo el papel de B tomado por un hombre?

En esta versión, tanto el jugador A (la computadora) como el jugador B intentan engañar al interrogador para que tome una decisión incorrecta.

Interpretación raíz estándar

La interpretación estándar no está incluida en el documento original, pero es aceptada y debatida. El entendimiento común es que el propósito de la prueba de Turing no es específicamente determinar si una computadora puede engañar a un interrogador para que crea que es un humano, sino más bien si una computadora podría imitar a un humano. Si bien existe cierta controversia sobre si Turing pretendía esta interpretación, Sterrett cree que lo fue y, por lo tanto, combina la segunda versión con esta, mientras que otros, como Traiger, no lo hacen; sin embargo, esto ha llevado a lo que puede verse como el " interpretación estándar". En esta versión, el jugador A es una computadora y el jugador B una persona de cualquier sexo. El papel del interrogador no es determinar quién es hombre y quién es mujer, sino quién es una computadora y quién es un ser humano. El problema fundamental con la interpretación estándar es que el interrogador no puede diferenciar qué respondedor es humano y cuál es una máquina. Hay cuestiones sobre la duración, pero la interpretación estándar generalmente considera esta limitación como algo que debería ser razonable.

Juego de imitación frente a prueba de Turing estándar

Ha surgido controversia sobre cuál de las formulaciones alternativas de la prueba pretendía Turing. Sterrett argumenta que se pueden extraer dos pruebas distintas de su artículo de 1950 y que, según el comentario de Turing, no son equivalentes. La prueba que emplea el juego de mesa y compara las frecuencias de éxito se denomina "Prueba del juego de imitación original", mientras que la prueba que consiste en un juez humano que conversa con un humano y una máquina se denomina "Prueba de Turing estándar". señalando que Sterrett equipara esto con la "interpretación estándar" en lugar de la segunda versión del juego de imitación. Sterrett está de acuerdo en que la prueba estándar de Turing (STT) tiene los problemas que citan sus críticos pero siente que, en contraste, la prueba del juego de imitación original (prueba OIG) así definida es inmune a muchos de ellos, debido a una diferencia crucial: a diferencia de la STT, no hace que la similitud con el desempeño humano sea el criterio, a pesar de que emplea el desempeño humano para establecer un criterio para la inteligencia artificial. Un hombre puede fallar en la prueba OIG, pero se argumenta que es una virtud de una prueba de inteligencia que la falla indica una falta de ingenio: la prueba OIG requiere el ingenio asociado con la inteligencia y no simplemente "simulación del comportamiento conversacional humano". La estructura general de la prueba OIG podría incluso usarse con versiones no verbales de juegos de imitación.

Aún otros escritores han interpretado que Turing propone que el juego de imitación en sí mismo es la prueba, sin especificar cómo tener en cuenta la afirmación de Turing de que la prueba que propuso usando la versión de grupo del juego de imitación se basa en un criterio de frecuencia comparativa de éxito. en ese juego de imitación, en lugar de la capacidad de tener éxito en una ronda del juego.

Saygin ha sugerido que tal vez el juego original sea una forma de proponer un diseño experimental menos sesgado ya que oculta la participación de la computadora. El juego de imitación también incluye un "truco social" que no se encuentra en la interpretación estándar, ya que en el juego se requiere que tanto la computadora como el hombre humano jueguen fingiendo ser alguien que no son.

¿Debe el interrogador saber acerca de la computadora?

Una pieza crucial de cualquier prueba de laboratorio es que debe haber un control. Turing nunca aclara si el interrogador en sus pruebas es consciente de que uno de los participantes es una computadora. Solo afirma que el jugador A debe ser reemplazado por una máquina, no que el jugador C debe ser informado de este reemplazo. Cuando Colby, FD Hilf, S Weber y AD Kramer probaron PARRY, lo hicieron asumiendo que los interrogadores no necesitaban saber que uno o más de los entrevistados era una computadora durante el interrogatorio. Como han destacado Ayse Saygin, Peter Swirski y otros, esto marca una gran diferencia en la implementación y el resultado de la prueba. En un estudio experimental que analizó las violaciones de la máxima griceana utilizando transcripciones del premio uno a uno (interlocutor oculto del interrogador) de Loebner para concursos de IA entre 1994 y 1999, Ayse Saygin encontró diferencias significativas entre las respuestas de los participantes que sabían y no sabían sobre computadoras. estar involucrado.

Fortalezas

Manejabilidad y simplicidad

El poder y el atractivo de la prueba de Turing se derivan de su simplicidad. La filosofía de la mente , la psicología y la neurociencia moderna no han podido proporcionar definiciones de "inteligencia" y "pensamiento" que sean lo suficientemente precisas y generales para ser aplicadas a las máquinas. Sin tales definiciones, las preguntas centrales de la filosofía de la inteligencia artificial no pueden responderse. La prueba de Turing, aunque sea imperfecta, al menos proporciona algo que realmente se puede medir. Como tal, es un intento pragmático de responder a una pregunta filosófica difícil.

Amplitud de la materia

El formato de la prueba le permite al interrogador darle a la máquina una amplia variedad de tareas intelectuales. Turing escribió que "el método de preguntas y respuestas parece adecuado para introducir casi cualquiera de los campos del esfuerzo humano que deseamos incluir". John Haugeland agrega que "no basta con entender las palabras, también hay que entender el tema ".

Para pasar una prueba de Turing bien diseñada, la máquina debe usar lenguaje natural , razonar , tener conocimiento y aprender . La prueba se puede ampliar para incluir entrada de video, así como una "escotilla" a través de la cual se pueden pasar objetos: esto obligaría a la máquina a demostrar un uso hábil de la visión y la robótica bien diseñadas . Juntos, estos representan casi todos los principales problemas que la investigación de inteligencia artificial quisiera resolver.

La prueba de Feigenbaum está diseñada para aprovechar la amplia gama de temas disponibles para una prueba de Turing. Es una forma limitada del juego de preguntas y respuestas de Turing que compara la máquina con las habilidades de expertos en campos específicos como la literatura o la química . La máquina Watson de IBM logró el éxito en un concurso televisivo de hombre contra máquina sobre el conocimiento humano, Jeopardy!

Énfasis en la inteligencia emocional y estética.

Como graduado con honores en matemáticas de Cambridge, se podría haber esperado que Turing propusiera una prueba de inteligencia informática que requiriera conocimientos expertos en algún campo altamente técnico y, por lo tanto, anticipara un enfoque más reciente del tema . En cambio, como ya se señaló, la prueba que describió en su artículo seminal de 1950 requiere que la computadora sea capaz de competir con éxito en un juego de mesa común, y esto se desempeñe tan bien como el hombre típico al responder una serie de preguntas a fin de pretender de manera convincente ser la mujer concursante.

Dado el estatus del dimorfismo sexual humano como uno de los temas más antiguos , está implícito en el escenario anterior que las preguntas a ser respondidas no involucrarán ni conocimientos fácticos especializados ni técnicas de procesamiento de información. El desafío para la computadora, más bien, será demostrar empatía por el papel de la mujer y demostrar también una sensibilidad estética característica, cualidades que se muestran en este fragmento de diálogo que Turing ha imaginado:

Interrogador: ¿Podría X decirme la longitud de su cabello?
Concursante: Mi cabello tiene tejas y los mechones más largos miden aproximadamente nueve pulgadas de largo.

Cuando Turing introduce algún conocimiento especializado en uno de sus diálogos imaginados, el tema no son las matemáticas o la electrónica, sino la poesía:

Interrogador: En la primera línea de su soneto que dice: "Debería compararte con un día de verano", ¿no sería igual o mejor "un día de primavera"?
Testigo: No escanearía .
Interrogador: ¿Qué tal "un día de invierno". Eso escanearía bien.
Testigo: Sí, pero nadie quiere que lo comparen con un día de invierno.

Turing demuestra así una vez más su interés por la empatía y la sensibilidad estética como componentes de una inteligencia artificial; y a la luz de una creciente conciencia de la amenaza de una IA enloquecida, se ha sugerido que este enfoque quizás represente una intuición crítica por parte de Turing, es decir, que la inteligencia emocional y estética desempeñará un papel clave en la creación de un " IA amiga ". Sin embargo, se observa además que cualquier inspiración que Turing pueda prestar en esta dirección depende de la preservación de su visión original, lo que quiere decir, además, que la promulgación de una "interpretación estándar" de la prueba de Turing, es decir, , que se centra únicamente en una inteligencia discursiva— debe considerarse con cierta cautela.

debilidades

Turing no declaró explícitamente que la prueba de Turing podría usarse como una medida de " inteligencia " o cualquier otra cualidad humana. Quería proporcionar una alternativa clara y comprensible a la palabra "pensar", que luego podría usar para responder a las críticas sobre la posibilidad de "máquinas pensantes" y sugerir formas en que la investigación podría avanzar. Numerosos expertos en el campo, incluido el científico cognitivo Gary Marcus , insisten en que la prueba de Turing solo muestra cuán fácil es engañar a los humanos y no es una indicación de la inteligencia artificial.

Sin embargo, la prueba de Turing se ha propuesto como una medida de la "capacidad de pensar" o de su "inteligencia" de una máquina. Esta propuesta ha recibido críticas tanto de filósofos como de informáticos. Asume que un interrogador puede determinar si una máquina está "pensando" comparando su comportamiento con el comportamiento humano. Cada elemento de esta suposición ha sido cuestionado: la confiabilidad del juicio del interrogador, el valor de comparar solo el comportamiento y el valor de comparar la máquina con un ser humano. Debido a estas y otras consideraciones, algunos investigadores de IA han cuestionado la relevancia de la prueba en su campo.

Inteligencia humana vs inteligencia en general

Debilidad de la prueba de Turing 1.svg

La prueba de Turing no prueba directamente si la computadora se comporta de manera inteligente. Solo prueba si la computadora se comporta como un ser humano. Dado que el comportamiento humano y el comportamiento inteligente no son exactamente lo mismo, la prueba puede fallar al medir con precisión la inteligencia de dos maneras:

Algunos comportamientos humanos no son inteligentes
El test de Turing exige que la máquina sea capaz de ejecutar todos los comportamientos humanos, independientemente de que sean inteligentes. Incluso prueba comportamientos que pueden no considerarse inteligentes en absoluto, como la susceptibilidad a los insultos, la tentación de mentir o, simplemente, una alta frecuencia de errores tipográficos . Si una máquina no puede imitar estos comportamientos no inteligentes en detalle, no pasa la prueba.
Esta objeción fue planteada por The Economist , en un artículo titulado " estupidez artificial " publicado poco después de la primera competencia del Premio Loebner en 1992. El artículo señaló que la victoria del primer ganador de Loebner se debió, al menos en parte, a su capacidad para "imitar errores de tipeo humanos". El propio Turing había sugerido que los programas añadieran errores en su salida, para ser mejores "jugadores" del juego.
Cierto comportamiento inteligente es inhumano
La prueba de Turing no evalúa comportamientos altamente inteligentes, como la capacidad de resolver problemas difíciles o generar ideas originales. De hecho, requiere específicamente el engaño por parte de la máquina: si la máquina es más inteligente que un ser humano, debe evitar deliberadamente parecer demasiado inteligente. Si tuviera que resolver un problema computacional que es prácticamente imposible de resolver para un ser humano, entonces el interrogador sabría que el programa no es humano y la máquina fallaría la prueba.
Debido a que no puede medir la inteligencia que está más allá de la capacidad de los humanos, la prueba no se puede usar para construir o evaluar sistemas que sean más inteligentes que los humanos. Debido a esto, se han propuesto varias alternativas de prueba que serían capaces de evaluar sistemas superinteligentes.

La objeción centrada en el lenguaje

Otra objeción bien conocida planteada hacia el Test de Turing se refiere a su enfoque exclusivo en el comportamiento lingüístico (es decir, es solo un experimento "basado en el lenguaje", mientras que todas las demás facultades cognitivas no se prueban). Este inconveniente reduce el papel de otras “habilidades inteligentes” específicas de la modalidad en los seres humanos que el psicólogo Howard Gardner, en su “ teoría de las inteligencias múltiples ”, propone considerar (las habilidades verbales-lingüísticas son sólo una de ellas). .

Conciencia vs. la simulación de la conciencia

La prueba de Turing se ocupa estrictamente de cómo actúa el sujeto  : el comportamiento externo de la máquina. En este sentido, adopta un enfoque conductista o funcionalista para el estudio de la mente. El ejemplo de ELIZA sugiere que una máquina que pase la prueba puede simular el comportamiento conversacional humano siguiendo una lista simple (pero larga) de reglas mecánicas, sin pensar ni tener una mente en absoluto.

John Searle ha argumentado que el comportamiento externo no se puede utilizar para determinar si una máquina está "realmente" pensando o simplemente "simulando el pensamiento". Su argumento de la habitación china pretende mostrar que, incluso si la prueba de Turing es una buena definición operativa de inteligencia, puede no indicar que la máquina tiene mente , conciencia o intencionalidad . (La intencionalidad es un término filosófico para el poder de los pensamientos de ser "sobre" algo).

Turing anticipó esta línea de crítica en su artículo original, escribiendo:

No deseo dar la impresión de que creo que no hay misterio sobre la conciencia. Hay, por ejemplo, una especie de paradoja relacionada con cualquier intento de localizarlo. Pero no creo que estos misterios necesariamente deban resolverse antes de que podamos responder la pregunta que nos ocupa en este artículo.

Ingenuidad de los interrogadores

En la práctica, los resultados de la prueba pueden ser fácilmente dominados no por la inteligencia de la computadora, sino por las actitudes, la habilidad o la ingenuidad del interrogador.

Turing no especifica las habilidades y conocimientos precisos que requiere el interrogador en su descripción de la prueba, pero sí utilizó el término "interrogador promedio": "[el] interrogador promedio no tendría más del 70 por ciento de posibilidades de acertar". identificación después de cinco minutos de interrogatorio".

Los programas de chatterbot como ELIZA han engañado repetidamente a personas desprevenidas haciéndoles creer que se están comunicando con seres humanos. En estos casos, los "interrogadores" ni siquiera son conscientes de la posibilidad de que estén interactuando con ordenadores. Para parecer humano con éxito, no es necesario que la máquina tenga inteligencia alguna y solo se requiere un parecido superficial con el comportamiento humano.

Las primeras competencias del Premio Loebner usaban interrogadores "poco sofisticados" que eran fácilmente engañados por las máquinas. Desde 2004, los organizadores del Premio Loebner han desplegado filósofos, informáticos y periodistas entre los interrogadores. Sin embargo, algunos de estos expertos han sido engañados por las máquinas.

Una característica interesante de la prueba de Turing es la frecuencia del efecto confederado , cuando los interrogadores identifican erróneamente a los humanos confederados (probados) como máquinas. Se ha sugerido que lo que los interrogadores esperan como respuestas humanas no es necesariamente típico de los humanos. Como resultado, algunos individuos pueden clasificarse como máquinas. Por lo tanto, esto puede funcionar a favor de una máquina de la competencia. Los humanos reciben instrucciones de "actuar por sí mismos", pero a veces sus respuestas se parecen más a lo que el interrogador espera que diga una máquina. Esto plantea la cuestión de cómo garantizar que los humanos estén motivados para "actuar como humanos".

Silencio

Un aspecto crítico de la prueba de Turing es que una máquina debe revelarse como una máquina por sus enunciados. Luego, un interrogador debe hacer la "identificación correcta" al identificar correctamente la máquina como solo eso. Sin embargo, si una máquina permanece en silencio durante una conversación, entonces no es posible que un interrogador identifique con precisión la máquina más que por medio de una conjetura calculada. Incluso tener en cuenta un humano paralelo/oculto como parte de la prueba puede no ayudar a la situación, ya que a menudo se puede identificar erróneamente a los humanos como una máquina.

Impracticabilidad e irrelevancia: la prueba de Turing y la investigación de IA

Intento de robot hablador GPT-3

Los principales investigadores de IA argumentan que tratar de pasar la prueba de Turing es simplemente una distracción de una investigación más fructífera. De hecho, la prueba de Turing no es un foco activo de mucho esfuerzo académico o comercial, como escriben Stuart Russell y Peter Norvig : "Los investigadores de IA han prestado poca atención a pasar la prueba de Turing". Hay varias razones.

Primero, hay formas más fáciles de probar sus programas. La mayoría de las investigaciones actuales en campos relacionados con la IA están dirigidas a objetivos modestos y específicos, como el reconocimiento de objetos o la logística . Para probar la inteligencia de los programas que resuelven estos problemas, los investigadores de IA simplemente les asignan la tarea directamente. Stuart Russell y Peter Norvig sugieren una analogía con la historia del vuelo : los aviones se prueban por lo bien que vuelan, no comparándolos con las aves. " Los textos de ingeniería aeronáutica ", escriben, "no definen el objetivo de su campo como 'fabricar máquinas que vuelen tan exactamente como las palomas que puedan engañar a otras palomas ' " .

En segundo lugar, la creación de simulaciones realistas de seres humanos es un problema difícil en sí mismo que no necesita ser resuelto para lograr los objetivos básicos de la investigación en IA. Los personajes humanos creíbles pueden ser interesantes en una obra de arte, un juego o una interfaz de usuario sofisticada , pero no forman parte de la ciencia de crear máquinas inteligentes, es decir, máquinas que resuelven problemas utilizando la inteligencia.

Turing no tenía la intención de que su idea se usara para probar la inteligencia de los programas; quería proporcionar un ejemplo claro y comprensible para ayudar en la discusión de la filosofía de la inteligencia artificial . John McCarthy argumenta que no debería sorprendernos que una idea filosófica resulte inútil para aplicaciones prácticas. Él observa que es "poco probable que la filosofía de la IA tenga más efecto en la práctica de la investigación de la IA que el que la filosofía de la ciencia tiene generalmente en la práctica de la ciencia".

variaciones

Numerosas otras versiones de la prueba de Turing, incluidas las expuestas anteriormente, se han planteado a lo largo de los años.

Test de Turing Inverso y CAPTCHA

Una modificación de la prueba de Turing en la que el objetivo de uno o más de los roles se ha invertido entre máquinas y humanos se denomina prueba de Turing inversa. Un ejemplo está implícito en el trabajo del psicoanalista Wilfred Bion , quien estaba particularmente fascinado por la "tormenta" que resultó del encuentro de una mente con otra. En su libro de 2000, entre varios otros puntos originales con respecto a la prueba de Turing, el erudito literario Peter Swirski discutió en detalle la idea de lo que denominó la prueba de Swirski, esencialmente la prueba de Turing inversa. Señaló que supera la mayoría, si no todas, las objeciones estándar planteadas a la versión estándar.

Llevando adelante esta idea, RD Hinshelwood describió la mente como un "aparato de reconocimiento de la mente". El desafío sería que la computadora pudiera determinar si estaba interactuando con un humano u otra computadora. Esta es una extensión de la pregunta original que Turing intentó responder pero, quizás, ofrecería un estándar lo suficientemente alto para definir una máquina que podría "pensar" de una manera que normalmente definimos como característicamente humana.

CAPTCHA es una forma de prueba de Turing inversa. Antes de que se le permita realizar alguna acción en un sitio web, al usuario se le presentan caracteres alfanuméricos en una imagen gráfica distorsionada y se le pide que los escriba. Esto tiene por objeto evitar que se utilicen sistemas automatizados para abusar del sitio. La razón es que no existe un software lo suficientemente sofisticado para leer y reproducir la imagen distorsionada con precisión (o no está disponible para el usuario promedio), por lo que es probable que cualquier sistema capaz de hacerlo sea humano.

El software que podía revertir CAPTCHA con cierta precisión mediante el análisis de patrones en el motor de generación comenzó a desarrollarse poco después de la creación de CAPTCHA. En 2013, los investigadores de Vicarious anunciaron que habían desarrollado un sistema para resolver los desafíos de CAPTCHA de Google , Yahoo! y PayPal hasta el 90% del tiempo. En 2014, los ingenieros de Google demostraron un sistema que podía superar los desafíos de CAPTCHA con una precisión del 99,8 %. En 2015, Shuman Ghosemajumder , ex zar del fraude de clics de Google, afirmó que había sitios ciberdelincuentes que superarían los desafíos de CAPTCHA por una tarifa, para permitir diversas formas de fraude.

Prueba de Turing de expertos en la materia

Otra variación se describe como la prueba de Turing del experto en la materia , en la que la respuesta de una máquina no se puede distinguir de la de un experto en un campo determinado. Esto también se conoce como "prueba de Feigenbaum" y fue propuesto por Edward Feigenbaum en un artículo de 2003.

Prueba de cognición de "bajo nivel"

Robert French (1990) argumenta que un interrogador puede distinguir entre interlocutores humanos y no humanos planteando preguntas que revelan los procesos de bajo nivel (es decir, inconscientes) de la cognición humana, tal como los estudia la ciencia cognitiva . Tales preguntas revelan los detalles precisos de la encarnación humana del pensamiento y pueden desenmascarar una computadora a menos que experimente el mundo como lo hacen los humanos.

Prueba de Turing total

La variación de la "prueba de Turing total" de la prueba de Turing, propuesta por el científico cognitivo Stevan Harnad , agrega dos requisitos adicionales a la prueba de Turing tradicional. El interrogador también puede probar las habilidades perceptivas del sujeto (que requiere visión por computadora ) y la capacidad del sujeto para manipular objetos (que requiere robótica ).

Registros electrónicos de salud

Una carta publicada en Comunicaciones de la ACM describe el concepto de generar una población de pacientes sintética y propone una variación de la prueba de Turing para evaluar la diferencia entre pacientes sintéticos y reales. La carta dice: "En el contexto de EHR, aunque un médico humano puede distinguir fácilmente entre pacientes humanos reales y generados sintéticamente, ¿podría una máquina tener la inteligencia para tomar tal determinación por sí misma?" y además, la carta establece: "Antes de que las identidades sintéticas de los pacientes se conviertan en un problema de salud pública, el mercado legítimo de EHR podría beneficiarse de la aplicación de técnicas similares a las de la prueba de Turing para garantizar una mayor confiabilidad de los datos y valor de diagnóstico. Por lo tanto, cualquier técnica nueva debe considerar la heterogeneidad de los pacientes y ser probable que tenga una complejidad mayor que la que puede calificar la prueba de ciencias de octavo grado de Allen".

Prueba mínima de señal inteligente

El test de mínima señal inteligente fue propuesto por Chris McKinstry como "la máxima abstracción del test de Turing", en el que solo se permiten respuestas binarias (verdadero/falso o sí/no), para centrarse únicamente en la capacidad de pensamiento. Elimina los problemas de chat de texto como el sesgo de antropomorfismo y no requiere la emulación del comportamiento humano no inteligente , lo que permite sistemas que superan la inteligencia humana. Sin embargo, cada una de las preguntas debe valerse por sí misma, por lo que se parece más a una prueba de coeficiente intelectual que a un interrogatorio. Por lo general, se usa para recopilar datos estadísticos contra los cuales se puede medir el rendimiento de los programas de inteligencia artificial.

Premio Hutter

Los organizadores del Premio Hutter creen que comprimir texto en lenguaje natural es un problema difícil de IA, equivalente a pasar la prueba de Turing.

La prueba de compresión de datos tiene algunas ventajas sobre la mayoría de las versiones y variaciones de una prueba de Turing, que incluyen:

  • Da un solo número que se puede usar directamente para comparar cuál de las dos máquinas es "más inteligente".
  • No requiere que la computadora le mienta al juez

Las principales desventajas de usar la compresión de datos como prueba son:

  • No es posible probar a los humanos de esta manera.
  • Se desconoce qué "puntuación" particular en esta prueba, si es que hay alguna, es equivalente a pasar una prueba de Turing a nivel humano.

Otras pruebas basadas en compresión o complejidad de Kolmogorov

Un enfoque relacionado con el premio de Hutter que apareció mucho antes, a fines de la década de 1990, es la inclusión de problemas de compresión en una prueba de Turing extendida. o por pruebas que se derivan completamente de la complejidad de Kolmogorov . Otras pruebas relacionadas en esta línea son presentadas por Hernandez-Orallo y Dowe.

El IQ algorítmico, o AIQ para abreviar, es un intento de convertir la medida teórica de inteligencia universal de Legg y Hutter (basada en la inferencia inductiva de Solomonoff ) en una prueba práctica de trabajo de inteligencia artificial.

Dos ventajas principales de algunas de estas pruebas son su aplicabilidad a inteligencias no humanas y la ausencia de un requisito para probadores humanos.

prueba de ebert

La prueba de Turing inspiró la prueba de Ebert propuesta en 2011 por el crítico de cine Roger Ebert , que es una prueba de si una voz sintetizada basada en computadora tiene suficiente habilidad en términos de entonaciones, inflexiones, sincronización, etc., para hacer reír a la gente.

Métricas de inteligencia artificial basadas en la caja negra inspiradas en la prueba universal de Turing

En base a la gran diversidad de sistemas inteligentes, se deben utilizar las métricas universales inspiradas en la prueba de Turing, que son capaces de medir la inteligencia de las máquinas y comparar los sistemas en función de su inteligencia. Una propiedad de una métrica de inteligencia debería ser el tratamiento del aspecto de la variabilidad en la inteligencia. Las métricas de inteligencia basadas en la caja negra, como MetrIntPair y MetrIntPairII, son universales ya que no dependen de la arquitectura de los sistemas cuya inteligencia miden. MetrIntPair es una métrica precisa que puede medir y comparar simultáneamente la inteligencia de dos sistemas. MetrIntPairII es una métrica precisa y robusta que puede medir y comparar simultáneamente la inteligencia de cualquier número de sistemas inteligentes. Ambas métricas utilizan medidas de inteligencia específicas basadas en pares y pueden clasificar los sistemas estudiados en clases de inteligencia.

Chatbot Google LaMDA

En junio de 2022, el chatbot Google LaMDA (Language Model for Dialog Applications) recibió una amplia cobertura con respecto a las afirmaciones de que había alcanzado la sensibilidad. Inicialmente, en un artículo en The Economist , Google Research Fellow, Blaise Agüera y Arcas, dijo que el chatbot había demostrado un grado de comprensión de las relaciones sociales. Varios días después, el ingeniero de Google, Blake Lemoine, afirmó en una entrevista con el Washington Post que LaMDA había logrado la sensibilidad. Google había puesto a Lemoine en licencia por afirmaciones internas en este sentido. Agüera y Arcas (vicepresidente de Google) y Jen Gennai (directora de Innovación Responsable) investigaron las denuncias pero las desestimaron. La afirmación de Lemoine fue rotundamente rechazada por otros expertos en el campo, señalando que un modelo de lenguaje que parece imitar una conversación humana no indica que haya inteligencia detrás, a pesar de que parece pasar la prueba de Turing. La discusión generalizada de los defensores a favor y en contra de la afirmación de que LaMDA ha alcanzado la sensibilidad ha provocado un debate en las plataformas de redes sociales, para incluir la definición del significado de la sensibilidad y lo que significa ser humano.

Conferencias

Coloquio de Turing

1990 marcó el cuadragésimo aniversario de la primera publicación del artículo "Computing Machinery and Intelligence" de Turing y vio un renovado interés en la prueba. Ese año ocurrieron dos eventos significativos: el primero fue el Coloquio de Turing, que se llevó a cabo en la Universidad de Sussex en abril y reunió a académicos e investigadores de una amplia variedad de disciplinas para discutir la prueba de Turing en términos de su pasado, presente , y futuro; el segundo fue la formación de la competencia anual del Premio Loebner .

Blay Whitby enumera cuatro puntos de inflexión importantes en la historia de la prueba de Turing: la publicación de "Computing Machinery and Intelligence" en 1950, el anuncio de ELIZA de Joseph Weizenbaum en 1966, la creación de PARRY por parte de Kenneth Colby , que se describió por primera vez. en 1972 y el Coloquio de Turing en 1990.

2005 Coloquio sobre Sistemas Conversacionales

En noviembre de 2005, la Universidad de Surrey organizó una reunión inaugural de un día de desarrolladores de entidades conversacionales artificiales, a la que asistieron los ganadores de las pruebas prácticas de Turing en el Premio Loebner: Robby Garner , Richard Wallace y Rollo Carpenter . Los oradores invitados incluyeron a David Hamill , Hugh Loebner (patrocinador del Premio Loebner ) y Huma Shah .

Simposio AISB 2008

Paralelamente al Premio Loebner 2008 celebrado en la Universidad de Reading , la Sociedad para el Estudio de la Inteligencia Artificial y la Simulación del Comportamiento (AISB), organizó un simposio de un día para discutir la prueba de Turing, organizado por John Barnden , Mark Bishop , Huma Shah y Kevin Warwick . Los oradores incluyeron a la directora de la Institución Real, la baronesa Susan Greenfield , Selmer Bringsjord , el biógrafo de Turing Andrew Hodges y el científico de la conciencia Owen Holland . No surgió ningún acuerdo para una prueba de Turing canónica, aunque Bringsjord expresó que un premio considerable daría como resultado que la prueba de Turing se pasara antes.

El año de Alan Turing y Turing100 en 2012

A lo largo de 2012, se llevaron a cabo una serie de eventos importantes para celebrar la vida y el impacto científico de Turing. El grupo Turing100 apoyó estos eventos y también organizó un evento especial de prueba de Turing en Bletchley Park el 23 de junio de 2012 para celebrar el centenario del nacimiento de Turing.

Ver también

notas

Referencias

Otras lecturas

  • Cohen, Paul R. (2006), "'Si no es la prueba de Turing, ¿entonces qué?" , ​​AI Magazine , 26 (4).
  • Marcus, Gary , "¿Soy humano?: Los investigadores necesitan nuevas formas de distinguir la inteligencia artificial de la natural", Scientific American , vol. 316, núm. 3 (marzo de 2017), págs. 58–63. Se necesitan múltiples pruebas de eficacia de la inteligencia artificial porque, "así como no existe una prueba única de destreza atlética , no puede haber una prueba definitiva de inteligencia ". Una de esas pruebas, un "Desafío de construcción", evaluaría la percepción y la acción física, "dos elementos importantes del comportamiento inteligente que estaban completamente ausentes en la prueba de Turing original". Otra propuesta ha sido dar a las máquinas los mismos exámenes estandarizados de ciencias y otras disciplinas que toman los escolares. Un obstáculo hasta ahora insuperable para la inteligencia artificial es la incapacidad para una desambiguación fiable . "[P]rcticamente cada frase [que la gente genera] es ambigua , a menudo de varias formas". Un ejemplo destacado se conoce como el "problema de desambiguación de pronombres": una máquina no tiene forma de determinar a quién o qué se refiere un pronombre en una oración, como "él", "ella" o "eso".
  • Moor, James H. (2001), "El estado y el futuro de la prueba de Turing" , Minds and Machines , 11 (1): 77–93, doi : 10.1023/A:1011218925467 , ISSN  0924-6495 , S2CID  35233851 .
  • Warwick, Kevin y Shah, Huma (2016), "El juego de imitación de Turing: Conversaciones con lo desconocido", Cambridge University Press.

enlaces externos