Un grupo de investigadores de la Universidad de Stanford concluyeron que ChatGPT ha empeorado en su habilidad para resolver problemas matemáticos.
a inteligencia artificial (IA) ha ido avanzando a pasos agigantados con el paso del tiempo; sin embargo, parece que, con ChatGPT, el modelo de lenguaje autorregresivo desarrollado por OpenAI, no pasa lo mismo, de acuerdo con un estudio de la Universidad de Stanford, que fue publicado en Twitter por el investigador Matei Zaharia.
Dicha investigación muestra que el chatbot más famoso del mundo tuvo un peor desempeñó en ciertas tareas en junio que en su versión de marzo.
El estudio analizó dos versiones del chatbot de OpenAI durante el período de tiempo: una versión llamada GPT-3.5 y otra conocida como GPT-4.
Fue ahí donde se dieron cuenta de que, en marzo, GPT-4 pudo identificar correctamente que el número 17,077 es un número primo el 97% de las veces de las veces. Pero solo tres meses después, su precisión cayó a 2.4%.
En el caso del modelo 3.5, la versión de marzo respondió correctamente a la misma pregunta solo el 7.4% de las veces, mientras que la versión de junio lo hizo correctamente el 86.8%.
Durante una entrevista con Fortune,James Zou, un profesor de informática de Stanford y uno de los autores del estudio, aseguró que la «magnitud del cambio» fue inesperada.
«Cuando estamos ajustando un gran modelo de lenguaje para mejorar su rendimiento en ciertas tareas, puede tener muchas consecuencias no deseadas, que en realidad podrían perjudicar el rendimiento de este modelo en otras tareas. Hay todo tipo de interdependencias interesantes en la forma en que el modelo responde a las cosas que pueden conducir al empeoramiento de algunos de los comportamientos que observamos», indicó.
El estudio dio cuenta también de que las respuestas de ChatGPT a preguntas delicadas (sobre temas de género o étnicos) se convirtieron en evasivas.
Las primeras versiones del chatbot explicaban detalladamente por qué no podían responder a determinadas preguntas delicadas. En junio, sin embargo, los modelos simplemente se disculparon con el usuario y se negaron a contestar.
Por lo anterior, los líderes de la investigación realizada por la Universidad de Stanford recomiendan a las empresas supervisar los resultados de ChatGPT, sin confiar ciegamente en su capacidad.
Artículo tomado de Entrepreneur, lea el original aquí.