ChatGPT se ha convertido en una de las tecnologías del año por haber llevado la inteligencia artificial de forma masiva a todo el mundo. A pesar de sus grandes capacidades, lo que tiene que tener en cuenta el gran público es que aun tiene muchas limitaciones (como no decirnos las fuentes de la información que provee) y diversos errores.
Mucho se habla de su poder para realizar las labores de los trabajadores de muchos gremios y hasta de la posibilidad de que reemplace una gran cantidad de puestos de trabajo. Mientras eso sucede, o no, hoy tenemos unos importantes resultados.
Unos investigadores hicieron preguntas a ChatGPT que un ingeniero o ingeniera de software o programadores y examinaron la precisión y la calidad de esas respuestas.
Más de la mitad de las respuestas fueron erróneas
De las 512 preguntas, 259 (52%) de las respuestas de ChatGPT eran incorrectas y solo 248 (48%) fueron correctas. Además, destaca que un 77% de las respuestas fueron detalladas.
Dicen las conclusiones que “a pesar de la importante inexactitud de las respuestas, los resultados mostraron que las respuestas fueron exhaustivas el 65% de las veces y abordaron todos los aspectos de la pregunta”.
Es decir, que aun dando una respuesta incorrecta, la IA detalló los resultados: a pesar de la importante inexactitud de las respuestas, los resultados mostraron que las respuestas fueron detalladas el 65 % de las veces y abordaron todos los aspectos de la pregunta.
Para analizar más a fondo la calidad de las respuestas de ChatGPT, los investigadores pidieron a 12 participantes con diferentes niveles de experiencia en programación que dieran su opinión sobre las respuestas.
Comparación con Stack Overflow
El estudio se titula: “¿Quién responde mejor? Un análisis en profundidad de ChatGPT y Stack Overflow a preguntas de ingeniería de software” y, por tanto, compara ambas herramientas.
Algo muy curioso: aunque los participantes prefirieron las respuestas de Stack Overflow a las de ChatGPT en varias categorías los participantes no identificaron correctamente las respuestas incorrectas generadas por ChatGPT el 39,34 % de las veces.
Dice el informe que:
A pesar de la creciente popularidad de ChatGPT, sigue preocupando su naturaleza como modelo generativo y los riesgos que conlleva.Hay estudios anteriores que muestran que los LLM (gran modelo de lenguaje) pueden adquirir y propagar conocimientos objetivamente incorrectos, que pueden en sus textos generados o resumidos. Además, los LLM suelen generar textos inventados que imitan información veraz, lo que supone un riesgo para los usuarios finales para verificar las incoherencias fácticas.
La prevalencia de la desinformación, que puede confundir fácilmente a los usuarios, ha llevado a Stack Overflow a prohibir la publicación de respuestas generadas por ChatGPT, algo que se anunció en diciembre como recuerdan los investigadores de Purdue University.
Imagen |