En este post abordaremos cómo detectar una copia en una tesis, poniendo como ejemplo, un caso de actualidad.
El País, como la mayoría de mass media, hacía eco de los resultados del cotejo documental realizado a la tesis del presidente del Gobierno, el Sr. Pedro Sánchez.
De entrada, nos sorprendían las discrepancias de resultados, Turnitin contabilizaba un 13% de coincidencia textual, frente al 0,96% en Plagscan -según informaba el rotativo-.
Uno puede pensar que, si el trabajo lo hace un software, deberían obtenerse los mismos resultados. Sin embargo, no es así, porque habría que analizar y comparar los parámetros que han empleado unos y otros para llegar a una cifra tan rotunda y tan dispar.
¿Qué significan estas cifras? Sencillamente que existe una coincidencia textual.
Estos días prensa y twiteros inundan páginas preguntándose sobre la validez de estos resultados, y se preguntan si estos softwares pueden equivocarse.
La experiencia profesional en Lingüística forense permite a los especialistas medir el alcance y las limitaciones de este tipo de software. Veamos algunas de ellas:
- El programa detecta coincidencia, pero sabemos que no toda coincidencia es un plagio, porque se ha citado la fuente, se ha entrecomillado el texto y/o referenciado el autor.
Hay similitud textual pero ya sea por referencia al autor intelectual o por derecho de cita, aquella coincidencia, no es delictiva.
- El programa no discrimina si la información coincidente es original o del acervo público. Esto, ¿qué implica?
Sencillamente que existen expresiones, refranes, fechas, personajes, datos y hechos históricos, elementos del folklore y de la cultura popular, que pertenecen al conocimiento público y que el hecho de que aparezcan en dos documentos no significa que uno sea un plagio.
En una ocasión tuvimos el encargo de comparar dos obras que ilustraban la historia de la literatura; el software señalaba cuotas altísimas de coincidencia textual, pero se equivocaba.
El programa detectaba coincidencia en “Camilo José Cela nació el 11 de mayo de 1916 y falleció en Madrid el 17 de enero de 2002.”
20 palabras que engrosaban el porcentaje de plagio.
Y no es plagio, es un dato público y notorio y está expresado de una manera muy universal.
También se detectaban como coincidencia los títulos de libros y expresiones/sintagmas como: “década de los sesenta” “durante la Primera Guerra Mundial”, “mezcla de géneros literarios” “recupera su prestigio” “la Guerra Civil española” “el Premio Cervantes” etc, etc.
Hay coincidencia textual, pero no plagio.
Sencillamente son expresiones que aparecen en todos los libros de historia de la literatura, como el personaje de la princesa en las películas de Disney.
- El programa tampoco detecta la apropiación de una idea y el resumen que alguien hace de un texto ajeno sin referenciar el autor original.
En el cotejo documental a veces nos hemos encontrado que un escritor ha parafraseado, resumido o utilizado una información exclusiva de un autor sin referirlo.
Estos programas son útiles para alertar, detectar una posible copia o para comprobar cierto alcance de plagio, pero siempre, y tal como afirmaba el propio responsable de Turnitin en la entrevista publicada en El Pais, ha de ser una persona la que verifique la similitud.
Y una vez detectada la coincidencia textual, el perito va un poco más allá, no sólo para referenciar -si procede- el estilo literario de cada autor, sino también para discriminar el tipo y la idiosincrasia del plagio. Porque como ya hemos dicho en ocasiones, hay plagios conscientes porque se detectan pequeñas alteraciones del texto original, o bien plagios resultado de un burdo copiar/pegar en el que se transfieren, incluso, las erratas. Para esto sí que van bien los softwares.
Todavía, las máquinas van por detrás de los peritos forenses.
El año pasado, 2018, pase por el turnitin siete paginas de un trabajo, el mismo que me arrojo un promedio de 7 % de copia; y, lo que indicaba copia eran términos de uso, tales como “Sentencia en Primera Instancia” y otros parecidos que se usan en Derecho. El día de ayer he vuelto a pasar por el turnitin las mismas 7 hojas y ahora arrojan 40 % de de copia. Me da la impresión que lo pasado por este programa el año pasado ahora ya lo considera copia del año pasado; inclusive muchas oraciones o frases contenidas el año pasado ahora lo remarca como copia. No me parece un programa confiable.
Efectivamente y si eres profesor y dejas un trabajo de dos cuartillas a tus alumnos y los pasas o subes a plataforma turnitin rwsulta que todos tienen mas de 86 % de coincidencia textual no es confiable, no hay mejor forma que leerlo uno mismo para no hacer falsas acusacionws de plagio basadas en esta muy cuestionada aplicacion
A veces el sentido común es el mejor análisis
La mayoría de personas a quienes se les da la administración de este programa lo desconocen en esencia, pues suele ocurrir lo que Víctor señala. Por ejemplo en la Universidad César Vallejo se Piura se están cometiendo serias aberraciones, pues se exige un reporte de turnitin menor al 20% para sustentar una tesis y se anexa. Pero cuando ya se sustenta y se va a subir al repositorio lo vuelven a pasar y obtienen un resultado mayor…¿cómo puede suceder esto? solamente se explica que el sistema toma el trabajo del mismo autor como copia
Sí, esta es una posibilidad. También sucede que en casos de textos legales, Turnitin no discrimina si es un texto legal (artículo, sentencia); me he encontrado casos de que a pesar de que este tipo de textos están suficientemente referenciados y/o entrecomillados, el programa sigue marcando como coincidencia textual; de ahí que el informe del perito sea ir valorando una a una todas las coincidencias para valorarlas si son relevantes o no.
Sí efectivamente.Gracias por tu aportación
Yo me veo en aprietos en estos momentos con mi tesis de maestría, según la universidad debo tener 10% como máximo para ser aceptado y sustentar. El mes pasado, hace 27 días exactamente, arrojaba 33% de coincidencias/plagio, con toda seguridad no he plagiado ni copiado pero por mis años de experiencia en la investigación tengo muchas cosas en mi cabeza como conocimiento general (fechas, hechos del pasado, personajes célebres, etc) y me decía ¿No puede ser?, luego quité todas esas referencias históricas y nombres de personajes (para probar mis sospechas sobre turnitin) ahora tengo 34%. por ejemplo si digo José de San Martín el turnitin me dice que es plagio o copia, mi pregunta es ¡cuál es la solución? ¿qué hacer cuando la universidad está apegado a su turnitin y no entiende razones y no da crédito a mi conocimiento? auxilio!!
El colmo, no solo arroja como coincidencias los títulos, nombres comunes, epígrafes, expresiones coloquiales de dominio público, frases estándares, además de obviamente de los textos literles citados, que abultan el porcentaje de “coincidencias” aceptados, sino, en los reportes te mencionan páginas inexistentes, en construcción o que te redireccionan a otras con contenido dudoso o comerciales de venta de dominio. El turnitin debe ser programado para que detecte ideas etructuradas y muchas veces descompuestas, que no son tomdas en cuenta, que represente similitud, consistente en una copia, no limitarse a un ridículo 40 caracteres.
Tiene toda la razón, incluso he revisado webs que indican plagio y no aparece el texto marcado