Is ChatGPT ’n bruikbare hulpmiddel vir akademiese skryfwerk?

  • 1

1. Inleiding

Kunsmatige Intelligensie (KI) beskik oor die potensiaal om verskeie velde te ontwrig. Een van hierdie terreine is die akademiese wêreld, waar kommer bestaan dat ChatGPT - ’n natuurliketaalgenereringsmodel wat deur OpenAI ontwikkel en in November 2022 vrygestel is, tot oneerlikheid van studente kan lei (Stokel-Walker 2022; Susnjak 2022; Zhai 2022; Cotton, Cotton en Shipway 2023). Daar kan bygevoeg word dat akademici self – wat ook geneig is tot oneerlikheid (Fanelli 2009; Stavale ea 2019) – hulle ook tot hierdie hulpmiddel kan wend. Aan die ander kant is daar verskeie outeurs wat aanvoer dat natuurliketaalgenereringsmodelle soos ChatGPT baie voordele vir studente sowel as akademici inhou, byvoorbeeld deur kennis oor te dra en te toets, of om roetinetake te verminder.

Hierdie artikel ondersoek die bruikbaarheid van ChatGPT vir die skryf van akademiese tekste, hetsy vir navorsers of studente. Daar word veral gefokus op die stelsel se huidige vermoë en beperkings.

2. ChatGPT vir akademiese skryfdoeleindes

Die Generatiewe Vooropgeleide Transformeerder-3-model (Generative Pre-trained Transformer-3, of GPT-3), wat op die Transformeerder-model van Vaswani ea (2017) gebaseer, is  een van die grootste groot taalmodelle (Large Language Models, of LLM), en is opgelei met 175 miljard parameters (Gao ea 2022; Gilson ea 2022; Cotton, Cotton en Shipway 2023). GPT-3 is die grondslag van ChatGPT, soos dit ook van die KI-gespreksagent Replika is. ChatGPT is verder aangepas met versterkingsleer en menslike terugvoer (Gozalo-Brizuela en Garrido-Merchan 2023). Sedert sy vrystelling in November verlede jaar het ChatGPT baie aandag in die media ontvang, en daar is reeds ’n verskeidenheid artikels hieroor op LitNet gepubliseer.

2.1 Potensiaal

ChatGPT is verbasend akkuraat wanneer dit ’n teks skryf. Gilson ea (2022) het byvoorbeeld bevind dat ChatGPT op die vlak van ’n derdejaar- mediese student presteer, en Kung ea (2022) het selfs bevind dat ChatGPT die VSA se medieselisensiëringseksamen (US Medical Licensing Examination, of USMLE) kan slaag.

Een van ChatGPT se sterk punte is om sinvolle, samehangende teks te genereer. Aydın en Karaarslan (2022) het bevind dat alhoewel ChatGPT nie in hul eksperimente geskik was vir parafrasering nie, dit wel moontlik is om dele van ’n akademiese publikasie suksesvol hiermee te skryf. Zhai (2022) illustreer ook hoe effektief ChatGPT gebruik kan word vir akademiese skryfwerk, en voer aan: "The writing proficiency of AI is way over a general student. The text AI wrote reads professional, and the content is coherent and (relatively) accurate." Cotton ea (2023) skryf op hul beurt ’n hele artikel oor die potensiaal en gevare van ChatGPT, en skryf dit met behulp van ChatGPT. Daar het ook reeds ’n aantal akademiese artikels verskyn wat ChatGPT as mede-outeur lys (Stokel-Walker 2023).

Gao ea (2022) glo die tegnologie kan saam met ’n navorser se eie wetenskaplike kennis gebruik word as ’n hulpmiddel om die las van skryf en formatering te verminder. Wanneer ’n navorser (of student) reeds oor kennis oor ’n onderwerp beskik, sou ChatGPT gebruik kon word om gedagtes te formuleer. Aansluitend hierby noem Duval ea (2021) dat KI-programme soos ChatGPT gebruik sou kon word om skrywersblok te oorkom.

ChatGPT kan ook gebruik word deur navorsers wat in ’n taal publiseer wat nie hul moedertaal is nie, en sodoende kan KI gelykheid in die wetenskap bevorder (Gao ea 2022; Van Noorden 2022). Engels het wêreldwyd die taal van die wetenskap geword en navorsers wat nie Engels goed magtig is nie, kan sukkel om hul gedagtes effektief in Engels uit te druk. Hiervoor sou Google Translate natuurlik ook gebruik kon word.

2.2 Risiko's

ChatGPT genereer nie altyd akkurate teks nie, maar skryf soms snert. Hierna word gewoonlik verwys as hallusinerings (sien hier onder). Een van die groot risiko's is dat mense ChatGPT se hallusinerings op die web kan plaas, wat dan weer opleidingsdata vir toekomstige natuurliketaalgenereringsmodelle sal word en die stelsel verder sal ondermyn. ChatGPT leer uit teks wat aanlyn gevind word, en as van daardie tekste snert is, sal die stelsel die snert aanleer.

Die bekendste risiko met hulpmiddele soos ChatGPT is dat mense teks daarmee sal genereer en as hul eie werk sal aanbied. Alhoewel die debat gewoonlik op studente konsentreer wat ChatGPT kan gebruik om werkstukke vir hulle te skryf, moet ook in gedagte gehou word dat daar sommige akademici sal wees wat KI sal misbruik en wetenskaplike publikasies so sal probeer genereer (Van Noorden 2022). Soos ek hier onder aantoon, is dít eerder ’n bekommernis vir die toekoms, maar aangesien tegnologie in hierdie rigting beweeg, is dit sinvol om nou reeds planne te maak vir hoe om die misbruik van hierdie tegnologie te bekamp.

Omdat oneerlikheid so ’n groot risiko is, is daar reeds middele ontwerp om rekenaargegenereerde teks uit te ken, en daar is ook reeds navorsing onderneem om die effektiwiteit van sulke middele te bepaal. Gao ea (2022) het ChatGPT gevra om opsommings vir wetenskaplike publikasies te skryf, en die resultaat vir plagiaat getoets; hulle het ook GPT-2 Output Detector (https://openai-openai-detector.hf.space) gebruik om te bepaal of die opsomming deur ’n mens of ‘n masjien geskep is. Hulle het ook die opsommings vir wetenskaplikes gegee om te sien of hulle die verskil tussen mens- en masjiengegenereerde teks kan uitken. Bykans al die teks is as oorspronklik geklassifiseer deur die plagiaattoets, wat wys dat tradisionele plagiaatopsporing nie geskik is om masjiengegenereerde teks te identifiseer nie. GPT-2 Output Detector was egter suksesvol daarmee om masjiengegenereerde teks te herken, alhoewel mense slegs 68% van masjiengegenereerde teks as sodanig kon herken, en boonop het hulle in 14% van gevalle geglo dat mensgegenereerde teks masjiengegeneerd was. GPT-2 Output Detector kon hierdie teks met ander woorde suksesvol opspoor. Edward Tian het ook reeds ’n algoritme ontwerp om masjiengegenereerde teks mee te identifiseer; dit is tans in ’n betafase wat as GPT Zero bekendstaan. Turnitin het ook aangetoon dat hulle KI-herkenningsfunksies in hul sagteware begin insluit (Cotton ea 2023).

Wat Gao ea (2022) veral uitlig, is dat alhoewel KI gebruik kan word om teks te genereer en dit as ’n persoon se eie werk aan te bied, KI ook benodig sal word om masjiengegenereerde teks as sodanig te herken. Rakende my ander bekommernis, naamlik dat mense ChatGPT se hallusinerings op die web sal plaas, sal KI-hulpmiddele ook nodig wees om masjiengegenereerde teks aanlyn op te spoor en byvoorbeeld nie as soekresultate aan te bied nie.

Benewens tegnologiese hulpmiddele is daar ook ’n aantal strategieë wat dosente sou kon volg om die gebruik van KI vir teksgenerering in kursusse te verhoed. Een daarvan is dat Cotton ea (2023) voorstel dat studente verplig kan word om bronverwysings in hul werkstukke in te sluit, omdat dit vir taalmodelle soos ChatGPT ’n uitdaging bied. ’n Ander eenvoudige oplossing kan wees om tekste na te gaan vir feitefoute, aangesien ChatGPT nie altyd akkuraat is nie (Cotton ea 2023). Die afwesigheid van taalfoute kan self ’n aanduiding wees dat teks met KI geskep is (Cotton ea 2023). KI maak selde taalfoute (ten minste in Engels), terwyl ’n mens byvoorbeeld nie van ’n eerstejaarstudent perfekte Engels verwag nie.

3. Eie toetse

Teen die agtergrond van bostaande het ek gewonder watter voordelige potensiaal ChatGPT binne ’n akademiese konteks inhou, indien enige, en het die stelsel daarom met verskeie take getoets. Oor die algemeen was ek beïndruk met sy akkuraatheid. Ek het gevra dat ChatGPT onderwerpe verduidelik waarmee ek vertroud is, en kon selde ’n fout vind (behalwe waar daar baie nuwe navorsing is wat die stelsel nie in ag geneem het nie). Hier is byvoorbeeld die oorsprong van die konsep van ses grade van verwydering, in drie sinne, volgens ChatGPT (ek het klein taalfoute reggemaak):

Die fenomeen van ses graad van afsondering het ontstaan uit ’n studie van ’n sosioloog in 1967 genaamd Stanley Milgram. Hy het bevind dat die meeste mense in die Verenigde State van Amerika slegs ses verwante persone of bekendes nodig het om ’n onbekende persoon te ontmoet. Die fenomeen het later bekend geword as "six degrees of separation" en is ’n bekende metafoor vir die kleinheid van die wêreld.

Alhoewel hierdie antwoord nie die rolle van Karinthy, Guare of Kochen en Pool verreken het nie, is dit so dat Milgram oor die algemeen bekendstaan as die oorsprong van die konsep en die antwoord is aanvaarbaar vir ’n opsomming. Ek moet byvoeg dat ek agterna weer die vraag aan ChatGPT gestel het, en hierdie keer het ChatGPT feitefoute begaan.

ChatGPT kan ook konsepte in ’n gespesifiseerde lengte verduidelik, byvoorbeeld iets in een of twee sinne te verduidelik, wat nuttig kan wees vir opsommings. ’n Mens kan ook vra vir die opsomming van ’n teks in ’n gespesifiseerde lengte, en ’n mens kan die taal spesifiseer waarin ChatGPT sy antwoord moet bied. Ek het ChatGPT probeer inspan om ’n opsomming van ’n artikel te skep, maar die woordbeperking het dit nie moontlik gemaak nie.

ChatGPT se onderliggende kennis is in sommige gevalle ontoereikend, en wanneer ’n mens nie reeds iets van ’n onderwerp weet nie, sal jy ook nie weet wanneer ChatGPT hallusineer nie. Ek vra byvoorbeeld dat ChatGPT die oorsprong van Afrikaanse metal in drie sinne verduidelik, en ontvang die volgende verkeerde antwoord (verbatim weergegee):

Afrikaans metal het ontstaan in die 1980's met die opkoms van bands soos Fokofpolisiekar, K.O.B.U.S. en Van Coke Kartel. Dit is ’n unieke genre wat ontstaan het uit die kontraste tussen die tradisionele Afrikaanse kultuur en die wêreld van rock en metal. Hierdie bands het ’n nuwe generasie van Afrikaanse musiekliefhebbers geïnspireer en ’n nuwe standaard in die Afrikaanse musiekbedryf geskep.

ChatGPT het boonop telkens verskillende antwoorde op soortgelyke vrae verskaf, en in een geval het ChatGPT Bok van Blerk as die eerste Afrikaanse metal-musikant genoem.

My vermoede was dat ChatGPT akkurater sou wees met onderwerpe wat wêreldbekend is, en minder akkuraat sou wees met Afrikaanse onderwerpe. Wanneer ek vir ChatGPT vra om die fliek Die hard op te som, is die opsomming byvoorbeeld akkuraat:

Die Hard is a 1988 action film that follows the story of John McClane, a New York City police detective who is visiting his wife and children at a Christmas party in a Los Angeles skyscraper. While he is there, the building is taken over by a group of terrorists, led by the cunning and ruthless Hans Gruber, and McClane must use his wits and combat skills to stop them and save his family and the other hostages.

Hierteenoor is ChatGPT se opsomming van Poena is koning absurd:

"Poena is Koning" is a 2007 South African crime-drama film directed by Michael R. Roskam. The movie tells the story of a young Afrikaans man, Poena, who is sentenced to life in prison for murder and his struggles to survive in the brutal South African prison system, where he must fight for survival and power among the inmates, while trying to find redemption and freedom.

Weens sulke hallusinerings sal dit ’n groot waagstuk wees om vir ChatGPT te vra om akademiese tekste te genereer indien die skrywer nie reeds bekend is met die onderwerp nie. Studente wat kortpaaie wil neem met werkstukke, sal met ander woorde meer sukses hê met algemeen bekende onderwerpe, maar nietemin bly dit ’n waagstuk om heeltemal op ChatGPT te vertrou. Ek het byvoorbeeld vir ChatGPT met ’n bekende onderwerp getoets deur die volgende  te vra: "Discuss Ezra Pound's poem, 'On a station in the metro', as a modernist poem, in four sentences, and quote from the text to support your statements." ChatGPT het die volgende onbruikbare antwoord verskaf, wat wys dat die stelsel nie vertroud is met die gedig nie:

Ezra Pound's poem "On a Station in the Metro" is a modernist poem that uses free verse and stream-of-consciousness techniques to convey the sense of a crowded and anonymous city. The speaker of the poem observes the people on the metro, describing them as "a crowd bent to the majority" and "the faces that have passed." The use of imagery, such as the "crowds upon crowds" and the "anonymous, impervious faces," highlights the alienation and disconnection of modern urban life. The poem's focus on the anonymity and impersonality of the city, which can be seen in the line "the mass, the swarm, the rush hour," is a common theme in Modernist literature.

ChatGPT se hallusinerings kan baie oortuigend voorkom. Ek het byvoorbeeld gevra dat die stelsel die toenemende samewerking in die wetenskap verduidelik, met bronverwysings. Dit was die antwoord:

According to a study published in Nature, the number of co-authors per scientific paper has increased by an average of 50% over the past 30 years (Peters, P.A., et al. "The growth of open science" Nature, 2017, P. 726-731, doi: 10.1038/nature23005). The development of digital tools and platforms that make it easier to share and integrate data from different sources also contributes to the increase in collaboration (Kirschner, M.W., "Big science is not the only path to big discoveries" Nature, 2018, P.23-25, doi: 10.1038/d41586-018-05862-7). Collaboration across borders and disciplines is also becoming more common, leading to more diverse and inclusive scientific teams (Foster, T., "Science diplomacy: A tool for global collaboration" Nature, 2019, P. 586-587, doi: 10.1038/d41586-019-02848-y).

Sou ’n mens ChatGPT se antwoord onkrities aanvaar, is hierdie ’n bruikbare paragraaf. Máár: Die bronne is versin en DOI's verwys óf na ander publikasies, óf bestaan nie. Ek het ander, soortgelyke eksperimente onderneem, en telkens dieselfde gevind: ChatGPT kies DOI's, titels en outeurs, maar daardie bronne bestaan nie noodwendig nie of sê nie wat ChatGPT glo in die bronne staan nie.

Met bostaande voorbeelde is dit nie nodig om tegnologie in te span om te sien of tekste masjiengegenereer is nie, maar ek het nietemin GPT-2 Output Detector en GPT Zero met die teks oor die toenemende samewerking in die wetenskap getoets. GPT Output Detector het met 99,98% sekerheid aangedui dat hierdie teks masjiengegenereer is, en GPT Zero was ook oortuig daarvan dat die teks masjiengegenereer is.

Benewens hierdie voorbeelde is daar baie komponente van ’n akademiese teks wat nie deur ChatGPT behartig kan word nie, byvoorbeeld dataversameling, -verwerking en -ontleding, sowel as die formulering van afleidings uit die data. ChatGPT sal ook nie deur argiewe kan soek en ’n studie oor ’n aspek van die geskiedenis genereer nie. 

ChatGPT is nog in ’n betafase en baie van sy funksionaliteit sal oor die komende maande verander. Dit is aan die een kant moontlik dat die stelsel akkurater sal word, maar aan die ander kant is dit moontlik dat OpenAI sal kennis neem van die risiko's en die stelsel beter sal reguleer.

4. Slot

Hierdie paar eksperimente dui daarop dat ChatGPT se bruikbaarheid in ’n akademiese konteks beperk is. ’n Menslike leser kan gou sien wanneer ’n akademiese teks masjiengegenereer is, hetsy deur te kyk na voorbeelde wat deur ChatGPT in ’n bespreking gebruik word, en/of na die bronne wat in ’n teks voorkom. Boonop is daar altyd die risiko dat ChatGPT feitefoute sal begaan, wat dit ’n groot waagstuk maak om ’n teks in te dien oor ’n onderwerp waaroor ’n mens nie self kennis dra nie. Boonop is daar reeds gereedskap beskikbaar om masjiengegenereerde teks te herken, en hierdie gereedskap is betroubaar.

Aan die ander kant is ChatGPT baie nuttig om ’n vinnige opsomming oor ’n onderwerp te skryf. Dit sou gebruik kon word vir ’n paar openingsinne, inleidende opmerkings en dergelike. ChatGPT kan egter tans nie veel meer as dit betroubaar behartig nie.

ChatGPT wys wel hoe vinnig tegnologie vorder, en hoe vinnig tegnologie ’n ontwrigtende ontwikkeling binne ’n akademiese konteks word.

Bibliografie

Aydın, Ö. en E. Karaarslan. 2022. Openai ChatGPT generated literature review: Digital twin in healthcare. In Ö. Aydın (red.), 2022: 22-31. doi: 10.2139/ssrn.4308687.

Ö. Aydın (red.), 2022. Emerging Computer Technologies 2. Turkye: İzmir Akademi Dernegi.

Cotton, D.,  P.  Cotton en J. R. Shipway. 2023. Chatting and cheating. Ensuring academic integrity in the era of ChatGPT. EdArXiv preprint. doi: 10.35542/osf.io/mrz8h.

Duval, A., T. Lamson, G. de L. de Kerouara M. en Gallé. 2021. Breaking writer’s block: Low-cost fine-tuning of natural language generation models, arXiv preprint. doi: 10.48550/arxiv.2101.03216.

Fanelli, D. 2009. How many scientists fabricate and falsify research? A systematic review and meta-analysis of survey data, Plos One, 4(5):e5738. doi: 10.1371/journal.pone.0005738.

Gao, C. A., F. M. Howard, N. S. Markov, E. C. Dyer, S. Ramesh, Y. Luo en A.T. Pearson. 2022. Comparing scientific abstracts generated by ChatGPT to original abstracts using an artificial intelligence output detector, plagiarism detector, and blinded human reviewers, BioRxiv preprint. doi: 10.1101/2022.12.23.521610.

Gilson, A., C. Safranek, T. Huang, V. Socrates, L. Chi, R.A. Taylor en D. Chartash. 2022. How does ChatGPT perform on the medical licensing exams? The implications of large language models for medical education and knowledge assessment, medRxiv preprint. doi: 10.1101/2022.12.23.22283901.

Gozalo-Brizuela, R. en E.C. Garrido-Merchan. 2023. ChatGPT is not all you need. A State of the Art Review of large Generative AI models, arXiv preprint. doi: 10.48550/arxiv.2301.04655.

Kung, T. H., M. Cheatham, A. Medinilla, ChatGPT, C. Sillos, L. De Leon, C. Elepano, M. Madriaga, R. Aggabao, G. Diaz-Candido, J. Maningo V. en Tseng. 2022. Performance of ChatGPT on USMLE: Potential for AI-assisted Medical education using large language models, medRxiv preprint. doi: 10.1101/2022.12.19.22283643.

Stavale, R, G.I. Ferreira, J.A.M. Galvão, F. Zicker, M.R.C.G. Novaes, C.M. de Oliveira en D. Guilhem. 2019. Research misconduct in health and life sciences research: A systematic review of retracted literature from Brazilian institutions, Plos One, 14(4):e0214272. doi: 10.1371/journal.pone.0214272.

Stokel-Walker, C. 2022. AI bot ChatGPT writes smart essays - should professors worry?, Nature, 9 desember. doi: 10.1038/d41586-022-04397-7.

Stokel-Walker, C. 2023. ChatGPT listed as author on research papers: many scientists disapprove, Nature, 18 Januarie. doi: 10.1038/d41586-023-00107-z.

Susnjak, T. 2022. ChatGPT: The end of online exam integrity?, arXiv preprint. doi: 10.48550/arxiv.2212.09292.

Van Noorden, R. 2022. How language-generation AIs could transform science, Nature, 605(21). doi: 10.1038/d41586-022-01191-3.

Vaswani, A., N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A.N. Gomez, L. Kaiser, en I. Polosukhin. 2017. Attention is all you need,” arXiv preprint. doi: 10.48550/arxiv.1706.03762.

Zhai, X. 2022. ChatGPT user experience: implications for education, SSRN Electronic Journal. doi: 10.2139/ssrn.4312418.

> Lees meer oor kunsmatige intelligensie op LitNet hier.
> Lees ook:

LitNet-AfriKI-miniseminaar: Kunsmatige intelligensie as skrywer

Kunsmatige intelligensie en akademiese artikels

Om ’n mens na te boots

Kletsbotte: Vriend of vyand? Praktiese voorstelle om hierdie kletsbot te omarm om die gehalte van akademiese skryfwerk te bevorder

Skepping of nabootsing? Kunsmatige intelligensie en intelligente kuns

AfriKI: Kunsmatige Intelligensie-gedigte in Afrikaans | Videolesing in Engels en Afrikaans

  • 1

Kommentaar

  • Handré Brand

    Uitstekende artikel. Universiteite behoort so gou as moontlik amptelike beleidsdokumente te ontwikkel mbt die raadpleging van kunsmatige intelligensie (soos ChatGPT byvoorbeeld) en die skryf van tesisse, proefskrifte en geakkrediteerde akademiese artikels.

  • Reageer

    Jou e-posadres sal nie gepubliseer word nie. Kommentaar is onderhewig aan moderering.


     

    Top