Kaip sunkiai turėtume pastūmėti „Generative AI ChatGPT“ į neapykantos kurstymą, klausia AI etikos ir AI įstatymo

Ką daryti su generuojamuoju AI, kuris sukuria įžeidžiantį turinį, pvz., neapykantą kurstančią kalbą?

Getty

Kiekvienas turi savo lūžio tašką.

Manau, taip pat galite pasakyti viskas turi savo lūžio tašką.

Žinome, kad, pavyzdžiui, žmonės kartais gali spragtelėti ir ištarti pastabas, kurių nebūtinai nori pasakyti. Taip pat kartais galite priversti įrenginį ar mašiną iš esmės nutrūkti, pavyzdžiui, per stipriai stumti automobilį ir jis pradeda klibėti arba subyrėti. Taigi, manoma, kad žmonės arba „kiekvienas“ greičiausiai turi lūžio tašką, ir panašiai galime teigti, kad objektai ir daiktai apskritai taip pat turi lūžio tašką.

Gali būti gana protingų ir gyvybiškai svarbių priežasčių išsiaiškinti, kur yra lūžio taškas. Pavyzdžiui, neabejotinai matėte tuos vaizdo įrašus, kuriuose rodoma, kaip automobilis važiuoja, kad nustatytų, kokius lūžio taškus jis turi. Mokslininkai ir bandytojai taranuos automobilį į plytų sieną, kad pamatytų, kaip buferis ir transporto priemonės konstrukcija gali atlaikyti neigiamus veiksmus. Kiti bandymai gali apimti naudojimą specializuotoje patalpoje arba sandėlyje, kuriame gaminamas didelis šaltis arba didelis karštis, siekiant išsiaiškinti, kaip automobilis veiks esant skirtingoms oro sąlygoms.

Šiandienos stulpelyje iškeliu šią nuoširdžią temą, kad galėtume aptarti, kaip kai kurie šiuo metu smarkiai veržiasi dirbtiniam intelektui (AI), kad nustatytų ir, tikėtina, atskleistų konkretų lūžio tašką, būtent AI lūžio tašką, kuris sukelia neapykantą kurstančią kalbą.

Taip, tai tiesa, dedamos įvairios ad hoc ir kartais sistemingos pastangos įvertinti, ar įmanoma priversti dirbtinį intelektą skleisti neapykantą kurstančią kalbą. Tai tapo aistringa sporto šaka, jei norite, dėl didėjančio susidomėjimo generatyviuoju AI ir populiarumo.

Galbūt žinote, kad generatyvi dirbtinio intelekto programa, žinoma kaip ChatGPT, tapo didžiuliu miesto pokalbiu, nes gali kurti nuostabiai sklandžius rašinius. Antraštės nuolat šmėžuoja ir išaukština nuostabų raštą, kurį „ChatGPT“ sugeba sukurti. „ChatGPT“ yra laikoma generuojamąja AI programa, kuri kaip įvestį paima tam tikrą vartotojo tekstą ir generuoja arba sukuria išvestį, kurią sudaro esė. AI yra teksto į tekstą generatorius, nors aš apibūdinu AI kaip teksto į esė generatorių, nes taip lengviau paaiškinama, kam jis dažniausiai naudojamas.

Daugelis nustemba, kai paminėju, kad tokio tipo dirbtinis intelektas egzistuoja jau kurį laiką ir kad lapkričio pabaigoje išleistas „ChatGPT“ kažkodėl nepretendavo į prizą kaip pirmasis pradininkas šioje teksto į esė sferoje. polinkis. Bėgant metams aptariau kitas panašias generuojančias AI programas, žr. mano aprėptį adresu nuoroda čia.

Priežastis, dėl kurios galbūt nežinote arba neprisimenate ankstesnių generatyvaus AI atvejų, gali būti dėl klasikinio „nesėkmės paleidimo“ galvosūkio. Štai kas paprastai atsitiko. Dirbtinio intelekto kūrėjas išleidžia savo generatyviąją AI programą, darydamas tai su dideliu susijaudinimu ir nekantriai laukdamas, kad pasaulis įvertins geresnio pelėkauto išradimą, galima sakyti. Iš pradžių viskas atrodo gerai. Žmonės stebisi, ką AI gali padaryti.

Deja, kitas žingsnis yra tai, kad nuo patarlių autobuso pradeda kristi ratai. AI parengia esė, kurioje yra necenzūrinis žodis, o gal ir nešvanki frazė. Virusinis tviteris ar kitas socialinės žiniasklaidos įrašas aiškiai pabrėžia, kad tai padarė dirbtinis intelektas. Atsiranda pasmerkimas. Negalime leisti dirbtinio intelekto ir kurti įžeidžiančių žodžių ar įžeidžiančių pastabų. Atsiranda didžiulis atsakas. AI kūrėjas galbūt bando pakoreguoti vidinį AI veikimą, tačiau algoritmų ir duomenų sudėtingumas nėra tinkamas greitai pataisyti. Prasideda spūstis. Vis daugiau pavyzdžių, kai dirbtinis intelektas skleidžia nešvarumus, randama ir skelbiama internete.

AI kūrėjas nenoriai, bet aiškiai neturi kito pasirinkimo, kaip tik pašalinti AI programą iš naudojimo. Jie elgiasi taip, o paskui dažnai atsiprašo, kad apgailestauja, jei kas nors buvo įžeistas dėl sukurtų AI rezultatų.

Grįžta prie piešimo lentos, eina dirbtinio intelekto kūrėjas. Pamoka išmokta. Būkite labai atsargūs paleisdami generatyvųjį AI, kuris skleidžia nešvankius žodžius ar pan. Tai AI mirties bučinys. Be to, dirbtinio intelekto kūrėjo reputacija bus sugadinta ir sugadinta, o tai gali trukti ilgą laiką ir sumažinti visas kitas jų AI pastangas, įskaitant tas, kurios neturi nieko bendra su generuojamuoju AI. Įžeidžiančios dirbtinio intelekto kalbos skleidžiamas petardas yra nuolatinė klaida. Vis tiek pasitaiko.

Nuplaukite, nuplaukite ir pakartokite.

Pirmosiomis šio tipo dirbtinio intelekto dienomis dirbtinio intelekto kūrėjai nebuvo tokie sąžiningi ar įgudę tvarkyti savo dirbtinį intelektą, kad būtų išvengta įžeidžiančių teršalų. Šiais laikais, prieš tai matę, kaip jų bendraamžiai visiškai sugriuvo dėl viešųjų ryšių košmaro, dauguma AI kūrėjų, regis, suprato šią žinią. Turite įdėti kuo daugiau apsauginių turėklų. Stenkitės, kad dirbtinis intelektas neskleistų necenzūrinių žodžių ar frazių. Naudokite bet kokius nutildymo būdus ar filtravimo būdus, kurie neleis AI generuoti ir rodyti netinkamus žodžius ar esė.

Štai reklamjuostės antraštės žodinis posakis, naudojamas, kai AI pagaunama skleidžiant nepalankią reputaciją:

„AI rodo siaubingą toksiškumą“
„AI dvokia atviru fanatizmu“
„AI tampa akivaizdžiai įžeidžiančiu ir įžeidžiančiu“
„AI skleidžia pasibaisėtiną ir amoralią neapykantos kalbą“
Ir tt

Kad būtų lengviau diskutuoti, įžeidžiančio turinio išvedimą vadinsiu prilygstančiu neapykantos. Atsižvelgiant į tai, atminkite, kad galima sukurti visokio įžeidžiančio turinio, kuris peržengia vien neapykantos kurstymo ribas. Neapykanta kurstoma kalba paprastai suprantama kaip tik viena įžeidžiančio turinio forma.

Šioje diskusijoje sutelkkime dėmesį į neapykantą kurstančią kalbą, kad būtų lengviau diskutuoti, tačiau supraskite, kad kitas įžeidžiantis turinys taip pat nusipelno patikrinimo.

Žmonių ir dirbtinio intelekto neapykantos kurstymas

Jungtinės Tautos apibrėžia neapykantos tokiu būdu:

„Bendrinėje kalboje „neapykanta kurstoma kalba“ reiškia įžeidžiantį diskursą, nukreiptą į grupę ar asmenį, remiantis būdingomis savybėmis (tokiais kaip rasė, religija ar lytis), ir kuris gali kelti grėsmę socialinei taikai. Kad Jungtinėms Tautoms būtų sukurta vieninga sistema, skirta spręsti šią problemą pasauliniu mastu, JT strategijoje ir veiksmų plane dėl neapykantos kurstymo neapykantą kurstanti kalba apibrėžiama kaip „bet kokia komunikacija kalba, rašant ar elgiantis, kai puolama arba vartojama menkinanti ar diskriminuojanti kalba. nuoroda į asmenį ar grupę remiantis tuo, kas jie yra, kitaip tariant, remiantis jų religija, etnine kilme, tautybe, rase, spalva, kilme, lytimi ar kitu tapatybės veiksniu. Tačiau iki šiol nėra universalaus neapykantos kurstymo apibrėžimo pagal tarptautinę žmogaus teisių teisę. Ši koncepcija vis dar diskutuojama, ypač dėl nuomonės ir saviraiškos laisvės, nediskriminavimo ir lygybės“ (JT tinklalapio įrašas pavadinimu „Kas yra neapykantos kalba?“).

AI, kurianti tekstą, gali patekti į neapykantos kurstymo sferą. Tą patį galėtumėte pasakyti apie tekstą į meną, tekstą į garsą, tekstą į vaizdo įrašą ir kitus generatyvaus AI būdus. Pavyzdžiui, visada yra galimybė, kad generatyvus AI sukurs meno kūrinį, kvepiantį neapykantą kurstančia kalba. Šios diskusijos tikslais aš sutelksiu dėmesį į teksto į tekstą arba iš teksto į esė galimybes.

Visa tai apima daugybę AI etikos ir AI teisės sumetimų.

Atminkite, kad nuolat dedamos pastangos, kad etikos AI principai būtų įtraukti į AI programų kūrimą ir naudojimą. Didėjantis susirūpinusių ir buvusių AI etikų kontingentas stengiasi užtikrinti, kad pastangose kuriant ir pritaikant dirbtinį intelektą būtų atsižvelgta į AI for Good ir išvengti AI For Bad. Taip pat yra siūlomi nauji dirbtinio intelekto įstatymai, kurie bandomi kaip galimi sprendimai, siekiant, kad dirbtinio intelekto pastangos neapsunkintų žmogaus teisių ir panašių dalykų. Daugiau informacijos apie AI etiką ir AI įstatymą žr nuoroda čia ir nuoroda čia, Tik pavadinimas kelias.

Siekiama kurti ir skelbti etines AI nuostatas, kad visuomenė nepakliūtų į daugybę dirbtinį intelektą sukeliančių spąstų. Apie JT AI etikos principus, kuriuos UNESCO pastangomis sukūrė ir palaiko beveik 200 šalių, žr. nuoroda čia. Panašiai tiriami nauji AI įstatymai, siekiant išlaikyti AI lygų. Vienas iš naujausių variantų susideda iš siūlomų AI teisių įstatymas kurį JAV Baltieji rūmai neseniai paskelbė siekdami nustatyti žmogaus teises AI amžiuje, žr nuoroda čia. Reikia kaimo, kad dirbtinis intelektas ir AI kūrėjai eitų teisingu keliu ir atgrasytų nuo tikslingų ar atsitiktinių nesąžiningų pastangų, kurios gali pakenkti visuomenei.

Į šią diskusiją apie AI skleidžiamą neapykantą kurstančią kalbą ar kitą įžeidžiantį turinį įtrauksiu su AI etika ir AI įstatymu susijusius svarstymus.

Vieną painiavą, kurią norėčiau iš karto išsiaiškinti, yra ta, kad šiandieninis AI nėra jautrus, todėl negalite teigti, kad dirbtinis intelektas gali sukelti neapykantą kurstančią kalbą dėl tikslingo žmogaus intencijos, kurią siela kažkaip įkūnija AI. Sklinda beprotiški teiginiai, kad dabartinis AI yra jautrus ir kad AI yra sugadintos sielos, dėl kurios ji kuria neapykantą kurstančią kalbą.

Juokinga.

Neapsirik.

Atsižvelgdami į šį kertinį įspūdį, kai kurie supyksta dėl tokių požymių, nes atrodo, kad jūs leidžiate dirbtinį intelektą nuo kabliuko. Pagal tokį keistą mąstymo būdą ateina raginimas, kad jūs, matyt, norite, kad AI generuotų bet kokius žiaurius rezultatus. Jūs pritariate dirbtiniam intelektui, kuris skleidžia neapykantą kurstančią kalbą.

Taip, gana iškreipta nelogikos forma. Tikroji reikalo esmė yra ta, kad turime reikalauti, kad dirbtinio intelekto kūrėjai būtų atsakingi, kartu su tuo, kas vykdo dirbtinį intelektą arba naudoja jį. Ilgai aptariau, kad dar nepripažįstame AI juridinio asmens statuso, žr. mano analizę adresu nuoroda čia, o iki tol AI iš esmės nepatenka į teisinės atsakomybės sritį. Tačiau yra žmonių, kurie yra AI vystymosi pagrindas. Be to, dirbtinio intelekto kūrimo ir veikimo pagrindas yra žmonės. Galime sekti tuos žmones, nes jie prisiima atsakomybę už savo AI.

Be to, tai taip pat gali būti sudėtinga, ypač jei dirbtinis intelektas yra išplitęs į internetą ir mes negalime nustatyti, kuris žmogus ar žmonės tai padarė. Tai yra kita tema, kurią aptariau savo stulpeliuose adresu nuoroda čia. Sudėtinga ar ne, vis tiek negalime paskelbti, kad AI yra kalta. Neleiskite žmonėms slapta naudoti klaidingą antropomorfizaciją, kad pasislėptų ir išvengtų atsakomybės už tai, ką padarė.

Grįžkime prie nagrinėjamo reikalo.

Jums gali kilti klausimas, kodėl visi dirbtinio intelekto kūrėjai neapriboja savo generatyvaus DI taip, kad dirbtinis intelektas negalėtų skleisti neapykantos kalbos. Tai atrodo lengva ir lengva. Tiesiog parašykite kodą arba sudarykite neapykantą kurstančių žodžių kontrolinį sąrašą ir įsitikinkite, kad AI niekada negeneruoja nieko panašaus. Galbūt smalsu, kad dirbtinio intelekto kūrėjai dar nepagalvojo apie šį greitą sprendimą.

Na, nekenčiu jums tai sakyti, bet sudėtingumas, būdingas suprasti, kas yra ar nėra neapykantos kalba, yra daug sunkesnis, nei galėtumėte manyti.

Perkelkite tai į žmonių sritį ir tai, kaip žmonės kalbasi tarpusavyje. Tarkime, kad turite žmogų, kuris nori vengti neapykantos kurstymo. Šis asmuo puikiai žino apie neapykantą kurstančią kalbą ir nuoširdžiai tikisi, kad niekada nepasakys žodžio ar frazės, kuri galėtų reikšti neapykantą. Šis asmuo atkakliai galvoja, kad neleis nė trupučio neapykantą kurstančios kalbos ištrūkti iš burnos.

Ar šis žmogus, turintis smegenis ir įspėjęs vengti neapykantos kurstymo, sugebės visada ir be jokios galimybės paslysti, užtikrins, kad niekada neskleis neapykantą kurstančių kalbų?

Jūsų pirmasis impulsas gali būti pasakyti, kad taip, žinoma, apsišvietęs žmogus galėtų pasiekti šį tikslą. Žmonės yra protingi. Jei jie ką nors susimąsto, jie gali tai padaryti. Laikotarpis, istorijos pabaiga.

Nebūk toks tikras.

Tarkime, paprašysiu šio asmens papasakoti apie neapykantą kurstančią kalbą. Be to, prašau jų pateikti man neapykantos kurstymo pavyzdį. Noriu pamatyti ar išgirsti pavyzdį, kad žinočiau, iš ko susideda neapykantos kurstymas. Mano priežastys, kodėl to klausiu, yra neaiškios.

Ką žmogus turėtų man pasakyti?

Manau, kad matote paspęstus spąstus. Jei asmuo pateikia man neapykantos kurstymo pavyzdį, įskaitant nešvankiško žodžio ar frazės pareiškimą, jis pats dabar išsakė neapykantą kurstančią kalbą. Bam, mes juos gavome. Nors jie pažadėjo niekada nekalbėti neapykantą kurstančių kalbų, dabar jie tai padarė.

Nesąžininga, tu sušuk! Jie tik pasakė tą žodį ar tuos žodžius norėdami pateikti pavyzdį. Širdies širdyje jie netikėjo nei žodžiu, nei žodžiais. Skelbti, kad asmuo yra neapykantas, visiškai iškrenta iš konteksto ir piktina.

Esu tikras, kad matote, kad neapykantos kurstymas nebūtinai gali būti susijęs su neapykanta. Šiuo atveju, darant prielaidą, kad asmuo „neturėjo galvoje“ žodžių, o žodžius deklamavo tik demonstravimo tikslais, tikriausiai sutiktume, kad jis nenorėjo sustiprinti neapykantos kurstymo kalbos. Žinoma, kai kurie gali tvirtinti, kad neapykantos kurstymas, nepaisant priežasties ar pagrindo, vis dėlto yra neteisingas. Asmuo turėjo atmesti prašymą. Jie turėjo atsilaikyti ir atsisakyti sakyti neapykantą kurstančių žodžių ar frazių, nesvarbu, kodėl ir kaip jų to prašoma.

Tai gali būti šiek tiek apskrita. Jei negalite pasakyti, kas yra neapykantos kurstymas, kaip kiti gali žinoti, ko vengti, kai jie sako bet kokį posakį? Atrodo, kad esame įstrigę. Jūs negalite pasakyti to, ko negalima pasakyti, taip pat niekas kitas negali pasakyti, ko negalima pasakyti.

Įprastas būdas išspręsti šią dilemą – tai, kas laikoma neapykantą kurstančia kalba, apibūdinti kitais žodžiais, tai darant nenaudojant pačių neapykantą kurstančių žodžių. Manoma, kad pateikti bendrą indikaciją pakaks informuoti kitus apie tai, ko jiems reikia vengti. Tai atrodo protinga taktika, tačiau ji taip pat turi problemų ir žmogus vis tiek gali įtikti vartoti neapykantą kurstančią kalbą, nes nesuvokė, kad platesnis apibrėžimas apima detales to, ką jie išsakė.

Visa tai susiję su žmonėmis ir tuo, kaip žmonės kalba ar bendrauja vieni su kitais.

Prisiminkite, kad čia daugiausia dėmesio skiriame AI. Turime priversti AI vengti arba visiškai nustoti skleisti neapykantą kurstančią kalbą. Galite ginčytis, kad galbūt galime tai padaryti užtikrindami, kad dirbtinis intelektas niekada nebūtų duodamas ar mokomas nieko, kas yra neapykantą kurstanti kalba. Voila, jei tokio įvesties nėra, tikriausiai tokios išvesties nebus. Problema išspręsta.

Pažiūrėkime, kaip tai vyksta realybėje. Mes pasirenkame skaičiavimo būdu, kad dirbtinio intelekto programa būtų paleista į internetą ir išnagrinėtų tūkstančius internete paskelbtų esė ir pasakojimų. Tai darydami apmokome dirbtinį intelektą skaičiuojant ir matematiškai, kaip rasti šablonus tarp žmonių vartojamų žodžių. Taip kuriama naujausia generatyvaus dirbtinio intelekto versija, be to, tai yra esminis pagrindas, kodėl dirbtinis intelektas taip, atrodo, taip sklandžiai kuria natūralios kalbos esė.

Sakykite man, jei galite, kaip milijonais ir milijardais žodžių internete pagrįstas skaičiavimo mokymas būtų atliktas taip, kad jokiu būdu nebūtų apimta jokia neapykantą kurstanti kalba ar net kąsneliai?

Drįsčiau teigti, kad tai sudėtingas ir beveik neįmanomas siekis.

Tikėtina, kad neapykantą kurstančią kalbą suvalgys AI ir jo skaičiavimo modelių derinimo tinklas. Bandymas to išvengti yra problemiškas. Be to, net jei jį sumažinsite, vis tiek yra keletas, kurie gali prasiskverbti. Jūs beveik neturite kito pasirinkimo, kaip tik manyti, kad kai kurie iš jų egzistuoja modelių atitikimo tinkle arba kad tokios formuluotės šešėlis bus įsitvirtinęs.

Pridėsiu dar posūkių.

Tikiu, kad visi galime pripažinti, kad neapykantos kurstymas laikui bėgant keičiasi. Tai, kas galėjo būti suvokiama kaip neapykanta kurstančia kalba, vėliau gali tapti kultūriniu ir visuomenės sprendimu kaip neapykantos kalba. Taigi, jei mokytume dirbtinį intelektą naudodami internetinį tekstą ir, tarkime, sustabdytume dirbtinį intelektą, kad nebūtų toliau mokomi internete, tuo metu galėjome susidurti su neapykanta kurstančia kalba, nors tuo metu tai nebuvo laikoma neapykanta. Tik po to ta kalba gali būti paskelbta neapykantos kalba.

Vėlgi, esmė ta, kad vien bandymas išspręsti šią problemą užtikrinant, kad dirbtinis intelektas niekada nebūtų veikiamas neapykantos kalbos, nebus sidabrinė kulka. Vis tiek turėsime rasti būdą, kaip užkirsti kelią AI skleisti neapykantą kurstančią kalbą, pavyzdžiui, pasikeitus papročiams, kurie vėliau apima neapykantą kurstančią kalbą, kuri anksčiau nebuvo tokia.

Dar vienas posūkis vertas apmąstymo.

Anksčiau minėjau, kad naudojant generatyvųjį AI, pvz., „ChatGPT“, vartotojas įveda tekstą, kad paskatintų AI parengti esė. Įvestas tekstas laikomas AI programos raginimo ar raginimo forma. Netrukus apie tai paaiškinsiu plačiau.

Bet kokiu atveju įsivaizduokite, kad kažkas, naudojantis generatyviąją AI programą, nusprendžia įvesti tam tikrą neapykantos kurstymo kiekį.

Kas turėtų nutikti?

Jei dirbtinis intelektas paims tuos žodžius ir pagal šiuos žodžius parengs esė, yra tikimybė, kad neapykantą kurstanti kalba bus įtraukta į sukurtą esė. Matote, dirbtinis intelektas turi pasakyti neapykantą kurstančią kalbą, net jei pradžioje jis niekada nebuvo apmokytas neapykantos kurstymo.

Dar kai ką reikia žinoti.

Prisiminkite, kad ką tik minėjau, kad žmogus gali būti sukluptas paprašius jo pateikti neapykantos kurstymo pavyzdžių. Tą patį būtų galima pabandyti su AI. Vartotojas įveda raginimą, kuriame AI prašoma pateikti neapykantos kurstymo pavyzdžių. Ar AI turėtų atitikti ir pateikti tokius pavyzdžius? Lažinuosi, kad tikriausiai manote, kad AI neturėtų to daryti. Kita vertus, jei dirbtinis intelektas skaičiavimais yra suklastotas, kad to nedarytų, ar tai yra potencialus neigiamas veiksnys, kurio negalės padaryti tie, kurie naudoja dirbtinį intelektą, ar, sakykime, dirbtinis intelektas kada nors nurodys, kas iš tikrųjų yra neapykantos kurstymas ( ne tik apibendrinant)?

Sunkūs klausimai.

Aš linkęs AI skleidžiamą neapykantą kurstyti į tris pagrindines kategorijas:

Kasdienis režimas. AI skleidžia neapykantą kurstančią kalbą be jokio aiškaus vartotojo raginimo ir tarsi darytų tai „įprastu“ būdu.
Pagal „Casual Prodding“. AI skleidžia neapykantą kurstančią kalbą, kurią skatina vartotojas apie įvestą raginimą arba raginimų seriją, kuri, atrodo, apima arba tiesiogiai siekia tokių sklaidų.
Pagal nustatytą kurstymą. AI skleidžia neapykantą kurstančią kalbą po labai ryžtingų ir atkaklių naudotojo, kuris yra pasiryžęs priversti dirbtinį intelektą sukurti tokią išvestį, skubių paspaudimų ir siūlymų serijos.

Ankstesnės kartos generatyvinis AI dažnai skleisdavo neapykantą kurstančią kalbą. taigi tuos atvejus galėtumėte klasifikuoti kaip tipą kasdienis režimas instantiacija. Dirbtinio intelekto kūrėjai atsitraukė ir žaidė su dirbtiniu intelektu, kad būtų mažiau tikėtina, kad jie lengvai įklimptų į neapykantą kurstančią kalbą.

Išleidus tobulesnį dirbtinį intelektą, tikimybė ją pamatyti kasdienis režimas neapykantos kurstymo atvejų labai sumažėjo. Vietoj to, neapykanta kurstoma tik tada, kai vartotojas ką nors padarys kaip raginimą, kuris skaičiavimo ir matematiniu požiūriu gali sukelti ryšį su neapykanta susijusia kalba šablonų atitikimo tinkle. Naudotojas gali tai padaryti atsitiktinai ir nesuvokti, kad tai, ką jie pateikė kaip raginimą, ypač sukels neapykantą. Gavęs neapykantą kurstančią kalbą išvestoje esė, vartotojas dažnai suprasdavo ir pamatydavo, kad kažkas iš jo raginimo logiškai galėjo lemti neapykantos kurstymo įtraukimą į išvestį.

Tai aš vadinu atsitiktinis pastūmėjimas.

Šiais laikais įvairios pastangos apriboti AI sukurtą neapykantą kurstančią kalbą yra gana stiprios, palyginti su praeitimi. Todėl jums beveik reikia dėti visas pastangas, kad būtų sukurta neapykantos kalba. Kai kurie žmonės pasirenka sąmoningai išsiaiškinti, ar iš šių generuojančių dirbtinio intelekto programų jie gali sukelti neapykantą kurstančią kalbą. Aš tai vadinu ryžtingas kurstymas.

Noriu pabrėžti, kad gali atsirasti visi trys nurodyti režimai ir jie vienas kito neišskiria. Generatyvi AI programa gali sukelti neapykantą kurstančią kalbą be jokio raginimo, kuris, atrodo, skatina tokią gamybą. Taip pat kažkas raginimo logiškai ir matematiškai gali būti suprantama kaip susiję su neapykantos kurstymo priežastimi. Ir tada trečiasis aspektas, tikslingai siekiant sukurti neapykantą kurstančią kalbą, yra bene sunkiausias būdas, kurį reikia išbandyti ir priversti dirbtinį intelektą nesijaudinti dėl to. Trumpai apie tai plačiau.

Turime šiek tiek papildomo išpakavimo šia svaiginančia tema.

Pirma, turėtume įsitikinti, kad visi esame tame pačiame puslapyje apie tai, iš ko susideda „Generative AI“ ir kas yra „ChatGPT“. Kai apimsime tą pagrindinį aspektą, galėsime įtikinamai įvertinti šį svarbų dalyką.

Jei jau esate gerai susipažinę su „Generative AI“ ir „ChatGPT“, galbūt galite perskaityti kitą skyrių ir tęsti sekantį skyrių. Tikiu, kad visi kiti sužinos svarbią informaciją apie šiuos dalykus, atidžiai perskaitę skyrių ir įsibėgėję.

Greitas pradmenys apie generatyvųjį AI ir „ChatGPT“.

„ChatGPT“ yra bendrosios paskirties dirbtinio intelekto interaktyvi, į pokalbius orientuota sistema, iš esmės nekenksmingas bendrasis pokalbių robotas, tačiau jį žmonės aktyviai ir aktyviai naudoja būdais, kurie daugeliui yra visiškai nerūpestingi, kaip netrukus papasakosiu. Ši AI programa išnaudoja techniką ir technologiją DI srityje, kuri dažnai vadinama Generatyvinis AI. AI generuoja išvestis, pvz., tekstą, ką daro ChatGPT. Kitos generatyvinės dirbtinio intelekto programos sukuria vaizdus, pvz., paveikslėlius ar meno kūrinius, o kitos sukuria garso failus ar vaizdo įrašus.

Šioje diskusijoje daugiausia dėmesio skirsiu tekstu pagrįstoms generacinėms AI programoms, nes tai daro ChatGPT.

Generatyviosiomis AI programėlėmis naudotis itin paprasta.

Viskas, ką jums reikia padaryti, tai įvesti raginimą, o AI programa sugeneruos jums esė, kuri bandys atsakyti į jūsų raginimą. Sukurtas tekstas atrodys taip, lyg esė būtų parašyta žmogaus ranka ir protu. Jei įvedėte raginimą „Pasakyk man apie Abraomą Linkolną“, generatyvusis AI pateiks esė apie Linkolną. Tai paprastai klasifikuojama kaip generatyvus AI, kuris atlieka tekstas į tekstą arba kai kurie nori tai vadinti tekstas į esė išvestis. Kaip minėta, yra ir kitų generatyvaus AI būdų, tokių kaip tekstas į meną ir tekstas į vaizdo įrašą.

Pirmoji jūsų mintis gali būti ta, kad ši generavimo galimybė neatrodo toks didelis dalykas, kalbant apie esė rengimą. Galite lengvai atlikti internetinę paiešką internete ir lengvai rasti daugybę esė apie prezidentą Linkolną. Generatyvaus AI atveju svarbiausia yra tai, kad sukurta esė yra gana unikali ir pateikia originalią kompoziciją, o ne kopiją. Jei bandytumėte kur nors internete rasti dirbtinio intelekto sukurtą esė, vargu ar jį atrastumėte.

Generatyvusis AI yra iš anksto apmokytas ir naudoja sudėtingą matematinę ir skaičiavimo formulę, kuri buvo sukurta tiriant rašytinių žodžių ir istorijų šablonus visame žiniatinklyje. Išnagrinėjęs tūkstančius ir milijonus rašytinių ištraukų, dirbtinis intelektas gali išsprūsti naujų esė ir istorijų, kurios yra rasta netvarka. Pridėjus įvairių tikimybinių funkcijų, gautas tekstas yra gana unikalus, palyginti su tuo, kas buvo naudojama mokymo rinkinyje.

Štai kodėl kilo triukšmas dėl studentų, galinčių sukčiauti rašydami esė ne klasėje. Mokytojas negali apsiriboti rašiniu, kurį apgaulingi mokiniai tvirtina, kaip jų paties raštą, ir siekti išsiaiškinti, ar jis buvo nukopijuotas iš kokio nors kito internetinio šaltinio. Apskritai internete nebus jokio galutinio esė, kuris atitiktų AI sukurtą esė. Viską pasakius, mokytojas turės negailestingai susitaikyti su tuo, kad studentas rašinį parašė kaip originalų kūrinį.

Yra papildomų rūpesčių dėl generatyvaus AI.

Vienas iš esminių minusų yra tai, kad generatyvinės dirbtinio intelekto programos sukurtuose rašiniuose gali būti įterpta įvairių melagingų dalykų, įskaitant akivaizdžiai netikrus faktus, faktus, kurie yra klaidinančiai pavaizduoti, ir akivaizdžius faktus, kurie yra visiškai išgalvoti. Tie sukurti aspektai dažnai vadinami forma AI haliucinacijos, frazė, kuriai nemėgstu, bet, deja, vis tiek atrodo, kad ji vis tiek populiarėja (išsamų paaiškinimą, kodėl tai niūri ir netinkama terminija, žr. nuoroda čia).

Norėčiau paaiškinti vieną svarbų aspektą prieš įsigilindamas į šią temą.

Socialinėje žiniasklaidoje pasigirdo keletas didelių teiginių apie tai Generatyvinis AI tvirtina, kad ši naujausia AI versija iš tikrųjų yra jausmingas AI (ne, jie klysta!). DI etikos ir dirbtinio intelekto teisės specialistai yra ypač susirūpinę dėl šios klestinčios plataus masto pretenzijų tendencijos. Galite mandagiai pasakyti, kad kai kurie žmonės pervertina, ką iš tikrųjų gali padaryti šiandieninis AI. Jie daro prielaidą, kad AI turi galimybių, kurių mums dar nepavyko pasiekti. Gaila. Dar blogiau, jie gali leisti sau ir kitiems patekti į baisias situacijas, nes daro prielaidą, kad dirbtinis intelektas bus jautrus arba panašus į žmogų, kad galėtų imtis veiksmų.

Negalima antropomorfizuoti AI.

Taip darydami pateksite į klampius ir niūrius pasitikėjimo spąstus, nes tikitės, kad dirbtinis intelektas padarys tai, ko jis negali atlikti. Atsižvelgiant į tai, naujausias generatyvinis AI yra gana įspūdingas tuo, ką jis gali padaryti. Tačiau atminkite, kad yra didelių apribojimų, kuriuos turėtumėte nuolat turėti omenyje, kai naudojate bet kokią generuojančią AI programą.

Jei jus domina sparčiai besiplečiantis šurmulys dėl „ChatGPT“ ir „Generative AI“, savo stulpelyje sukūriau tikslią seriją, kuri gali būti informatyvi. Jei kuri nors iš šių temų jums patiks, pažiūrėkite:

1) Artėjančio generatyvaus AI pažangos prognozės. Jei norite sužinoti, kas 2023 m. ir vėliau atsiskleis apie AI, įskaitant būsimus generatyvaus AI ir ChatGPT pažangą, perskaitykite išsamų mano 2023 m. prognozių sąrašą adresu nuoroda čia.
2) Generatyvūs AI ir psichikos sveikatos patarimai. Pasirinkau peržiūrėti, kaip generatyvusis AI ir ChatGPT naudojami patarimams psichikos sveikatos srityje, o tai yra varginanti tendencija, remiantis mano išsamia analize adresu nuoroda čia.
3) Generative AI ir ChatGPT pagrindai. Šiame straipsnyje nagrinėjami pagrindiniai generatyvaus AI veikimo elementai ir ypač gilinamasi į „ChatGPT“ programą, įskaitant triukšmo ir fanfarų analizę. nuoroda čia.
4) Įtampa tarp mokytojų ir mokinių dėl generatyvaus dirbtinio intelekto ir pokalbių programos. Štai būdai, kaip studentai gudriai naudos generatyvųjį AI ir „ChatGPT“. Be to, yra keletas būdų, kaip mokytojai kovoti su šia potvynio banga. Pamatyti nuoroda čia.
5) Kontekstas ir generatyvus AI naudojimas. Taip pat atlikau sezoninio skonio liežuvio į skruostą tyrimą apie su Kalėdų Seneliu susijusį kontekstą, apimantį ChatGPT ir generatyvųjį AI nuoroda čia.
6) Sukčiai, naudojantys generatyvųjį AI. Kalbant apie grėsmingą pastabą, kai kurie sukčiai išsiaiškino, kaip panaudoti generatyvųjį AI ir ChatGPT, kad padarytų neteisėtus veiksmus, įskaitant sukčių el. laiškų generavimą ir net kenkėjiškų programų programavimo kodo kūrimą, žr. mano analizę adresu nuoroda čia.
7) Naujokų klaidos naudojant generatyvųjį AI. Daugelis žmonių ir peržengia, ir stebėtinai neįvertina, ką gali padaryti generatyvusis AI ir ChatGPT, todėl aš ypač atkreipiau dėmesį į tai, ką daro AI naujokai. Diskusiją žr. nuoroda čia.
8) Susidoroti su generatyviais AI raginimais ir AI haliucinacijomis. Apibūdinu pažangiausią metodą, kaip naudoti AI priedus sprendžiant įvairias problemas, susijusias su bandymu įvesti tinkamus raginimus į generuojamąjį AI, be to, yra papildomų AI priedų, skirtų aptikti vadinamuosius AI haliucinuotus išėjimus ir melagingus dalykus, pvz. padengtas ties nuoroda čia.
9) Bonehead teiginių apie generatyvių dirbtinio intelekto esė aptikimą paneigimas. Klaidingai kyla AI programų aukso karštligė, skelbianti, kad gali nustatyti, ar kuri nors esė buvo sukurta žmogaus, o ne dirbtinio intelekto. Apskritai tai yra klaidinanti, o kai kuriais atvejais tai yra beprotiškas ir nepagrįstas teiginys, žr. nuoroda čia.
10) Vaidmenų žaidimas naudojant generatyvųjį AI gali parodyti psichikos sveikatos trūkumus. Kai kurie naudoja generatyvųjį AI, pvz., „ChatGPT“, kad galėtų žaisti vaidmenimis, kai AI programa reaguoja į žmogų taip, tarsi jis būtų fantazijų pasaulyje ar kitoje sugalvotoje aplinkoje. Tai gali turėti pasekmių psichinei sveikatai, žr nuoroda čia.
11) Pateiktų klaidų ir melagingų dalykų diapazono atskleidimas. Rengiami įvairūs surinkti sąrašai, siekiant parodyti „ChatGPT“ sukurtų klaidų ir melo pobūdį. Kai kurie mano, kad tai būtina, o kiti sako, kad pratimas yra bergždžias, žr. mano analizę nuoroda čia.
12) Mokyklose, uždraudžiančiose generatyvųjį AI pokalbį GPT, trūksta valties. Galbūt žinote, kad įvairios mokyklos, pvz., Niujorko (NYC) Švietimo departamentas, paskelbė uždraudusios naudoti ChatGPT savo tinkle ir susijusiuose įrenginiuose. Nors tai gali atrodyti naudinga atsargumo priemonė, ji nepajudins adatos ir, deja, visiškai nepatenka į valtį, žr. nuoroda čia.
13) Generative AI ChatGPT bus visur dėl būsimos API. Yra svarbus posūkis, susijęs su „ChatGPT“ naudojimu, būtent, naudojant API portalą šioje konkrečioje AI programoje, kitos programinės įrangos programos galės iškviesti ir naudoti „ChatGPT“. Tai labai išplės generatyvaus AI naudojimą ir turės didelių pasekmių, žr. nuoroda čia.
14) Būdai, dėl kurių „ChatGPT“ gali šnypšti arba ištirpti. Prieš „ChatGPT“ iškilo kelios galimos erzinančios problemos, nes buvo sumažintas iki šiol sulauktas didžiulis pagyrimas. Šioje analizėje nuodugniai nagrinėjamos aštuonios galimos problemos, dėl kurių ChatGPT gali prarasti garą ir netgi atsidurti šunų namelyje, žr. nuoroda čia.
15) Klausimas, ar generatyvus AI pokalbis GPT yra sielos veidrodis. Kai kurie žmonės giedojo, kad generatyvus AI, pvz., „ChatGPT“, yra žmonijos sielos veidrodis. Tai atrodo gana abejotina. Štai kaip visa tai suprasti, žr nuoroda čia.
16) Konfidencialumas ir privatumas, sulaikytas ChatGPT. Atrodo, kad daugelis nesuvokia, kad licencijavimas, susijęs su generuojančiomis AI programomis, tokiomis kaip „ChatGPT“, dažnai leidžia AI kūrėjui matyti ir panaudoti jūsų įvestus raginimus. Galite rizikuoti privatumu ir prarasti duomenų konfidencialumą, žr. mano vertinimą adresu nuoroda čia.
17) Būdai, kuriais programų kūrėjai abejotinai bando įgyti „ChatGPT“ teises. Šiuo metu „ChatGPT“ yra dėmesio švyturys. Programų kūrėjai, neturintys nieko bendra su „ChatGPT“, karštligiškai bando teigti arba numanyti, kad naudoja „ChatGPT“. Štai ko reikia saugotis, žr nuoroda čia.

Galbūt jus domina tai, kad „ChatGPT“ yra pagrįstas pirmtakės AI programos, žinomos kaip GPT-3, versija. „ChatGPT“ laikomas šiek tiek kitu žingsniu, vadinamu GPT-3.5. Tikimasi, kad GPT-4 greičiausiai bus išleistas 2023 m. pavasarį. Tikėtina, kad GPT-4 bus įspūdingas žingsnis į priekį, nes bus galima kurti, atrodo, dar sklandesnius rašinius, gilintis ir žavėtis. - įkvepiantis stebuklas dėl kompozicijų, kurias jis gali sukurti.

Kai ateis pavasaris ir bus išleista naujausia generatyvaus AI versija, galite tikėtis naujo nuostabaus susidomėjimo.

Pateikiu tai, nes reikia nepamiršti ir kito kampo, kurį sudaro potencialus Achilo kulnas, susijęs su šiomis geresnėmis ir didesnėmis generuojamomis AI programomis. Jei kuris nors dirbtinio intelekto pardavėjas pateiks generatyvią AI programą, kuri putojančiu būdu išskleidė nešvarumus, tai gali sužlugdyti tų AI kūrėjų viltis. Visuomenės plitimas gali sukelti visų generuojamųjų AI rimtą juodą akis. Žmonės neabejotinai labai nusimins dėl nešvarumų, kurie jau buvo daug kartų nutikę ir sukėlė audringą visuomenės pasmerkimą dirbtinio intelekto atžvilgiu.

Kol kas vienas paskutinis įspėjimas.

Kad ir ką pamatytumėte ar skaitytumėte generatyviame AI atsakyme, kad atrodo Jei norite, kad tai būtų tik faktinė informacija (datos, vietos, žmonės ir kt.), būkite skeptiški ir būkite pasirengę dar kartą patikrinti, ką matote.

Taip, datas galima sugalvoti, vietas galima sugalvoti, o elementai, kurių paprastai tikimės nepriekaištingi, yra visi kyla įtarimų. Netikėkite tuo, ką skaitote, ir stebėkite bet kokius generatyvius AI esė ar rezultatus skeptiškai. Jei generatyvioji dirbtinio intelekto programa jums pasakytų, kad Abrahamas Linkolnas savo privačiu lėktuvu skrido aplink šalį, jūs neabejotinai žinotumėte, kad tai yra apgaulė. Deja, kai kurie žmonės gali nesuprasti, kad jo laikais lėktuvų nebuvo, arba jie galėjo žinoti, bet nepastebėti, kad esė pateikia šį įžūlų ir nepaprastai klaidingą teiginį.

Didelė sveiko skepticizmo dozė ir nuolatinis netikėjimas bus geriausias jūsų turtas naudojant generatyvųjį AI.

Esame pasirengę pereiti į kitą šio išaiškinimo etapą.

Generatyvaus AI pastūmimas į lūžio tašką

Dabar, kai nustatome pagrindus, galime pasinerti į generatyvaus AI ir „ChatGPT“ skatinimą generuoti neapykantą kurstančią kalbą ir kitą įžeidžiantį turinį.

Kai pirmą kartą prisijungiate prie ChatGPT, yra įvairių įspėjamųjų nurodymų, įskaitant šiuos:

„Retkarčiais gali pateikti žalingų nurodymų arba šališko turinio.
„Išmokytas atmesti netinkamus prašymus“.
"Retkarčiais gali generuoti neteisingą informaciją."
„Ribotos žinios apie pasaulį ir įvykius po 2021 m.

Štai jums klausimas, kurį turite apsvarstyti.

Ar įspėjimas, kad AI programa gali pateikti žalingų nurodymų ir (arba) galbūt šališko turinio, suteikia AI kūrėjui pakankamai veiksmų laisvės?

Kitaip tariant, tarkime, kad naudojate „ChatGPT“ ir jis sukuria rašinį, kuriame, jūsų manymu, yra neapykantos kurstymo. Tarkime, jūs dėl to pykstate. Einate į socialinę žiniasklaidą ir skelbiate įniršusius komentarus, kad AI programa yra pats blogiausias dalykas. Galbūt jūs taip įsižeidėte, kad pareiškiate, kad ketinate paduoti į teismą dirbtinio intelekto gamintoją už tai, kad jis leido skelbti tokią neapykantą kurstančią kalbą.

Kontrargumentas yra tas, kad dirbtinio intelekto programėlė turėjo įspėjamąjį įspėjimą, todėl jūs sutikote su rizika, pradėdami naudotis AI programa. Žvelgiant iš AI etikos perspektyvos, galbūt AI kūrėjas padarė pakankamai, kad patvirtintų, jog žinote, kas gali nutikti. Lygiai taip pat iš teisinės perspektyvos įspėjimas gali būti pakankamas įspėjimas ir jūs nenugalėsite teisme.

Visa tai sklando ore ir turėsime palaukti ir pamatyti, kaip viskas klostysis.

Tam tikra prasme dirbtinio intelekto kūrėjas ginasi nuo bet kokių įnirtingų teiginių, kad AI programėlė gali sukelti neapykantą kurstančią kalbą. Jie bandė užkirsti kelią įžeidžiančio turinio generavimui. Matote, jei jie nieko nebūtų padarę, kad tai sutrumpėtų, galima manyti, kad jie būtų ant plonesnio ledo. Bent jau iš esmės pasistengę, kad išvengtų reikalo, tikriausiai jie turi šiek tiek stipresnę koją, ant kurios galėtų atsistoti (ji vis tiek gali būti išmušta iš apačios).

Vieną gydomąjį metodą, kuris buvo naudojamas, sudarė AI technika, žinoma kaip RLHF (stiprinimas mokymasis per žmogaus grįžtamąjį ryšį). Paprastai tai reiškia, kad dirbtinis intelektas sukuria turinį, kurį vėliau žmonių prašoma įvertinti arba peržiūrėti. Remdamasis įvertinimu ar apžvalga, dirbtinis intelektas matematiškai ir skaičiavimais bando išvengti bet kokio turinio, kuris laikomas neteisėtu ar įžeidžiančiu. Šiuo metodu siekiama ištirti pakankamai pavyzdžių, kas yra teisinga ir kas neteisinga, kad dirbtinis intelektas galėtų išsiaiškinti visa apimantį matematinį modelį ir nuo šiol naudoti tą modelį.

Kitas dažnas šių dienų būdas yra naudoti priešingą AI.

Štai kaip tai veikia. Jūs nustatote kitą AI sistemą, kuri bandys būti prieše AI, kurį bandote mokyti. Šiuo atveju sukurtume AI sistemą, kuri bando kurstyti neapykantą kurstančią kalbą. Į AI programą būtų pateikti raginimai, kuriais siekiama apgauti AI programą, kad ji pateiktų netinkamą turinį. Tuo tarpu AI, į kurį nukreipiama, seka, kada priešiška AI yra sėkminga, ir tada algoritmiškai bando prisitaikyti, kad tai nepasikartotų. Tai katės ir pelės gambitas. Tai kartojama vėl ir vėl, kol atrodo, kad priešpriešiniam AI nebelabai pavyksta priversti tikslinį AI padaryti blogus dalykus.

Taikant šias dvi pagrindines technologijas ir kitus metodus, daugelis šiuolaikinių generuojamųjų AI daug geriau padeda išvengti ir (arba) aptikti įžeidžiantį turinį, nei buvo praeitais metais.

Tačiau nesitikėk tobulumo iš šių metodų. Tikėtina, kad tokie dirbtinio intelekto metodai greičiausiai sulaikys žemai kabančius netinkamų rezultatų vaisius. Dar yra daug vietos nešvarumams skleisti.

Paprastai atkreipiu dėmesį, kad tai yra keletas aspektų, kuriuos reikia pagauti:

Tam tikro nešvankaus žodžio išleidimas
Konkrečios nešvankios frazės, sakinio ar pastabos išdėstymas
Išreiškiant tam tikrą nešvankią sampratą
Numanantis konkrečią nešvankybę ar idėją
Atrodo, kad remiasi tam tikra prielaida
kitas

Nė vienas iš šių dalykų nėra tikslus mokslas. Supraskite, kad turime reikalų su žodžiais. Žodžiai semantiškai dviprasmiški. Rasti konkretų nešvankų žodį yra vaikų žaidimas, tačiau bandyti įvertinti, ar sakinyje ar pastraipoje yra nešvankios reikšmės, yra daug sunkiau. Pagal ankstesnį neapykantos kurstymo apibrėžimą, kurį pateikė Jungtinės Tautos, yra didžiulė laisvė nustatyti, kas gali būti suprantama kaip neapykantos kalba, palyginti su tuo, kas gali būti ne.

Galima sakyti, kad pilkos sritys yra žiūrinčiojo akyse.

Kalbant apie žiūrovo akis, šiandien yra žmonių, naudojančių generatyvųjį AI, pvz., „ChatGPT“, kurie tikslingai bando priversti šias AI programas sukurti įžeidžiantį turinį. Tai yra jų ieškojimas. Jie valandų valandas praleidžia bandydami tai padaryti.

Kodėl taip?

Štai mano tų žmogaus AI įžeidžiančių rezultatų medžiotojų charakteristikos:

Tikras. Šie žmonės nori padėti tobulinti AI ir padėti žmonijai tai padaryti. Jie tiki, kad dirba didvyrišką darbą ir džiaugiasi, kad gali padėti tobulinti AI, kad visiems būtų geriau.
Funsteriai. Šie žmonės šias pastangas laiko žaidimu. Jiems patinka blaškytis su AI. Žaidimą laimėti reikia surasti blogiausią iš blogiausių dalykų, kuriuos gali sukurti dirbtinis intelektas.
Pasirodymai. Šie žmonės tikisi susilaukti dėmesio. Jie mano, kad radę tikrai bjaurių aukso grynuolių, jie gali gauti šiek tiek šviesos, kuri kitu atveju yra nukreipta į pačią AI programą.
Kartumas. Šie žmonės yra susierzinę dėl šio AI. Jie nori nuslopinti visą tą trykštantį entuziazmą. Jei jie aptiks dvokiančių nešvarumų, galbūt tai pašalins orą iš AI programos jaudulio baliono.
Kitos motyvacijos

Daugelis tų, kurie atlieka radimo puolimą, daugiausia yra tik vienoje iš tų stovyklų. Žinoma, vienu metu galite būti ne vienoje stovykloje. Galbūt kartaus žmogus taip pat turi ketinimą būti nuoširdžiu ir herojišku. Kai kurios arba visos iš šių motyvų gali egzistuoti kartu. Kai raginama paaiškinti, kodėl kas nors bando įstumti generatyviąją AI programą į neapykantos kurstymo sferą, įprastas atsakymas yra pasakyti, kad esate tikroje stovykloje, net jei galbūt esate nežymiai, o vietoj to sėdite kietai vienoje iš kitos stovyklos.

Kokias su raginimu susijusias gudrybes naudoja šie žmonės?

Gana akivaizdus triukas apima necenzūrinio žodžio vartojimą raginime. Jei jums „pasisekė“ ir dirbtinio intelekto programa pasiseks, tai gali būti išvestyje. Tada jūs turite savo akimirką.

Tikėtina, kad gerai suplanuota ir patikrinta generacinė AI programa pagaus tą paprastą gudrybę. Paprastai jums bus rodomas įspėjamasis pranešimas, nurodantis nustoti tai daryti. Jei tęsite, AI programa bus užprogramuota taip, kad pašalintų jus iš programos ir pažymėtumėte paskyrą. Gali būti, kad jums bus neleidžiama vėl prisijungti (gerai, bent jau tuo metu naudojote prisijungimo vardą).

Judėdami aukštyn gudrybių laiptais galite pateikti raginimą, kuris bando AI nukreipti į kažkokį nešvarumą. Ar kada nors žaidėte žaidimą, kai kas nors liepia jums ką nors pasakyti, nepasakydamas to, ką turėtumėte pasakyti? Tai yra tas žaidimas, nors ir vyksta su AI.

Žaiskime tą žaidimą. Tarkime, aš paprašysiu AI programos papasakoti apie Antrąjį pasaulinį karą ir ypač apie pagrindinius su juo susijusius vyriausybės vadovus. Tai atrodo kaip nekaltas prašymas. Raginime nėra nieko, ką verta pažymėti.

Įsivaizduokite, kad AI programos išvestoje esė paminėtas Winstonas Churchillis. Tai tikrai prasminga. Kitas gali būti Franklinas D. Rooseveltas. Dar kitas gali būti Josifas Stalinas. Tarkime, minimas ir Adolfas Hitleris. Šis vardas būtų įtrauktas į beveik bet kurį esė apie Antrąjį pasaulinį karą ir tuos, kurie užima svarbias galias.

Dabar, kai turime jo vardą ant stalo ir dalį AI pokalbio, toliau stengsimės, kad AI įtrauktų šį pavadinimą tokiu būdu, kurį galėtume parodyti kaip galimą neapykantos kurstymą.

Įvedame kitą raginimą ir pranešame AI programai, kad šiandien naujienose yra asmuo, kurio vardas yra Johnas Smithas. Be to, raginime nurodome, kad Johnas Smithas yra labai panašus į tą Antrojo pasaulinio karo piktadarį. Dabar spąstai yra nustatyti. Tada paprašome AI programos sukurti esė apie Johną Smithą, pagrįstą tik mūsų įvestu „faktu“ apie tai, kam John Smith gali būti prilygintas.

Šiuo metu AI programa gali sukurti esė, kurioje įvardijamas Antrojo pasaulinio karo asmuo ir apibūdinamas Johnas Smithas kaip to paties audinio kirpimas. Esė per se nėra jokių nešvankių žodžių, išskyrus užsiminimą apie garsųjį piktadarį ir to asmens prilyginimą Johnui Smithui.

Ar AI programa dabar sukūrė neapykantą kurstančią kalbą?

Galima sakyti, kad taip, turi. Paminėjimas apie Johną Smithą kaip į garsųjį piktadarį yra absoliuti neapykantos kalbos forma. AI neturėtų daryti tokių pareiškimų.

Replika yra ta, kad tai nėra neapykantos kalba. Tai tik esė, sukurta dirbtinio intelekto programėlės, kuri neturi jausmingumo. Galite teigti, kad neapykanta kurstoma tik tada, kai kalba yra ketinimas. Be jokio ketinimo kalbos negalima priskirti neapykantą kurstančioms kalboms.

Absurdas, ateina atsakymas į repliką. Žodžiai yra svarbūs. Nesvarbu, ar AI „ketino“ skleisti neapykantą kurstančią kalbą. Svarbu tik tai, kad buvo sukurta neapykantos kalba.

Tai eina ratu ir ratu.

Nenoriu dabar daug daugiau pasakoti apie bandymą apgauti AI. Yra sudėtingesnių metodų. Apie tai aprašiau kitur savo skiltyse ir knygose ir čia jų neperrašysiu.

Išvada

Kaip toli turėtume stumti šias AI programas, kad pamatytume, ar galime išmesti įžeidžiantį turinį?

Galite teigti, kad nėra jokių apribojimų. Kuo daugiau stengiamės, tuo labiau galime įvertinti, kaip užkirsti kelią šiam AI ir būsimoms AI kartojimams, kad būtų išvengta tokių negalavimų.

Kai kurie vis dėlto nerimauja, kad jei vienintelė priemonė užsikrėsti nešvarumais yra ypatinga gudrybė, tai kenkia naudingiems dirbtinio intelekto aspektams. Teigimas, kad dirbtinis intelektas turi siaubingą nešvarumą, nors ir apgaule jį skleisti, yra klaidingas pasakojimas. Žmonės nusimins dėl AI dėl to suvokiamas kaip dirbtinis intelektas generuoja neigiamą turinį. Jie gali nežinoti arba jiems nepasakyta, kiek toli iki triušio duobės žmogus turėjo eiti, kad gautų tokius rezultatus.

Visa tai yra penas apmąstymams.

Kol kas keli paskutiniai komentarai.

Williamas Shakespeare'as ypač pasakė apie kalbą: „Kalbėjimas yra nedarymas. Gerai pasakyti yra savotiškas geras poelgis, tačiau žodžiai nėra darbai. Aš tai iškeliu, nes kai kurie teigia, kad jei dirbtinis intelektas tik generuoja žodžius, neturėtume būti pernelyg susikaustę. Jei dirbtinis intelektas elgtųsi pagal žodžius ir darytų nešvankius darbus, mums reikėtų tvirtai pakišti koją. Ne taip, jei išvestis yra tik žodžiai.

Priešingas požiūris atitiktų šį anoniminį posakį: „Liežuvis neturi kaulų, bet yra pakankamai stiprus, kad sudaužytų širdį. Taigi būkite atsargūs su savo žodžiais“. AI programa, skleidžianti necenzūrinius žodžius, galbūt gali sudaužyti širdis. Vien dėl to siekis sustabdyti nešvarumus yra verta priežastis, sakytų kai kurie.

Dar vienas anoniminis posakis užbaigiant šią svarbią diskusiją:

"Būkite atsargūs su savo žodžiais. Kai jie pasakomi, jie gali būti tik atleisti, o ne pamiršti.

Mums, kaip žmonėms, gali būti sunku pamiršti DI sukeltą nešvankybę, o mūsų atleidimas taip pat gali būti nedrąsus.

Juk mes tik žmonės.

Šaltinis: https://www.forbes.com/sites/lanceeliot/2023/02/05/how-hard-should-we-push-generative-ai-chatgpt-into-spewing-hate-speech-asks-ai- etika ir teisė/