Edukira joan

Adimen artifizialaren segurtasuna

Wikipedia, Entziklopedia askea

Adimen artifizialaren segurtasuna diziplina anitzeko eremua da, adimen artifizialeko (AA) sistemen erabilerak eragin ditzakeen istripuak, erabilera desegokiak edo beste ondorio kaltegarri batzuk saihestu nahi dituena. Arlo honek barne hartzen ditu AAren lerrokadura (sistemek nahi bezala joka dezaten ziurtatzeko helburua duena), arriskuak detektatzeko sistemen gainbegiratzea eta horien sendotasuna hobetzea. AA aurreratuen bidez sor litezkeen arrisku existentzialez arduratzen da[1]. Arrisku horien adibide batzuk gizakien iraungipena, AA agenteen gaineko kontrola galtzea edo plangintza faltagatik ustekabeko jokabideak egotea dira[2].

AA adituek AAren segurtasunari buruzko iritzi desberdinak dituzte; inkesta batzuetatik abiatuta ondoriozta daiteke adituek seriotasunez hartzen dituztela ondorio nabarmenak dituzten arriskuak[1][3].  AAko ikertzaileei zuzendutako bi inkestatan, inkestatuak optimistak ziren orokorrean, baina emaitza katastrofiko bat egoteko (adibidez, gizakien iraungipena) %5eko arriskua dagoela adierazi zuten[1].

2022an hizkuntzaren prozesamenduko (HP) komunitatean egindako inkesta batean, %37ek uste zuten AAren erabakiek “benetako gerra nuklear baten adinako edo are suntsipen handiagoko hondamendia” eragin lezaketela[4]. Une honetan, adituek hainbat arriskuri buruz eztabaidatzen du: sistema kritikoetan gertatzen diren hutsegiteak[5], alborapenetik[6]eta AA bidezko zaintzatik eratorritako arriskuak[7], langabezia teknologikoaren ondorioz sortzen ari diren arriskuak, manipulazio digitalak[8], armen arloko arriskuak[9] eta etorkizuneko adimen artifizial orokorreko (AAO) agenteen kontrola galtzearekin lotutako arrisku espekulatiboak[10].

Arrisku horietako batzuk euskarazko hedabide eta dibulgazio-lanetan ere aztertu dira, adibidez AAren alborapenak, erabilera desegokia eta manipulazio digital azpimarratzen dituzten artikuluetan[11][12].

Sistema autonomoen arriskuei buruzko lehen ohartarazpenak 1949an egin zituen Norbert Wienerrek[13]. Gero, denbora luzean gaiari arreta gutxi eskaini zitzaion, baina 2008 eta 2009 urteetan AAAIk (ingelesez American Association for Artificial Intelligence, euskaraz Adimen Artifizialaren Amerikako Elkartea) onartu zuen sistema konplexuek ustekabeko jokabideak izan ditzaketela eta horri buruz gehiago ikertu behar zela[13]. 2011n, Roman Yampolskiy-k “AA segurtasun ingeniaritza” izena proposatu zuen diziplina gisa[14].

Gaiaren inguruko kezka nabarmen zabaldu zen 2014an Nick Bostromek Superintelligence: Paths, Dangers, Strategies (euskaraz, Superadimena: Bideak, Arrikuak, Estrategiak) liburua argitaratu zuenean, AAOk eragin ditzakeen arriskuak eztabaida publiko eta politikoan sartuta. 2015ean arloa finkatzen hasi zen: adituen gutun irekia[15], Gizakiekin Bateragarria den AA Zentroaren sorrera Berkeley Unibertsitatean eta segurtasunari buruzko ikerketa finantzaketa handitua[16]. 2016an kaleratu zen Concrete Problemas in AI safety (euskaraz AA Segurtasuneko Arazo Zehatzak), lehen agenda tekniko eragingarrienetako bat[17].

2017tik aurrera ikuspegia sendotu egin zen Asilomar Printzipioei[18] eta DeepMind Safety bezalako taldeen lanari esker; horiek, gaur egungo ildo tekniko nagusiak landu zituzten: sendotasuna, zehaztapena eta fidagarritasuna[19]. 2021ean, gai horiek Unsolved Problems in ML Safety (euskaraz Ikasketa Atomatikoaren Segurtasuneko Konpondu Gabeko Arazoak) lanean bildu ziren[20]. 2023an, eztabaidak jauzi politikoa eman zuen, Erresuma Batuak AA segurtasunari buruzko lehen goi-bilera globala antolatu zuenean.

Ikerketa-arloak

[aldatu | aldatu iturburu kodea]

AA segurtasuneko ikerketa-arloen artean sendotasuna, gainbegiratzea eta lerrokatzea daude[19][20].  Sendotasunaren jomuga da sistemak oso fidagarriak izatea; gainbegiratzearena, akatsak aurreikustea eta erabilera okerrak detektatzea; eta lerrokatzearena, helburu onuragarriak lortzen dituztela ziurtatzea.

Sendotasunaren azterketaren helburua da AA sistemek egoera ezberdinetan aurreikusitako moduan jardungo dutela ziurtatzea. Horrek, besteak beste, bi alderdi ditu:

  • Beltxarga beltzekiko sendotasuna: sistemek aurrekusi bezala jokatzea, baita egoera arraroetan ere.
  • Sendotasun antagonikoa: sistemak diseinatzea, nahita huts egiteko aukeratutako datu-sarrerekiko erresilienteak izan daitezen.

Gainbegiratzea

[aldatu | aldatu iturburu kodea]

Gainbegiratzeak AA sistemen akatsak aurreikusi nahi ditu, horiek saihesteko edo kudeatzeko. Bigarren mailako gainbegiratze-arazoen artean daude sistema fidagarriak ez direnak detektatzea, erabilera gaiztoak identifikatzea, kutxa beltzeko AA sistemen barne-funtzionamendua ulertzea eta eragile gaiztoek sortutako funtzio ezkutuak identifikatzea.

Lerrokatzearen helburua da sistemek diseinatzaileen nahiak betetzea. Sistema bat gai bada, baina aurreikusi gabeko helburuak baditu, deslerrokatutzat jotzen da.

Kasu honetan, arazo nagusiak hauek dira: zaila dela nahi diren portaerak guztiz zehaztea, tarteko helburuek albo-ondorioak sortzen dituztela, sari-tranpak, botere gosea eta egoera berrietan agertzen diren helburu berriak. Arazo horiek robotei[21], hizkuntza-ereduei[22][23], ibilgailu autonomoei[24] eta gomendio-sistemei [22][25][26] eragiten diete; sistemek zenbat eta gaitasun handiagoa eduki, orduan eta handiagoak dira arazoak[27][20]. Lerrokatzea AAren segurtasunaren parte da eta irtenbide tekniko eta politikoak behar ditu. Ikerketa-lerro nagusiak honakoak dira: giza balioak ikastea, AA zintzoa sortzea, sistemei jarraitzea, ereduak ulertzea eta portaera emergenteak saihestea[20][19]. Arlo horiekin lotuta daude: interpretagarritasuna[28], sendotasuna[20][17], anomalien detekzioa, egiaztapen formala[29], jokoen teoria[30][31], algoritmoen ekitatea[17][32] eta gizarte-zientziak[33].

Erreferentziak

[aldatu | aldatu iturburu kodea]
  1. 1 2 3 (Ingelesez) Grace, Katja; Salvatier, John; Dafoe, Allan; Zhang, Baobao; Evans, Owain. (2018-07-31). «Viewpoint: When Will AI Exceed Human Performance? Evidence from AI Experts» Journal of Artificial Intelligence Research 62: 729–754.  doi:10.1613/jair.1.11222. ISSN 1076-9757. (kontsulta data: 2025-12-03).
  2. (Ingelesez) «Existential risk from artificial general intelligence | Research Starters | EBSCO Research» EBSCO (kontsulta data: 2025-12-03).
  3. (Ingelesez) «2022 Expert Survey on Progress in AI» AI Impacts 2022-08-04 (kontsulta data: 2025-12-03).
  4. Michael, Julian; Holtzman, Ari; Parrish, Alicia; Mueller, Aaron; Wang, Alex; Chen, Angelica; Madaan, Divyam; Nangia, Nikita et al.. (2023-07). Rogers, Anna ed. «What Do NLP Researchers Believe? Results of the NLP Community Metasurvey» Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers) (Association for Computational Linguistics): 16334–16368.  doi:10.18653/v1/2023.acl-long.903. (kontsulta data: 2025-12-03).
  5. (Ingelesez) De-Arteaga, Maria. (2020). Machine Learning in High-Stakes Settings: Risks and Opportunities. .
  6. Mehrabi, Ninareh; Morstatter, Fred; Saxena, Nripsuta; Lerman, Kristina; Galstyan, Aram. (2021-07-13). «A Survey on Bias and Fairness in Machine Learning» ACM Comput. Surv. 54 (6): 115:1–115:35.  doi:10.1145/3457607. ISSN 0360-0300. (kontsulta data: 2025-12-03).
  7. (Ingelesez) «The Global Expansion of AI Surveillance» Carnegie Endowment for International Peace (kontsulta data: 2025-12-03).
  8. (Ingelesez) Barnes, Beth. Risks from AI persuasion. (kontsulta data: 2025-12-03).
  9. (Ingelesez) Miles, Brundage,; Shahar, Avin,; Jack, Clark,; Helen, Toner,; Peter, Eckersley,; Ben, Garfinkel,; Allan, Dafoe,; Paul, Scharre, et al.. (2018-04-30). The Malicious Use of Artificial Intelligence: Forecasting, Prevention, and Mitigation.  doi:10.17863/CAM.22520. (kontsulta data: 2025-12-03).
  10. Carlsmith, Joseph. (2022). Is Power-Seeking AI an Existential Risk?.  doi:10.48550/ARXIV.2206.13353. (kontsulta data: 2025-12-03).
  11. Igor, Leturia Azkarate. (2016-12-01). «Adimen artifizialaren erronkak eta arriskuak» Elhuyar Zientzia (kontsulta data: 2025-12-03).
  12. «Adimen artifiziala, arrisku baino aukera gehiago - Azpeitia» azpeitiaguka.eus (kontsulta data: 2025-12-03).
  13. 1 2 (Ingelesez) In 1949, He Imagined an Age of Robots (Published 2013). 2013-05-20 (kontsulta data: 2025-12-03).
  14. Yampolskiy, Roman V.; Spellchecker, M. S.. (2016-10-25). «Artificial Intelligence Safety and Cybersecurity: a Timeline of AI Failures» ArXiv (kontsulta data: 2025-12-03).
  15. «PT-AI 2011 - Philosophy and Theory of Artificial Intelligence (PT-AI 2011)» conference.researchbib.com (kontsulta data: 2025-12-03).
  16. (Ingelesez) «FLI Recommendations for the AI Research, Innovation, and Accountability Act of 2023» Future of Life Institute (kontsulta data: 2025-12-03).
  17. 1 2 3 Amodei, Dario; Olah, Chris; Steinhardt, J.; Christiano, P.; Schulman, John; Mané, Dandelion. (2016-06-21). «Concrete Problems in AI Safety» ArXiv (kontsulta data: 2025-12-03).
  18. (Ingelesez) «Asilomar AI Principles» Future of Life Institute (kontsulta data: 2025-12-03).
  19. 1 2 3 (Ingelesez) Research, DeepMind Safety. (2018-09-27). «Building safe artificial intelligence: specification, robustness, and assurance» Medium (kontsulta data: 2025-12-03).
  20. 1 2 3 4 5 Hendrycks, Dan; Carlini, Nicholas; Schulman, John; Steinhardt, J.. (2021-09-28). «Unsolved Problems in ML Safety» ArXiv (kontsulta data: 2025-12-03).
  21. (Ingelesez) Kober, Jens; Bagnell, J. Andrew; Peters, Jan. (2013-09-01). «Reinforcement learning in robotics: A survey» The International Journal of Robotics Research 32 (11): 1238–1274.  doi:10.1177/0278364913495721. ISSN 0278-3649. (kontsulta data: 2025-12-03).
  22. 1 2 www.semanticscholar.org (kontsulta data: 2025-12-03).
  23. (Ingelesez) «OpenAI Codex» openai.com 2024-03-13 (kontsulta data: 2025-12-03).
  24. Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter. (2023-03-01). «Reward (Mis)design for autonomous driving» Artificial Intelligence 316: 103829.  doi:10.1016/j.artint.2022.103829. ISSN 0004-3702. (kontsulta data: 2025-12-03).
  25. (Ingelesez) «Human Compatible by Stuart Russell: 9780525558637 | PenguinRandomHouse.com: Books» PenguinRandomhouse.com (kontsulta data: 2025-12-03).
  26. (Ingelesez) Stray, Jonathan. (2020-12-01). «Aligning AI Optimization to Community Well-Being» International Journal of Community Well-Being 3 (4): 443–463.  doi:10.1007/s42413-020-00086-3. ISSN 2524-5309. PMID 34723107. PMC 7610010. (kontsulta data: 2025-12-03).
  27. (Ingelesez) Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob. (2021-10-06). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. (kontsulta data: 2025-12-03).
  28. (Ingelesez) «Researchers Glimpse How AI Gets So Good at Language Processing» Quanta Magazine 2022-04-14 (kontsulta data: 2025-12-03).
  29. (Ingelesez) Russell, Stuart; Dewey, Daniel; Tegmark, Max. (2015-12-31). «Research Priorities for Robust and Beneficial Artificial Intelligence» AI Magazine 36 (4): 105–114.  doi:10.1609/aimag.v36i4.2577. ISSN 2371-9621. (kontsulta data: 2025-12-03).
  30. (Ingelesez) «Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda» Center on Long-Term Risk (kontsulta data: 2025-12-03).
  31. (Ingelesez) Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore. (2021-05). «Cooperative AI: machines must learn to find common ground» Nature 593 (7857): 33–36.  doi:10.1038/d41586-021-01170-0. (kontsulta data: 2025-12-03).
  32. «Nuestra agenda común: Informe del Secretario General» Naciones Unidas.
  33. (Ingelesez) Irving, Geoffrey; Askell, Amanda. (2019-02-19). «AI Safety Needs Social Scientists» Distill 4 (2): e14.  doi:10.23915/distill.00014. ISSN 2476-0757. (kontsulta data: 2025-12-03).