Wikiproiektu:Ieproba/Euskarazko albisteetako Izen Entitateak

Wikipedia, Entziklopedia askea

Sarrera[aldatu iturburu kodea]

Hemen topatuko duzun edukia, euskaraz argitaratzen duten hainbat hedabide digitaletatik erauzia dago. Euskarazko albiste bakoitzaren pertsonen izen entitateak automatikoki jaso dira, asteko pertsonaia aipatuenak zentzuk diren erakusteko aukera emanez. Astelehenero, pasa den asteko 10 entitate nabarmenenak automatikoki publikatuko dira. Horretarako, azkeneko asteko izen entitateak bestelako izen entitate guztiekin konparatzen dira, berrienak direnak aukeratuz. Azkeneko lau asteetako pertsonaiak etengabe eguneratzen joango dira eta zaharragoak direnak bukaerako menu zabalgarrian gordeta geratuko dira. Horrez gain, bistaraketa interaktibo bat sortu da, pertsonaia berri zein ohikoen arteko erlazioak erakusten dituena.

Metodologia[aldatu iturburu kodea]

Lan honen sorkuntzan erabilitako metodologiak hainbat pausu ditu: hedabide digitalen identifikazioa, hedabideen entzuketa bitartez albisteak jasotzea, albisteetatik izen entitateak erauztea eta azkeneko astean nabarmenak izan diren entitateen aukeraketa.

  • Euskarazko hedabideen eskuzko identifikazioa: Euskal Herrian euskaraz aritzen diren 8 komunikabide digital identifikatu dira.
  • Hedabideen entzuketa: MSM crawlerra erabili da hedabideen RSS loturak jasotzeko. Hedabide ezberdinetatik berri jarioa jaso, garbitu eta gorde da corpus batean. Jasotako albiste bakoitzetik egunkaria, data, hizkuntza, titularra, edukia eta lotura gorde dira.
  • Izen entitateen erauzketa: Lehenik eta behin, entzuketan euskarazko, gaztelerazko eta frantsesezko albisteak lortzen direnez, soilik euskarazko albisteak aukeratuko dira, beste guztiak alboratuz. Euskarazko albiste bakoitzaren edukia tokenizatu, lematizatu eta izen entitateen detektoreaz aztertu da. Hiru fase hauetatik eratorritako entitate izendunak jaso ostean, albiste bakoitzaren izen entitateak gorde dira.
  • Izen entitateen aukeraketa: Euskarazko albiste guztietatik, izen entitate berrienak eta nabarmenenak aukeratzeko tf-idf banaketan oinarritu gara. Banaketa horri esker, azkeneko asteko izen entitateak beste guztiekin konparatzen dira, ohikoak diren izen entitateak alboratu eta azkeneko astean nabarmenak direnak jasotzeko asmoz.

Esteka interaktiboa[aldatu iturburu kodea]

Astero adierazgarrienak diren Izen Entitateak aurkitzeaz gain, interesgarria iruditu zaigu bistaraketa berezi bat proposatzea izen entitateen maiztasuna eta berritasuna haintzat hartzen dituena. Scattertext teknikari esker, izen entitate berrienak nabarmendu ahalko ditugu zaharrenetatik. Horrez gain izen entitate aipatuenak eta gutxi aipatuenen arteko ezberdintasuna ikusi ahal izango da aldi berean. Adierazpen grafiko hau egunero berrituko da, iragandako 7 egunetako datuak eta azkeneko hilabeteko datuak konparatuta, izen entitateak sailkatu eta agerpenen iturria ikusteko aukera emanez.

Bistaraketaren adierazpen grafikoan izen entitateen banaketa topatu dezakegu, denboraren eta agerpen kopuruaren arabera. Era honetan, bi dimentsioetako grafikoaren goiko erdian estitate berri eta ohikoenak topatu ditzakegu. Aldi berean, grafikoaren eskubi aldean estitate zahar ohikoenak topatuko dira. Halaber, entitate berri aipatuenak grafikako goiko eskubiko koadrantean aurkitu ahal izango ditugu, azkeneko astean aipatuenak izan diren entitateak izango dira hauek. Bestalde, ezkerreko goiko koadrantean beti aipatuak diren entitateak kokatuko dira, hau da, ohikoenak. Eskubiko beheko koadrantean, ostera, albiste zaharretan ohikoak izan diren eta albiste berrietan agerpen txikia daukatenak azaltzen dira.

Bistaratze sistema honek izen entitateen bilatzaile bat dauka ere, entitatea grafikoan kokatzeaz gain, bere agerpen guztiak emango dizkigu. Agerpenetan egunkaria, eguna, albistera lotura eta albistean agertzen diren bestelako entitateak edukiko ditugu. Era honetan, entitate bakoitzaren informazio ahalik eta osatuena lortuko dugu, bere agerpenen testuingurua erakutsiko duen bistaratze bat eskainiz.

MAPA INTERAKTIBORA ESTEKA

2021-01-25ko asteko izen entitateak[aldatu iturburu kodea]

Izena Wikidata en wiki ca wiki es wiki fr wiki ZIRRIBORROA
Xabier Beortegi
Gorka Mayo
Patxi Arratibel
Gorka Zabala
Jose Luis Sabas
Xabi Beortegi
Sharon Lockhart d:Q3481523 en:Sharon Lockhart fr:Sharon Lockhart Zirriborroa
Angela Bjorklund
Nanda Fernandez
Estitxu Fernandez d:Q12257313 Zirriborroa

2021-01-18ko asteko izen entitateak[aldatu iturburu kodea]

Izena Wikidata en wiki ca wiki es wiki fr wiki ZIRRIBORROA
Nathalie Flores
Abelardo Fernandez
Mingma David Xerpa
Denis Urubko d:Q264664 en:Denis Urubko es:Denis Urubko fr:Denis Urubko Zirriborroa
Berruet
Marcin Kakzkan
Kili Pemba Xerpa
Sona Xerpa
Mike Carlson d:Q6846258 en:Mike Carlson es:Mike Carlson Zirriborroa
Luis Zubeldia

2021-01-11ko asteko izen entitateak[aldatu iturburu kodea]

Izena Wikidata en wiki ca wiki es wiki fr wiki ZIRRIBORROA
Jon Ossoff d:Q28839536 en:Jon Ossoff es:Jon Ossoff fr:Jon Ossoff Zirriborroa
Kelly Loeffler d:Q76570207 en:Kelly Loeffler ca:Kelly Loeffler es:Kelly Loeffler fr:Kelly Loeffler Zirriborroa
Paul Rios
Matt Pottinger
Robert Contee d:Q104636362 en:Robert Contee Zirriborroa
David Perdue d:Q17402717 en:David Perdue es:David Perdue fr:David Perdue Zirriborroa
Raphael Warnock d:Q84146599 en:Raphael Warnock es:Raphael Warnock fr:Raphael Warnock Zirriborroa
Christopher Miller
James Lankford d:Q45940 en:James Lankford es:James Lankford fr:James Lankford Zirriborroa
Vanessa Baraitser

2021-01-04ko asteko izen entitateak[aldatu iturburu kodea]

Izena Wikidata en wiki ca wiki es wiki fr wiki ZIRRIBORROA
Ibarluzearena
Marian Ibarluzea
Jaka Martija
Pedro de Egaña d:Q5401956 es:Pedro de Egaña Zirriborroa
Salvador Ramirez
Txo
Rodríguez Andoin
Miren Dobaran d:Q56176892 Zirriborroa
Imanol Nieto
Galder Gonzalez d:Q93437466 Zirriborroa

Bestelakoak[aldatu iturburu kodea]