Posts

Showing posts from April, 2016

Nola lortu duen Watsonek elkarrizketazko hizketa ezagutzea

Iturria: venturebeat

IBMk aurrerapen handia lortu du bere Watson ordenagailuak elkarrizketazko hizketa ezagutzeko duen gaitasunean.  Iaz, Watson gai zen elkarrizketetan ingelesezko hizketa ezagutzeko, %8ko errore-tasarekin. Orain errore-tasa %6,9ra jaistea lortu dute. Lorpen horrek erakusten du adimen artifiziala gero eta ahaltsuagoa dela, eta gero eta hurbilago dagoela ataza askotan robotek gizakiak ordezkatzea.

Azkenaldian hobekuntzaren oinarri sendoena sare neuronal sakonek ekarri dute. Azken helburua da gizakiaren zehaztasunaren parekoa edo hobea lortzea, hau da, %4 inguruko errore-tasara iristea. 

Hobekuntzak egin dituzte bai modelizazio akustikoan eta baita hizkuntzarenean ere. Alderdi akustikoan bi sare neuronal sakon bateratu dituzte, testuinguruaren arabera sarrerako audioko fonoak aurreikusten dituztenak. Ereduak entrenatzeko, Switchboard, FisheretaCallHome corpusetako audio trabskribatuko 2.000 ordu erabili dituzte.

Hiztegi elebidunak erabiltzeak dituen arriskuak

Image
Hiztegi elebidunak baliokidetza-hiztegi soilak izan ohi dira. Hizkuntza bateko hitz baten ondoan beste hizkuntza bateko "baliokidea(k)" erakusten dituzte. Asko horretan geratzen dira, beste batzuek kategoria gramatikalak zehazten dituzte eta onenean erabilera-adibideren bat ere ematen dute. 

Hiztegi elebakarrek, aldiz,  askoz informazio gehiago ematen dute: ebakera, kategoria gramatikala, erabilera-eremua, etimologia, definizioa, adibideak, beste hitz batzuekiko erreferentziak, erregistro-markak, etab.

Hiztegi elebidunen arazoetako bat izaten da baliokidetzaren mugak ez dituztela argi azaltzen, eta oker handiak egiteko arriskuan jaus gaitezkeela. Esate baterako, espainiera/euskara hiztegi batean espainierazko "repostero" hitzaren baliokide gisa "gozogile, gozogin" ikusten baduzu ez zaitez fida hori eta horrenbestez, bestela behin euskal erakunde bateko itzultzaile bati gertatu zitzaiona gerta dakizuke. Liburu bat itzultzen ari zen eta presa zuten argitarat…

Farmazia-industria testu-meatzaritza erabiltzen ari da

Iturria: science business


Informazioa oso ugaria denean, ez du balio eskuz bilaketa arruntak egiteak. Makinak behar dira milaka dokumentutan, testu-meatzaritza bidez, ezkutaturik dagoen informazioa eta datuen arteko loturak aurkitzeko. Farmazia-industrian, esate baterako, ikerketarako ezinbesteko tresna bihurtu da testu-meatzaritza.

Bilaketak egiteko ez ezik laburpenak egiteko, lehiakideak zertan ari diren jakiteko, kongresuetan edo patenteetan zer berrikuntza ari diren agertzen jakiteko. Kongresu askotara joatea saihestea ere lortzen dute, informaziorik galdu gabe.
Teknika horiek erabiltzea ez dago, ordea, edonoren esku. Enpresa handiek bai, diru asko dutelako, baina erakunde publikoetako ikertzaileek zailtasunak dituzte, bai baliabide faltaz eta baita argitaratzaileek oztopoak jartzen dizkietelako meatzaritza erabiltzeko, kopia-eskubideak direla eta. Europan Erresuma Batuak bakarrik atera du testu-meatzaritza kopia-eskubideen legetik. Hala ere, joan zen abenduan, Europako Batzordeak, …

Nola aztertu zituzten Panamako paperak

Iturria: wired.co.uk 

Datu guztiak Panaman egoitza duen Mossack Fonseca bulego juridikotik lortu zituzten. Inoiz ezkutuan atera den datu kopururik handienak adierazten du mundu mailako 70 agintarik baino gehiagok milaka milioi euroko zergak ordaintzeari ihes egin diotela, Panamako isilpeko kontuak baliatuz.

Panamako paperek erakusten dute Mossack Fonseca bulegoak munduko jende boteretsuarekin zerikusia zuten ehunka bezerori lagundu ziela dirua zuritzen, zergak ordaintzeari ihes egiten eta isunak saihesten. Paperak ezezagun batek iritsarazi zizkien 100dik gora albiste-organizaziori eta 400 kazetariri baino gehiagori, eta ikerketak ia urtebete iraun du.

Datu gordinak kazetariei eskuera jartzeko prozesuak digitalizatzea, ordenagailu eta algoritmo ahaltsuak erabiltzea behar izan du, milaka xehetasunen artean izen ezagunak aurkitzeko. Guztira 11,5 milioi dokumentu dira.

Multzo horretan badaude, besteak beste, emailak, kontratuak, transkripzioak eta eskaneaturiko dokumentuak. Guztira 4,8 mil…