giovedì 23 aprile 2009

Intimissimi convincimenti

Benché le giornate scorrano veloci e sostanzialmente serene, non si può certo dire, in generale, che vada tutto bene. Le difficoltà sono palpabili, te ne accorgi sentendo le persone parlare: la scarsità di lavoro, la precarietà, la fuga dei cervelli, il clientelismo, un generalizzato senso di sfiducia nella politica e anche nel giornalismo che non sempre si è dimostrata all’altezza. Eppure nessuno parla in continuazione di questo, la crisi economica non è certo l’argomento principe di ogni serata tra amici. La gente cerca altro, certo cerca di distrarsi, ma principalmente vuole informazioni e certezze, punti fermi. Soprattutto adesso che anche il mito che le banche non possano fallire è miseramente crollato. Il sottoscritto per una volta diventando servizio pubblico ve li fornirà! Non ci credete? Ebbene risponderò alla domanda che qualunque italiano si sta ponendo da giorni cioè...



chi è la splendida modella della campagna Intimissimi 2009 basic?


No non è Kira Knightley è Irina Sheik o Shayk (vero cognome Shaykhlislamova) splendida fotomodella Russa di ventitre anni, alla quale il famoso produttore /rapper Ryan Leslie dopo averla avuta come partner nel video di "Diamond Girl" ha anche dedicato questa canzone chiamata proprio "I-R-I-N-A". Quanto al punto fermo: scommettiamo che la bella Irina fara mostra di sé nel prossimo cinepanettone?

Read More...

giovedì 2 aprile 2009

Stavolta Deus vult: Netflix Prize



Dio mi aveva dato dei numeri da giocare al superenalotto per diventare milionario, ma io ho dubitato e non ho vinto. Dio, però nella sua misericordia, mi ha perdonato e dopo avermi mandato un nuovo segno (perché quello è la doppia macchia di umidità comparsa nel soggiorno appena ridipinto, vero?) mi ha fatto capire che mi vuole non solo ricco, ma anche famoso! L’occasione mi viene data dal Netflix Prize. Netflix, ancora poco sperimentato in Italia, è un servizio online di noleggio DVD molto conosciuto negli Stati Uniti. Ciò che rende veramente unico ed interessante questa azienda è il modo in cui il servizio viene offerto: pagando una quota mensile che va dai 5 fino ai 50 dollari al mese, si scrive sul sito una lista, grande a piacere, di film che vorremmo vedere, Netflix spedisce a casa un busta contenente i primi tre film della lista che possono essere visti e tenuti quanto si vuole, dopodiché usando la stessa busta preaffrancata con cui sono arrivati i film si rispediscono uno o più DVD indietro e Netflix in risposta vi manderà un ugual numero di film scelti tra quelli seguenti nella lista iniziale. Il numero di DVD totali che si possono vedere in un mese varia ovviamente con il profilo tariffario scelto. Gli utenti, sul sito, possono poi dare un giudizio sul film visto; voto che va da uno a cinque stelle: elaborando questi dati tramite un algoritmo chiamato Cinematch, Netflix è in grado di suggerire all’utente dei film che non sono nella lista, ma che potrebbero essere di suo gradimento. Insomma Netflix è anche un Recommender System. Qualche anno fa Netflix ha instituito il Netflix Prize un concorso on line aperto a tutti con lo scopo di trovare un algoritmo migliore di Cinematch. Che significa migliore? Netflix mette a disposizione dei partecipanti un enorme database anonimo con i voti di migliaia di utenti su circa diciassettemila film e l’anno in cui il voto è stato dato e un database più piccolo con gli stessi utenti e film del primo, dove però i voti sono cancellati: tramite i dati presenti nel primo database bisogna prevedere il voto di ogni singolo utente nel secondo database. Per fare un esempio, nel primo grande database trovate i voti dell’utente Mario a film come "Guerre Stellari", "Harry Potter" e "Via col vento", e l’anno in cui gli stessi voti sono stati assegnati sapendo ciò dovete prevedere il voto che Mario ha dato a "Forrest Gump" (voto che noi non conosciamo, ma Netflix che è il giudice si). È noto anche qual è la prestazione dell’attuale algoritmo messo alla prova sullo stesso set di dati. Il premio per chi riuscirà a migliorare le prestazioni dell’attuale algoritmo di almeno il 10% è di un milione di dollari! Io mi sono iscritto e di tanto in tanto posterò su questo blog aggiornamenti sull’andamento del concorso.

Attualmente ho scaricato tutto il materiale disponibile sul sito (i database e altri programmi per calcolare la RMSE) e sto cominciando a fare delle valutazioni sui possibili modelli da seguire. L’idea è di valutarli tutti in parallelo e approfondire quello che da subito fornisce i migliori risultati, oppure realizzare dei modelli ibridi. I possibili modelli a cui sto pensando sono per ora sette, suggerimenti e critiche costruttive sono bene accette, soprattutto da altri partecipanti italiani. Ecco le mie idee esposte usando il nostro utente tipo, Mario:

  1. E’ la prima idea che mi è venuta; per conoscere il voto che Mario darebbe a "Forrest Gump" potrei individuare altri utenti che hanno gusti simili a quelli di Mario, ma di cui conosco il voto dato a "Forrest Gump". Probabilmente il voto di Mario sarà simile. Per individuare utenti con gusti simili, basta cercare tra coloro che hanno votato in maniera uguale o quasi gli stessi film che ha votato Mario. Questo algoritmo è meglio conosciuto in letteratura come K-nearest neighbors (k-NN). Sembra estremamente promettente ed ha una vasta letteratura, va perfezionato o integrato con altri modelli per potere superare il 10%.
  2. Regressione Lineare basata sull’utente. Sfruttando i voti dati agli altri film potrei calcolare per ogni utente, Mario compreso, una funzione matematica del tipo . Dove x è però funzione di altri parametri (sarebbe più corretto, in effetti, parlare di regressione lineare multivariata). Il problema è capire quali sono questi parametri. I fattori che per esempio potrebbero essere discriminanti per la scelta di un film sono il genere, il regista, gli attori presenti, il direttore della fotografia, lo sceneggiatore e il musicista. Purtroppo sono dati che non ho.
  3. Regressione Lineare basata sul film. Come prima, ma basata sul singolo film: per ogni film potrei creare una funzione matematica che mi esprime il valore in funzione dei voti espressi ad altri film. Una volta calcolata la funzione matematica associata a "Forrest Gump" basterebbe utilizzare i voti dati da Mario ad altri film per calcolare il probabile voto. Sembra promettente, ma molto impegnativo dal punto di vista computazionale e matematico.
  4. Slope One. Leggendo in giro ho trovato questa versione semplificata dell’idea precedente. Consiste nel calcolare il voto medio di un film e vedere come i voti dati agli altri film lo modificano mediamente in positivo o in negativo. Sembra promettente, ma meno accurato del precedente, occorrerebbe trovare una via di mezzo.
  5. Per ogni film e per ogni classe di voto (cinque classi ogni film) si potrebbe calcolare un modello probabilistico di utente tipo che potrebbe esprimere quel determinato voto per quel determinato film. Bisognerebbe poi vedere a quale classe di utente tipo si avvicina il nostro Mario per il suddetto film. Mi sembra realizzabile, anche se occorrerebbe capire se esistono dati sufficienti per ogni film per fornire un profilo statisticamente credibile per ogni voto possibile.
  6. Realizzare un classificatore Bayesiano. L’idea mi è venuta pensando ai filtri antispam: applicando il teorema di Bayes si potrebbe calcolare qual è la probabilità che Mario dia un determinato voto a "Forrest Gump" condizionata ai voti dati agli altri film. Sembra promettente anche se occorre un largo database.
  7. Realizzare una rete neurale. Forse la soluzione "più semplice", se la rete è ben addestrata, ma mi lascia perplesso per due motivi. Conosco la teoria delle reti neurali e delle tecniche di apprendimento per retro propagazione, ma non ne ho mai realizzata una; una rete neurale non è un algoritmo è una soluzione a "scatola chiusa" del problema, certo rappresenta una approssimazione non lineare del problema ma è complesso se non impossibile capire i meccanismi interni che hanno portato ad una determinata scelta invece che ad un’altra.

Io comincio, vi iscrivete anche voi?

Read More...

mercoledì 1 aprile 2009

CADIE: Google dà il via al Web 3.0


Giusto ieri parlavamo di web semantico, la nuova frontiera ed ecco che Google rivoluziona il mondo con una nuova tecnologia CADIE: "[...] una nuova e potente tecnologia per la risoluzione dei problemi di apprendimento per rinforzo, che ha dato vita al primo cluster operativo di apprendimento neuro-evolutivo su scala mondiale. [...]". CADIE è gia al lavoro per migliorare la nostra visione di internet: anche lei come Firefox propone una nuova versione 3d di Chrome, il browser di Google.

e ovviamente una nuova versione di Google Earth. Il futuro è cominciato?


Boccaloni era un pesce d'aprile! Per la verità i primi 5 minuti ci ero cascato in pieno poi ricordando che Google ne fa parecchi ogni anno... amo gli scherzi ben fatti: mi raccontereste il vostro scherzo, non necessariamente fatto il primo aprile, meglio riuscito?

Read More...

Related Posts with Thumbnails