¿Quién escribió la canción?

El misterio de un tema de los Beatles, resuelto por la matemática

 

La historia que sigue es fascinante. Se trata de la usar la matemática de forma distinta. Suponga que por alguna razón es necesario conocer el autor de un determinado episodio, que podría ser —por ejemplo— quién es el padre (o la madre) de una criatura o quién fue el autor de un episodio delictivo. Históricamente contábamos con las huellas dactilares. Después apareció la tecnología que permite usar el ADN y compararlo con el de una determinada base de datos. En la Argentina esta tecnología ha sido esencial para detectar la identidad de personas que nacieron con sus madres en cautiverio y luego fueron entregadas como mercancía, en uno de los episodios más crueles de la historia contemporánea de nuestro país. En ese sentido, utilizando una combinación de medicina, química, bioquímica, biología, genética, biogenética, computación, ingeniería, análisis de sistemas (por nombrar algunos de los ingredientes), la ciencia en general nos ha provisto de herramientas que son —relativamente— recientes  y que han sido de una utilidad extrema.

Quiero incluir también episodios menos traumáticos o dolorosos, como el que se genera al buscar al verdadero autor de un determinado texto o de una pintura. Pero en el caso al que me quiero referir acá hay una ‘vuelta’ que yo no había leído ni escuchado antes. Acompáñeme y verá si la (o lo) sorprende a usted como me sorprendió a mí. En todo caso, sirve para mostrar un costado de la matemática que no está necesariamente muy presente y ni siquiera es visible.

No importa cuán afecto sea usted a los Beatles. En cualquier caso, es imposible ignorar la huella que dejaron los integrantes del cuarteto que nació en Liverpool, Inglaterra. Está claro que escribieron muchísimas canciones, y aún corriendo el riesgo de equivocarme en la precisión del número, la literatura que consulté coincide en que las canciones que compusieron fueron en total 213. La enorme mayoría tiene dos autores: John Lennon y Paul McCartney.

Un dato que yo no conocía (quizás usted sí), es que cuando ambos eran adolescentes, hicieron una suerte de pacto. Frente a una canción que hubieran escrito en conjunto pero en donde la participación de cada uno fuera de diferente magnitud, decidieron que la firmarían los dos, como si la intervención de cada uno hubiera sido distribuida por mitades. El acuerdo funcionaba así: salvo que uno de los dos la hubiera escrito sin ninguna participación del otro, aunque fuera un mínimo aporte, los dos aparecerían como co-autores.

Con el paso del tiempo, cuando ambos ya eran figuras mundiales, ya no tenía la misma importancia mantener en ‘secreto’ cuál había sido la magnitud del aporte de cada uno frente a las piezas que habían ‘co-firmado’. De hecho, ambos fueron confesando con el tiempo en memorias que escribieron por separado, quién escribió qué y en cuánto intervino el otro. Me quiero apurar a decir que yo no soy experto en ninguno de estos temas y temo ‘herir la sensibilidad’ de alguna persona que sí lo sea y, por lo tanto, quisiera disculparme de antemano si hay ‘algún’ error en los datos que siguen. Usted verá que no tienen ninguna importancia: a los efectos de la intervención de la matemática, será totalmente irrelevante. Para aquellos a quienes este tipo de información les ‘resulta muy significativa’, ahora ya sabemos cómo se distribuyeron las ‘cargas’ en cada canción. Pero… ¿por qué escribo sobre este tema? Es que hay un ‘dato que falta’, o que hasta hace muy poco ‘hacía ruido’.

Es que había una canción en particular que a través del tiempo sigue (o seguía) generando una ‘mini-controversia’. La melodía a la que quiero hacer referencia es una balada: In My Life, que en español se traduce como En mi vida. En las memorias que escribieron, las versiones al respecto son contradictorias. Lo único que queda claro es que fue escrita en 1965, pero cada uno dice que fue él quien hizo el aporte mayoritario.

Por supuesto, como fueron tan prolíficos, como escribieron tanto en común, como no siempre estaban en condiciones de ‘sobriedad’ para poder recordar qué tipo de participación individual tuvo cada uno, pero además como pasó tanto tiempo, la dualidad quedó siempre planteada y encima, uno de los ‘potenciales’ autores está muerto (Lennon). Entonces, ¿cómo hacer para develar el misterio, como escribió el periodista científico Ned Wharton en agosto del año 2018? [1]

Aquí es donde aparece en escena la matemática. El 1 de agosto del año 2018, en uno de los simposios de estadística más importantes del mundo (JSM 2018 [2]), que se hizo en Vancouver, Canadá, tres científicos, Mark Glickman, Jason Brown y Ryan Song, presentaron un trabajo que fue largamente celebrado por la comunidad de especialistas y que sirvió para determinar la autoría de esa canción [3].  Antes de avanzar, un dato muy interesante: uno de los autores, Jason Brown, estuvo trabajando en el proyecto durante ¡más de 10 años! Me imagino que no solamente en este caso propiamente dicho, sino en la estrategia y tecnología que le permitiera dilucidar o determinar la autoría de una cierta canción.

La idea del método que utilizaron fue la siguiente. A mediados del siglo pasado, en la década del '50, un grupo de estadísticos comenzaron a usar una técnica que se conoce con el nombre de "bolsa de palabras". Es la que se usa en la actualidad para filtrar los correos electrónicos que se conocen con el nombre de spam. Nosotros los denominamos en castellano “mensajes no deseados”, o algo equivalente. Lo que se propusieron fue adaptar lo que se hacía (o hace) con los textos pero extrapolándolos al caso de la música.

Fíjese lo que se hace con los textos escritos. Uno toma un fragmento suficientemente largo. Separa el texto en las palabras que lo componen, sin importar ni la gramática, ni el orden en el que esas mismas palabras aparecieron escritas. Sería algo así como separar el texto en todas las palabras que lo componen y meterlas a todas ‘dentro de una bolsa’.

Después, cuando ya tiene este conjunto de palabras, contaron la frecuencia con la que aparece cada una de ellas. Por ejemplo, usted debería tomar un texto que le interesa analizar. Fija una determinada longitud y separa ese mismo texto en fragmentos del largo que usted prefijó. Después corta cada segmento en una cierta cantidad de palabras y cuenta cuántas veces aparece cada una (me refiero a las palabras que están dentro de esa bolsa en particular).

Una vez que repitió este procedimiento suficientes veces con un determinado autor, es muy probable que usted encuentre patrones que son propios de esa persona. Si usted lo hizo muchas veces con diferentes textos, de alguna manera usted se está convirtiendo en una suerte de ‘detective personal’ o experto en ese autor particular.

A esa altura, bastaría con que le muestren un determinado texto y que se lo presenten como anónimo y usted estaría en condiciones de decidir (con alta probabilidad de acertar) si fue escrito o no por el autor que estuvo estudiando.

Al llegar acá, creo que usted intuye lo que habrá que hacer en el caso de una pieza musical. El problema es que ahora no están determinadas de antemano las ‘unidades’ a estudiar: ¡no hay palabras! Pero de todas formas, habrá que ‘buscar’ algo equivalente, y justamente eso fue lo que hicieron Brown, Song y Glickman, repitiendo ‘virtualmente’ la misma idea que con la que trataban los textos escritos.

En el caso de ‘textos musicales’, prefijaron una longitud y tomaron pequeños ‘cortes’ de una canción. Después, hicieron lo mismo que con las palabras pero en forma un poco más sofisticada. Como no podían contar con la ‘unidad palabra’ que —obviamente— hace todo más uniforme, tuvieron que ‘inventarse’ otras categorías. Por ejemplo, buscando combinaciones de notas, ya sea tomándolas en forma individual, de a pares, en tercetos, cuartetos [4], etc). Antes las palabras cabían todas dentro de una misma bolsa, porque no había distinciones. Ahora, al seleccionar combinaciones de diferente tipos, los autores hicieron una división en cinco categorías. Naturalmente, esta categorización es arbitraria: podrían haber tomado más (o menos), pero de hecho, como lo hicieron con todas las canciones de la misma forma, terminaron eligiendo un sistema uniforme de medición. La diferencia residía en que ahora tenían cinco bolsas para analizar, cinco bolsas de diferente tipo. En el caso de las palabras, sería equivalente a buscar no solo palabras individuales, sino combinaciones de pares de palabras, tercetos, cuartetos, etc.

Una vez hecho esto, se propusieron determinar la ‘frecuencia’ con la que aparecen en un determinado contexto. Para hacerlo, tomaron 70 canciones que escribieron Lennon y McCartney POR SEPARADO y buscaron patrones que se repitieran y que permitieran distinguir a uno de otro.

Cuando ya tenían todo este ‘arsenal’ a disposición, tomaron la canción de referencia (In My Life) y la hicieron pasar por el tamiz que habían preparado. Llegado a este punto, si bien no pueden afirmar categóricamente que la escribió uno u otro, los resultados que exhibieron son los siguientes (en términos probabilísticos):

  1. La probabilidad de que el tipo de combinaciones que encontraron en cada bolsa los hubiera utilizado Paul McCartney fue de un 0.018 (o sea, 1.8 %). Esto se puede resumir diciendo: “la probabilidad que hubiera sido McCartney es ‘casi’ nula”
  2. La probabilidad de que el tipo de combinaciones que encontraron en cada bolsa los hubiera utilizado John Lennon era de un 0.982 (o sea un 98.2%).

La moraleja es obvia (creo): la canción la escribió John Lennon.

No quiero terminar sin hacer una reflexión (como hizo el autor del texto original): es preferible confiar en la matemática que en lo que hubieran podido decir cualquiera de los dos (más allá de que Lennon esté muerto ahora).

Es más confiable este resultado que lo que ellos pudieran recordar después de 54 años. ¿No está de acuerdo usted?

 

 

[1] El texto del artículo completo se puede encontrar acá: https://www.npr.org/2018/08/11/637468053/a-songwriting-mystery-solved-math-proves-john-lennon-wrote-in-my-life

[2] JSM 2018 – JSM son las iniciales de Joint Statistical Meeting (Encuentro Conjunto sobre Estadística).

[3] Mark Glickman es un especialista en estadística, profesor en Harvard. También es un reconocido pianista (de música clásica). Ryan Song también es profesor en Harvard, pero en la rama de ingeniería mientras que Jason Brown es matemático profesor en la Universidad de Dalhousie. El artículo presentado por Mark Glickman, Jason Brown y Ryan Song lleva el siguiente título: “Assessing Authorship of Beatles Song from Musical Content: Bayesian Classification Modeling from Bags-Of-Words Representation”, que en esencia dice que con el artículo trataron de determinar la autoría de la música en una de las canciones de los Beatles. Si le interesa avanzar aún con mayor detalle, el trabajo completo se puede encontrar acá: https://ww2.amstat.org/meetings/jsm/2018/onlineprogram/AbstractDetails.cfm?abstractid=329336

[4] Se llaman unigramas, bigramas, trigramas, …, n-gramas para indicar el número de notas o cuerdas que intervienen.

--------------------------------

Para suscribirte con $ 1000/mes al Cohete hace click aquí

Para suscribirte con $ 2500/mes al Cohete hace click aquí

Para suscribirte con $ 5000/mes al Cohete hace click aquí