Relatório 1 – Biochaves

Luiz Miranda Cavalcante Neto

 

Observação importante: Este texto inicial não contém referências pois até o momento foquei exclusivamente em implementar os códigos referentes à ideia inicial do que desejo fazer. Então, querido leitor, leia esses “fatos” com um pé atrás, pois foi tudo graforréia da minha cabeça em conjunto com as idéias extraídas das reuniões anteriores.

 

Ao ouvir uma música, é muito comum que as pessoas automaticamente reconheçam o estilo desta melodia (ou pelo menos tenham uma idéia). O arcabouço musical que a pessoa agrega, até o momento que ela ouve a música em questão, é a principal fonte para essa classificação. Em geral, pessoas que ouviram mais músicas conseguem discernir melhor entre estilos.

O maravilhoso mundo que vivemos hoje nos permite fazer com que computadores façam boa parte dos trabalhos que não gostamos de fazer (e alguns que gostamos de fazer também). Aproveitando que somos engenheiros (ou quase isso) e sabemos mandar os computadores fazerem coisas por nós, podemos designar mais uma tarefa a eles: Ouvir todas as músicas possíveis e classificar os artistas em gêneros musicais. Mas para que isso se os próprios artistas já se definem em um estilo e existem milhares de tabelas informando isso, basta pesquisar no Google “gênero musical <insira nome do artista aqui>”. Porque pareceu uma tarefa interessante!

 

Objetivos

 

Mas como fazer isso? Vou te dizer agorinha e mais na frente irei explicar cada passo do processo mais a fundo:

1° – Vou fazer um computador vasculhar o famoso cifraclub.com.br para extrair todos os acordes de todos os artistas disponíveis em sua biblioteca;

2° – Vou analisar cada artista e criar um modelo dele usando uma cadeia de Markov de ordem a ser definida e a sequência de acordes usados pelo artista;

3° – Com o modelo de cada artista, vou analisar seus parâmetros de modo a conseguir agrupar os músicos em grupos (clusterizar);

 

Hipótese: Ao agrupar os artistas em clusters usando os modelos de cada músico, esses grupos irão realmente representar o estilo musical de deles? (Não sei, vamos ver no decorrer deste trabalho)

 

1° Passo

Desenvolver um programa vasculhador de sites (popularmente chamados de “crawlers” ou “spiders”) é uma tarefa bastante popular na internet atualmente. Por este motivo, vários vídeos, textos e documentações de linguagens de programação guiam o entusiasta neste processo. Comigo não foi diferente, o código implementado para vasculhar o site cifraclub.com.br foi uma adaptação de um passo a passo de um canal de ensino de programação chamado “The New Boston”.

Antes de descrever o código utilizado, é bom saber que o cifraclub possui uma base de dados de acordes e artistas enorme organizada em ordem alfabética (Todos os artistas de A a Z). Então caso você deseje rodar esse código para todas as letras do alfabeto, reserve um bom tempo deixando seu computador ligado. A pouco tempo meu computador passou 2 dias ligado direto rodando o código e só conseguiu terminar de baixar a letra A. Esteja avisado! O código está disponível neste link :  

https://www.dropbox.com/s/eul8ytye6vpo1xm/crawler.py?dl=0 (não se assuste com a bagunça!)

O código que vasculha o cifraclub consiste em três passos importantes:

A – Listar todos os artistas de uma Letra: O código abre a página “www.cifraclub.com.br/letra/<letra que deve ser listada>/lista.html” e procura por todos os links com classe “g-1 g-fix list-links art-alf” ( que são os links de cada artista );

B – Listar todas as músicas do artista: Ao gravar todos os links dos artistas de uma letra, o código agora abre cada página do artista e lista as músicas dele. Para isso o código busca no html da página do artista os links de classe “art_music-link”.

C – Extrair os acordes da música: Este é o objetivo final do crawler. Para poder analisar a harmonia (quais acordes são executados e em qual ordem) é necessário que os acordes sejam capturados na mesma ordem que aparecem na música, felizmente a página de música do site já é organizada desta maneira. Para extrair os acordes o código busca todos os trechos do html com classe “cifra_cnt g-fix cifra-mono” ou classe “cifra_cnt g-fix cifra-arial”

Com o passo C executado, os acordes do artista são gravados em um arquivo .txt sendo cada linha (separado por um ‘\n’) correspondente a uma música. Infelizmente a base do cifraclub não é perfeita e algumas músicas não possuem acordes representado desta forma. Essas músicas são representadas como linhas sem acordes. A base extraída até o momento pode ser vista neste link :

https://www.dropbox.com/sh/bgyjfjcw9vmc3w5/AACyzoi33MQoBHw8armvg3Uka?dl=0

 

2° Passo

Agora que temos uma base de dados, podemos começar a analisar como os artistas arrumam os acordes em suas músicas. Como foi citado no item C do 1° Passo, a harmonia em uma música diz respeito a quais acordes são utilizados na música e em que ordem eles aparecem. Este é um problema que se encaixa perfeitamente no modelo de cadeias de Markov (Dá uma googleada que você acredita), então porque não modelar os arranjos harmônicos de cada artista como cadeias de Markov?

Uma cadeia de Markov modela o que pode acontecer num próximo instante de tempo considerando o que aconteceu em instantes anteriores. A quantidade de instantes anteriores que você considera é o que determina a ordem da cadeia de Markov. Por exemplo, se para prever o próximo passo de um bêbado você considera os três últimos passos dele, o andar desse rapaz será modelado como uma cadeia de ordem 3. (Vão na Saraiva ou Escariz e dêem uma folheada no livro “O andar do Bêbado”, é batuta)

A graça da cadeia de Markov (pelo menos para essa aplicação) não é prever o próximo passo, e sim modelar como o sistema sem se comportado durante muito tempo. Para fazer isso, iremos observar uma sequência de eventos. A Figura 1 representa um esquema de como modelar um preditor de palavras para um corretor automático. Considere a Figura 1.a, nela temos uma sequência de acontecimentos (palavras digitadas) que aconteceram em instantes seguidos. Se considerarmos que queremos modelar o preditor com uma cadeia de Markov de ordem 3, iremos considerar as três últimas palavras digitadas para sugerir uma nova palavra. O modelo no entanto, é feito pegando blocos de palavras (chamarei esses blocos daqui para frente de anagramas) do tamanho “ordem” e vendo qual a próxima palavra, como pode ser visto na Figura 1.b. Essas transições entre anagramas e novas palavras é gravada em uma tabela de transição em que as linhas representam os anagramas e as colunas representam as novas palavras, como pode ser visto na Figura 1.c. Os números na tabela representam a ocorrência da palavra quando o anagrama é escrito.

Figura 1. Ilustração de como um preditor de palavras para corretor ortográfico é modelado

 

Para este exemplo pequeno pode parecer inútil, mas imagine agora que a Figura 1.a fosse um texto com milhares de linhas. Poderíamos calcular a quantidade de vezes que centenas de anagramas ocorrem e quais são as palavras que sucedem eles. Fazendo com que a soma de todas as colunas em uma linha seja igual a 1 podemos dizer que os números agora representam a probabilidade de uma palavra ocorrer após certo anagrama. Esse é o poder da cadeia de Markov e é isso que é feito no código “processaArtistaMusicas.py” que está disponível aqui:

https://www.dropbox.com/s/2ozxbkudzt7pry4/processaArtistaMusicas.py?dl=0

Este código interpreta a base de dados de cada artista e organiza os acordes como se fossem cada palavra na Figura 1.a. A saída deste código é uma tabela de transição com os anagramas de acordes (linhas) e os acordes que podem suceder o anagrama (colunas). Existem outras informações interessantes que podem ser retiradas deste código também, como biblioteca de acordes de um certo artista e quantidade de músicas com acordes, mas isso não importa tanto por agora.

 

3° Passo

É aqui que a magia acontece. Infelizmente ainda não fiz nada por aqui, nem tenho uma idéia concreta do que fazer para clusterizar os modelos. Vamos ver no futuro.

Sobre o Autor

Possui graduação em Engenharia Elétrica com habilitação em Eletrônica pela Universidade Federal de Sergipe (2014) e mestrado em Engenharia Elétrica pela Universidade Federal de Sergipe (2017). Foi professor voluntário da Universidade Federal de Sergipe no período de 2015/1 lecionando a disciplina de Circuitos Digitais. É Professor substituto de Ensino Básico, Técnico, Tecnológico e Superior do Instituto Federal de Sergipe no Campus Lagarto (IFS-Lagarto). Tem experiência na área de Engenharia Elétrica, com ênfase em Robótica e Reconhecimento de Padrões.

32 thoughts on “Mapeamento musical de artistas baseado em seus arranjos harmônicos usando cadeias de Markov – Parte 1: O início de tudo

  1. Anybody will be curious, this great article “Mitt Romney’ t Unusually Foolhardy Penny-Pinching Compulsion” by means of Alex MacGillis at The Completely new Republic internet site shows the reason Romney is completely right not to let go any more taxes and tax returns, not so much as being a intervalle far more. Simply make sure to read this junk and discover what steps away in the weeds a fervent reportorial trick musician including MacGillis goes when given almost nothing of importance or even interest. This is a work of art of moot mudslinging in relation to obscure terms inside taxes codes which absolutely convince Mr.. MacGillis this Romney is often a UNDESIRABLE MAN. n nThe taxes and tax returns of an profitable trader, it has to be met with no real surprise, usually are challenging matters. To evaluate them adequately demands the skills of the accountant along with a duty legal representative. Only after that, soon after accomplishing all those mind-numbing assignments, may anybody willing to to distinguish concerning precisely what is appropriate and incorrect, reliable as well as unlawful. Mister MacGillis nonetheless would like everybody in order to by pass in order to typically the justice stage not any punch that for the penalty period. Romney’s wealthy. They have exercised income tax deductions. Bad? Naturally your dog is guilty. In addition to MacGillis’ got barrows brimming with wonderfully confusing and hopelessly specific details to pass through the obstruction length of the convoluted, thought-deadening, ahem, consignée type. n nThe most recent weeks have demonstrated beyond reach involving cavil the lawbreaker organization otherwise called often the Obama with regard to President Marketing campaign features used LYING DOWN AS A DELIBERATE STRATEGY. Ala Nike all their sentenza is usually “Just declare the item! inches Appropriately, the Democrats want absolutely nothing superior to to help inveigle their particular press allies in to investing the following 90 days doing absolutely nothing however groing through Romney’s fees brand by simply brand (and as well as the fact that music want treasured tiny interceiding inveigling). And to in the event that all of us the people might definitely somewhat not, if we would favor gouging out our eye when compared with digging including termites in 4,000 web pages of tax returns, acknowledged and neutral professionals such as the taxation wizards Wolf Blitzer, Erin Burnett, Jesse Gregory, the particular aforesaid Mr.. MacGillis, and also George Stephanopoulos can be counted on to spell out in order to all of us the way suspect as well as my very own amazing benefits! possibly precisely how outlawed the reduction in price believed on the internet 53 regarding additional routine M (as corrected 1983) more than likely will be; also claimed credit score is in abuse regarding Segment 200-1g (section 512, subsection LII, sentence 69) of the Ut income tax program code, and supporting, basically, the particular getting of any lawbreaker action up against the Governor as he / she evaded reporting profits received via white captivity throughout violation of the Providing Moonshine in order to Mormons Work regarding 1934, as well as why don’t we simply put aside often the months of June and September to essentially get to the end of their. and nCats may pursue pets and also snowfall black color prior to we need to look at a conclusion to the discussion.
    coque iphone http://wilkes.discoveryeducation.com/lrougeux/?p=39945

  2. As a result of ()z via Mar twenty second. Yes functioned a delicacy and also ended up saving me a great deal of looking at along with seeking. I must say I decided not to realize their own uploads/downloads could well be p2p. My spouse and i run peerguardian along with a couple ip’s kept arriving (blocked admittedly). These were BSky F in 193. 195. 121. 136 and also Transmitting Media in 193. 114. 117. 134. These kinds of are both absent right now so very happy thanks a lot. I use no worries together with Heavens within this challenge genuinely although a lot of the population actually more than likely can locate any deal ore possibly understand clearly there was an issue. Anyway, basically guide I have just uncovered Kservice stalking on my machine soon after seeking to transfer Sky Simply by Internet connection from a single equipment to a different. Only to say that I had special occasion to be able to engagement ring Atmosphere tech assist more than once during the process (and never have been successful in doing that yet). They are really great individuals however are fairly uninformed. It’s not that they don’t let you know about Kontiki gowns described over the internet in which join typically the service -it’s that they can need ideas how functions or perhaps how much difficulty it really is in order to uninistall the idea. I became informed expunging SkY By BB ended up being as simple as add/remove applications. It’s, because Kontiki remains working aside. Typically the technology support aren’t going to be being dishonest, IMHO these people merely are clueless very much. We believe the particular probs I have acquired switching SBB from a PC to another one happen to be a result of the particular Kontiki application nonetheless managing on my network. Seeing that I realize how hard Kontiki would be to eliminate Therefore i’m unsure only want to proceed SBB by any means I’ll simply drop it.
    coque iphone https://www.thumbtack.com/blog/?p=23278

  3. The thing that pisses me about very last fm is I never recharged just one dollar if they had been creating their records base, In my opinion our staff members allowd lastfm for you to spy on the hard drives thus it could possibly raise this massive files foundation and after that it began to charge for the services every one of us helped to make.
    coque iphone http://www.csmsigorta.com.tr/?p=25087

  4. Cheers a great deal for discussing this using folks that you determine what most likely speaking about! Book marked. Please furthermore review together with the website =). We’re able to have a web page various contract involving people hi there!, I enjoy your producing a lot! percentage all of us keep up a correspondence much more your own post upon AMERICA ONLINE? I have a professional for this area in order to resolve this trouble. Might be that is certainly a person! Looking toward peer an individual.
    coque iphone https://lddradio.bytesbrothers.co.in/?p=1264809

  5. Instant messaging confident it may be feasible…. but the truth is can be best using the VMware Internet SAN and local safe-keeping within the ESXi website hosts with regard to similar to which…. or even utilize the HOURSE POWER P4000 VSA application… both are very good alternatives intended for specifically that will.
    coque iphone http://katchop.com/blog/?p=12347

  6. apologies, but no . and nI after believed just like you do, however I know much better now what these people (the Obama men and women and the press wanting to assist reelect him) are usually performing. it does not matter just how many taxation sorts Romney releases; it will be explained they must discharge more. they may after that cherry-pick items of specifics of Romney’s great wealthand sure, your dog is wealthy. just what exactly? and they’ll attract the actual annoyed with your partner individuals who believe Obama’s gonna spend their particular mortgage loan and stick it into the wealthy dude. d national insurance would choose to observe Obama’s college or university transcripts. any possibility of which happening? I will paraphrase you. “Either Obama is usually hiding a thing, or perhaps they feels obduracy, pigheadedness can be a far more presidential attribute when compared with visibility and integrity. In any case, he’s incorrect. inches and Are you currently nonetheless cheating on your current fees, Mister. Kass? Obviously you happen to be since you will not publish your taxation assessments in addition to full fiscal documentation. Ask how\ that works?
    coque iphone http://casaluma.staging.truecode.pt/?p=14738

  7. This can be valuable. Some understand there is Much drastically wrong or perhaps bad with all the apple ipad. After all, I knew ?t had been one of those things you don’t have any use intended for, you must get a work with for doing this. . -= backlinks’s final website… Buy. edu Backlinks: How to Get. edu Back links through. edu Web pages =-.
    coque iphone http://www.paparatsi.club/?p=18379

  8. Exactly what severe software do the job are you searching to perform on a gadget that you simply can’t accomplish at this time? Please keep in mind that whenever Steve Careers released the ipad tablet, it turned out introduced for a 3rd software choice (along together with desktop pcs and laptops). Anticipating some sort of capsule to perform SolidWorks design job is not really just what their created for. In this exact same abnormal vein, that which you might take into account being non-serious work could be reverse great user (think salespeople). It can facts concerning work and discovering what works effectively for you.
    coque iphone https://den.o3000.ru/?p=427

Deixe uma resposta

O seu endereço de e-mail não será publicado.