本稿では,ボーカル付きのポップス楽曲の音響信号入力をもとにして,原曲の雰囲気を再現したピアノ編曲譜を生成する自動 『耳コピ』 手法を提案する.和音に含まれる単音がそれぞれ発音されるタイミングを 2 次元で記述したリズムパターン行列 (Rhythm Pattern Matrix,RPM) を定義し,これを用いたリズムパターン自動生成アルゴリズムを考案した.最適なリズムパターンをコサイン類似度を用いたスペクトログラム比較手法により選出する.ピアノ経験者を被験者としたアンケート調査を行ったところ,楽曲の面白さという評価点において,特に優位性が見られた.
We proposes an automatic composition system using images. This system generates a monophonic melody from an input image in a symbolic domain. This method consists of 3 models including Composer, Evaluator, and Melody Generator Models. Composer is a Convolutional Neural Network (CNN) based model, which creates melody from an image, is trained with Evaluator by adversarial learning. Evaluator is a Long-Short Term Memory (LSTM) based model to evaluate phrases generated by Composer. Melody Generator is an LSTM based model to generate melody from phrase. We created three types of datasets including a new image-phrase dataset to train these models respectively.
音響信号のみを入力とするピアノ弾き語り用伴奏譜の自動生成システムの提案.本システムでは作曲の知識がないユーザ向けに,原曲の再現度を重視したピアノ譜面を提示する.この時,和音選択の際に原曲の再現度を高めるため,和音の正解率よりもスペクトログラム間の類似度を重視する.これはスペクトログラム形状が似ているほど曲の雰囲気が似ているという仮定に基づくものである.
Zhang et al. (2015) provided promising results of Character-level convolutional approaches to text understanding on Machine Translation and Text classification tasks.
The goal in this research was to apply such approaches to Twitter data, in order to see how well they are able to cope with raw social data.
The task was to predict hashtags of tweets based on their content only. Therefore, models build distributed representations of tweets using ConvNets and Gated Recurrent Units then rank hashtags by relevance to the tweet representation.
Results have shown to be on par with tweet2vec model by Dhingra et al. (2016), while being faster up to threefold during training on GPU.
References:Zhang et al. (2015) : https://arxiv.org/abs/1509.01626 Dhingra et al. (2016) : https://arxiv.org/abs/1605.03481