業績一覧

A Personalized Dialogue Generator with Implicit User Persona Detection

Itsugun Cho, Dongyang Wang, Ryota Takahashi, Hiroaki Saito in Proceedings of the 29th International Conference on Computational Linguistics, pp367-377, 2022

3D CNN Transformer による手話認識

高橋 亮太, 斎藤 博昭 第36回人工知能学会全国大会論文集, 2022

アクセントの位置を考慮した音響特徴によるオノマトペの用法分類

深町 光平 第36回人工知能学会全国大会論文集, 2022

日本語対話応答生成における他言語からの転移学習の適用

柳瀬 優作, 張 逸群, 斎藤 博昭 第36回人工知能学会全国大会論文集, 2022

ボーカルメロディに応じた歌詞生成

宮野友弥,斎藤博昭 芸術科学会論文誌 Vol.20, No.2, pp.129-138, 2021

Anna: A Dapper Open-Domain Dialogue Agent Based on a Joint Attention Network

Itsugun Cho, Hiroaki Saito Journal of Natural Language Processing (自然言語処理) Vol28, No.4, pp.1184-1209, 2021

Noise Reduction Using Self-Attention Deep Neural Networks

Naoyuki Shiba and Hiroaki Saito in the 15th International Symposium on Computer Music Multidisciplinary Research (CMMR), Nov 2021

Musical Duet Reconstruction with Tree-Structured Variational Autoencoder

Adam Oudad, Taketo Akama, Hiroaki Saito in Proceedings of the 2nd Conference on AI Music Creativity, July 2021

ボーカル付きポップス楽曲の音響信号からのピアノ譜自動生成

越井 琢巳, 斎藤 博昭 研究報告音声言語情報処理 (SLP) 2019.44 (2019): 1-6.

本稿では,ボーカル付きのポップス楽曲の音響信号入力をもとにして,原曲の雰囲気を再現したピアノ編曲譜を生成する自動 『耳コピ』 手法を提案する.和音に含まれる単音がそれぞれ発音されるタイミングを 2 次元で記述したリズムパターン行列 (Rhythm Pattern Matrix,RPM) を定義し,これを用いたリズムパターン自動生成アルゴリズムを考案した.最適なリズムパターンをコサイン類似度を用いたスペクトログラム比較手法により選出する.ピアノ経験者を被験者としたアンケート調査を行ったところ,楽曲の面白さという評価点において,特に優位性が見られた.

CNN・CRNN による音楽ジャンル分類の実装 と LINE Bot アプリによるデモ

峯村 開, 斎藤 博昭 研究報告音楽情報科学(MUS),2019-MUS-125(6),1-3 (2019-11-12) , 2188-8752.

Rap lyrics generation using vowel GAN

Tomoya Miyano, Hiroaki Saito 2019 16th International Conference of the Pacific Association for Computational Linguistics

Automatic Image-to-Melody Composition Using Deep Learnig

Natsuki Homma, Hiroaki Saito International Society for Music Information Retrieval Society Conference, 2018

We proposes an automatic composition system using images. This system generates a monophonic melody from an input image in a symbolic domain. This method consists of 3 models including Composer, Evaluator, and Melody Generator Models. Composer is a Convolutional Neural Network (CNN) based model, which creates melody from an image, is trained with Evaluator by adversarial learning. Evaluator is a Long-Short Term Memory (LSTM) based model to evaluate phrases generated by Composer. Melody Generator is an LSTM based model to generate melody from phrase. We created three types of datasets including a new image-phrase dataset to train these models respectively.

スペクトログラム間の類似度に基づくピアノ弾き語り用伴奏譜の自動生成

越井琢巳, 斎藤博昭 研究報告音楽情報科学 (MUS) 2017.49 (2017): 1-6.

音響信号のみを入力とするピアノ弾き語り用伴奏譜の自動生成システムの提案.本システムでは作曲の知識がないユーザ向けに,原曲の再現度を重視したピアノ譜面を提示する.この時,和音選択の際に原曲の再現度を高めるため,和音の正解率よりもスペクトログラム間の類似度を重視する.これはスペクトログラム形状が似ているほど曲の雰囲気が似ているという仮定に基づくものである.

Character-Level Convolutional Neural Network With Gated Recurrent Unit For Hashtag Prediction

Adam Oudad, Hiroaki Saito 2017

Zhang et al. (2015) provided promising results of Character-level convolutional approaches to text understanding on Machine Translation and Text classification tasks.

The goal in this research was to apply such approaches to Twitter data, in order to see how well they are able to cope with raw social data.

The task was to predict hashtags of tweets based on their content only. Therefore, models build distributed representations of tweets using ConvNets and Gated Recurrent Units then rank hashtags by relevance to the tweet representation.

Results have shown to be on par with tweet2vec model by Dhingra et al. (2016), while being faster up to threefold during training on GPU.

References:Zhang et al. (2015) : https://arxiv.org/abs/1509.01626 Dhingra et al. (2016) : https://arxiv.org/abs/1605.03481

Multi-Language Sentiment Analysis of SNS across Different Cities

Muga Yoshikawa, Hiroaki Saito 言語処理学会第23回年次大会予稿集, pp.623-635, 2017.

レビューに対する分散表現を用いた評判分析

中嶌大貴, 斎藤博昭 言語処理学会第23回年次大会予稿集, pp.545-548, 2017.

不満調査データセットの素性ベクトル化

末廣駿, 斎藤博昭 言語処理学会第23回年次大会予稿集, pp.545-548, 2017.