「音楽にハマったら研究者になっていた」金髪バンドマンが大学助教になったワケ #1
大学の先生って普段何をしているのだろう。
そんなふうに思ったことはないですか?
なにか研究をしているのはわかるけど、何をどんなふうに研究しているんだろう?
っていうか大学の先生ってそもそもどうやってなるの?!
先生!おシゴトについてムズかしい話はなしで!わかりやすく教えてください!
【杉浦陽介(すぎうら ようすけ)】工学博士。埼玉大学 大学院理工学研究科助教。大阪大学工学部卒業、同大学博士課程修了。東京理科大学基礎工学部の助教を経て現職へ至る。専門はAI技術を使った音声認識や雑音除去、声質変換の研究
お話を伺ったのは埼玉大学工学部の杉浦助教。見ての通り、街中で見かけたら大学の先生には全く見えない風貌の先生。
そんな杉浦先生と、大学教員の研究やキャリア、そしてこれからの生き方について全5回で探究していきます。
人に興味を持っていたら音の研究者になっていた
ー現在は大学の教員をされていますが、元々どういった経緯で現在のキャリアを歩まれたんですか?
高校の頃から脳科学に興味があって、元々は脳科学者になりたいと思ってました。
人間はなんで笑うんだろう?ってのに当時すごく興味がありました。笑いって文化的な側面もあり、本能的な側面もあって、これ何が要因なんだろう?っていうのはすごい気になっていました。それを解き明かそうと思ってまずは大学に入学しました。
その後、学部生の間にバンドにハマりました。ただギターを弾くことが楽しくて、そこから音楽や音に興味を持ち始めました。
そこからは、もう凝り性なもんで。どうやったらいい音を演奏できるんだろう?どうやったら感動させられる声を届けられるんだろう?そんな興味からどんどんのめり込んでいきました。
ーそれが今のキャリアに繋がっていく?
そうですね。
そんな生活をしている内に、やっぱり声を研究したいって思い、学部4年生の時に音声を研究する研究室に入りました。
それからずっと「音声ってどうやって出てくるんだろう?」「どうやったら美しくて人に伝わる声とかになるんだろう?」ってところにすごい興味があります。
声や音をもっと知りたい!という思いをモチベーションに今まで研究してきました。
音声研究を社会の中でどう活用するか
ー所属的には「情報工学科」ですが、普段はどんな研究をされているんですか?
情報っていう言葉ってすごい広い意味を持っていますが、僕はその中でも音声を研究しています。その技術を実社会でどうやって役立たせるか、そんな目線で研究しています。
理系や工学ってあまり身近ではないと思うので、一般の方向けに講演会やセミナーもやっています。聞いてくださる方々によって内容は違ったりするんですが、僕の場合は企業の方に説明する場面が多いです。
私自身も共同研究で埼玉の企業の方と一緒に活動することが多いですが、そういった方に向けては「こういうことを知っておくと今後役立つよ」っていうような、企業目線で声の活用法を説明したりしています。
ー具体的に今までどういう話をされたんですか?
例として、工場での活用するケースを話したりしました。
普通は人の耳を使ってエンジン故障を判断しますが、技術の応用によってエンジン故障を判断する機械を作ることができます。もう一歩進めて、故障だけではなく故障しそうだよ、ってのを事前に教えてくれる機械にすることもできます。
機械の音を調子がいい時と悪い時をとで定量化することによって、音だけで現在の調子や経年具合が分かる、みたいな感じです。
他の例として、僕の研究の1番のコアである「雑音除去」技術を使ったものがあります。
工場っていろんな機械が動いているのでめちゃめちゃうるさいんですが、周りの音がうるさい中で、本当に聞きたい人の声だけをピックアップして聞こえるようにする。そんな技術を今研究しています。
騒音の中でも自然な会話をしたい、そういう問題を抱えている企業と一緒に解決策を模索した例ですね。
AIや深層学習ってどういうこと?
ー最近Youtubeで自動で字幕を作ってくれたり、音声認識の技術ってものすごく飛躍していると思うのですが、専門家からみてそこらへんの技術はどう思われますか?
YouTube の自動字幕とかすごい精度ですよね!噛んだ様子まで字幕で出てきて、しっかりと認識して、文字として起こせるようになっていると思います。
精度で言うと、90%以上は正確に言葉を認識して文字に出来るっていうような段階にきてます。
ー最近一気に普及した技術な感じがしますが、昔からある技術なんですか?
実はずっと昔から研究されている分野です。
前から精度自体は高かったんですが、最近のAI、深層学習の技術を使ってさらに精度が上がってきた背景はあります。
深層学習の精度を引き上げた理由の一つに、大量のデータを集められるようになったことがあります。
YouTube であったり、電話通話するときのデータであったり、たくさんのデータを集められるようになったので、それを使って音声認識や音声アプリケーションに応用出来るようになりました。
ー深層学習をあまりよく知らない人のために、こういうものだよって例えるとしたらどんな感じになりますか?
そうですね、画像認識が一番分かりやすいと思うので、例として挙げてみます。
人間ってすごく面白くて、丸書いて、ちょんちょんちょんって3点打つだけでも、不思議なもんで人間の顔に見えてきます。
それに耳をぴょんぴょんって書くと、今度は猫に見えてきます。
ここから「何かを認識する際、少ないパーツで認識することができる」って言うのが研究で分かってます。
深層学習もそういう技術を使っていて
- 物を構成するパーツ
- 位置関係
- 組み合わせ
を覚えといて、認識に応用しています。その結果、高い精度で認識をすることができています。
ー「どんな情報があれば人と認識するのか」「どんな情報なら猫と認識するのか」の最低限ラインを学んでる感じ?
そうです。「こんな情報があったらこう認識すればいいんだ!」っていうのをコンピューターが学んでいる感じです。
深層学習が流行る前までは、実際に猫だったら、こういう目があるよとか、こういう鼻がついてるよっていうのを人間が教えていました。
それが深層学習になってからは、こういう目があるぞ、こんな形の鼻があるぞ、といった情報を自動で計算して覚える仕組みになっています。
これが猫の画像だよってバーっとデータ与えたら、勝手に覚えてくれる感じです。
音声研究で深層学習をどう使うか
ー深層学習の技術を、先生の専門である音声ではどう応用していますか?
僕のコアとなっている研究にも結びついてくるんですけど、例えば Siri の話す声と、実際に人間の話す声ってなんかちょっと違うって思いませんか?
自動アナウンスの声と、普通の人間の声もなんか違う。なんか機械っぽいなって感じる時がないですか?
この「機械っぽいって一体果たして何?」っていうのがすごい不思議で、僕もずっと疑問に感じています。
この要因なんだろう?っていう時に、深層学習が実は使えるんじゃないかなと考えてます。
さっき言ったみたいに、深層学習は、猫っぽいとか、人の顔っぽいっていうのを、自動で解釈して、猫だったらこういうのがあると猫っぽいよねとか自動で判断してくれます。
これを音声に応用して、こういう要素があったら、人の声っぽい、こういう声があったら機械っぽい、その違いを分析できないかなと思って、いま使っています。
次回
杉浦先生インタビューまとめ
[編集:吉中智哉 / 撮影:高橋エリー]