Max/MSPとJuliusを使って音声認識した日本語を音響や光に変換

音声認識をさせて何かのデータにコンバートしたいという需要は結構最近あるので、2014年のMax環境で何かできないか調べてみました。

日本語の音声認識エンジンはJuliusがよく使われているそうなので早速こちらからダウンロードしてみたところ、OS10.10でも10.9でもなぜかコンパイルがうまくいかない。
http://julius.sourceforge.jp

ネットでヒントを求めたところHomebrewだと楽だとのこと。
そういえばシンガポールに行くときに丸山君にHomebrewの便利さを聞いてインストールしてあったのですが、その後使う機会が無くすっかり忘れていたので環境構築し直し。

Homebrewとは-
– Mac OS 上でのソフトウェア管理を行うソフトウェアのこと
– Macの中に入っているソフトウェアを尊重して利用するVersion 管理なので，利用しやすい

Homebrewのインストールはターミナルで以下のコマンドを実行。

$ ruby -e “$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)”

Juliusとディクテーションキットのインストールは以下のコマンド。

$ brew tap oame/nlp
$ brew install julius julius-dictation-kit

これだけであっさりインストールできます。

macの場合、core audioがうまく動作しないので、音声入力のためのライブラリportaudioもインストールする必要があるかもしれません。
（僕の場合事前にportaudioをビルドしてあったので、homebrew経由でもこれが無いと動作しないかは未確認）

更にMax/MSP上でJuliusで処理したデータを受け取るにはMaxのshellオブジェクトをインストールする必要があります。
shellオブジェクトの場合、コマンドをフルパスで書かないと実行してくれません。.bash_profileなどでパスを通してターミナルで実行してるプログラムも、Maxのshellオブジェクトだとパスが通ってません。
もしかしたら、Maxサーチパスのほうに記述すればフルパスで書かなくてもいいのかもしれません。
http://cycling74.com/toolbox/bernstein-shell/

shellオブジェクトはその名の通り、shellのように動作してくれるオブジェクトです。
Juliusがインストールされてるディレクトリやディクテーションキットのjconfが置いてあるディレクトリを書いてメッセージオブジェクトに記述し、shellオブジェクトに送り込めばマイクからの音声入力を文字列として取得できます。

“/usr/local/bin/julius -C /usr/local/opt/julius-dictation-kit/share/main.jconf -C /usr/local/opt/julius-dictation-kit/share/am-gmm.jconf”

音楽で使うことも可能ですが、インスタレーションでこういうプログラムは結構必要な場面があると思うので、音声による言語をMaxで音響や光や映像に変換するパッチをスタンバイさせておくと便利だと思います。
routeオブジェクトやselオブジェクトなどを使って特定の文字列が入力されたときに何かを動作させるようにプログラムを組んでいくのが基本になると思います。

大量に音声が入力されても聖徳太子並みにポリフォニックに処理できるかというと、そこまでは技術は進化してない模様。

Mac OSXではsiri以降kyokoなど日本語の音声合成が組み込まれているので、赤松さんのaka.speechと組み合わせて、マイクとスピーカーのフィードバックループを作って走らせると、誤認識だけが立ち上がった病的な独り言が延々続いて、新たな娯楽が生まれそうな予感がします。

http://www.iamas.ac.jp/~aka/max/

音声認識と音声合成のフィードバックループはこんな感じになります。

CDアルバムPreludes for Piano Book 1発売

- ポストヒューマニズムによる伝統的形式の再解釈 -

音楽家・松本昭彦による1stフルアルバム「Preludes for Piano Book 1」。本作は楽曲ごとに12種類の全く異なる作曲技法を試みたピアノ前奏曲集であり、ピアノ以外の楽器は一切使用していない純粋なピアノ音楽である。
個々の楽曲に通底するものはポストヒューマニズムの志向であり、従来の人間の感覚的特性や身体的特性が暗に導いている音楽的制約を取り払い、コンピューターの演算能力を借りることで、生身の人間だけでは到達しえない地点の音楽を構築し、音楽における人間とコンピューターの関係性を捉え直すことをコンセプトとしている。
1000年以上に渡る西洋芸術音楽の歴史を総括し、ピアノという楽器が生まれるはるか昔に忘れ去られた中世の音楽理論、20世紀後半以降の情報処理技術などをメタレベルで融合させ、ピアノという楽器を拡張するような電子音響処理を施し、プログラミング技術を駆使して楽曲を生成することで、生身の人間の作曲家の思考やピアニズムとは異なる角度から音楽を捉えなおし、新たなピアノ前奏曲集の可能性を模索した12曲。

坂本龍一

これは２１世紀ならではのピアノ前奏曲集だ。しかしこれがピアノの音なのか？不思議だ。

evala

過去1000年にも及ぶ音楽の実験と洗練の歴史を織り込みながら、まるで、まだ見ぬ人工生命が自発的にピアノと戯れているかのような楽曲群。これは最先端の電子音響でも現代音楽でもない。ピアノという楽器がもつ新しいユートピアのかたちだ。その優艶さに、またひとつ音楽の未来が楽しみになった。

藤本隆行（DUMBTYPE, Kinsei R&D）

人間が組織づけた音は、その構造によって人の感情に揺さぶりをかけたり、知的な経験を与えたりする。それを聴く側、つまり「人の心」を理解しようとするときには、乱暴な言い方をすると「精神医学」と「神経科学」の、2つのアプローチがあるように思う。精神分析などを使って迷路の中に踏み込んでいく方法と、脳を含めた身体の働きを、科学（西洋）的に細分化し切り刻んで、関係性を解明していく方法。そのどちらが正しいのか？というのは、適切な問いの立て方ではない。現代音楽のセオリーに全く無縁な僕が聴くと、とても饒舌でロマンチックと言ってもいいかと思うこの楽曲群は、実は音楽にとっての「精神医学」と「神経科学」の両方を深く考えた、稀有なバランスの上に成立している。

畠中実（キュレーター、美術／音楽批評）

プリペアド・ピアノは、ピアノの弦の間に異物を挟み込みピアノという楽器固有の音色を異化したものだが、この松本の言う、ピアノ以外の「楽器」は一切使用していない演奏による、12の前奏曲は、いわばコンピュータ・プログラムによってプリペアドされたピアノによる演奏とも言い得るだろうか。それぞれがコンピュータの異なる処理によって拡張されたコンポジションおよび楽器、そして演奏者による新たなピアニズムを模索しているようだ。それは自動筆記的でもあり、また、映像的な喚起力を内包してもいる。

國崎晋（サウンド＆レコーディング・マガジン編集人）

とても複雑な構造から成るピアノは、もっとも完成された楽器として広く知られている。松本はそんな楽器の王様にあたかも初めて接するような態度で臨み、鍵盤を弾くという本来の奏法だけでなく、弦をフィードバックさせたり筐体をたたいたり、どんなアプローチをすればどんな音が出るのかを、ひとつひとつ丁寧に確かめていったのだろう。その結果獲得した幾多の響きを増幅するための作曲技法、音響処理を徹底的に考え抜いて作られたのがこの12の楽曲だ。従来のピアノの枠にとどまらない12の新しい楽器が、それぞれの特性に合わせ極限まで洗練された演奏方法によって奏でられていくさまは、まさに息をのむほど優美なものである。

Preludes for Piano Book I

Akihiko Matsumoto
(2016-11-16)

Amazon.co.jpで詳細を見る

月	火	水	木	金	土	日
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30