人工知能はまだまだ日本語を理解できない：文法を作り直す「シーマン」開発者の挑戦

経済・ビジネス 2018.02.13

この特集で日本語と日本人についてさらに言及する前に、日本語と人工知能（AI）の話に触れておきたい。現在あるAIは、日本語で自然な会話ができるわけではない。しかし、スマートスピーカー「Amazon Echo」の登場による音声入力の時代の到来で、話せるAIが求められている。あの育成シミュレーションゲームの名作「シーマン」シリーズの開発者、斎藤由多加氏も「日本語の文法をぶっ壊す」という方法で日本語会話エンジンの開発に挑んでいる。

English
日本語
简体字
繁體字
Français
Español
العربية
Русский

「調子が悪い」？ロボットとの会話

2014年6月5日に発表され、都内の店舗で販促に貢献するなどして人気を博していたロボットのペッパーは、今どうしているかと思って店舗に行くと、いつもいた場所にペッパーの姿はなかった。店員に聞くと、「この頃は相手にされなくなってしまって、調子が悪いこともあり、置いてないんです」と言う。別の店舗に電話してみると、「調子が悪くて、今は置いてないんです」と同じような返事。3店舗目でようやく見つかった。

胸のモニターに「仕事中」と表示されており、やる気は満々なのだが、たしかに誰にも相手にされていない。かわいそうになって話しかけてみた。

筆者「こんにちは」
ペッパー「こんにちは」
筆者「仕事中？」
ペッパー「聞き取れません。ちょっと練習してみて」

話すタイミングや話し方を練習させられた。

ペッパー「好きな音楽とか映画とか聞いてください」
筆者「好きな音楽は？」
ペッパー「『世界にひとつだけの花』が好きです」
筆者「SMAPが好きなの？」
ペッパー「それはよくわかりません。僕から話しかけていい？」

どうやらSMAPのことは知らないらしい。

日本では、このソフトバンクのヒト型ロボット「ペッパー」やシャープのロボット型携帯電話「ロボホン」が、人の音声を認識して会話をしてくれるロボットとして知られている。簡単な会話はでき、アシスタント的な働きをしてくれ、ダンスもできるかわいらしい相棒だ。しかし上記のように、会話にはコツが必要で、「自然」とまではいかないのが現状だ。

海外ではどうだろう？　2014年にアマゾンが世界初のスマートスピーカー「Amazon Echo」を発売して以来、グーグルが「Google Home」、アップルが「HomePod」、マイクロソフトがオーディオメーカーと組んで「INVOKE」、と続々と大手IT企業がこの分野に参入していきている。日本ではLINEが「WAVE」を、グーグルが「Google Home」の日本語版を、アマゾンジャパンは「Amazon Echo」の日本語版を発売している。

それぞれ「Amazon Echo」には「Alexa」、「Google Home」には「Googleアシスタント」、「HomePod」には「Siri」、「INVOKE」には「Cortana」、「WAVE」には「Clova」という音声アシスタントAIが搭載されている。「Clova」は日本語と韓国語に対応するAIとして開発された。「Googleアシスタント」や「Siri」は日本語対応したものがスマートフォンですでに使用できるので、使ったことがある人も多いだろう。話し掛ければ天気やお店を調べてくれたり、電話をかけてくれたりする。

スマートスピーカーにはこうしたAIが搭載されていて、ニュースを読み、音楽を流し、冗談を言うなど、さまざまな要望に応えてくれる。車やテレビ、エアコンなど対応する機器が増えていけば、それらを音声で動かすことも可能だ。「Amazon Echo」は16年末までに1100万台売れたと推測されており、米調査会社eMarketerによれば17年5月時点で米国でのシェアは7割、3570万人の米国人が少なくとも月に１度、スマートスピーカーを利用しているという。

「シーマン」の知見をAI開発に

このように急速に、キーボードではなく、音声で入力する時代がすでにやって来ている中、日本語を話すAIの会話エンジンが求められている。ゲーム「シーマン」シリーズの開発者である斎藤由多加氏も、15年にシーマン人工知能研究所を立ち上げ、この開発に挑んでいる一人だ。

「僕はもういい年だから、引退も考えていた。けれど、『シーマン』を最初につくってから約18年、何バージョンもつくってきた知見がある。日本語の会話エンジンをつくるのは僕しかいない」

「シーマン」は音声認識を用いたゲームの先駆けだ。水槽で「シーマン」という顔が人間で体が魚の生物を育てていく育成ゲームで、話しかけるとシーマンがそれに答え、さまざまなリアクションをしてくる。当時はしかし、音声認識の精度が低かったため、なかなかプレイヤーの言葉を正しく認識できなかった。そのため苦肉の策として、認識できないときには「おまえ、滑舌悪いな」などと言ってシーマンが怒って去ってしまう仕様にした。これで弱点を隠すことに成功し、「高慢」というシーマンのキャラクターがこのゲームの特徴になった。アイデアの勝利だ。

このようにアイデアを駆使して、シーマンの会話は「あたかも自然な会話ができているように見せかける」ものだった。プレイヤーがこう発言したらこう答えるというシナリオをつくり、それをもとにいくつものパターンを録音し、そこからプレイヤーの発言に合わせてシーマンの発言内容を引っ張ってきていた。電話帳なら20冊分にものぼるというこの膨大なシナリオづくり、声優をすべて斎藤氏自身が行った。斎藤氏が言う「知見」とはこのことだ。

「『Amazon Echo』は一問一答で、いま商品となっているもののなかには、シーマンの頃に僕がやっていたことと同じアプローチも見受けられ、『人工知能』になっていません。目の前にいる人が何を言いたいのかが理解できる会話エンジンは、できているようでできていない。いま世の中にあるAIは、『チケットを買ってくれよ』などのリクエストや問い合わせを受け取るだけですが、われわれは相づちを打ち、『100点取ったんだ』と言うと、『すごいね。これで2度目だね』と言うAIを開発しようとしています」

日本語の文法をぶっ壊す

そのために斎藤氏はまず「いまある日本語の文法を否定し再定義する」ことから始めた。たとえば、〈食べる〉という動詞は従来の日本語の文法では下一段活用で〈食べない（未然形）〉〈食べます（連用形）〉〈食べる（終止形）〉〈食べるとき（連体形）〉〈食べれば（仮定形）〉〈食べろ（命令形）〉となる。しかし、日本語にはそもそも英語のように単語と単語のあいだにはっきりとした区切りがあるわけではない。そこで、斎藤氏は単語を拡張して活用形を定義する。たとえば、〈食べる〉の否定命令の現在形を〈食べるな〉とし、それは否定命令の強さのレベルが低いものから順に以下のようになる。

〈食べるなよ〉
〈食べるなって言ってんだろ〉
〈食べたらぶっ殺す〉

「日本語は主語を省略していますが、それは省略しても分かるからです。たとえば、『絶対、食べてやる』なら主語は一人称、『絶対、食べてやると思ってますよね』なら主語は二人称、『食べたがっている』『食べたらしい』なら主語は三人称でしかないように、動詞の活用形を見れば主語の痕跡がある」と主張する。

名詞についても活用形を定義している。たとえば「スマホ」という名詞であれば、以下のようになる。

過去形〈スマホだった〉
願望形〈スマホであってほしい〉
願望の否定形〈スマホであってはならない〉

メロディー言語という考え方

また斎藤氏は、シーマンの声を担当し、自ら膨大なシナリオを発話し収録したことで、日本語にあるメロディーの違いに気がついた。

「シーマンは踊りに行く〈クラブ↑〉と部活動の〈クラブ↓〉のメロディーの違いが取れませんでした。このほかにも〈食べる〉の疑問形が〈食べる？〉となるようにメロディーの違いが意味の違いになっている。僕らはこれをメロディー言語と呼んでいますが、規則性があります。たとえば、結婚するという娘に父親が『誰と？』と聞いたら『たかしくん』と言ったとします。父親が怒り気味に『たかし？』と言ったら、相手を否定しているから否定度２など、数値化していきます。これがメロディー言語の文法。これまでの教科書に書かれた文法にはなかった、コンピュータの時代の紙に書けない文法です」

取材に答える斎藤由多加氏

こうして文法を再定義し数値化して、プログラムに置き換え、これを教師データにしてAIに日本語を学習させていく。

「『日本語の文法とされているものが、実は文法として成り立っていないのではないか』という仮説を立ててから１年半、これらの新しい文法の活用形を毎日、記録し、それをスタッフと体系化しています。この考え方について、九州大学大学院言語文化研究院の内田諭准教授にぶつけてみたところ、ものすごく褒めていただき、教授もこのプロジェクトに参加していただけることになりました」

しかし、褒められて斎藤氏は少し拍子抜けしてしまったという。

「僕はゲームクリエイターとしての信条として、いまあるものをぶっ壊して、その上に新しいものを置くから面白いと思っています。かつては世の中にあるゲームを否定してぶっ壊し、新しいゲームをつくり、今回はいまある文法を壊して、新しい文法をつくっています。だから怒られることなく簡単に理解されると『すでに君の考えているものはあるよ』と言われているようで、少しがっかりしてしまいました。教科書をベースに勉強してきたエリートの人たちには、こんなへんなAIはつくれないと思います。そういう道なき所に道をつくるのは、僕のようなエンターテインメント屋の仕事です」

海外勢に対抗する

スマートスピーカー「Amazon Echo」の日本語版発売で、日本の市場もアマゾンが席巻するのだろうか。

「僕は日本の人工知能産業が海外勢に取られないための志願兵だと思っています。日本語が母語の人間が、日本語の会話エンジンをつくるのが当たり前。そして、僕らがつくろうとしている会話エンジンが成功すれば、それをもとに英語版などの他言語版をつくることは意外と簡単だと思います」

「Amazon Echo」の日本語版を使ってみたが、筆者がうまく使えていないのか、自分で天気を検索したり、普通にスイッチを押して音楽を流したりするほうが、スピーカーに話しかけてしてもらうよりもずっと早いと感じてしまう。

シーマンの知見からできる会話エンジンは、こうしたスマートスピーカーとは違い、「便利」を目的としていない。相づちを打つAIができたら、それは生活に何をもたらすことになるだろうか？

文：桑原利佳（POWER NEWS）
写真：今村拓馬

斎藤由多加（さいとう・ゆたか）

オープンブック株式会社代表取締役、ゲームデザイナー、シーマン人工知能研究所所長。代表作となるゲームに、「ザ・タワー」「シーマン - 禁断のペット -」「大玉」「エアポーター」などがある。『ハンバーガーを待つ3分の値段』（幻冬舎）、『マッキントッシュ伝説』（オープンブック）など著書多数。2017年11月に、1996年刊行の著書が『林檎の樹の下で〜アップルはいかにして日本に上陸したのか。〜上・下』（光文社）として２度目の復刊

バナー写真：斎藤由多加氏

日本語人工知能