Alexaが、「AI技術を使用した音声操作を実現している」というような言い方をするが、AlexaのスキルのSDKを少し読むと、モダンなAI技術であるディーブラーニングが適用される部分というのが、実際にはかなり限られていることが分かってくる。

まず、音声操作を実現するステップを分解して説明すると、

STEP1:音声をかなの文章に認識して変換(Alexaの音声認識API)…これについては、ディープラーニングの技術を使用して、利用者の声の認識率が次第に高まるような学習を行っている

STEP2:音声を認識したかなの文章を形態素(品詞)に分解(Alexaの形態素解析API)…Alexaが行ってくれるが、ディープラーニングの技術は使われていないと思われ、学習は限定的

STEP3:形態素に分解した文章に基づき、主語述語目的語などの受け掛りを判定し、その命令内容に基づき処理を行う(スキル)

のように分かれる。

すなわち、実際に音声でしゃべった言葉の「意味」を解釈して処理を決める部分は、Alexaの役割ではなく、スキルというアプリケーションプログラムで実現される。

スキルは、手続き型言語で書かれているため、例えばどんな言い方のコマンドを受け付けるかは、スキルでプログラミングされていなければ解釈できず、利用者の言い方を自動的に学習して、理解できる言い方が自動的に広がっていくようなことは起きえない。