43号線を西へ東へ

フリーランスの備忘録、アウトプットの実験場

音声入力、2026年の現在地──精度は上がったが、口下手な私には高機能すぎる件

このブログはプロモーションリンクを含むときがあります


以前このブログで、音声入力についての記事をいくつか書いた。

最初に書いたのは2023年8月。iPhoneに搭載された音声入力機能を試して「これはすごい!」と感動した記事だった。

当時試していたのは、iPhoneに標準搭載された音声入力機能だ。 感動はしたものの、お世辞にも精度が高いとは言えなかった。 今となっては、正直「使い物にならないレベル」だったと思う。

あれから約2年。音声入力の世界は進化していますが、逆に退化している自分と向き合うことになりました。

AIアプリに音声ボタンが標準搭載された

ブログを始めて半年〜1年の間に、ChatGPT(gpt-3)が登場し、AIが一般的に届くようになりました。AIを使わないブログ執筆を経験できたのは、大変良かったと思います。

音声入力機能は、早くからChatGPTやClaudeのスマホアプリやWebでも、搭載されていました。入力欄の右の方にあるボタンがそれです。マイクのアイコンを押してしゃべるだけで、その内容をもとにチャットができます。

実は、この記事もその機能を使って書いています。

精度は非常に高い。

実は音声の認識ミスはあるものの、AIによる補正が行われるので、以前のiPhone標準の音声入力とは比べものにならない。

iPhoneの音声入力も最初は驚きましたが、誤変換の修正がだんだんと面倒になりました。最初は個人情報保護のことを考えて、大手AIサービスの音声入力は使わないようにしていたのですが、結局はChatGPTに投げていました。課金してたら学習には使わない、という公式発表を信じて。

音声入力アプリの導入

Typelessという選択肢

こういう、うまくしゃべれない人間の味方になってくれるアプリがある。

Typelessというサービスだ。

言い間違いや、同じ言葉を繰り返してしまった部分を、AIが自動で修正してくれる。 「てにをは」が多少おかしくても、文脈を読んで変換してくれる。内容を吟味しながら変換してくれる感じが心地よい。

変換のスタイルはAqua Voiceのような逐次変換では無くて、ボタンを押し下げて一通りしゃべってから、もう一度ボタンを押すことで変換作業が始まる。まとまった文章を受け取って文脈をみてから適切に変換をおこなう仕組み。

言い直しが多い私には、ぴったりの音声変換スタイルである

さらに、Mac版とiPhoneアプリの両方があるので、PCとスマホで同じ環境・同じ辞書で使えるのも便利だ。設定の同期も期待できる。

無料枠が比較的長めに使えるので、私のように「たまにしか使わない」人間であれば、無料の範囲で十分まかなえるのもうれしい。

Typeless

Aqua Voiceは口達者向けの音声入力アプリだった

テック系のYouTuberを見ていると、Aqua Voiceというアプリを使ってVibe Codingをしている人が多い。少し前にダウンロードして使ってみた印象なので、思い違いをしているかもしれないが、発話するとすぐに文字起こしされる俊敏な音声入力ソフトであった。

しゃべりが得意な方にはうってつけの音声入力、言い直しやフィラー(あー、えーっと)が多い私には、少しつらかった。

そして、Aqua Voiceは無料枠がかなり狭い。 私のように、絶えず音声入力して使い倒すわけではない人間には、試算すると課金のメリットまったく感じられない。私には使い切れないほどの無料枠の多いTypelessのほうが合っている。

Typelessには長く続いてほしいと思っている。 無料ユーザーが増えすぎてサービスが終了する、という悲しい結末だけは避けてほしい。 本当に使いやすいサービスなので、末長く事業を続けてくれることを心から願っている。

AIチャットアプリに内蔵の音声入力も悪くない

そうは言いながら、この記事を書くのに使っているのはClaudeのスマホアプリに内蔵された音声入力だ。

純粋な変換精度は疑問が残るところがあるが、固有名詞の変換ミスがあっても、文脈を読み取って「○○は音声変換ミスとみなして□□として、話を進めます」と気を利かせて話を進めてくれる。

これはこれで非常に気に入っている。

専用アプリを別途用意しなくても、普段使っているAIアプリの音声ボタンを押すだけで済む手軽さは、日常使いにはちょうどいい。

ChatGPTを課金している人ならPCからはCodexの音声入力が利用できる。

Codexの音声入力を設定済み

単に文字起こしするだけなら大手のAIチャットでなんとかなる。

問題は自分の口のほうだった

iPhoneの音声入力の面倒なところは、誤変換が多いことである。

AIを使った音声入力ではかなり精度が上がったのだが、喜んでばかりもいられない事情がある。そもそも話し下手の人間は効率的にな音声入力には付記なのである。

iPhoneの音声入力場合は、ゆっくり話すことで、変換精度が上がったような印象がある。 ただ、最近の音声入力関係は、かなり早いのである。

また、そのUIも私にとっては問題がある。

音声入力は、サーバーにデータを送りながら変換している。 そのため、話すのをやめると画面に「…」がずっと表示され続ける。

またChatGPTには会話モードがあるのだが、こちらが言葉を探し手間をとるとすぐにAIが話し出す。全部伝えてから判断してほしいのに。

早くしゃべらなきゃ・・・

これが地味にプレッシャーになる。焦りが生まれて、余計にたどたどしくなる悪循環。

一時期に比べて、言葉が出なくなってきている。自分の言語化能力が、著しく衰えているようにおもう。

これはブログを始める前にもかなり気になっていた。もともとしゃべれないし文章も書けないのだが、それがひどくなってきている。厳選せずに思い付いた言葉を発すると、大概印象を悪くするか、傷つける。

開始当初から1年間はブログを書きまくっていた。少なからず推敲をして、単調にならぬように言葉を探しながらキーボード入力をしていく。読み直してみれば幼稚な言葉遣いが多いのだが、それも修行と思い、書き残していく作業を続けていた。

その作業の継続によって、言葉の地図的なものが開発されたのだろう。多少なりとも言葉が出るようになっていた。少なくともと自分ではそう感じていた。

ところが最近はどうだろう。ある程度下書きを書いたらAIが上手いことまとめてくれる。言い回しが気になったところを自分で修正するような手順で手抜きなブログになっているのは否めないところである。

ブログを書き始めたときよりも、起承転結を考えて書き直すことも減り、確実に自分で推敲しなくなった。忙しいという言い訳を武器に、単語の意味や言い回しについて考えることが減っている。

年々年老いていくし、もともと苦手だったところをトレーニングで克服した部分は、真っ先に能力が落ちていく。

老化を体感するのがいやなら、頭をひねってブログを書き続けるしか無い。特に口下手の私の場合は、音声入力でスピードアップ目指すよりも、言葉が浮かぶ時間を稼ぐために、時間がかかるキーボード入力を使った方がちょうど良いのかもしれない。

とはいえ、そもそもが車の移動時間を有効に活用するためにはじめた音声入力であるから、アウトプット手段の一つとしてこれからも細々と続けていこうと思うが、キーボードで書く習慣は絶対に残しておこうと思った。

まとめ

2023年に音声入力の記事を書いていた頃と比べると、環境は別物になった。

  • AIアプリに音声入力が標準搭載された
  • AI利用時の個人情報保護をあまり気にしなくなった(これが良いことなのかどうかわからないが)
  • 精度は格段に上がった
  • 専用の高精度アプリ(Typeless、Aqua Voice)も登場した

あとは、しゃべる側の自分の問題だけだ。

音声入力界隈のキャッチアップはできてはいないのだけれども、自分の2026年の現在地をまとめておいた。自分の老化防止のためにも、ブログを自分で書くことは続けておいた方がよいと言うことで締めておきます。