43号線を西へ東へ

フリーランスの備忘録、アウトプットの実験場

Windows11とiPhoneの音声入力比較:実践的検証結果

このブログはプロモーションリンクを含むときがあります


おとついから音声入力でブログは書けるのかという検証を行っています。

  • 音声入力時の誤字脱字
  • 文章の推敲
  • 編集作業を省力化

が課題になります。今のところは

  1. 車内で音声入力
  2. Notion AIで文章の改善
  3. はてなブログアプリで編集
  4. 公開

という流れでブログ作成はできそうです。この流れはブログ作成にも使いますが、本業の日報作成に一番役たってくれそうで、期待しています。

Windowsにも標準機能で搭載されている音声入力機能があります。より良い環境を探すためにiPhoneの音声入力と比較してみました。

音声入力環境の比較

音声入力の結果を3つの環境で検証しました。

  1. Windows11上のChromeでNotion
  2. iPhone上のNotionアプリ
  3. iPhone上の標準メモアプリ

Windows11の音声入力機能

Windowsキー+Hで起動します。

入力結果がこちら。

Windows上の。 Notion。ね。入力を行っているが。 Windowsの。音声入力は?すぐに古典が打たれる傾向がある。空白があると。すぐに丸を振ってしまうのである。

iPhoneの音声入力機能をNotionアプリ上で

音声入力が終わったらNotion AI上で「アクションリストの抽出」と「要約」を行うと、日報がほぼできあがるので本当はNottionアプリ上で入力したい。しかし肝心の変換効率が標準メモアプリに比べるとやや劣る。

iPhone上のNotion heyアプリで入力を行っているが、iPhoneの音声入力は句読点を、適切に打ってくれる傾向が高い。しゃべっている。途中で少し言葉が止まって空白ができたとしても句読点も、適切に打ってくれるようになっている。

iPhoneの音声入力機能を標準メモアプリ上で

ほぼ完璧な変換をしてくれます。

この入力はiPhone上のメモアプリで入力を行っている。iPhoneの音声入力は句読点が、適切に打たれる傾向が高い。しゃべっている途中で、少し言葉が止まっても句読点を適切に入力してくれる傾向が強い。

結果考察

Windows 11の音声入力の問題点

Windows 11の音声入力は空白期間の処理が問題でした。だまっている間に「句点」が挿入されるため、私のような考える・思い出す時間が長い場合にはには適していません。かなりの修正が必要で実用性に欠ける状況です。

これに対する改善案は、空白期間の設定を変更できれば使えるかもしれませんが、iOSの標準機能では自動で「いい感じに」やってくれているので、現状ではわざわざWindowsの音声入力を使う必要はないです。

iPhoneの音声入力の利点

iPhoneの音声入力機能では、入力中にも句読点の追加や変換結果の修正がなされている。これにより文章の前後関係を考慮した、より正確な文章に変換できている。

以下は音声入力時の実例動画になります。

youtube.com

Notionアプリ上と標準メモアプリ上では変換途中の挙動が異なったのが気になりました。

Notionアプリと標準メモアプリの比較

Notionアプリと標準メモアプリでは、音声入力中の挙動に違いがある。

  • 両者は同じ音声入力エンジンを使っているので、本来なら同じ結果を得られるはず
  • 標準メモアプリでは誤認識に対する変換候補が表示され、後からの編集がしやすい。
  • これに対し、Notionアプリでは変換候補が表示されない。

以下は、その標準メモアプリのスクリーンショットになります。Notionアプリではこのような変換候補は表示されません。

アプリ上の文字データが音声入力機能に標準メモアプリなら上手に受け渡しできているが、Notionには仕組みが常備されていないので、音声入力結果我に差が出るのかもしれません。

CoreMLとかNatural Languageあたりが絡んでいるのかもしれません。深い技術は全く理解できていないですけれども、現段階では純正アプリで音声入力した方が良い結果が得られることがわかりました。

Notionアプリもクロスプラットフォームのジレンマはあると思うのですが、オールインワン環境を標榜するならその当たりを取り入れて改善してほしいです。

developer.apple.com

developer.apple.com