たった一週間で？ポッドキャスト初心者が「音読音声」配信に切り替えた理由【一週間で変化！ポッドキャスト奮闘記】

2025年9月20日日々雑感

読了時間: 約4分1秒

Contents
1. 予想外！たった一週間で、「音読音声」配信に切り替えた
2. AI音声への不満その1：読み間違い
3. AI音声への不満その2：ハルシネーション
4. NotebookLMでも避けられないハルシネーション
5. 頑固さに辟易？いなすより音読したほうが早い！
5.1. 共有:
5.2. 関連

予想外！たった一週間で、「音読音声」配信に切り替えた

2024年秋頃からやってみたいと思っていたポッドキャストですが、なかなか踏ん切れませんでした。
しかし、2025年4月30日から、NotebookLMの音声概要機能が日本語対応し、
2025年7月18日から、noteなどの記事をNotebookLMに読み込ませ、それを元に作った音声概要をポッドキャストで配信するようになりました。

当初は、二〜三カ月ぐらいは、この音声概要で配信するつもりでした。
まずは、記事を充実させたり、配信の工程の効率化に集中する。
その後、慣れてきたら自分で記事を音読したものを配信しようと考えていました。

しかし、音声概要配信からたった一週間で、音読音声に切り替えようと思い立ちました。
その理由は、AIが作った音声概要に、不満がつのるようになってきたからです。

AI音声への不満その1：読み間違い

まず、音声概要に対する第一の不満は、「読み間違いが気になる」ということでした。
ルビをふっても、どこまで読みとるかわからないのです。
たとえば、「文選もんぜん」を「ぶんせん」と読むのはいたしかたないと思います。これは、「文選」を知らない人なら、読み間違えるでしょう。

しかし、「一手間ひとてま」を「いってま」と読み間違えるのは、気になる。
「一手間」を使えば、毎回間違えているので、それがデフォルトなんだと思います。

かといって、NotebookLMのために、わざわざ「もんぜん」とか、「ひとてま」などと、ひらがな表記にするのはめんどくさい。
自分で音読したほうが早いし、確実だと思いました。

AI音声への不満その2：ハルシネーション

そして、第二にして、最大の不満が、「自分の意図しないハルシネーションが起こること」でした。

「ちょこザップ退会の経緯」に関する記事の音声概要を作らせたときのことです。
結構なボリュームだったので、複数の記事に分けて書いていました。

音声概要は、取り込まれたソースを総合して作られるので、すべての記事をソースにしておいて、第五回の記事の音声概要を作るということはできないんですね。
そのため、ひとつのソースで、ひとつの音声概要を作るようにしていました。
すると、私の意図しない締めくくりを勝手に盛り込んだ音声概要が出来上がってしまったのです。

ある回の記事で、私は、「習慣化は意志の力だけでなんとかなるものではなく、環境や、アクセスの簡便さにも大きく影響を受ける」つまり、「運動習慣がにつかなかったのは、私のせいじゃない」という言い訳を主張めかして言いました。
しかし、音声概要は、「環境のせいっていっているけど本気でやりたいと思っているのか?」と私の主張とは逆の問いかけでしめくくったのです。

AIは、老若男女の文章などを学習して、人々の傾向や平均的な特徴をとらえています。
AIはAIで、その学習から、「この話題では、人間はこういう反応や考えをするものだ」という人間に対する先入観や見通し、推論をはたらかせているのです。

これは、記事を書いたユーザーがマイノリティやデータ学習のはずれ値である場合、本来の主張が反映されず、その主旨からはずれたまとめや問いかけでしめくくられることおそれがあることになります。

主旨に沿った音声概要を配信するようにしておかないと、リスナーには全く正反対の考えを持っているように受け取られてしまうかもしれないのです。
こんな危なっかしいもの、配信できないと思いました。

NotebookLMでも避けられないハルシネーション

「AIは、ハルシネーション（幻想）がつきもの」と言われてきました。
ハルシネーションとは、まぁ、簡単に言うと、知ったかぶりです。
しれっともっともらしい嘘をつくのです。
これが起こるのは、「不特定多数のソースを元にするから」と考えられてきました。

しかし、NotebookLMは、画期的でした。
ソースを自分で指定することで、ハルシネーションを起こりにくくしたのです。

とはいえ、完全にゼロにすることはできません。
ソースを限定しても、やっぱりハルシネーションは起こるのでした。

ある日、NotebookLM内のチャットで、ソースに関する質疑応答をおこなったときのことです。
私の書いた記事について、要旨や、最終的に伝えたいテーマ、メッセージをたずねたところ、極端な推論を示してきました。

NotebookLMは、Geminiが使われているのですが、融通が利かず、頑固なAIという印象があります。

「このソースでここまでは読みとれないはずだが?」と指摘すると、
「でも、ここに、こう書いてあるから、どうのこうの･･････」と反論し、変えようとしません。
自説、持論に固執しやすいのが、Gemini の特徴のように思います。

頑固さに辟易？いなすより音読したほうが早い！

また、このハルシネーションは、私がポッドキャストをなかなか始められなかった理由を書いた記事の音声概要でも生じました。

私がポッドキャストをなかなか始められなかったのは、「考えあぐねていたから」でした。
もちろん、忙しかったこともありますが、最初のエピソードをどういう内容にするかの考えがまとまらなかった、というのが最大の原因でした。

しかし、NotebookLMは、その理由の記述を重要視せず、
毎回、「話すことに抵抗があった」つまり、「話すことに苦手意識があった」から始められなかった、と解釈するのでした。

「話すのが苦手だったら、ポッドキャストやろうなんて考えないでしょ」と思うのですが、
NotebookLMにはその発想がないのか、パターン化された推論があるのか、まったくゆるぎませんでした。

NotebookLMが誤読しないように細かく書いたこともありましたが、それでも軌道修正は難しい。
やりとりに時間を費してみたこともありますが、たいした効果はありませんでした。

結局、どんなに手を尽くしても、最終的には、
「このソースからは、こうしか読み取れません!」とないはずのへそを曲げ、
これまた、感情はないはずですが、いじけて心を閉ざしてしまうので、打つ手はないのです。

音声概要は、全体的にはよくまとまっています。また、AIホストのしゃべるさまは、とてもAIとは思えないクオリティです。
しかし、私のことを知らず、これだけを聴いた人に、正確な要旨が伝わらないことがあっては困ります。

自分が聞くぶんには、大いに楽しいのですが、他者に配信するのは、リスクが大きすぎる。
音声概要自体は面白いけれど、自分の満足・納得がゆかないものを出すわけにはいかないと思うようになりました。