キャラソンの歌詞とか、今まで出た雑誌のインタビューとかをそれぞれカテゴライズしてテキストマイニングするの、非常に面白いと思うんですけど、プログラミングちょっと出来る勢の方々いかがですか(?)
— ならは (@colmar1204) 2018年11月5日
回収しに来ました。
-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-
このブログ記事は、ほしぞら(@starry_cocoa)さん主催の
「ごちうさ原作読書会『木組みの街図書館』」企画用記事です。
イベントの詳細は下記を参照ください!
twipla.jp
-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-*-
概要
原作読書会ですが、敢えてキャラソンの解析に挑んでみます。人生ゲームでMPを使い果たして未回収のネタしか浮かばなかった訳では無いです 趣旨から外れてごめんなさい……
半分作業ログみたいな感想文というか散文というか、「やってみた」系記事にはなってしまいますが、お付き合い頂ければ幸いです。
因みに筆者はこれが初めてのテキストマイニングですので、解析方法や解釈のしかたが間違っていることも大いにあり得るかと思います。そんなときは優しく教えて頂けると嬉しいです……
早速内容に入っていきますと、タイトル通りごちうさのキャラソンの歌詞を使ってテキストマイニングをしてみます。
今回は、頻出語句を確認した後に、「時期別」「作詞者別」「歌手別」という切り口から、気になるところをつまみ食いしていこうと思います。
本当はコーディングルール作成*1までしたかったのですが、間に合わなかったのでまた今度……
準備
解析方法は、ここやここなど、先人の記事をご参照下さい。「歌詞 テキストマイニング」とかでいっぱい出てきます。
対象は、「Daydream café」 ~ 「銀のスプーン」 までの、現在発売されている全てのごちうさ楽曲*2(全128曲)です。
「ハピハピ♪バースデイソング」については、キャラ毎に違う一節を除いて解析にかけています。
また、形態素解析*3する際に上手く抽出されなかった語に関しては、強制的に指定して抽出*4を行いました。これでも全部は抽出できていませんが、ごちうさは独特な表現が多くて苦労します。大体畑さんのせいな気がしますが
以下が一覧です。
また、以下の3語だけは、1曲のみしか出てこないですが出現回数が多く、解析結果への影響が大きいと思われたため除外としました。
更に、曲によって漢字を使ったりカタカナを使ったりしている単語は、ある程度1つの表現に纏めました。
以上のデータを元に、KHCoderを用いた解析を行いました。
解析結果
頻出語句
まずは、頻出単語上位150個を出してみました。
色付けは筆者が気になった個所に手動で色を付けています。以下は色ごとの感想など。
先ずはピンク色から。これはカフェ・食べ物に関する単語です。出現回数だけ見ると、コーヒー > パン > チョコ(チョコレート)の順に多そうですが、出現曲数でカウントするとコーヒー > パン > ミルク = お茶 > チョコ(チョコレート)となりました。食べ物より飲み物の方が多いところが、喫茶店を舞台としたごちうさらしくていいですね。
次は青色、時間に関することや時間的な広がりを感じられるものを色付けしました。「今日」や「今」が多いのは勿論、「明日」や「未来」についても少なからず触れられているのが分かります。この辺りについては、時期別の解析結果の項で出現頻度の変化や文脈の変遷などを見ていきたいと思います。
そして緑色です。気持ち・感情に関連する単語を色づけしています。全単語の中でも「楽しい」が一番多いですが、「好き」という単語も割合に多いですね。また、"好き"を表すのに「好き」と「大好き」の2通りの表現が使われているのもさる事ながら、「大好き」が「好き」の1.5倍くらいあるのも興味深いです。
少し話は逸れますが、「好き」と「大好き」が文脈によってどのような使い分けがされているのか気になったので、KWICコンコーダンス*5を使ってざっと見てみることにしました。
「大好き」は「笑顔」「夢」といった抽象的なものや、「キミ」や「人」「みんな」などの人物に対して、
「好き」は「街」「料理」「小説」など、具体的な物に対して言及する際に使われていることが多い様です。*6
これは主観なのですが、「好き」よりも「大好き」の方がかわいくて(重要)キャッチ―な雰囲気がありますね。また、表情やジェスチャーなどの視覚情報が使えない分、より強く印象付けれるよう「大好き」が多く使われる傾向にあるのかもしれません。原作では比率がどうなっているか調べてみるのも面白そうです。
橙色についてはテーマは無いですが個人的に引っかかった単語です。
今回は「空」と「星」について触れておくと、あまり印象がない割に出現回数が多いので気になった単語です。特に「空」は「未来」や「好き」と同じくらい出現していますので、それについてのデータを見ていこうと思います。まずは、「空」についてKWICコンコーダンスとコロケーション統計*7を出してみましょう。
使われ方としては、「青い空」や「空」を「見上げる」といった使われ方が多いようです。「グラス」は主に流星ガーデンの影響ですね。
ざっくりと主観で分類すると、
という使い方が主かなという印象でした。
最近でこそ原作も卒業旅行編で様々な場所へ訪れていますが、基本的には木組みの街の中で起こる物語を綴るお話です。更に「キャラソンでは街の外に出ない」と縛りを設けられています*12ので、「木組みの街」というミクロなものへの対比として、空間的な広がりを持たせるために雄大な空を描く事が多いのではないでしょうか。(その意味ではセカイも割と似たような文脈なのかも…と思いましたが、セカイは「未知」のシンボルという意味合いの方が強そう*13ですね。)
これから新しいキャラソンを聴くときには、歌い手が見ている空、その時の感情などに思いを馳せるのも1つの楽しみ方になりそうです。
時期別
この項では、発売された時期別での単語の変化を追っていきます。楽曲を「1期」「2期」「OVA」「3期」の4つの時期に分類し分析にかけました。
それぞれの時期に含まれる曲は、以下のように設定しました。また、曲順は拙作「ご注文はデータベースですか?」を元にしています。
最近趣味で纏め始めたごちうさのDBを公開します。https://t.co/ZXPSyeVAC6
— ならは (@colmar1204) 2018年8月17日
利用規約など面倒なので作っていませんが、無断転載・営利目的の利用の類は固くお断りします。あと利用は自己責任で。
まだ情報を集めている途中なので、共同編集者になって下さる方は是非お声がけください…!#gochiusa
解析方法としては、「共起ネットワーク」というものを用いた解析を行います。これは、KHCoderのリファレンスで「出現パターンの似通った語、すなわち共起の程度が強い語を線で結んだネットワークを描くことが出来る」と解説されていますが、つまりは「どの言葉とどの言葉が一緒に使われていたのか」を分かりやすく可視化した物です。多分。
解析結果は以下の通りです。
見方はこちらをご参照下さい。
図中で○が大きいほど単語の出現回数が多く(Frequency)、線が太いほど強い共起関係にあることを示しています(Coefficient)。
まずは共通の単語になっている「笑顔」「楽しい」「今日」ですが、ごちうさの楽曲はほぼ全ての時期で一貫してこれらに軸足を置いていることが分かります。その上で、2期については「知る」「変わる」や「明日」というワードが出現していますね。まず「知る」のコロケーション統計から見てみますと、
圧倒的に「知らない」と使われていることが多そう*14です。しかし、
まだ知らないこと たくさんある 見つけちゃったなら
それは冒険の始まりです ワクワクするよね!
ときめきポポロン♪ 作詞:うらん
くちびるがとなえだした秘密の呪文
出会いたいよ知らないわたし
Dear Me 作詞:三浦誠司
この次は 何の味が出るのかな?
次の曲を知らないライブみたい
CANDY COLOR DAYS 作詞:高瀬愛虹
といった歌詞に代表されるように、「知らない」ことにワクワクしたり、「知らない」事を見つけたいと思うなど、未来への期待感と共に「知らない」ことを前向きに捉えている様子が窺えます。
また、「変わる」についても、
図で示すように「変わらない」の形が一番多くはなっていますが4割程度であり、「様々な物が変わっていく中で、変わらない大切な物もある」と歌われている様に感じます。
つまり、「知る(知らない)」も「変わる」も「明日」も含めて、2期では未来志向の単語が増えたのではないかという印象を受けました。
更にその後のOVAでは「今」との共起が強まっており、更に1期・2期・OVAの中では一番強く「今日」と共起しているようです。そして3期では「未来」とまた将来の事に目が向けられているよう*15でした。
1期から順番に追っていくと、常に「今日」に軸足は置きつつ、「明日」や「未来」など将来を見据えてわくわくしたり、だからこそ「今」を「楽し」んだりといった事を反復している傾向が見て取れそうです。
この辺りは「進学」や「卒業」に関するお話と、各種季節イベントなどを楽しむ話がミルフィーユ状に重なっていく原作にも通ずる点があるんじゃないかなという気がしました。
作詞者別
この項では、作詞者別に単語の傾向を追っていきます。まずは、全作詞者の方を対象に、対応分析*16をしてみます。
この図では、単語が近くにあるものは相対的に関連が深く、作詞者方向にあって、且つ、原点(0,0)から離れているほど、その作詞者の方に特徴的な単語であることを示しています。(逆に原点付近には特徴のない語が集まります)
…ちょっと多くて分かりづらいですね。
そのため、10曲以上の楽曲がある方に対象を絞ってみます。作詞者別の曲数は以下の通り
なので*17、対象の方々で出した結果がこちらです。
少し見やすくなりました。
特に分かりやすいのは、うらん先生と「会える」*18「一緒」「おしゃべり」などの語ですね。うらん先生といえば「キラキラ」「きらめき」「ときめき」などの語が取り上げられやすいですが、同程度かそれ以上特徴的な単語*19の様です。「一緒」にいる状態、「おしゃべり」している場面、そして「キラキラ」「ときめき」などの描写、それらから、なんだか写真のように、その一瞬、その場の空気感を切り取ったかのように描写するのが上手なのがうらん先生なのかなという印象を受けました。
おまけ
以下は文章が間に合わなかったので、画像とちょっとしたコメントのみ乗せておきます。
発表順との相関
最初に示すのは、言葉の繋がり方の変遷についてです。これも共起ネットワークを用いた解析ですが、「共起パターンの変化を探る(相関)」というオプションも使用しており、「特定の単語がデータ中の前半/後半のどちらに特徴的か」と「特定の共起がデータ中の前半/後半のどちらに特徴的か」も見ることも出来ます。
実際に図を見た方が分かりやすいと思いますので、早速解析結果をば。
図の見方ですが、青色に近いほどデータの前半、赤色に近いほどデータの後半で多く出現、若しくは共起していることを示しています。
先ずは単語から見ていくと、青色で特徴的なのは「夢」「キラキラ」「一緒」、赤色で特徴的なのは「今」「声」「場所」などでしょうか。
同じようにして、時期による共起の変遷を見ていきます。一番分かりやすいのは、「夢」に関する共起ですね。データ前半では「大好き」「心」「楽しい」などですが、後半では「未来」と共起が強くなっていることが見て取れます。
アーティスト別
また、アーティスト別での解析も行いました。実施したのは「Petit Rabbit's*21」「チマメ隊」「その他」というグルーピングでの対応分析・共起ネットワーク図と、各キャラのソロ曲のみでの共起ネットワーク図です。ソロの分析のみ、「お月見数え唄」の影響が大きく出すぎてしまっていたので、無視対象に「ぴょん」を追加しています。
綺麗に分布が分かれました。KWIC見た雰囲気では、「会いたい」ことを歌う*22のがPetit Rabbit's、「会える」ことを歌うのがチマメ隊という感じでしょうか。第四の壁を越えられるのはPetit Rabbit'sだけというのは前述の通りですが、強いて挙げるとすれば「歌う」ことを歌うのはPetit Rabbit'sが多い*23というくらいで、特段目を引く単語があるわけではなさそうです。
共起ネットワークは以下の通りです。
「楽しい」が共通項になっている安心感。
次はソロの解析です。項目が多すぎて見にくいので、対応分析は省略します。共起ネットワークは以下の通りです。
「笑顔」と「パン」に共起するココアちゃん、「コーヒー」と「幸せ」を歌うチノちゃんなど、これだけでもキャラの傾向が読み解けそうです。青山ブルーマウンテンさんとタカヒロさんが「大人」で繋がっているのも面白いですね。青山ブルーマウンテンさんとリゼちゃんが「胸」で繋がる*24のは何かのネタでしょうか……
最後に
ということで、今回はキャラソンの解析に挑んでみました。何か新たな発見に繋がったり、考察の助けや根拠に使えそうなものがあったのであれば幸いです。
読書会には解析に使用したPCも持っていく予定ですので、どなたか「他の分析結果が見てみたい」「この切り口から分析してみたい」というリクエストがあれば、その場でやってみたいと思います。是非お声がけ下さい!
実施に関しても、テキストの処理*25は試行回数が何回か必要ですが、キャラソンの歌詞程度であればそこまでPCのスペックも必要とせず*26に実施できました。新たな発見に繋がるかもしれませんので、是非皆様も試して頂いて、得られた知見を共有して頂ければと思います。
最後までお読み頂きありがとうございました!
*1:「未来」「明日」「次」「大人」を『未来のこと』とするなど、単語をいくつかのコンセプトに纏めて解析することで分析を深めていく手法
*2:ユニーク楽曲からDJ楽曲と「Theme of Phantom Thief Lapin」を除く
*3:ざっくり説明すると、文章を単語にまで分解すること
*4:後述する表記ゆれの置換と平行して行っていたので、意味のない指定もあるかもしれません…
*5:Key Words in Context、つまりその単語がどのような文脈の元で使われているか調べるもの
*6:因みに「ス好き」は事故です。置換するときは気を付けましょう……
*7:ある単語の前後に、どんな語が多く出現していたかを集計し見ることが出来る
*8:ラ・ラ・ラ!ラ?モーニング、きらきらアラモードなど
*10:夢見FLAVOR、とびきりsummer timeなど
*11:すいーと・すきっぷ・すてっぷ、しんがーそんぐぱやぽやメロディーなど
*12:ご注文はうさぎですか?? ~Dear My Sister~ DISC GUIDE P15
*13:今更ですが、8巻で各々が出会ったセカイについて考察しても良かったかもですね。8巻は「外の世界を知って 故郷がもっと好きになる(引用元:7巻 セカイがカフェになっちゃうの?)」という言葉に概ね集約されるのではないかと思うのですが、これは「木組みの街の外へ出ることで、もっと木組みの街が好きになる」という話に留まらず、「未知を知ることで、既知のものへの理解が深まる」という意味合いが強いのではないかと感じています。そして8巻で出会った「未知」とは「自分(やみんな)の、今まで知らなかった一面や関係性」や「新しい登場人物」で、そこから新学期編に向けて各々の「アイデンティティーの理解を深め」たのが8巻の役割だったのではないかなというのが8巻の感想です。テキストマイニング本編とは関係ないので注脚に書き殴りをば。
*14:「知る」の出現回数は74回なので、実に5割以上が「知らない」を歌詞にしているようです
*15:まだ3期はSFYの特典しかないので傾向とは言えないかもしれませんが…
*16:この辺りはKHCoderのチュートリアル( https://khcoder.net/tutorial.html)P22とかが分かりやすいです
*17:意外にも畑さんより高瀬さんの方が提供数が多いんですね
*18:「会える」は「きらめきカフェタイム」の影響が大きそうです
*19:「ほる」は形態素解析のミスから抽出されている言葉なので無視して下さい
*20:チマメ隊の曲は11曲ありますが内5曲はうらん先生が作詞ですし、うらん先生は15曲中5曲がチマメ曲、ソロやsunshine daysも含めれば9曲がチマメ隊関連の曲です
*21:with beansやモカさん、青山ブルーマウンテンさんが入っている曲も含む
*22:かなり宝箱のジェットコースターに引きずられている感はありますが
*23:これも恐らくはしんがーそんぐぱやぽやメロディーの影響だと思われます。あとはハピハピ♪バースデイソングもありますが、傾向という程の傾向ではない可能性の方が高い気がします
*24:勿論使われ方は身体的特徴の方ではないですが、無慈悲なボタン回のあのコマが思い出されますね……
*26:参考程度に書いておくと、i7-4700MQ, mem 8GB, HDDでしたが、前処理は15秒程度で、「自己組織化マップ」など重いものを除いた抽出語に関する解析は10秒前後で処理が終了しました