Nグラムは、一般にNグラムとも呼ばれ、テキストまたは音声コンテンツの統計的分析である n テキスト中のある種の項目の数(数)。
検索項目は、音素、接頭辞、句、または手紙のようなあらゆる種類のものにすることができます。 Nグラムは研究コミュニティの外ではやや曖昧ですが、さまざまな分野で使用されており、自然言語を理解して対応するコンピュータプログラムを開発する開発者には多くの意味があります。
Google Books Ngram Viewerの場合、分析されるテキストは、Googleが公立図書館からGoogleブックス検索エンジンに取り込むためにスキャンした膨大な量の書籍に由来します。 GoogleブックスのNgramビューアでは、検索対象のテキストを コーパス 。 Ngram Viewerは言語ごとに集約されますが、英語とアメリカの英語を個別に分析したり、それらをまとめて分析することはできます。
Ngramのしくみ
-
Google Books Ngram Viewer(books.google.com/ngrams)にアクセスします。
-
分析したいフレーズを入力します。各フレーズはコンマで区切ります。 Googleが提案するのは、「Albert Einstein、Sherlock Holmes、Frankenstein」です。 Google Web検索とは異なり、項目は大文字と小文字が区別されます。
-
日付範囲を入力します。デフォルトは1800〜2000です。
-
コーパスを選択します。外国語のテキストや英語を検索することができます。また、標準の選択に加えて、下部に「英語(2009)またはアメリカ英語(2009)」のようなものが表示されます。これらはGoogleが更新した古いコーパスですが、古いデータセットと比較する理由があるかもしれません。ほとんどのユーザーはそれらを無視して最新のコーパスに集中できます。
-
スムージングレベルを設定します。スムージングとは、グラフが最後にどのくらい滑らかであるかを指します。最も正確な表現は0のスムージングレベルですが、その設定は読みにくい場合があります。デフォルトは3に設定されています。ほとんどの場合、調整する必要はありません。
-
プレス たくさんの本を検索する ボタン。
Googleでは、Ngramビューアでかなりドリルダウンすることができます。名詞を魚の代わりに動詞を検索する場合は、タグを使用して検索できます。この場合、 "fish_VERB"を検索します
Googleでは、使用できるコマンドの完全なリストとその他の高度なドキュメントをウェブサイトで提供しています。
Ngramは何を表示していますか?
Google Books Ngram Viewerは、書籍の特定のフレーズの使用時間を表すグラフを出力します。 2つ以上の単語やフレーズを入力した場合は、色分けされた線が表示され、異なる検索語句が対照的になります。これはGoogle Trendsと非常によく似ていますが、検索でのみより長い時間がカバーされます。
ケーススタディ
酢のパイの事例を考えてみましょう。彼らはLaura Ingalls Wilder's リトルハウスオンザプレーリー シリーズ。酢のパイについて詳しく知るためにGoogleのウェブ検索で調べると、彼らはアメリカ南部料理の一部とみなされ、実際に酢から作られていることが明らかになりました。彼らは、誰もが年中いつでも新鮮な農産物を利用することができなかった時代に耳を傾ける。しかし、それは全体の話ですか?
Google Ngram Viewerを検索 お酢のパイ 1800年代前半と後半に数々のパイ、1940年代に多くの言及があったこと、最近の話題が増えています。しかし、3のスムージングレベルでは、1800年代の言及を超える高原が見えます。当時は多くの書籍が公開されておらず、データが平滑に設定されているため、画像が歪んでしまいます。おそらく、酢のいとうのパイに言及した本が1冊あっただけで、スパイクを避けるために平均化されました。平滑化を0に設定することで、これがまさにそのケースであることがわかります。スパイクは1869年を中心とし、1897年と1900年には別のスパイクがあります。
それ以外の時間に誰も酢のパイについて話したことはほとんどありません。場所のいたるところに浮かぶレシピがありましたが、 書きます これらのNgram検索の重要な制限です。