[2011-11-25-1]の記事「#942. LAEME Index of Sources の検索ツール」で SQL による検索用 CGI を公開した.最近,研究で LAEME を本格的に使う機会があり,検索用のデータベースに少しく情報を追加した.そこで,上位互換となる Ver. 2 を作ったので,公開する.
追加した情報は,PERIOD, COUNTY, DIALECT の3フィールド.PERIOD は,もともとの IOS で与えられていたテキストの DATE をもとに,半世紀区切りで大雑把に区分しなおしたもの.C13b2--C14a1 など区分をまたがる場合には,早いほうをとって C13b と読み替えた."ca. 1300" なども同様に,早いほうへ倒して C13b とした.DATE において C13, C14 など半世紀で区切れない年代が与えられている場合には,C13, C14 のようにそのまま残した.
COUNTY は,LOC に与えられていた情報をもとに,3文字の略字表記で示した.DIALECT は,所属する州 (county) をもとに大雑把に N (Northern), NWM (North-West Midland), NEM (North-East Midland), SEM (South-East Midland), SWM (South-West Midland), SW (Southwestern), SE (Southeastern) の7方言に区分したものである.方言線は州境と一致しているわけではないし,方言線そのものの選定も,「#130. 中英語の方言区分」 ([2009-09-04-1]) や「#1030. England の現代英語方言区分 (2)」 ([2012-02-21-1]) で見たように,難しい.したがって,今回の DIALECT の付与も,[2009-09-04-1]の中英語方言地図に大雑把に照らしての仮のものである.参考までに,COUNTY と DIALECT の対応表はこちら.
# 各 PERIOD に振り分けられたテキストの数[ 固定リンク | 印刷用ページ | コメント ]
select distinct PERIOD, count(*) from ios group by PERIOD;
# 各 COUNTY に振り分けられたテキストの数
select distinct COUNTY, count(*) from ios group by COUNTY;
# 各 DIALECT に振り分けられたテキストの数
select distinct DIALECT, count(*) from ios group by DIALECT;
# DIALECT/PERIOD ごとに,所属するテキストの多い順にリストアップ
select distinct DIALECT, PERIOD, count(*) from ios group by DIALECT, PERIOD order by count(*) desc;
# Worcestershire のテキストを取り出し,PERIOD 順に諸情報を羅列
select TEXT_ID, FILE, MS, COUNTY, PERIOD, TAGGED_WORDS from ios where COUNTY = 'WOR' order by PERIOD;
COCA ( Corpus of Contemporary American English ) を運営する Mark Davies 氏が,[2012-01-08-1]の記事「#986. COCA の "WORD AND PHRASE . INFO"」で紹介した機能 (Frequency List) に加え,英文を投げ込むとCOCAベースで各語に関する諸情報を色づけして返してくれるサービス WORD AND PHRASE . INFO, ANALYZE TEXT を公開した.
適当な英文を投げ込むと,各単語が頻度レベルによって色分けされた状態で返される.上位500語までの超高頻度語は青,3,000語までの高頻度語は緑,それ以下の頻度の語は黄色で示されるほか,academic word が赤字として返される.文章内でのそれぞれの割合も示され,その語彙リストを出すことも容易だ.各語はクリッカブルで,クリックすると用例のサンプルが KWIC で右下ペインに表示される.また,左下ペインには類義語が現われる.以下は,昨日の記事「#1040. 通時的変化と共時的変異」 ([2012-03-02-1]) に引用した英文を投げ込んでのスクリーンショット.

英文を書くときには collocation や synonym を調べながら書くことが多いので,使い方次第では英作文学習に威力を発揮しそうだ.ある文章の academic 度を判定するのにも使える.Academic Word List に含まれる語彙の含有度ということでいえば,[2010-12-30-1]の記事「#612. Academic Word List」で挙げた The AWL Highlighter も類似ツールだ.
COCA ( Corpus of Contemporary American English ) を運営する Mark Davies 氏が,年末に,COCAベースで語に関する諸情報を一覧できるサービス WORD AND PHRASE . INFO を公開した.語(lemma 頻度で上位60,000語以内に限る)を入力すると,ジャンルごとの生起頻度やそのコンコーダンス・ラインはもとより,WordNet に基づいた定義や類義語群までが画面上に現われる.ほとんどの項目がクリック可能で,さらなる機能へとアクセスできる.インターフェースが直感的で使いやすい.
類義語研究や collocation 研究には相当に役立つ仕様になったのではないか.例えば,semantic_prosody を扱った[2011-03-12-1]の記事「#684. semantic prosody と文法カテゴリー」で,強意語 utterly, absolutely, perfectly, totally, completely, entirely, thoroughly についての研究を紹介したが,WORD AND PHRASE . INFO で utterly を入力すれば,これらの類義語群が左下ウィンドウに一覧される.あとは,各語をクリックしてゆくだけで,頻度や collocation の詳細が得られる.このような当たりをつけるのに効果を発揮しそうだ.

##953,954,955 の記事で,最近公開された COCA ( Corpus of Contemporary American English ) の n-gram データベースを利用してみた.COCA に現われる 2-grams, 3-grams, 4-grams, 5-grams について,それぞれ最頻約100万の表現を羅列したデータベースで,手元においておけば,工夫次第で COCA のインターフェースだけでは検索しにくい共起表現の検索が可能となる.
ただし,各 n-gram のデータベースは,数十メガバイトの容量のテキストファイルで,直接検索するには重たい.そこで,SQLite データベースへと格納し,SQL 文による検索が可能となるように検索プログラムを組んだ.以下は,検索結果の最初の10行だけを出力する CGI である.
# 1-grams で,前置詞を頻度順に取り出す(ただし,case-sensitive なので再集計が必要)
select * from one where pos1 like "i%" order by freq desc;
# 2-grams で,ハンサムなものを頻度順に取り出す
select * from two where word1 = "handsome" and pos1 = "jj" and pos2 like "nn_" order by freq desc;
# 2-grams で,"absolutely (adj.)" で強調される形容詞を頻度順に取り出す([2011-03-12-1]の記事「#684. semantic prosody と文法カテゴリー」を参照)
select * from two where word1 = "absolutely" and pos2 = "jj" order by freq desc;
# 3-grams で,高頻度の as ... as 表現を取り出す
select * from three where word1 = "as" and word3 = "as" order by freq desc;
# 4-grams で,高頻度の from ... to ... 表現を取り出す
select * from four where word1 = "from" and pos1 = "ii" and word3 = "to" and pos3 = "ii" order by freq desc;
# 5-grams で,死因を探る; "die of" と "die from" の揺れを観察する
select * from five where word1 in ("die", "dies", "died", "dying") and pos1 like "vv%" and word2 in ("of", "from") and pos2 like "i%" order by word3;
n-gram データベースを最大限に使いこなすには,このようにして得られた検索結果をもとにさらに条件を絞り込んだり,複数の検索結果を付き合わせるなどの工夫が必要だろう.
LAEME で Auxiliary Data Sets -> Index of Sources とメニューをたどると,LAEME が対象としているテキストソースのリスト (The LAEME Index of Sources) を,様々な角度から検索して取り出すことができる.LAEME のテキストデータベースを年代別,方言別,Grid Reference 別などの基準で分析したい場合に,適切なテキストの一覧を得られるので,LAEME 使いこなしのためには非常に重要な機能である.
しかし,もう少し検索式に小回りを利かせられたり,一覧の出力がコンパクトに表形式で得られれば使い勝手がよいだろうと思っていた.そこで,Index of Sources を独自にデータベース化し,SQL を用いて検索可能にしてみた.LAEME の使用者で,かつSQLを扱える人以外には何も役に立たないのだが,せっかく作ったので公開.
# Ancrene Wisse/Riwle のテキスト情報の取り出し
select TEXT_ID, MS, FILE, GRID, LOC, DATE, TEXT from ios where FILE like "%ar%t.tag" and TEXT like "%Ancrene%";
# Poema Morale のテキスト情報の取り出し
select TEXT_ID, MS, FILE, GRID, LOC, DATE, TEXT from ios where FILE like "%pm%t.tag" and TEXT like "%Poema%";
# Grid Reference の与えられているテキストの取り出し
select TEXT_ID, MS, FILE, GRID from ios where GRID != "000 000";
# DATE に "C13a" を含むテキストの取り出し
select TEXT_ID, DATE from ios where DATE like "%C13a%";
# 年代ごとに集計
select DATE, count(DATE) from ios group by DATE order by DATE;
# タグ付けされている語数をテキストごとに確認
select TEXT_ID, TAGGED_WORDS, PLACE_NAMES, PERSONAL_NAMES from ios;
# 全テキスト情報へのリンク集
select TEXT_ID, MS, FILE, URL from ios;
図書館の reference corner に,古めかしい浩瀚の辞書があるのを日々見ていた.自分ではあまり使うことはないかなと思っていたが,数年前,博士論文研究に関連して eyes (「目」の複数形)に対応する中英語の諸方言形が近代英語や現代英語でどのように発達し,方言分布を変化させてきたかを調べる必要があり,そのときにこの辞書を開いたのが初めてだったように思う(その成果は Hotta (2005) にあり.[2009-12-02-1]の記事「eyes を表す172通りの綴字」も参照).Joseph Wright による6巻ものの辞書 The English Dialect Dictionary (EDD) である.
それ以降もたまに開く機会はあったが,先日参加した学会で,この辞書がオンライン化されたと知った.久しぶりに EDD に触れる良い機会だと思い,早速アクセスしてみることにした.Innsbruck 大学の Prof. Manfred Markus が責任者を務める SPEED (Spoken English in Early Dialects) プロジェクトの成果たる EDD Online の beta-version が公開中である.現時点では完成版ではないとしつつも,すでに検索等の機能は豊富に実装されており(豊富すぎて活用仕切れないほど),学術研究用に使用許可を取得すれば無償でアクセスできる.(使用マニュアルも参照.)
早速,使用許可を得てアクセスしてみた.ただし,調べる題材がない私にとっては,豚に真珠,猫に小判.悲しいかな,見出し語検索に eye を入れてみたりして・・・(←紙で引け!懐かしむな!)(ただし,"structured view" で表示すると,紙版よりずっと見やすいのでそれだけでも有用).Markus 氏が学会でじきじきに宣伝していた通り,様々な検索が可能のようである.見出し語検索や全文検索はもちろんのこと,dialect area 検索では語によっては county レベルで地域を指定できる.usage label 検索では頻度ラベル,意味ラベル(denotation, simile, synonym など),語用ラベル(derogatory, slang など)の条件指定が可能である.etymology 検索の機能も備わっている.これらを組み合わせれば,特定地域と特定の言語からの借用語彙の関係などが見えてくるかもしれない.活用法を考えるに当たっては,まずは EDD がどのような辞書か,EDD Online がどのような機能を実装しているのかを学ばなければ・・・.
EDD そのものについては,VARIENG (Research Unit for Variation, Contacts and Change in English) に掲載されている,Markus 氏による Wright's English Dialect Dictionary computerised: towards a new source of information がよくまとまっている.
・ Hotta, Ryuichi. "A Historical Study on 'eyes' in English from a Panchronic Point of View." Studies in Medieval English Language and Literature 20 (2005): 75--100.
・ Wright, Joseph, ed. The English Dialect Dictionary. 6 vols. Henry Frowde, 1898--1905.
中英語の方言を研究していると,LALME の Dot Map 風のイングランド地図を描けると便利だと思う機会がある.LALME の地図を用いるのであればコピーしたりスキャンしたりすればよいし,オンラインの LAEME であれば "Mapping" 機能から "Feature Maps" で特に注目すべき言語項目に関する地図はデジタル画像で得られる.後者では,"Create a Feature Map" なるユーザーによる地図作成機能もおいおい追加されるとのことで,中英語方言学のヴィジュアル化は今後も進展して行くと思われる.
しかし,それでも様々な困難や不便はある.例えば,LAEME でも,自分の関心のある言語項目が LAEME 自体で扱われていなければ地図作成機能は役に立たないし(例えば,私の中英語名詞複数の研究では名詞の歴史的な文法性が重要だが,LAEME text database では性がタグ付けされていないのでフルには活用できなかった),LALME についてはそもそも地図がデジタル化されていず応用しにくい(地図のデジタル化,少なくともテキスト情報や座標情報のデジタル化が一刻も早く望まれる).
それでも,手をこまねいて待っているわけには行かない.既存のツールと自分の関心は大概ずれているものであり,自ら研究環境を作る必要に迫られるのが常だからだ.中英語の方言地図に関する限り,LALME や LAEME からテキストの方言付与情報さえ得られれば,自ら集めた言語項目に関するデータを地図上にプロットすることは十分に可能である.(需要は少ないと思われるが)その作業を少しでも簡便化するために,HelMapperUK なる CGI を作成してみた.英国のベースマップ上にデータポイントをプロットするという単機能に特化しており,凡例をつけるなどの付加機能はないが,ヴィジュアル化して概観をつかむという用途には十分と思われる.
本ブログでは,古英語,中英語,現代フランス語の引用や,IPA 「国際音標文字」などの発音記号を入力する機会が多いのだが,量が多いと,特殊文字や特殊記号の打ち込みが患わしくなってくる.この際だからと思い,ASCII文字だけで入力できる記法を定義し,それを目的の文字・記号へ変換するツールを作成してみた.英語史の周辺で用いることの多い文字・記号だけを変換の対象にしたので,名付けて hel typist.仕様,入力例,記法一覧はこちら.
以下に,汎用の Log-Likelihood Tester, Ver. 2 を公開.(後に説明するように,入力データのフォーマットに不備がある場合や,モードが適切に選択されていない場合にはサーバーでエラーが生じる可能性があるので注意.)
| though | although | |
|---|---|---|
| Natural and pure sciences | 56.3 | 80.13 |
| Applied science | 37.36 | 68.31 |
| World affairs | 45.81 | 68.2 |
| Social science | 48.98 | 63.38 |
| Commerce and finance | 46.18 | 57.21 |
| Arts | 74.07 | 52.93 |
| Leisure | 45.85 | 49.46 |
| Belief and thought | 70.78 | 46.75 |
| Imaginative prose | 80.2 | 26.37 |
何らかの基準で集めた英単語のリストを,一般的な頻度の順に並び替えたいことがある.例えば,[2011-03-22-1]で論じたように,頻度と不規則な振る舞いとの関係を調べたいときに,注目する語(群)の一般的な頻度を知る必要がある.この目的には,[2010-03-01-1]で紹介したような大規模な汎用コーパスに基づく頻度表が有用である.BNC lemma-pos list (122KB) や ANC word-tagset list (7.2MB) などで問題の語を一つひとつ検索し,頻度数や頻度順位を調べてゆけばよいが,語数が多い場合には面倒だ.そこで,上記2つの頻度表から,入力した語(群)の頻度と順位を取り出す CGI を作成した.
改行でもスペースでもカンマでもよいのだが,区切られた単語リストを以下のボックスに入力し,"Frequency Sort Go!" をクリックする.出力結果を頻度順位の高い順にソートする場合には,"sort by rank?" をオンにする(デフォルトでオン.オフにすると,入力順に出力される).例えば,現代標準英語に残る純粋に i-mutation を示す複数形は以下の7語のみである(複合語,二重複数,[2011-04-01-1]で話題にした sister(e)n は除く).これをコピーしてボックスに入力する.
foot, goose, louse, man, mouse, tooth, woman
昨日の記事[2011-03-24-1]で Log-Likelihood Test を話題にした.計算には Rayson 氏の Log-likelihood calculator を利用すればよいと述べたが,実際の検定の際に作業をもう少し自動化したいと思ったので CGI を自作してみた.細かい不備はあると思うが,とりあえず公開.
BNC_Male_Speakers BNC_Female_Speakers new 149 91 good 408 310 free 173 75 fresh 84 118 delicious 12 34 full 210 107 sure 532 328 clean 197 223 wonderful 270 258 special 177 82 crisp 10 16 fine 347 215 big 470 415 great 203 96 real 163 80 easy 326 157 bright 113 110 extra 347 203 safe 182 92 rich 120 45 #-------- corpus_size 4949938 3290569
男女間で有意差の特に大きいのは,対応行が赤で塗りつぶされた fresh, delicious, clean, wonderful, big で,いずれも期待度数に基づいて計算された Diff_Co ( "Difference Coefficient" 「差異係数」 ) がマイナスであることから,女性に特徴的な形容詞ということになる.big は意外な気がしたが,おもしろい結果である.一方,男性に偏って有意差を示すのは黄色で示した easy や rich である.この結果はいろいろと読み込むことができそうだし,より詳細に調べることもできる.広告の形容詞という観点からは,話者ではなく聞き手の性別,年齢,社会階級などを軸に調査してもおもしろそうだ.いろいろと応用できる.
英語の新語ウォッチには Paul McFedries によるサイト Word Spy が注目に値する.1996年以来,新語が日々追加されており,現時点で2750以上の新語が登録されている.最大の特徴は,ほとんどの新語(全体の約85%)について用例と出典が与えられており,多く(全体の約73%)は初出年も記されていることだ.
サイトを走査し,初出年の記載のある2019個について初出年ごとに数え上げてみたのが次の棒グラフである.連続して50例を超えているのは1987--2006年の20年間で,特に1990年代は層が厚い.
1962 ( 1) 1963 ( 1) 1964 ( 1) 1970 ( 1) 1972 ( 2) * 1973 ( 3) * 1975 ( 5) ** 1976 ( 8) **** 1977 ( 11) ****** 1978 ( 14) ******* 1979 ( 16) ******** 1980 ( 24) ************* 1981 ( 33) ****************** 1982 ( 32) ***************** 1983 ( 39) ********************* 1984 ( 38) ********************* 1985 ( 54) ****************************** 1986 ( 47) ************************** 1987 ( 59) ******************************** 1988 ( 66) ************************************ 1989 ( 67) ************************************* 1990 ( 77) ****************************************** 1991 ( 78) ******************************************* 1992 ( 83) ********************************************** 1993 ( 72) **************************************** 1994 (100) ******************************************************* 1995 (101) ******************************************************** 1996 (101) ******************************************************** 1997 ( 87) ************************************************ 1998 ( 78) ******************************************* 1999 (109) ************************************************************ 2000 ( 85) *********************************************** 2001 (111) ************************************************************* 2002 ( 87) ************************************************ 2003 ( 66) ************************************ 2004 ( 57) ******************************* 2005 ( 56) ******************************* 2006 ( 61) ********************************** 2007 ( 32) ***************** 2008 ( 33) ****************** 2009 ( 14) ******* 2010 ( 9) *****
[2011-01-03-1], [2011-01-04-1]の記事で,OED 検索語彙を初出世紀ごとに分類して数え上げるという作業を行なった.よく考えてみると,このような作業はこれまでにも様々な調査・研究で繰り返し行なってきたことである.通時的語彙研究の基礎作業として今後も繰り返し行なう作業だと思われるので,OED の出力結果をもとに世紀ごとに数え上げるためのツールを作っておくことにした.名付けて "OED Century-by-Century Sorter".
以下は使用方法の説明だが,The Oxford English Dictionary. 2nd ed. CD-ROM. Version 3.1. Oxford: OUP, 2004. での作業を前提としている.ヴァージョンが異なると動かないかもしれないのであしからず.
(1) OED の ADVANCED SEARCH 等により,特定の条件に該当する語彙リストを出力させる.
(2) 下のテキストボックスに,(1) の検索に適当につけた簡便なタイトルを,ピリオド1文字の後に続けて入力する.例えば ".alchemy" .これが見出し行となる.
(3) テキストボックスで改行後に,(1) の出力結果を丸ごとコピーして貼り付ける.OED での出力結果が1画面に収まらない場合には次ページに進んで累積コピーし,テキストボックスに累積して貼り付けてゆく.年代順にソートされていなくても可.
(4) 続けて別の検索を行なう場合には (1), (2), (3) の作業を繰り返す.テキストボックスには,貼り付けたテキストが累積されてゆくことになる.
(5) Go をクリックすると,各検索結果について世紀ごとにカウントされた表が現われる.
説明するよりも実例を見るのが早いので,こちらのテキストファイルを用意した.これは,OED の ADVANCED SEARCH で "language names" にそれぞれ Japanese, Chinese, Malay, Korean, Vietnamese を入れて検索した結果の語彙リストを上記の仕様で納めたもの.これらの言語からの借用語数を世紀ごとに把握するのが狙いである.もっとも,OED の検索機能の限界で,それなりの数の雑音が結果リストに混じっているのでその点には注意.この(ような仕様に則った)テキストをコピーして,以下のテキストボックスに貼り付け,Go をクリックすれば表が出力される.
CGI スクリプトは大雑把な仕様なので,およその傾向を知るためのツールとして参考までに.特に以下の点に注意.
・ 初出年が "a1866", "c1629", "15..", "?c1400" などとなっている語はそれぞれ19, 17, 16, 14世紀へ振り分けられる
・ 初出年の記載のない語は一括して「0世紀」として振り分けられる
(後記 2011/04/24(Sun):OED Online の Timeline 表示では,初出世紀の頻度をグラフ化までしてくれるので,今回の CGI よりも使い勝手がよい.ただし,CD-ROM版の OED で作業するときや,設定に細かいチューニングが必要な場合のために自作した.)
英語教育や辞書学の分野で Academic Word List (AWL) という語彙集が知られている.1998年に Avril Coxhead が The Academic Corpus という350万語からなる独自コーパスをもとに英語教育用に開発した570語とその派生語(合わせて word family と呼ばれる)からなる語彙集で,高等教育で用いられる頻度の高い語からなっている.
もう少し詳しく AWL の語彙選定基準を記せば次のようになる.(1) 各 word family がコーパスの Arts, Commerce, Law, Science 部門のサブセットすべてにおいて生起し,かつ細分化された28分野のサブセットの過半数に生起する.(2) 各 word family の出現頻度がコーパス全体で100回を超える.(3) 各 word family がコーパスの各部門で最低10回は生起する.(4) GSL ( General Service List ) (1953) の最頻2000語は除く ( see [2010-03-02-1] ) . (5) 固有名詞は除く.(6) et al, etc, ibid などの最頻ラテン語表現は除く.
こうして厳選された語彙集が AWL で,AWL Headwords から閲覧およびダウンロードできる.word family の頻度の高い順に1から10の Sublists としてグループ分けされており,すべて合わせるとコーパス全体に生起する語の9.8%を覆うという.
最近の上級者用英英辞書は軒並み AWL の重要性を認識しているようだ.2006年出版の Longman Exams Dictionary を皮切りに,2007年の Longman Advanced American Dictionary, 2nd ed.,2009年 Longman Dictionary of Contemporary English, 5th ed. など売れ筋辞書でも AWL が考慮されている ( Dohi et al., p. 174 ) .Macmillan, Collins COBUILD 系でも同様である.目下の AWL の評価は Dohi et al. によると以下の通りである.
It remains to be seen whether Coxhead's AWL will continue to be used, will be revised or replaced in future advanced learners' dictionaries, because not all scholars concur with her AWL. . . . The AWL could be regarded for the time being as "a quick reference" for academic vocabulary until more research bears fruit . . . . (100)
関連して The AWL Highlighter なるツールがあり,ここに英文テキストを入れると,AWL 語彙をハイライトしてくれる.私が最近書いた英語論文のイントロ部の1235語で試してみたら,Sublist 10 までのレベルで128語がハイライトされた.これは全体の10.36%であり,academic 度は合格か!?
・ Dohi, Kazuo, Tetsuo Osada, Atsuko Shimizu, Yukiyoshi Asada, Rumi Takahashi, and Takashi Kanazashi. "An Analysis of Longman Dictionary of Contemporary English, Fifth Edition." Lexicon 40 (2010): 85--187.
Google がものすごいコーパスツールを提供してきた.Google Books Ngram Viewer は Google Labs 扱いだが,その規模と可能性の大きさに驚いた.2004年以来1500万冊の本をデジタル化してきた Google が,そのサブセットとなる520万冊の本,5000億語をコーパス化した.英語のほかフランス語,ドイツ語,ロシア語,スペイン語,中国語が含まれているが,英語では British English, American English, English, English Fiction, English One Million からサブコーパスを選択できる.最大の特徴は,指定した5語までの検索語の頻度を過去5世紀(1500--2008年)にわたって追跡し,グラフで表示してくれることだ.Google からの公式な説明はこちらの記事にある.
規模が大きすぎてコーパスとしてどう評価すべきかも分からないが,ひとまずはいじるだけで楽しい.上記の記事内にいくつかのサンプルがあるが,英語史的な関心を引くサンプルとして burnt と burned の分布比較があったので,English, American English, British English の3サブコーパスをグラフを出してみた.
次に,本年度の卒論ゼミ生の扱った話題を拝借し,一般に AmE on the street, BrE in the street とされる前置詞使用の差異を Google Books Ngram Viewer で確認してみた.American English と British English のそれぞれのサブコーパスから出力されたグラフは以下の通り.

in と on の選択は句の意味(「街路で」か「失業して」か)などにも依存するため単純な形態の頻度比較では不十分だが,傾向はつかめる.
[2010-08-16-1], [2010-08-17-1]の記事で扱った gorgeous についても調べてみた.19世紀には流行っていたが20世紀には落ち目であったこの形容詞が,American English において1980年代以降,再び勢いを盛り返してきている状況がよくわかる.British English でも復調の兆しがあるだろうか?
コーパス言語学一般にいえるが,ツールの使用はアイデア次第である.文化史的な観点からは,[2009-12-28-1]の記事で紹介した American Dialect Society による "Words of the Century" や "Words of the Millennium" のノミネート語句を検索してみるとおもしろい.
他のオンラインコーパスについては[2010-11-16-1]を参照.
今日は語源情報を与えてくれるオンライン辞書を紹介したい.専門的なオンラインの英語語源辞書は Online Etymology Dictionary だけだが,一般のオンライン辞書の語源欄にも便利なものがある.英語語源情報ぬきだしCGI(一括版)もどうぞ.
(1) 唯一の本格派オンライン語源辞書
・ Online Etymology Dictionary: Douglas Harper 氏による本格的な語源辞書.初出年あり.英語語源情報ぬきだしCGI(一括版)でもお世話になっています.お薦め.
(2) 語源の勉強になるお薦めの辞書
・ Dictionary.com: 初出年あり.The Random House dictionary や Collins English Dictionary などの複数の辞書の記述を比べられるので便利.お薦め.
・ The Free Dictionary: American Heritage Dictionary of the English Dictionary と Collins English Dictionary に基づいた簡潔な語源説明.比べられて便利.また,thesaurus の情報も一緒に入ってきて有用.単なる類義語だけでなく関連語が一覧されるので,語彙増強にも役立つ.お薦め.
・ Merriam-Webster's Online Dictionary: 老舗辞書の語源欄として有用.初出年あり.
・ スペースアルクの語源辞典: 日本語で分かりやすい.関連語の一覧が出るので,語彙増強に利用できる.
(3) 意味や類義語などを知るついでに語源を軽く知りたいときに
・ Oxford Dictionaries Online - English Dictionary and Thesaurus: 老舗の辞書に簡潔な語源説明あり.Origin 欄で読みやすい説明.
・ Webster's Revised Unabridged Dictionary (1913 + 1828): 本格派辞書(旧版)の語源欄.
・ HyperDictionary.com: 同じく Webster (1913) の語源欄.ただ,thesaurus の情報も一緒に入ってくるので便利なときも.
・ Wiktionary: 簡潔な語源説明.先頭に語源欄が来る.
・ MSN Encarta Dictionary: 簡潔な語源説明.
(4) 語源に関する読み物
・ Etymologically Speaking: 語源豆辞典.228語しかないが各々に丁寧な説明があり,辞書としてよりも読み物として面白い.
・ hellog の語源の話題: 本ブログでも何かと語源は断片的に扱っているので.検索ボックスに "etymology ○○" (○○は英単語)などとすると引っかかるものがあるかもしれない.
たまに表面的に利用することがあったが,ちゃんとサイト内を巡ったことはなかった.アメリカの老舗辞書出版社 Merriam-Webster の Merriam-Webster Online の充実振りに驚いた.Unabridged Dictionary こそ有料サービスだが,以下のものはフリーで利用できる.
・ Merriam-Webster Collegiate Dictionary
・ Thesaurus
・ Medical Dictionary
・ Learner's Dictionary: 2008年出版のアメリカ発・初のアメリカ英語 EFL 辞書 Merriam-Webster's Advanced Learner's English Dictionary ( MWALED ) に対応するオンライン版.以下の検索ボックスから検索可能.最近,老舗のイギリス系 EFL 辞書( LDOCE5 や OALD7 ) は語源に力を入れているが,MWALED は語源は重視していないようだ.
昨日の記事[2010-08-10-1]で,toilet の婉曲表現が豊富であることを見た.複数の辞書を引き比べていて感じたが,最近の(特に学習者用)英英辞書は類義語間の使い分けや語法の解説が詳しく,類義語辞典 ( thesaurus ) ならずともそれに準ずる実用的な類義語リストが得られて有用である.それでも,類義語リストの提示に特化した thesaurus にはかなわない.
最近はWeb上にも thesaurus が豊富に転がっており,例えば the Free Online Dictionary, Thesaurus and Encyclopedia や Thesaurus.com などが手軽に利用できる.昨日はWeb辞書は調べていなかったが,追加すべき「トイレ」代替表現がいくつかあるようである.
Web上の本格的な thesaurus として有名なのは,Princeton University の George A. Miller の指揮によって編纂されている WordNet である.自然言語処理の世界では WordNet と連係しながら様々な応用が図られているようだ.現時点では Version 3.0 のデータベースがこちらから検索可能となっており,例えば toilet の検索結果はこの通り である.上位語 ( hypernym ) や下位語 ( hyponym) へも一瞬のうちにアクセスでき,英語の意味の世界が手軽に扱えるようになったことを実感できる.また,WordNet 3.0 database statistics には英語の名詞の平均語義数が1.24なのに対して動詞の平均語義数は2.17であるなど,有用な情報がある.
語の意味の世界を視覚化したネットワーク図が手軽に得られるようなWeb上のサービスも出てきた.Visual Thesaurus がその1つだが有料.フリーでも以下のような簡便なネットワーク図が得られる.

Visual Thesaurus は有料なので,代わりに私がたまに使っているフリーのものが Visuwords.上記の WordNet のデータベースと連係している.出力されるネットワーク図は以下の通り.以下のイメージをクリックして現われる拡大画像,あるいは Visuwords で直接 toilet を検索した出力で,詳細を確かめてみてほしい.
今日は軽くウェブ上のコンコーダンサーを紹介.英語例文検索 EReK は「英語で書かれたウェブページのテキストを巨大な例文集(コーパス)とみなし,それを検索するサイト」.Yohoo! の Web API が利用されている.出力は KWIC ( Key Word in Context ) で,百数十の例文が表示される.各コンコーダンス・ラインから,ワンクリックでソースに飛ぶことができるのも便利.また,キーワード前後の語での並べ替え機能や,検索対象を .edu ドメインや ニュースサイトに限定するオプションも装備されている.「ウェブ上の文書なので正確な表現である保証はありません」と但し書きがあるが,Web上の手軽なコンコーダンサーとして利用価値はありそうだ.
時々刻々と変化するウェブ・リソースを検索対象とするので一種の monitor corpus とも考えられ,時事を反映した出力が期待できる.例えば,2010年4月24日現在,ニュースサイト限定検索 "volcano" とやれば Iceland や Icelandic と共起するコンコーダンス・ラインが大量に得られる.( see [2010-04-20-1]. )
姉妹版で日本語版の JReK もあり,こちらは日本語の文章書きに効果を発揮しそう.
Powered by WinChalow1.0rc4 based on chalow