hellog〜英語史ブログ     ChangeLog 最新    

oanc - hellog〜英語史ブログ

最終更新時間: 2012-05-22 17:34

2010-09-18 Sat

#509. Dracula に現れる whilst (2) [corpus][lob][brown][bnc][oanc][coca][lmode][conjunction]

 昨日の記事[2010-09-17-1]の続編.Dracula に現れる同時性・対立を表す接続詞の3異形態 while, whilst, whiles の頻度を,20世紀後半以降の英米変種における頻度と比べることによって,この60〜110年くらいの間に起こった言語変化の一端を垣間見たい.用いたコーパスは以下の通り.

 (1) Dracula ( Gutenberg 版テキスト ): 1897年,イギリス英語.
 (2) LOB Corpus ( see also [2010-06-29-1] ): 1961年,イギリス英語.
 (3) BNC ( The British National Corpus ): late twentieth century,イギリス英語.
 (4) Brown Corpus ( see also [2010-06-29-1] ): 1961年,アメリカ英語.
 (5) OANC (Open American National Corpus): 1990年以降,アメリカ英語.
 (6) Corpus of Contemporary American English (BYU-COCA): 1990--2010年,アメリカ英語.

 各コーパスにおける接続詞としての while, whilst, whiles の度数と3者間の相対比率は以下の通り.

 whilewhilstwhiles
(1) Dracula14 (12.61%)95 (85.59%)2 (1.80%)
(2) LOB517 (88.68%)66 (11.32%)0 (0.00%)
(3) BNC48,761 (89.41%)5,773 (10.59%)0 (0.00%)
(4) Brown592 (100.00%)0 (0.00%)0 (0.00%)
(5) OANC7,893 (100.00%)0 (0.00%)0 (0.00%)
(6) COCA246,207 (99.82%)447 (0.18%)0 (0.00%)


 Draculawhilst の比率が異常に高い.はたして同時代のイギリス英語の文語の特徴なのだろうか.この表だけ眺めると,20世紀前半にイギリス英語で whilst が激減し,同世紀後半以降は10%程度で安定したと読める.アメリカ英語では20世紀後半では whilst はほぼ無に等しく,問題にならない.whiles に至っては,関心の発端であった Dracula での2例のみ(他に副詞としては1例あった)で,あとはどこを探しても見つからなかった.しかも,その Dracula の2例というのはいずれも訛りの強い英語を話すオランダ人医師 Van Helsing の口から発せられているもので,同時代イギリス英語でどの程度 spontaneous form であったかは分からない.
 今回の調査はもとより体系的な調査ではない.ジャンルの区別や作家の文体を意識していないし,比較する時代の間隔はたまたま入手可能なコーパスに依存したにすぎない.英米変種での比較というのも思いつきである.しかし,興味深い問いが新たに生まれたので,今後は追跡調査をしてみたい.

 ・ Dracula と同時代の他のイギリス文語では各異形の頻度はどうなのか
 ・ 20世紀前半に whilst が激減したように見えるのは本当なのか,本当だとしたらその背景に何があるのか
 ・ アメリカ英語のより古い段階では whilst はもっと頻度が高かったと考えてよいのか
 ・ whiles はいつ頃まで普通に見られたのか,あるいはそもそも普通に見られる形態ではなかったのか
 ・ the whilethe whilst などの複合形については頻度はどうだったのか

Referrer (Inside): [2010-09-19-1]

[ 固定リンク | 印刷用ページ | コメント ]

2010-08-02 Mon

#462. BNC から取り出した発音されない語頭の <h> [corpus][bnc][oanc][ame][bre][h][spelling_pronunciation]

 昨日の記事[2010-08-01-1]の OANC からの結果に飽き足りずに,語頭を <h> と綴るが /h/ で発音されない単語をより多く探すべく,BNC でも同じことをやってみた.そちらのほうがおもしろい結果が出たので,結果報告する( OANC の面目丸つぶれ?).
 216種類の語が得られたが,固有名詞や頭字語が多く,一覧してもあまりおもしろくない(見たい方はHTMLソースを参照).また,品詞のタグ付けに誤りがある例もあったので,今回はあくまで概要を知るための初期調査として理解されたい.一般名詞や形容詞に絞った117例をアルファベット順に示す.

habitual, habituated, habitué, haemoglobin, half, half-hour, hallucination, hallucinatory, hallucinogenic, handful, haphazardly, happy, haute-couture, hazard, heap, heartening, hedonistic, heir, heir-apparent, heiress, heirloom, hell, heparin, hepatic, heraldic, herbaceous, herbalist, hereditary, heretical, hermaphrodite, heroic, heterogenous, heterologous, heuristic, hexadecimal, hexagonal, hi, hiatus, hibiscus, hide, hierarchical, hierarchically, hierarchy, high, higher, hilarious, historian, historic, historically, historically-created, historically-evolved, historicist, historiographical, history, histrionic, hitherto, hockey, hole, holiday, holistic, holoenzyme, holy, home-grown, homogeneous, homologous, hon., honest, honest-to-god, honest-to-goodness, honestly, honesty, honorable, honorarium, honorary, honour, honour-able, honourable, honourably, honoured, honouring, hopeful, horchata, horizon, horizontal, horrendous, horrific, horror, hors-d'oeuvre, horse, hospital, host/target, hotel, hotel-keeper, hour's-worth, hour-an-a-half, hour-and-a-half, hour-glass, hour-long, hourglass, hourglass-shaped, hourly, hours, howitzer, human, humanities, humble, hundred, hydraulic, hydraulically, hydroxyapatite, hydroxyl, hypnotic, hypostasised, hypothesis, hypothetical, hysterical, hysterically


 history, honest, honour, hour の関連語はやはり多い.おもしろいところを取りあげると,habitual, hallucination, hepatic, hereditary, heretical, heroic, hierarchical, hilarious, homogeneous, horizon, horrendous, horrific, hypothetical, hysterical あたりだろうか.いずれも第1音節に主強勢がおかれないので語頭の /h/ が特に弱まりやすい.ただ,第1音節に主強勢が落ちる例も少なくないことは確かである.
 昨日の OANC での結果として出た herbhomage が BNC では出なかった.いずれの語も /h/ のない発音はアメリカ英語発音のみであるという辞書の記述と一致しているようだ.
 それにしても,BNC と OANC の収録語数に差があるとはいえ,イギリス英語からの例の種類の豊富さは際立っている.確かにイギリス英語には h-dropping で名高い Cockney などの方言もあるし,/h/ の不安定さは著しいのではないかと予想はしていた.また,アメリカ英語では綴り字発音 ( spelling-pronunciation ) の傾向が強いことも一般論としては分かっていた.今回の BNC と OANC での初期調査の結果は予想と一致するものだったが,より詳しく調べていくと結構おもしろいテーマに発展してゆくかもしれない.

Referrer (Inside): [2011-08-16-1]

[ 固定リンク | 印刷用ページ | コメント ]

2010-08-01 Sun

#461. OANC から取り出した発音されない語頭の <h> [corpus][oanc][ame][h][article]

 昨日の記事[2010-07-31-1]OANC (Open American National Corpus) を導入したことを報告したので,今日はそれを実際にいじってみた報告をしよう.
 お題は一昨日の記事[2010-07-30-1]で語頭の h を話題にしたので,それに引っかけて,語頭に <h> の綴字をもつが直前の不定冠詞に an を取る語を取り出してみた.[2009-11-27-1]でも触れたように,heir, honest, honour, hour のような語が /h/ をもたないことでよく知られているが,他にどのような語があるだろうか.今回はフラットな単純検索で,話し言葉と書き言葉を区別するとか,その他の細かい処理は行なっていない.以下に結果を頻度とともに一覧.

wordfreq.
heir1
Henri1
herb2
hereditary3
Hermes1
historian1
historic6
historical1
HMO10
homage4
hommage5
honest24
honor5
honorable14
honorarium1
honorary13
honored1
honorific3
hour135
hourglass1
hourlong3
hourly1
hours-long1


 history, honor, hour の派生語や複合語は理解できる.また,Henri, Hermes, hommage はフランス語として,HMO (Health Maintenance Organization) はアルファベット読みとして納得.だが,herbhomage は発見だった.いずれの単語も,/h/ のない発音はアメリカ英語特有だという.
 OANC でなくともよいといえばよい例題だったが,結果らしいことは一応出た.

Referrer (Inside): [2011-08-05-1] [2010-08-02-1]

[ 固定リンク | 印刷用ページ | コメント ]

2010-07-31 Sat

#460. OANC ( Open American National Corpus ) [corpus][oanc][ame]

 BNC ( The British National Corpus ) のアメリカ英語版で ANC ( American National Corpus ) の作成プロジェクトが進行中である.1990年以降のアメリカ英語の multi-genre corpus で,完成時には BNC に匹敵する1億語以上のコーパスとなる予定とのこと.現時点では2200万語規模のものが Second Release として有料にて入手可能
 一方で,フリーで利用できる約1500万語のサブコーパス OANC (Open ANC) も公開されており,話し言葉が300万語強,書き言葉が1100万語強という構成だ.こちらは316MBほどでダウンロード可能.展開するとデータだけでも5GBほどある.データ変換ツールとして Java で動くプログラムが ANC Software からダウンロードできる.
 ANC のエンコード方式はこちらに説明があるとおり,XCES Markup for Standoff Annotation という方式に従っており,テキスト本体と各種 annotation が別々のファイルに収められているのが特徴である.XCESをサポートしていないコンコーダンサーで OANC を扱うには,例えば Xaira 形式や WordSmith 形式などへデータを変換しなければならない.前者にはこちらの解説のとおりに Xaira 付属のインデクサーを用いる.後者は ANCTool のディレクトリで "java -jar ANCTool-xxxx.jar" と走らせれば,あとはGUIウィザードになっているので指示に従えばよい.データの量がものすごいので,時間がかかった.
 現代アメリカ英語の他のコーパスとしては,Mark Davies 提供のウェブ上で利用できる Corpus of Contemporary American English (COCA) などがある.こちらは1990--2009年の4億語強のコーパスだ.Mark Davies によるその他のオンライン・コーパスも要参照.

Referrer (Inside): [2010-08-01-1]

[ 固定リンク | 印刷用ページ | コメント ]

Powered by WinChalow1.0rc4 based on chalow