hellog〜英語史ブログ     ChangeLog 最新     カテゴリ最新     1 2 次ページ / page 1 (2)

web_service - hellog〜英語史ブログ

最終更新時間: 2012-05-22 17:34

2012-03-19 Mon

#1057. LAEME Index of Sources の検索ツール Ver. 2 [laeme][web_service][cgi][dialect]

 [2011-11-25-1]の記事「#942. LAEME Index of Sources の検索ツール」で SQL による検索用 CGI を公開した.最近,研究で LAEME を本格的に使う機会があり,検索用のデータベースに少しく情報を追加した.そこで,上位互換となる Ver. 2 を作ったので,公開する.
 追加した情報は,PERIOD, COUNTY, DIALECT の3フィールド.PERIOD は,もともとの IOS で与えられていたテキストの DATE をもとに,半世紀区切りで大雑把に区分しなおしたもの.C13b2--C14a1 など区分をまたがる場合には,早いほうをとって C13b と読み替えた."ca. 1300" なども同様に,早いほうへ倒して C13b とした.DATE において C13, C14 など半世紀で区切れない年代が与えられている場合には,C13, C14 のようにそのまま残した.
 COUNTY は,LOC に与えられていた情報をもとに,3文字の略字表記で示した.DIALECT は,所属する州 (county) をもとに大雑把に N (Northern), NWM (North-West Midland), NEM (North-East Midland), SEM (South-East Midland), SWM (South-West Midland), SW (Southwestern), SE (Southeastern) の7方言に区分したものである.方言線は州境と一致しているわけではないし,方言線そのものの選定も,「#130. 中英語の方言区分」 ([2009-09-04-1]) や「#1030. England の現代英語方言区分 (2)」 ([2012-02-21-1]) で見たように,難しい.したがって,今回の DIALECT の付与も,[2009-09-04-1]の中英語方言地図に大雑把に照らしての仮のものである.参考までに,COUNTY と DIALECT の対応表はこちら

    


 使用法は[2011-11-25-1]の旧版と同じで,テーブル名は "ios" (for "Index of Sources") で固定.フィールドは,全部で23フィールド (ID, MS, TEXT_ID, FILE, DATE, PERIOD, TEXT, GRID, LOC, COUNTY, DIALECT, COMMENT, SAMPLING, TAGGED_WORDS, PLACE_NAMES, PERSONAL_NAMES, WORDS, SCRIPT, OTHER, STATUS, BIBLIO, CROSS_REF, URL) .select 文のみ有効.以下,典型的な検索式を挙げておく.

# 各 PERIOD に振り分けられたテキストの数
select distinct PERIOD, count(*) from ios group by PERIOD;

# 各 COUNTY に振り分けられたテキストの数
select distinct COUNTY, count(*) from ios group by COUNTY;

# 各 DIALECT に振り分けられたテキストの数
select distinct DIALECT, count(*) from ios group by DIALECT;

# DIALECT/PERIOD ごとに,所属するテキストの多い順にリストアップ
select distinct DIALECT, PERIOD, count(*) from ios group by DIALECT, PERIOD order by count(*) desc;

# Worcestershire のテキストを取り出し,PERIOD 順に諸情報を羅列
select TEXT_ID, FILE, MS, COUNTY, PERIOD, TAGGED_WORDS from ios where COUNTY = 'WOR' order by PERIOD;

  *  

[ 固定リンク | 印刷用ページ | コメント ]

2012-03-03 Sat

#1041. COCA の "ANALYZE TEXT" [coca][corpus][web_service][academic_word_list][text_tool]

 COCA ( Corpus of Contemporary American English ) を運営する Mark Davies 氏が,[2012-01-08-1]の記事「#986. COCA の "WORD AND PHRASE . INFO"」で紹介した機能 (Frequency List) に加え,英文を投げ込むとCOCAベースで各語に関する諸情報を色づけして返してくれるサービス WORD AND PHRASE . INFO, ANALYZE TEXT を公開した.
 適当な英文を投げ込むと,各単語が頻度レベルによって色分けされた状態で返される.上位500語までの超高頻度語は青,3,000語までの高頻度語は緑,それ以下の頻度の語は黄色で示されるほか,academic word が赤字として返される.文章内でのそれぞれの割合も示され,その語彙リストを出すことも容易だ.各語はクリッカブルで,クリックすると用例のサンプルが KWIC で右下ペインに表示される.また,左下ペインには類義語が現われる.以下は,昨日の記事「#1040. 通時的変化と共時的変異」 ([2012-03-02-1]) に引用した英文を投げ込んでのスクリーンショット.

COCA Analyze Text

 英文を書くときには collocation や synonym を調べながら書くことが多いので,使い方次第では英作文学習に威力を発揮しそうだ.ある文章の academic 度を判定するのにも使える.Academic Word List に含まれる語彙の含有度ということでいえば,[2010-12-30-1]の記事「#612. Academic Word List」で挙げた The AWL Highlighter も類似ツールだ.

[ 固定リンク | 印刷用ページ | コメント ]

2012-01-08 Sun

#986. COCA の "WORD AND PHRASE . INFO" [coca][corpus][dictionary][synonym][collocation][semantic_prosody][intensifier][web_service]

 COCA ( Corpus of Contemporary American English ) を運営する Mark Davies 氏が,年末に,COCAベースで語に関する諸情報を一覧できるサービス WORD AND PHRASE . INFO を公開した.語(lemma 頻度で上位60,000語以内に限る)を入力すると,ジャンルごとの生起頻度やそのコンコーダンス・ラインはもとより,WordNet に基づいた定義や類義語群までが画面上に現われる.ほとんどの項目がクリック可能で,さらなる機能へとアクセスできる.インターフェースが直感的で使いやすい.
 類義語研究や collocation 研究には相当に役立つ仕様になったのではないか.例えば,semantic_prosody を扱った[2011-03-12-1]の記事「#684. semantic prosody と文法カテゴリー」で,強意語 utterly, absolutely, perfectly, totally, completely, entirely, thoroughly についての研究を紹介したが,WORD AND PHRASE . INFO で utterly を入力すれば,これらの類義語群が左下ウィンドウに一覧される.あとは,各語をクリックしてゆくだけで,頻度や collocation の詳細が得られる.このような当たりをつけるのに効果を発揮しそうだ.

utterly by WORD AND PHRASE . INFO

Referrer (Inside): [2012-03-03-1]

[ 固定リンク | 印刷用ページ | コメント ]

2011-12-09 Fri

#956. COCA N-Gram Search [cgi][web_service][coca][corpus][collocation][n-gram]

 ##953,954,955 の記事で,最近公開された COCA ( Corpus of Contemporary American English )n-gram データベースを利用してみた.COCA に現われる 2-grams, 3-grams, 4-grams, 5-grams について,それぞれ最頻約100万の表現を羅列したデータベースで,手元においておけば,工夫次第で COCA のインターフェースだけでは検索しにくい共起表現の検索が可能となる.
 ただし,各 n-gram のデータベースは,数十メガバイトの容量のテキストファイルで,直接検索するには重たい.そこで,SQLite データベースへと格納し,SQL 文による検索が可能となるように検索プログラムを組んだ.以下は,検索結果の最初の10行だけを出力する CGI である.

    


 以下,使用法の説明.テーブル名は n-gram の "n" の値に応じて,"two", "three", "four", "five" とした.ちなみに,1-grams のデータベース(事実上,COCA に3回以上現われる語の頻度つきリスト)も付随しており,こちらもテーブル名 "one" としてアクセス可能にした.フィールドは,全テーブルに共通して "freq" (頻度)があてがわれているほか,"n" の値に応じて,"word1" から "word5" までの語形 (case-sensitive) と,"pos1" から "pos5" までの COCA の語類標示タグが設定されている.select 文のみ有効.以下に,典型的な検索式を例として載せておく.

# 1-grams で,前置詞を頻度順に取り出す(ただし,case-sensitive なので再集計が必要)
select * from one where pos1 like "i%" order by freq desc;

# 2-grams で,ハンサムなものを頻度順に取り出す
select * from two where word1 = "handsome" and pos1 = "jj" and pos2 like "nn_" order by freq desc;

# 2-grams で,"absolutely (adj.)" で強調される形容詞を頻度順に取り出す([2011-03-12-1]の記事「#684. semantic prosody と文法カテゴリー」を参照)
select * from two where word1 = "absolutely" and pos2 = "jj" order by freq desc;

# 3-grams で,高頻度の as ... as 表現を取り出す
select * from three where word1 = "as" and word3 = "as" order by freq desc;

# 4-grams で,高頻度の from ... to ... 表現を取り出す
select * from four where word1 = "from" and pos1 = "ii" and word3 = "to" and pos3 = "ii" order by freq desc;

# 5-grams で,死因を探る; "die of" と "die from" の揺れを観察する
select * from five where word1 in ("die", "dies", "died", "dying") and pos1 like "vv%" and word2 in ("of", "from") and pos2 like "i%" order by word3;


 n-gram データベースを最大限に使いこなすには,このようにして得られた検索結果をもとにさらに条件を絞り込んだり,複数の検索結果を付き合わせるなどの工夫が必要だろう.

[ 固定リンク | 印刷用ページ | コメント ]

2011-12-05 Mon

#952. Etymology Search [etymology][dictionary][cgi][web_service][metathesis][blend][dissimilation]

search mode: non-regex regex
search range: word-form definition (in one-line regex only)


 [2010-04-03-1]英語語源情報ぬきだしCGIの上位互換である,[2010-04-23-1]英語語源情報ぬきだしCGI(一括版)のさらに上位互換となる,多機能版「Etymology Search」を作成した.情報源は引き続き Online Etymology Dictionary
 今回の版で新しいのは,通常の語形による検索に加えて正規表現による検索も可能にしたこと,見出し語とは別に定義(語源解説)内の検索を可能にしたことだ.
 初期設定のとおりに "non-regex" かつ "word-form" として検索すると,通常の見出し語検索となる.カンマや改行で区切られた複数の単語を指定すれば,対応する語源記述が得られる.
 search mode として "regex" を指定すると,perl5 相当の正規表現(改行区切りで複数指定可)を用いた検索が可能となる.正規表現を駆使すれば,語形の一部のみにマッチさせて,多数の語を拾い出すことも可能だ.
 さらに,search range に "definition (in one-line regex)" を指定すれば,定義(語源解説)内の文字列を対象として検索できる.この機能では,search mode の値にかかわらず,自動的に正規表現検索(改行区切りにより複数の正規表現を指定することは不可)となるので注意."(?i)" を正規表現の先頭に付加すれば,case-intensive の機能となる.例えば,次のような検索例は有用かもしれない.

 ・ 音位転換を経た(かもしれない)語を一覧
   (?i)\bmetathesis
 ・ かばん語(かもしれない)例を一覧
   (?i)\bblend(s|ed|ing|ings)\b
 ・ 異化を経た(かもしれない)語を一覧
   (?i)\bdissimilat
 ・ 日本語からの借用語(かもしれない)語を一覧
   (?i)\bJapanese\b

[ 固定リンク | 印刷用ページ | コメント ]

2011-11-25 Fri

#942. LAEME Index of Sources の検索ツール [laeme][web_service][cgi]

 LAEME で Auxiliary Data Sets -> Index of Sources とメニューをたどると,LAEME が対象としているテキストソースのリスト (The LAEME Index of Sources) を,様々な角度から検索して取り出すことができる.LAEME のテキストデータベースを年代別,方言別,Grid Reference 別などの基準で分析したい場合に,適切なテキストの一覧を得られるので,LAEME 使いこなしのためには非常に重要な機能である.
 しかし,もう少し検索式に小回りを利かせられたり,一覧の出力がコンパクトに表形式で得られれば使い勝手がよいだろうと思っていた.そこで,Index of Sources を独自にデータベース化し,SQL を用いて検索可能にしてみた.LAEME の使用者で,かつSQLを扱える人以外には何も役に立たないのだが,せっかく作ったので公開.

    


 以下,使用法の説明.テーブル名は "ios" (for "Index of Sources") で固定.フィールドは,LAEME 本家の検索で対象となっている18のフィールドに加えて,整理番号としての "ID" と,テキスト情報の掲載されたオンラインページへの "URL" を加えた計20フィールド (ID, MS, TEXT_ID, FILE, DATE, TEXT, GRID, LOC, COMMENT, SAMPLING, TAGGED_WORDS, PLACE_NAMES, PERSONAL_NAMES, WORDS, SCRIPT, OTHER, STATUS, BIBLIO, CROSS_REF, URL) .select 文のみ有効.以下に,典型的な検索式を例として載せておく.

# Ancrene Wisse/Riwle のテキスト情報の取り出し
select TEXT_ID, MS, FILE, GRID, LOC, DATE, TEXT from ios where FILE like "%ar%t.tag" and TEXT like "%Ancrene%";

# Poema Morale のテキスト情報の取り出し
select TEXT_ID, MS, FILE, GRID, LOC, DATE, TEXT from ios where FILE like "%pm%t.tag" and TEXT like "%Poema%";

# Grid Reference の与えられているテキストの取り出し
select TEXT_ID, MS, FILE, GRID from ios where GRID != "000 000";

# DATE に "C13a" を含むテキストの取り出し
select TEXT_ID, DATE from ios where DATE like "%C13a%";

# 年代ごとに集計
select DATE, count(DATE) from ios group by DATE order by DATE;

# タグ付けされている語数をテキストごとに確認
select TEXT_ID, TAGGED_WORDS, PLACE_NAMES, PERSONAL_NAMES from ios;

# 全テキスト情報へのリンク集
select TEXT_ID, MS, FILE, URL from ios;

Referrer (Inside): [2012-03-19-1]

[ 固定リンク | 印刷用ページ | コメント ]

2011-09-12 Mon

#868. EDD Online [dialect][web_service][corpus][lmode][lexicography]

 図書館の reference corner に,古めかしい浩瀚の辞書があるのを日々見ていた.自分ではあまり使うことはないかなと思っていたが,数年前,博士論文研究に関連して eyes (「目」の複数形)に対応する中英語の諸方言形が近代英語や現代英語でどのように発達し,方言分布を変化させてきたかを調べる必要があり,そのときにこの辞書を開いたのが初めてだったように思う(その成果は Hotta (2005) にあり.[2009-12-02-1]の記事「eyes を表す172通りの綴字」も参照).Joseph Wright による6巻ものの辞書 The English Dialect Dictionary (EDD) である.
 それ以降もたまに開く機会はあったが,先日参加した学会で,この辞書がオンライン化されたと知った.久しぶりに EDD に触れる良い機会だと思い,早速アクセスしてみることにした.Innsbruck 大学の Prof. Manfred Markus が責任者を務める SPEED (Spoken English in Early Dialects) プロジェクトの成果たる EDD Onlinebeta-version が公開中である.現時点では完成版ではないとしつつも,すでに検索等の機能は豊富に実装されており(豊富すぎて活用仕切れないほど),学術研究用に使用許可を取得すれば無償でアクセスできる.(使用マニュアルも参照.)
 早速,使用許可を得てアクセスしてみた.ただし,調べる題材がない私にとっては,豚に真珠,猫に小判.悲しいかな,見出し語検索に eye を入れてみたりして・・・(←紙で引け!懐かしむな!)(ただし,"structured view" で表示すると,紙版よりずっと見やすいのでそれだけでも有用).Markus 氏が学会でじきじきに宣伝していた通り,様々な検索が可能のようである.見出し語検索や全文検索はもちろんのこと,dialect area 検索では語によっては county レベルで地域を指定できる.usage label 検索では頻度ラベル,意味ラベル(denotation, simile, synonym など),語用ラベル(derogatory, slang など)の条件指定が可能である.etymology 検索の機能も備わっている.これらを組み合わせれば,特定地域と特定の言語からの借用語彙の関係などが見えてくるかもしれない.活用法を考えるに当たっては,まずは EDD がどのような辞書か,EDD Online がどのような機能を実装しているのかを学ばなければ・・・.
 EDD そのものについては,VARIENG (Research Unit for Variation, Contacts and Change in English) に掲載されている,Markus 氏による Wright's English Dialect Dictionary computerised: towards a new source of information がよくまとまっている.

 ・ Hotta, Ryuichi. "A Historical Study on 'eyes' in English from a Panchronic Point of View." Studies in Medieval English Language and Literature 20 (2005): 75--100.
 ・ Wright, Joseph, ed. The English Dialect Dictionary. 6 vols. Henry Frowde, 1898--1905.

Referrer (Inside): [2011-09-13-1]

[ 固定リンク | 印刷用ページ | コメント ]

2011-08-21 Sun

#846. HelMapperUK --- hellog 仕様の英国地図作成 CGI [cgi][web_service][map][lalme][laeme][bre]

 中英語の方言を研究していると,LALME の Dot Map 風のイングランド地図を描けると便利だと思う機会がある.LALME の地図を用いるのであればコピーしたりスキャンしたりすればよいし,オンラインの LAEME であれば "Mapping" 機能から "Feature Maps" で特に注目すべき言語項目に関する地図はデジタル画像で得られる.後者では,"Create a Feature Map" なるユーザーによる地図作成機能もおいおい追加されるとのことで,中英語方言学のヴィジュアル化は今後も進展して行くと思われる.
 しかし,それでも様々な困難や不便はある.例えば,LAEME でも,自分の関心のある言語項目が LAEME 自体で扱われていなければ地図作成機能は役に立たないし(例えば,私の中英語名詞複数の研究では名詞の歴史的な文法性が重要だが,LAEME text database では性がタグ付けされていないのでフルには活用できなかった),LALME についてはそもそも地図がデジタル化されていず応用しにくい(地図のデジタル化,少なくともテキスト情報や座標情報のデジタル化が一刻も早く望まれる).
 それでも,手をこまねいて待っているわけには行かない.既存のツールと自分の関心は大概ずれているものであり,自ら研究環境を作る必要に迫られるのが常だからだ.中英語の方言地図に関する限り,LALMELAEME からテキストの方言付与情報さえ得られれば,自ら集めた言語項目に関するデータを地図上にプロットすることは十分に可能である.(需要は少ないと思われるが)その作業を少しでも簡便化するために,HelMapperUK なる CGI を作成してみた.英国のベースマップ上にデータポイントをプロットするという単機能に特化しており,凡例をつけるなどの付加機能はないが,ヴィジュアル化して概観をつかむという用途には十分と思われる.



 以下で使い方の説明をするが,その前に,まずこちらのデータファイルの内容を上のテキストボックスに上書きコピペして出力結果の確認をどうぞ.これは,拙著の複数形研究で分析した初期中英語テキストの分布で,赤丸が手作業で分析したもの,青四角が LAEME text database を援用して分析したもの,それぞれの形で小さいものはテキストの全体ではなく部分を分析したものを表わす.(実際,Hotta (55) の地図はおよそこのようにして描かれた.)

 では,使い方の説明(基本的に作者個人仕様のものを公開しているだけなのでインターフェースは洗練されていません,あしからず).テキストボックスにあらかじめ入力されているとおり,入力データは設定部 (Configuration) で始まる.以下が設定可能な変数.

 ・ 「map」変数には "England" か "UK" が入る.これで,出力される地図の範囲を決定.
 ・ 「scale」変数は,X方向とY方向への拡大率を指定.拡大なし (scale=1 1) だと,出力画像は 386 * 313 Pixels (England) ,529 * 557 Pixels (UK) の大きさ.
 ・ 「pattern + 数字」変数は,プロットに用いる記号を定義する.イコールの後にはスペース区切りで (1) 形 ("box", "circle", "cross", "diamond", "invertedtriangle", "plus", or "triangle") ,(2) その形を塗りつぶすか否か (ex. "fill" or "stroke") ,(3) 色 (ex. "aqua", "black", "blue", "cyan", "green", "lime", "magenta", "red"; 他の大抵の色名にも対応しているはずだが出力される画像に反映されない色もある) ,(4) 大きさ(線の長さや円の直径に相当する Pixels)の4項目の値を与える.パターンは好きなだけユーザー定義可能.

 その後にデータ部 (Data points) が続く.1行に1データポイントで,各行はタブ区切りで (1) X座標,(2) Y座標,(3) 上で定義されたパターン名のいずれか ("pattern1" など)の3項目の値を与える(実際にはパターン名は省略可能.その場合,自動的に "pattern1" が用いられる.).座標系については,LALMELAEME で採用されている Ordinance Survey National Grid Reference の3桁ずつの座標系 (ex. "372 244") ,あるいは一般の経度・緯度 (ex. -2.408752393 52.09322081) のいずれも可能(自動で判定される).
 空行,あるいは "#" で始まるコメント行はデータとして無視される.

 出力結果は GIF 形式の画像として表われる.別途,EPS 形式のベクター画像としてもダウンロードできるようにした(こちらのファイルをいじれるのであれば,各種の設定を含めた細かいチューニングが可能).
 英国ベースマップの作成には,CIA World DataBank IIDCW Map Interface for Europe のデータを参照した.

(後記 2011/08/31(Wed):[2011-08-31-1]の記事「LAEME text database のデータ点とテキスト規模」で,HelMapperUK で作製した地図の実例を示した.)

 ・ McIntosh, Angus, M. L. Samuels, and M. Benskin. A Linguistic Atlas of Late Mediaeval English. 4 vols. Aberdeen: Aberdeen UP, 1986.
 ・ Laing, Margaret and Roger Lass, eds. A Linguistic Atlas of Early Middle English, 1150--1325. http://www.lel.ed.ac.uk/ihd/laeme1/laeme1.html . Online. Edinburgh: U of Edinburgh, 2007.
 ・ Hotta, Ryuichi. The Development of the Nominal Plural Forms in Early Middle English. Hituzi Linguistics in English 10. Tokyo: Hituzi Syobo, 2009.

Referrer (Inside): [2011-08-31-1]

[ 固定リンク | 印刷用ページ | コメント ]

2011-05-16 Mon

#749. hel typist --- hellog 仕様の文字列変換 CGI [cgi][web_service][ipa]

 本ブログでは,古英語,中英語,現代フランス語の引用や,IPA国際音標文字」などの発音記号を入力する機会が多いのだが,量が多いと,特殊文字や特殊記号の打ち込みが患わしくなってくる.この際だからと思い,ASCII文字だけで入力できる記法を定義し,それを目的の文字・記号へ変換するツールを作成してみた.英語史の周辺で用いることの多い文字・記号だけを変換の対象にしたので,名付けて hel typist.仕様,入力例,記法一覧はこちら



 基本的な使い方だけ簡単に解説する.a#d#eling, t#e_od, g#iue, Vous vous e^tes leve' tre`s to^t . などと入力すると æðeling, þēod, ȝiue, Vous vous êtes levé très tôt. などへ変換されるという単純な置換ツールで,ほとんどの特殊記法が「アルファベット1文字+句読記号1〜2文字」で構成される.そこで使われている句読記号そのものを入力する場合には,スペース1文字を先行させることでエスケープする.
 また,// // あるいは [[ ]] で囲まれた部分は特別に IPA mode として解釈され,IPA の発音記号用の記法が有効になる.主として現代英語の標準的な音素を表わす記号が,それぞれASCIIの1文字に対応しており,例えば "[[f@'nEtIks]]" と入力するだけで [fəˈnɛtɪks] が得られる.
 記法はこれまで個人的に使っていたものが基礎となっているが,できる限り (1) 少ない打数で入力でき( þ などの HTML の実体参照より楽),(2) そのままでも何とか読める視認性を確保する(多少の暗記は必要だが t# で thorn とか,@ で schwa というのは容認可能と考える)記法を心がけた.
 コンピュータでは,Unicode など文字の国際化が進んでいるとはいえ,いまだにウェブ上やメール上ではASCIIが優勢だし,ASCIIのテキストファイルのポータビリティの高さは変わっていない.数学の世界では,数式や特殊記号を (La)TeX によるASCII文字のみで表わす記法が広く用いられており,分野内でのコミュニケーションに貢献していると聞いている.言語学の世界でも,あるいはより限定的に英語史関連の世界でも,このような慣習がもっと発達すればよいなと思うのだが.
 hel typist で定義されていない発音記号については,IPA入力ツールが便利.

[ 固定リンク | 印刷用ページ | コメント ]

2011-04-08 Fri

#711. Log-Likelihood Tester CGI, Ver. 2 [corpus][bnc][statistics][web_service][cgi][lltest]

 以下に,汎用の Log-Likelihood Tester, Ver. 2 を公開.(後に説明するように,入力データのフォーマットに不備がある場合や,モードが適切に選択されていない場合にはサーバーでエラーが生じる可能性があるので注意.)

each-line mode lump mode


 [2011-03-25-1]の記事で,コーパス研究でよく用いられる対数尤度検定 ( Log-Likelihood Test ) の計算機 Log-Likelihood Tester, Ver. 1 を公開した.Ver. 1 は,コーパスサイズを加味しながら2つのコーパスでのキーワード(群)の出現頻度を比べ,コーパス間の差が有意であるかどうかを検定するものだった.
 Log-Likelihood Test は上述の目的で用いることが多いと思い,Ver. 1 ではあえて機能を特化させたのだが,より一般的に複数行,複数列の分割表で与えられるデータに対応する対数尤度検定を行ないたい場合もある.例えば,昨日の記事[2011-04-07-1]で,現代英語における thoughalthough の出現傾向について BNC に基づいた調査を紹介したが,Text Domain ごとの頻度比率は,両語の間で統計的にどの程度一致している,あるいは一致していないとみなすことができるのだろうか.昨日のグラフから,although は学術散文に多く,though は創作散文に多いという傾向が一目瞭然だが,この直感的な「一目瞭然」は統計的にはどのように表現されるのだろうか.
 このような場合には,次のような頻度表(値は100万語当たりの出現頻度に標準化済み)を準備し,これをコピーして入力ボックスに貼り付ける."lump mode" にチェックを入れ替え,"Go!" する.(デフォルトは "each-line mode" で,これは Ver. 1 と同等のモード.)

    thoughalthough
Natural and pure sciences56.380.13
Applied science37.3668.31
World affairs45.8168.2
Social science48.9863.38
Commerce and finance46.1857.21
Arts74.0752.93
Leisure45.8549.46
Belief and thought70.7846.75
Imaginative prose80.226.37


 結果は,1行だけの表として出力される.thoughalthough を表わす2列の数値の並びが,統計的にどのくらい近似しているかを計算ししている.結論としては,両語の Text Domain ごとの頻度の並びの差は p < 0.0001 という非常に高いレベルで有意であり,両語の出現傾向は Text Domain によってほぼ確実に異なるといえる.
 入力ボックスに入れるデータの書式は,タブ区切りの分割表.表頭と表側はいずれも省略可.サンプルのように表頭と表側の両方を含める場合には,左上のセルは空白にしておく必要あり.
 "each-line mode" の機能は Ver. 1 と互換なので,入力形式もそちらの説明を参照.今回の Ver. 2 の "each-line mode" では,出力結果をシンプルにおさえてある(逆に,詳しい内部計算値を得たい場合には Ver. 1 のほうが有用).
 Log-Likelihood Test の概要については,[2011-03-24-1]の記事を参照.

[ 固定リンク | 印刷用ページ | コメント ]

2011-04-05 Tue

#708. Frequency Sorter CGI [corpus][bnc][statistics][web_service][cgi][lexicology][plural]

 何らかの基準で集めた英単語のリストを,一般的な頻度の順に並び替えたいことがある.例えば,[2011-03-22-1]で論じたように,頻度と不規則な振る舞いとの関係を調べたいときに,注目する語(群)の一般的な頻度を知る必要がある.この目的には,[2010-03-01-1]で紹介したような大規模な汎用コーパスに基づく頻度表が有用である.BNC lemma-pos list (122KB) や ANC word-tagset list (7.2MB) などで問題の語を一つひとつ検索し,頻度数や頻度順位を調べてゆけばよいが,語数が多い場合には面倒だ.そこで,上記2つの頻度表から,入力した語(群)の頻度と順位を取り出す CGI を作成した.
 改行でもスペースでもカンマでもよいのだが,区切られた単語リストを以下のボックスに入力し,"Frequency Sort Go!" をクリックする.出力結果を頻度順位の高い順にソートする場合には,"sort by rank?" をオンにする(デフォルトでオン.オフにすると,入力順に出力される).例えば,現代標準英語に残る純粋に i-mutation を示す複数形は以下の7語のみである(複合語,二重複数,[2011-04-01-1]で話題にした sister(e)n は除く).これをコピーしてボックスに入力する.

foot, goose, louse, man, mouse, tooth, woman


     sort by rank?


 まず,BNC lemma-pos list による出力だが,この頻度表は約1億語の BNC 全体から,頻度にして800回以上現われる,上位6318位までの見出し語 ( lemma ) を収録している.したがって,それよりも頻度の下回る goose, louse については空欄となっている.頻度と不規則性の相関関係を考える際に参考になるだろう.
 次に,ANC word-tagset list による出力が続くが,この頻度表は BNC のものよりも規模が大きく,かつきめ細かい.合計22,164,985語を有する ANC (American National Corpus) から,Penn Treebank Tagset によってクラス付与された単位で語形が列挙されたリストである.タグセットが細かいので読みにくいし,自動タグ付与に起因するエラーも少なからず含まれているが,BNC のものよりも低頻度の語(形)を収録しているので,gooselouse の頻度情報も現われる.こちらの頻度表では WORD FORM ごとの頻度も確認できるため,直接 geeselice の頻度も確かめられる.
 当初 Frequency Sorter の用途として想定していたのは,上記の不規則複数形を示す語群などの頻度と順位の一括調査だったが,他にも用途はあるかもしれない.以下に,思いつきをメモ.

 ・ 1単語から使えるので,like のような多品詞語を入力して,品詞(あるいはタグ付与されたクラス)ごとの頻度を取り出せる.
 ・ ヒット数だけを確認したい場合には,いちいちコーパスを立ち上げる必要がない.
 ・ 論文やプレゼンで,ある目的で集めた数百語の単語リストの中から典型的な例,分かりやすい例を10個ほど示したいときなど,頻度の高い10個を選べばよい.例えば,[2011-03-29-1]で列挙した sur- を接頭辞にもつ単語リストのうち,例示に最もふさわしい10個を選ぶなどの目的に.頻度に基づいた順番のほうが,ランダム順やアルファベット順よりも親切なことが多いだろう(今後,本ブログ執筆に活用する予定).
 ・ 英米それぞれの代表的なコーパスに基づく頻度表を利用しているので,綴字や形態などの頻度の英米差を確認するのに使える.
 ・ (実際には lemmatisation が必要だが)適当な英文を放り込んでみて,妙に頻度の低い語が含まれていないかを調べる.頻度のツールなので,その他,教育・学習目的にいろいろと使えるかもしれない.

[ 固定リンク | 印刷用ページ | コメント ]

2011-03-25 Fri

#697. Log-Likelihood Tester CGI [corpus][bnc][statistics][web_service][cgi][lltest][sociolinguistics]

 昨日の記事[2011-03-24-1]で Log-Likelihood Test を話題にした.計算には Rayson 氏の Log-likelihood calculator を利用すればよいと述べたが,実際の検定の際に作業をもう少し自動化したいと思ったので CGI を自作してみた.細かい不備はあると思うが,とりあえず公開.



 上のテキストボックスに入力すべきデータは,タブ区切りの表の形式.1行目(省略可)はコーパス名,2行目以降はキーワードと観察頻度数(ヒット数),最終行は各コーパスのサイズ(語数)."#" で始まる行はコメント行として無視される.1列目のキーワード列は省略可.
 以下のテキストが入力サンプル.[2010-09-11-1]の記事で取り上げたテレビ広告で頻用される形容詞(比較級と最上級を含む)トップ20の頻度を,BNCweb の話し言葉サブコーパスから話者の性別に整理した表である.このままコピーして入力ボックスに貼り付けると,出力結果が確認できる.

    BNC_Male_SpeakersBNC_Female_Speakers
new14991
good408310
free17375
fresh84118
delicious1234
full210107
sure532328
clean197223
wonderful270258
special17782
crisp1016
fine347215
big470415
great20396
real16380
easy326157
bright113110
extra347203
safe18292
rich12045
#--------
corpus_size49499383290569


 男女間で有意差の特に大きいのは,対応行が赤で塗りつぶされた fresh, delicious, clean, wonderful, big で,いずれも期待度数に基づいて計算された Diff_Co ( "Difference Coefficient" 「差異係数」 ) がマイナスであることから,女性に特徴的な形容詞ということになる.big は意外な気がしたが,おもしろい結果である.一方,男性に偏って有意差を示すのは黄色で示した easyrich である.この結果はいろいろと読み込むことができそうだし,より詳細に調べることもできる.広告の形容詞という観点からは,話者ではなく聞き手の性別,年齢,社会階級などを軸に調査してもおもしろそうだ.いろいろと応用できる.

Referrer (Inside): [2011-04-08-1]

[ 固定リンク | 印刷用ページ | コメント ]

2011-01-16 Sun

#629. 英語の新語サイト Word Spy [lexicology][neologism][link][web_service]

 英語の新語ウォッチには Paul McFedries によるサイト Word Spy が注目に値する.1996年以来,新語が日々追加されており,現時点で2750以上の新語が登録されている.最大の特徴は,ほとんどの新語(全体の約85%)について用例と出典が与えられており,多く(全体の約73%)は初出年も記されていることだ.
 サイトを走査し,初出年の記載のある2019個について初出年ごとに数え上げてみたのが次の棒グラフである.連続して50例を超えているのは1987--2006年の20年間で,特に1990年代は層が厚い.

	1962 (  1) 
	1963 (  1) 
	1964 (  1) 
	1970 (  1) 
	1972 (  2) *
	1973 (  3) *
	1975 (  5) **
	1976 (  8) ****
	1977 ( 11) ******
	1978 ( 14) *******
	1979 ( 16) ********
	1980 ( 24) *************
	1981 ( 33) ******************
	1982 ( 32) *****************
	1983 ( 39) *********************
	1984 ( 38) *********************
	1985 ( 54) ******************************
	1986 ( 47) **************************
	1987 ( 59) ********************************
	1988 ( 66) ************************************
	1989 ( 67) *************************************
	1990 ( 77) ******************************************
	1991 ( 78) *******************************************
	1992 ( 83) **********************************************
	1993 ( 72) ****************************************
	1994 (100) *******************************************************
	1995 (101) ********************************************************
	1996 (101) ********************************************************
	1997 ( 87) ************************************************
	1998 ( 78) *******************************************
	1999 (109) ************************************************************
	2000 ( 85) ***********************************************
	2001 (111) *************************************************************
	2002 ( 87) ************************************************
	2003 ( 66) ************************************
	2004 ( 57) *******************************
	2005 ( 56) *******************************
	2006 ( 61) **********************************
	2007 ( 32) *****************
	2008 ( 33) ******************
	2009 ( 14) *******
	2010 (  9) *****

 [2011-01-10-1]の記事で American Dialect Society による2010年の流行語大賞の話題を取り上げたが,そのノミネート語の多くは Word Spy で発見できなかった.ただし,MOST LIKELY TO SUCCEED 部門でノミネートされた hacktivisttelework はしっかりと掲載されていた.
 掲載基準など詳しいことは分からないが,American Dialect Society の定期刊行誌 American Speech の新語記事 "Among the New Words" と合わせて,直近数十年の新語の傾向を探る資料として活用することができるかもしれない.

Referrer (Inside): [2011-09-21-1]

[ 固定リンク | 印刷用ページ | コメント ]

2011-01-05 Wed

#618. OED の検索結果から語彙を初出世紀ごとに分類する CGI [lexicology][oed][cgi][web_service]

 [2011-01-03-1], [2011-01-04-1]の記事で,OED 検索語彙を初出世紀ごとに分類して数え上げるという作業を行なった.よく考えてみると,このような作業はこれまでにも様々な調査・研究で繰り返し行なってきたことである.通時的語彙研究の基礎作業として今後も繰り返し行なう作業だと思われるので,OED の出力結果をもとに世紀ごとに数え上げるためのツールを作っておくことにした.名付けて "OED Century-by-Century Sorter".
 以下は使用方法の説明だが,The Oxford English Dictionary. 2nd ed. CD-ROM. Version 3.1. Oxford: OUP, 2004. での作業を前提としている.ヴァージョンが異なると動かないかもしれないのであしからず.

 (1) OED の ADVANCED SEARCH 等により,特定の条件に該当する語彙リストを出力させる.
 (2) 下のテキストボックスに,(1) の検索に適当につけた簡便なタイトルを,ピリオド1文字の後に続けて入力する.例えば ".alchemy" .これが見出し行となる.
 (3) テキストボックスで改行後に,(1) の出力結果を丸ごとコピーして貼り付ける.OED での出力結果が1画面に収まらない場合には次ページに進んで累積コピーし,テキストボックスに累積して貼り付けてゆく.年代順にソートされていなくても可.
 (4) 続けて別の検索を行なう場合には (1), (2), (3) の作業を繰り返す.テキストボックスには,貼り付けたテキストが累積されてゆくことになる.
 (5) Go をクリックすると,各検索結果について世紀ごとにカウントされた表が現われる.

 説明するよりも実例を見るのが早いので,こちらのテキストファイルを用意した.これは,OED の ADVANCED SEARCH で "language names" にそれぞれ Japanese, Chinese, Malay, Korean, Vietnamese を入れて検索した結果の語彙リストを上記の仕様で納めたもの.これらの言語からの借用語数を世紀ごとに把握するのが狙いである.もっとも,OED の検索機能の限界で,それなりの数の雑音が結果リストに混じっているのでその点には注意.この(ような仕様に則った)テキストをコピーして,以下のテキストボックスに貼り付け,Go をクリックすれば表が出力される.
 CGI スクリプトは大雑把な仕様なので,およその傾向を知るためのツールとして参考までに.特に以下の点に注意.

 ・ 初出年が "a1866", "c1629", "15..", "?c1400" などとなっている語はそれぞれ19, 17, 16, 14世紀へ振り分けられる
 ・ 初出年の記載のない語は一括して「0世紀」として振り分けられる

(後記 2011/04/24(Sun):OED Online の Timeline 表示では,初出世紀の頻度をグラフ化までしてくれるので,今回の CGI よりも使い勝手がよい.ただし,CD-ROM版の OED で作業するときや,設定に細かいチューニングが必要な場合のために自作した.)


Referrer (Inside): [2011-04-28-1] [2011-02-16-1]

[ 固定リンク | 印刷用ページ | コメント ]

2010-12-30 Thu

#612. Academic Word List [lexicology][lexicography][academic_word_list][web_service][text_tool]

 英語教育や辞書学の分野で Academic Word List (AWL) という語彙集が知られている.1998年に Avril Coxhead が The Academic Corpus という350万語からなる独自コーパスをもとに英語教育用に開発した570語とその派生語(合わせて word family と呼ばれる)からなる語彙集で,高等教育で用いられる頻度の高い語からなっている.
 もう少し詳しく AWL の語彙選定基準を記せば次のようになる.(1) 各 word family がコーパスの Arts, Commerce, Law, Science 部門のサブセットすべてにおいて生起し,かつ細分化された28分野のサブセットの過半数に生起する.(2) 各 word family の出現頻度がコーパス全体で100回を超える.(3) 各 word family がコーパスの各部門で最低10回は生起する.(4) GSL ( General Service List ) (1953) の最頻2000語は除く ( see [2010-03-02-1] ) . (5) 固有名詞は除く.(6) et al, etc, ibid などの最頻ラテン語表現は除く.
 こうして厳選された語彙集が AWL で,AWL Headwords から閲覧およびダウンロードできる.word family の頻度の高い順に1から10の Sublists としてグループ分けされており,すべて合わせるとコーパス全体に生起する語の9.8%を覆うという.
 最近の上級者用英英辞書は軒並み AWL の重要性を認識しているようだ.2006年出版の Longman Exams Dictionary を皮切りに,2007年の Longman Advanced American Dictionary, 2nd ed.,2009年 Longman Dictionary of Contemporary English, 5th ed. など売れ筋辞書でも AWL が考慮されている ( Dohi et al., p. 174 ) .Macmillan, Collins COBUILD 系でも同様である.目下の AWL の評価は Dohi et al. によると以下の通りである.

It remains to be seen whether Coxhead's AWL will continue to be used, will be revised or replaced in future advanced learners' dictionaries, because not all scholars concur with her AWL. . . . The AWL could be regarded for the time being as "a quick reference" for academic vocabulary until more research bears fruit . . . . (100)


 関連して The AWL Highlighter なるツールがあり,ここに英文テキストを入れると,AWL 語彙をハイライトしてくれる.私が最近書いた英語論文のイントロ部の1235語で試してみたら,Sublist 10 までのレベルで128語がハイライトされた.これは全体の10.36%であり,academic 度は合格か!?

  ・ Dohi, Kazuo, Tetsuo Osada, Atsuko Shimizu, Yukiyoshi Asada, Rumi Takahashi, and Takashi Kanazashi. "An Analysis of Longman Dictionary of Contemporary English, Fifth Edition." Lexicon 40 (2010): 85--187.

Referrer (Inside): [2012-03-03-1] [2010-12-31-1]

[ 固定リンク | 印刷用ページ | コメント ]

2010-12-25 Sat

#607. Google Books Ngram Viewer [corpus][web_service][ame_bre][google_books][n-gram]

 Google がものすごいコーパスツールを提供してきた.Google Books Ngram Viewer は Google Labs 扱いだが,その規模と可能性の大きさに驚いた.2004年以来1500万冊の本をデジタル化してきた Google が,そのサブセットとなる520万冊の本,5000億語をコーパス化した.英語のほかフランス語,ドイツ語,ロシア語,スペイン語,中国語が含まれているが,英語では British English, American English, English, English Fiction, English One Million からサブコーパスを選択できる.最大の特徴は,指定した5語までの検索語の頻度を過去5世紀(1500--2008年)にわたって追跡し,グラフで表示してくれることだ.Google からの公式な説明はこちらの記事にある.
 規模が大きすぎてコーパスとしてどう評価すべきかも分からないが,ひとまずはいじるだけで楽しい.上記の記事内にいくつかのサンプルがあるが,英語史的な関心を引くサンプルとして burntburned の分布比較があったので,English, American English, British English の3サブコーパスをグラフを出してみた.
 次に,本年度の卒論ゼミ生の扱った話題を拝借し,一般に AmE on the street, BrE in the street とされる前置詞使用の差異を Google Books Ngram Viewer で確認してみた.American EnglishBritish English のそれぞれのサブコーパスから出力されたグラフは以下の通り.

in the street and on the street by Google Books Ngram Viewer

 inon の選択は句の意味(「街路で」か「失業して」か)などにも依存するため単純な形態の頻度比較では不十分だが,傾向はつかめる.
 [2010-08-16-1], [2010-08-17-1]の記事で扱った gorgeous についても調べてみた.19世紀には流行っていたが20世紀には落ち目であったこの形容詞が,American English において1980年代以降,再び勢いを盛り返してきている状況がよくわかる.British English でも復調の兆しがあるだろうか?
 コーパス言語学一般にいえるが,ツールの使用はアイデア次第である.文化史的な観点からは,[2009-12-28-1]の記事で紹介した American Dialect Society による "Words of the Century" や "Words of the Millennium" のノミネート語句を検索してみるとおもしろい.
 他のオンラインコーパスについては[2010-11-16-1]を参照.

[ 固定リンク | 印刷用ページ | コメント ]

2010-08-25 Wed

#485. 語源を知るためのオンライン辞書 [web_service][link][dictionary][etymology]

 今日は語源情報を与えてくれるオンライン辞書を紹介したい.専門的なオンラインの英語語源辞書は Online Etymology Dictionary だけだが,一般のオンライン辞書の語源欄にも便利なものがある.英語語源情報ぬきだしCGI(一括版)もどうぞ.

(1) 唯一の本格派オンライン語源辞書

 ・ Online Etymology Dictionary: Douglas Harper 氏による本格的な語源辞書.初出年あり.英語語源情報ぬきだしCGI(一括版)でもお世話になっています.お薦め.

(2) 語源の勉強になるお薦めの辞書

 ・ Dictionary.com: 初出年あり.The Random House dictionary や Collins English Dictionary などの複数の辞書の記述を比べられるので便利.お薦め.
 ・ The Free Dictionary: American Heritage Dictionary of the English Dictionary と Collins English Dictionary に基づいた簡潔な語源説明.比べられて便利.また,thesaurus の情報も一緒に入ってきて有用.単なる類義語だけでなく関連語が一覧されるので,語彙増強にも役立つ.お薦め.
 ・ Merriam-Webster's Online Dictionary: 老舗辞書の語源欄として有用.初出年あり.
 ・ スペースアルクの語源辞典: 日本語で分かりやすい.関連語の一覧が出るので,語彙増強に利用できる.

(3) 意味や類義語などを知るついでに語源を軽く知りたいときに

 ・ Oxford Dictionaries Online - English Dictionary and Thesaurus: 老舗の辞書に簡潔な語源説明あり.Origin 欄で読みやすい説明.
 ・ Webster's Revised Unabridged Dictionary (1913 + 1828): 本格派辞書(旧版)の語源欄.
 ・ HyperDictionary.com: 同じく Webster (1913) の語源欄.ただ,thesaurus の情報も一緒に入ってくるので便利なときも.
 ・ Wiktionary: 簡潔な語源説明.先頭に語源欄が来る.
 ・ MSN Encarta Dictionary: 簡潔な語源説明.

(4) 語源に関する読み物

 ・ Etymologically Speaking: 語源豆辞典.228語しかないが各々に丁寧な説明があり,辞書としてよりも読み物として面白い.
 ・ hellog の語源の話題: 本ブログでも何かと語源は断片的に扱っているので.検索ボックスに "etymology ○○" (○○は英単語)などとすると引っかかるものがあるかもしれない.

Referrer (Inside): [2010-12-18-1]

[ 固定リンク | 印刷用ページ | コメント ]

2010-08-23 Mon

#483. Merriam-Webster Online が充実している [dictionary][web_service][link]

 たまに表面的に利用することがあったが,ちゃんとサイト内を巡ったことはなかった.アメリカの老舗辞書出版社 Merriam-Webster の Merriam-Webster Online の充実振りに驚いた.Unabridged Dictionary こそ有料サービスだが,以下のものはフリーで利用できる.

 ・ Merriam-Webster Collegiate Dictionary
 ・ Thesaurus
 ・ Medical Dictionary
 ・ Learner's Dictionary: 2008年出版のアメリカ発・初のアメリカ英語 EFL 辞書 Merriam-Webster's Advanced Learner's English Dictionary ( MWALED ) に対応するオンライン版.以下の検索ボックスから検索可能.最近,老舗のイギリス系 EFL 辞書( LDOCE5OALD7 ) は語源に力を入れているが,MWALED は語源は重視していないようだ.



 ・ Encyclopedia - Britannica Online Encyclopedia
 ・ Visual Dictionary Online: 絵で見る百科辞典といった風.画像をブログに貼り付けたりできるので,今後本ブログでも利用機会が増えるかもしれない.例えば,昨日の記事[2010-08-22-1]で扱った ox と引っかけてウシの仲間たちを紹介.

examples of ungulate mammals - Visual Dictionary Online

Referrer (Inside): [2011-07-29-1] [2010-08-24-1]

[ 固定リンク | 印刷用ページ | コメント ]

2010-08-11 Wed

#471. toilet の豊富な婉曲表現を WordNet と Visuwords でみる [web_service][thesaurus][synonym][link]

 昨日の記事[2010-08-10-1]で,toilet の婉曲表現が豊富であることを見た.複数の辞書を引き比べていて感じたが,最近の(特に学習者用)英英辞書は類義語間の使い分けや語法の解説が詳しく,類義語辞典 ( thesaurus ) ならずともそれに準ずる実用的な類義語リストが得られて有用である.それでも,類義語リストの提示に特化した thesaurus にはかなわない.
 最近はWeb上にも thesaurus が豊富に転がっており,例えば the Free Online Dictionary, Thesaurus and EncyclopediaThesaurus.com などが手軽に利用できる.昨日はWeb辞書は調べていなかったが,追加すべき「トイレ」代替表現がいくつかあるようである.
 Web上の本格的な thesaurus として有名なのは,Princeton University の George A. Miller の指揮によって編纂されている WordNet である.自然言語処理の世界では WordNet と連係しながら様々な応用が図られているようだ.現時点では Version 3.0 のデータベースがこちらから検索可能となっており,例えば toilet の検索結果はこの通り である.上位語 ( hypernym ) や下位語 ( hyponym) へも一瞬のうちにアクセスでき,英語の意味の世界が手軽に扱えるようになったことを実感できる.また,WordNet 3.0 database statistics には英語の名詞の平均語義数が1.24なのに対して動詞の平均語義数は2.17であるなど,有用な情報がある.
 語の意味の世界を視覚化したネットワーク図が手軽に得られるようなWeb上のサービスも出てきた.Visual Thesaurus がその1つだが有料.フリーでも以下のような簡便なネットワーク図が得られる.

toilet on Visual Thesaurus

 Visual Thesaurus は有料なので,代わりに私がたまに使っているフリーのものが Visuwords.上記の WordNet のデータベースと連係している.出力されるネットワーク図は以下の通り.以下のイメージをクリックして現われる拡大画像,あるいは Visuwords で直接 toilet を検索した出力で,詳細を確かめてみてほしい.

toilet on Visuwords

[ 固定リンク | 印刷用ページ | コメント ]

2010-04-24 Sat

#362. 英語例文検索 EReK [corpus][kwic][web_service]

 今日は軽くウェブ上のコンコーダンサーを紹介.英語例文検索 EReK は「英語で書かれたウェブページのテキストを巨大な例文集(コーパス)とみなし,それを検索するサイト」.Yohoo! の Web API が利用されている.出力は KWIC ( Key Word in Context ) で,百数十の例文が表示される.各コンコーダンス・ラインから,ワンクリックでソースに飛ぶことができるのも便利.また,キーワード前後の語での並べ替え機能や,検索対象を .edu ドメインや ニュースサイトに限定するオプションも装備されている.「ウェブ上の文書なので正確な表現である保証はありません」と但し書きがあるが,Web上の手軽なコンコーダンサーとして利用価値はありそうだ.
 時々刻々と変化するウェブ・リソースを検索対象とするので一種の monitor corpus とも考えられ,時事を反映した出力が期待できる.例えば,2010年4月24日現在,ニュースサイト限定検索 "volcano" とやれば IcelandIcelandic と共起するコンコーダンス・ラインが大量に得られる.( see [2010-04-20-1]. )
 姉妹版で日本語版の JReK もあり,こちらは日本語の文章書きに効果を発揮しそう.

Referrer (Inside): [2010-05-15-1]

[ 固定リンク | 印刷用ページ | コメント ]

Powered by WinChalow1.0rc4 based on chalow