検索Interfaceについて
"index_scorp.html"で閲覧できる"SCORP:Search" pageはSCORPの検索Interfaceです.
- Search Word(図の*A)は検索Queryを入力するためのFormです.
入力値には1byteの英数字と記号にのみ対応しています.
- 検索したい英数字をそのまま,または正規表現を用いて入力し,検索を開始してください.
Queryに該当する文字列を含む文の一部が検索結果として表示されます(SCORP機能).
- ここを空白にして検索を開始すると,全ての使用単語とその使用頻度が検索結果として表示されます(Word Counter機能).
- CORPUS Selection(図の*B)は検索対象CorpusのPathを入力するためのFormです.
入力値には1byteの英数字と記号にのみ対応しています.
- 初期値はCorpus専用DirectoryのPathに相当する"../CORPUS/"です.
- このCorpus専用DirectoryはSCORP Packageの設置時に自動的に作成された以下のDirectoryに相当します.
(FreeBSDの場合)
/home/username/public_html/CORPUS/
(Mac OSXの場合)
/Users/username/Sites/CORPUS/
- 例として,話し言葉だけを集めたCorpusと書き言葉だけを集めたCorpusをそれぞれ構築したい場合,
Corpus専用Directoryの下位に"Spoken"と"Written"を作成し,それぞれの文献を該当するDirectory内に保存します(以下は,FreeBSDでの例).
端末からWeb Serverへの収集文献の転送法についてはこちらで解説しています.
/home/username/public_html/CORPUS/Spoken/
/home/username/public_html/CORPUS/Spoken/spoken_01.txt
/home/username/public_html/CORPUS/Spoken/spoken_02.txt
/home/username/public_html/CORPUS/Spoken/spoken_03.txt
/home/username/public_html/CORPUS/Written/
/home/username/public_html/CORPUS/Written/written_01.txt
/home/username/public_html/CORPUS/Written/written_02.txt
/home/username/public_html/CORPUS/Written/written_03.txt
-
"Spoken" Directoryとして構築した話し言葉の文献を対象にSCORP検索を行う場合,以下を"CORPUS Selection"の入力Formに指定して検索してください.
../CORPUS/Spoken/
-
"Written" Directoryとして構築した書き言葉の文献を対象にSCORP検索を行う場合についても,以下を"CORPUS Selection"の入力Formに指定して検索してください.
../CORPUS/Written/
- Sort Option(図の*C)は検索結果の並び順の選択です.
- 初期値は降順,"Descending Order"です.
- SCORP検索結果の内,検索Queryに合致する文字列とその前後の約70字が一覧表示されます.
並び替えはその70字の1字目を対象に行われます(次Versionで改良予定).
- Word Counterの結果の内,並び替えは語彙の使用頻度数を対象に行われます.
- Submit(図の*D)を押すと,上述の三つの入力値に従って検索を開始します.
- 正規表現一覧(図の*E)は,検索Queryに正規表現を用いる時に参考にしてください.
検索結果について
SCORP Packageを導入設置した時点で専用Corpus Directory内には自動的に"sample.txt"という文献が作成されています.
../CORPUS/sample.txt
その内容
This is sample txt.
以下では,その"sample.txt"のみで構築されたCorpusを検索対象にした検索結果の参照の仕方を解説します.
- SCORP検索結果一覧
- 検索条件を以下の通り指定し検索します.
Search Word: is
CORPUS Selection: ../CORPUS/
- SCORP検索結果は以下の通り表示されます.
- 図の*Aの領域には以下の項目が表示されます.
- 検索Query
- 検索対象CORPUS
- Sortの並び順
- Queryへの該当数
- 検索を行った総行数
- 検索を行った総文献数(File単位)
- 図の*Bの列には,検索Queryに該当した文字列が表示されます.
- 図の*Cの列には,検索Queryに該当した文字列を含む文の一部が表示されます.
- 図の*Dを押すと,*Cで表示された文を含む段落を表示します.
段落の表示例が下の図です.
- 図の*Aの領域には以下の項目が表示されます.
- 表示中の段落を格納しているFile名
- 表示中の段落の順番
- 検索Query
- 段落全文
- Word Counter結果一覧
- 検索条件を以下の通り指定し検索します.
Search Word: (空白)
CORPUS Selection: ../CORPUS/
- Word Counter結果は以下の通り表示されます.
- 図の*Aの領域には以下の項目が表示されます.
- 検索Query: 全単語(All Words)になります.
- 検索対象CORPUS
- Sortの並び順
- Queryへの該当数
- 検索を行った総行数
- 検索を行った総文献数(File単位)
- 図の*Bの列には,CORPUS中で使用されている単語が表示されます.
- 図の*Cの列には,該当単語の出現頻度数が表示されます.
- 図の*Dを押すと,*Bを検索Queryとして,SCORP検索を行います.
Internet上には膨大な数の,様々に分類可能な分野の文書があります.
これらInternet上にある文書の内,
個人利用を許諾された著作物,
または著作権を放棄したものだけをSCORP検索対象として収集します.
これを常に留意して,各自のSCORP利用目的に適ったText量と嗜好分野で,Corpus構築をしてください
(著作権についての詳細は
こちらを参照してください).
- Internet上の検索Service(GoogleやYahooなど)を通じて,構築したいCorpusに分類されるに相応しい文書を探索します.
- 該当文書を所有するWeb Pageの著作権に関する規定を熟読し,自分のCorpusの一部としてその文書が使用可能かどうか判断します.
- 使用可能なものに限り,その文書をCopyし,Text EditorにPasteします.
- 文書の出処に関する情報も,Text EditorにPasteした文書に追記します.
入手した文書に以下のような情報を追記します.
- 入手した年月日
- 入手先のWeb Pageの名称
- 入手先のWeb PageのURL
- 文書の作成/編集の日付
- 文書の作成者/編集者の氏名,などなど
- 文書を保存します.よってCorpus収集処理を行える計算機の条件は,Web BrowserとText Editorが動作する,の一つだけです.
その条件を満たしていれば,SCORPを動作させているWeb Serverはもちろんあらゆる端末計算機で収集処理が可能です.
端末で収集処理をした場合,構築したCorpusをWeb Serverの専用Directoryに転送する必要があります.
転送方法については,こちらを参照してください.
文献収集時の留意点
Corpus収集処理がMulti Platformで可能であるという利点は同時に難点をももたらします.
それらの難点はMS Windows,Mac OSX,そしてUNIX-Compatibility(例としてFreeBSD)の各OSがそれぞれに定める"標準仕様"に起因する以下の問題です.
- 文字符号
- 改行符号
- Directory/File名称
特に改行符号については,それぞれのOSで異なる"標準仕様"を持ちます.
OS名称
|
改行符号
|
MS Windows
|
CR+LF
|
Mac OSX
|
CR
|
UNIX系
|
LF
|
SCORPが扱うCorpusの文字符号と改行符号はUNIX-Compatibilityのものに併せます.
収集した文献の文字符号をEUC,そして改行符号をLFに統一し,保存する必要があります.
文字符号と改行符号を任意に変換して保存する事ができる,無料の素晴らしいText Editorを以下に紹介します.
OS名称
|
Editor名称
|
Editorの入手先
|
MS Windows
|
MK Editor
|
http://www.mk-square.com
|
Mac OSX
|
mi Editor
|
http://www.mimikaki.net
|
UNIX系
|
Kate
|
KDE Pacakgeに標準付属(http://kate.kde.org)
|
DirectoryまたはFileの名称もUNIX-Compatibilityの慣習に倣い,
2byte文字を一切用いず,空白を含めないものに統一します.
文献の転送方法
収集した文献はSCORPが動作しているWeb Serverの専用Directory,"CORPUS"より下位に保存して初めて検索対象となります.
文献を端末に収集保存した場合,そのServerに文献をUploadする必要があります.
UploadはSFTPを用いて行うのが最適です.以下ではWindows環境でGUIで動作する無料のすばらしいSFTP Clientを紹介します.
名称
|
入手先
|
WinSCP
|
http://winscp.net/eng/docs/lang:jp
|