SCORP: 使用法


SCORP TOP
詳細な導入法  使用法  正規表現について  著作権について

使用法

SCORPはCORPUS検索を行うCGI Scriptです. 主な特徴は二つで,
  1. 検索語には正規表現が使用可能,です.
  2. 検索対象となるCORPUSはUser個人の趣向に併せて収集し,構築可能
試用版SCORPでは,例として"is"と"Search Word"に入力し,"Submit"を押すとSCORP検索が開始します.

以下では上記二点の解説をします.

検索Interfaceについて

"index_scorp.html"で閲覧できる"SCORP:Search" pageはSCORPの検索Interfaceです.

  1. Search Word(図の*A)は検索Queryを入力するためのFormです.
    入力値には1byteの英数字と記号にのみ対応しています.
    • 検索したい英数字をそのまま,または正規表現を用いて入力し,検索を開始してください. Queryに該当する文字列を含む文の一部が検索結果として表示されます(SCORP機能).
    • ここを空白にして検索を開始すると,全ての使用単語とその使用頻度が検索結果として表示されます(Word Counter機能).
  2. CORPUS Selection(図の*B)は検索対象CorpusのPathを入力するためのFormです.
    入力値には1byteの英数字と記号にのみ対応しています.
    • 初期値はCorpus専用DirectoryのPathに相当する"../CORPUS/"です.
    • このCorpus専用DirectoryはSCORP Packageの設置時に自動的に作成された以下のDirectoryに相当します.
      (FreeBSDの場合) /home/username/public_html/CORPUS/
      (Mac OSXの場合) /Users/username/Sites/CORPUS/
    • 例として,話し言葉だけを集めたCorpusと書き言葉だけを集めたCorpusをそれぞれ構築したい場合, Corpus専用Directoryの下位に"Spoken"と"Written"を作成し,それぞれの文献を該当するDirectory内に保存します(以下は,FreeBSDでの例). 端末からWeb Serverへの収集文献の転送法についてはこちらで解説しています.
      /home/username/public_html/CORPUS/Spoken/
      /home/username/public_html/CORPUS/Spoken/spoken_01.txt
      /home/username/public_html/CORPUS/Spoken/spoken_02.txt
      /home/username/public_html/CORPUS/Spoken/spoken_03.txt
      /home/username/public_html/CORPUS/Written/
      /home/username/public_html/CORPUS/Written/written_01.txt
      /home/username/public_html/CORPUS/Written/written_02.txt
      /home/username/public_html/CORPUS/Written/written_03.txt
    • "Spoken" Directoryとして構築した話し言葉の文献を対象にSCORP検索を行う場合,以下を"CORPUS Selection"の入力Formに指定して検索してください.
      ../CORPUS/Spoken/
    • "Written" Directoryとして構築した書き言葉の文献を対象にSCORP検索を行う場合についても,以下を"CORPUS Selection"の入力Formに指定して検索してください.
      ../CORPUS/Written/
  3. Sort Option(図の*C)は検索結果の並び順の選択です.
    • 初期値は降順,"Descending Order"です.
    • SCORP検索結果の内,検索Queryに合致する文字列とその前後の約70字が一覧表示されます. 並び替えはその70字の1字目を対象に行われます(次Versionで改良予定).
    • Word Counterの結果の内,並び替えは語彙の使用頻度数を対象に行われます.
  4. Submit(図の*D)を押すと,上述の三つの入力値に従って検索を開始します.
  5. 正規表現一覧(図の*E)は,検索Queryに正規表現を用いる時に参考にしてください.

検索結果について

SCORP Packageを導入設置した時点で専用Corpus Directory内には自動的に"sample.txt"という文献が作成されています.
../CORPUS/sample.txt
その内容
This is sample txt.
以下では,その"sample.txt"のみで構築されたCorpusを検索対象にした検索結果の参照の仕方を解説します.
使用法 TOP 

@文献収集

Internet上には膨大な数の,様々に分類可能な分野の文書があります. これらInternet上にある文書の内,個人利用を許諾された著作物, または著作権を放棄したものだけをSCORP検索対象として収集します. これを常に留意して,各自のSCORP利用目的に適ったText量と嗜好分野で,Corpus構築をしてください (著作権についての詳細はこちらを参照してください).
  1. Internet上の検索Service(GoogleやYahooなど)を通じて,構築したいCorpusに分類されるに相応しい文書を探索します.
  2. 該当文書を所有するWeb Pageの著作権に関する規定を熟読し,自分のCorpusの一部としてその文書が使用可能かどうか判断します.
  3. 使用可能なものに限り,その文書をCopyし,Text EditorにPasteします.
  4. 文書の出処に関する情報も,Text EditorにPasteした文書に追記します. 入手した文書に以下のような情報を追記します.
    • 入手した年月日
    • 入手先のWeb Pageの名称
    • 入手先のWeb PageのURL
    • 文書の作成/編集の日付
    • 文書の作成者/編集者の氏名,などなど
  5. 文書を保存します.よってCorpus収集処理を行える計算機の条件は,Web BrowserとText Editorが動作する,の一つだけです. その条件を満たしていれば,SCORPを動作させているWeb Serverはもちろんあらゆる端末計算機で収集処理が可能です. 端末で収集処理をした場合,構築したCorpusをWeb Serverの専用Directoryに転送する必要があります. 転送方法については,こちらを参照してください.

文献収集時の留意点

Corpus収集処理がMulti Platformで可能であるという利点は同時に難点をももたらします. それらの難点はMS Windows,Mac OSX,そしてUNIX-Compatibility(例としてFreeBSD)の各OSがそれぞれに定める"標準仕様"に起因する以下の問題です. 特に改行符号については,それぞれのOSで異なる"標準仕様"を持ちます.
OS名称 改行符号
MS Windows CR+LF
Mac OSX CR
UNIX系 LF
SCORPが扱うCorpusの文字符号と改行符号はUNIX-Compatibilityのものに併せます. 収集した文献の文字符号をEUC,そして改行符号をLFに統一し,保存する必要があります. 文字符号と改行符号を任意に変換して保存する事ができる,無料の素晴らしいText Editorを以下に紹介します.
OS名称 Editor名称 Editorの入手先
MS Windows MK Editor http://www.mk-square.com
Mac OSX mi Editor http://www.mimikaki.net
UNIX系 Kate KDE Pacakgeに標準付属(http://kate.kde.org)

DirectoryまたはFileの名称もUNIX-Compatibilityの慣習に倣い, 2byte文字を一切用いず,空白を含めないものに統一します.

文献の転送方法

収集した文献はSCORPが動作しているWeb Serverの専用Directory,"CORPUS"より下位に保存して初めて検索対象となります. 文献を端末に収集保存した場合,そのServerに文献をUploadする必要があります. UploadはSFTPを用いて行うのが最適です.以下ではWindows環境でGUIで動作する無料のすばらしいSFTP Clientを紹介します.
名称 入手先
WinSCP http://winscp.net/eng/docs/lang:jp

SCORP TOP
詳細な導入法  使用法TOP  正規表現について  著作権について

Medical Information Science at School of Medicine, Akita University
ご質問,ご意見,ご要望はこちらまで:takasato@ipc.akita-u.ac.jp