フレーズ辞書 (非推奨)

AITalk 製品の扱うユーザーフレーズ辞書を説明します。 以降は「ユーザーフレーズ辞書」は「フレーズ辞書」と記します。

フレーズ辞書はユーザー辞書の種類の 1 つです。 ユーザー辞書の概要については ユーザー辞書概要 を参照してください。

フレーズ辞書には文字列 (フレーズ) と読み方を登録します。 AITalk にフレーズ辞書を読み込むと、入力テキスト中に含まれるフレーズを登録した読み方に置き換えます。

注釈

この機能は新しい AITalk 5 では、ユーザーキーワード置換辞書のマッチモード boundary に統合されました。 AITalk 4.1 以前の形式で作成されたフレーズ辞書ファイルの利用は非推奨になります。 ユーザーキーワード置換辞書の詳細は ユーザーキーワード置換辞書 を参照してください。

互換性のためフレーズ辞書の読み込みは継続してサポートされますが、なるべくユーザーキーワード置換辞書への移行を検討してください。

フレーズ辞書仕様

フレーズの定義

フレーズの定義については、ユーザーキーワード置換辞書マッチモード boundary に関する記載を参照してください。

※ キーワード置換辞書ではキーワード中にフレーズ境界を含むことが可能です。 フレーズ辞書ではフレーズ中にフレーズ境界を含む場合、キーワード置換が行われません。 (登録することはできます。)

辞書フォーマット

フレーズ辞書は 1 つのテキストファイルです。 3 行ごとにフレーズと読み方を 1 つずつ指定できます。 以降、「フレーズ辞書ファイル」については「pdic ファイル」と記載します。

具体的な pdic ファイルの記載例は次のようになります。

1
2
3
4
5
6
7
8
# 先頭行
num:113
み吉野の玉松が枝ははしきかも
$2_2ミ^ヨシノノ$2_2タ^マ!マツガ|0エ!ワ$1_1ハ^シキ!カモ$2_2
num:94
み吉野の山の秋風小夜ふけて
$2_2ミ^ヨシノノ$2_2ヤ^マノ|0ア^キ!カゼ$1_1サ!ヨ|0フ!ケテ$2_2
[EOF]

ファイル仕様

pdic ファイルはテキストファイルです。 以下の形式で記述します。

文字エンコーディング

CP932 (Shift_JIS)

改行文字

CRLF または LF

先頭行 (ヘッダー行)

1 行目の行頭は必ず文字 # から開始しなければなりません。 この行はヘッダー行です。 ツールを用いて pdic を生成するときは、何らかの付加情報を記録することがあります。

登録可能数と組

60000 組まで登録可能です。 2 行目以降から 3 行で 1 組と扱われます。

注釈

SDK 製品向け

同時に読み込める pdic 辞書ファイル数に制限はありません。 登録数に比例してメモリ消費が増すため、メモリ不足にならないよう注意が必要です。

データエントリ

ヘッダー行以降の 3 行でフレーズを記述します。

  1. ヘッダー

  2. フレーズ

  3. 読み方

データエントリ行の構成は次のようになっています。

<ヘッダー>
<フレーズ>
<読み方>
ヘッダー

ヘッダーの書式は下記の通りです。

num:x

ヘッダーは半角英数のみ指定できます。

x は 0~59999 のユニークな整数値となります。

フレーズ

全角文字のみ使用可能

読み方

読み方は AITalk 独自の中間言語を用いて設定します。 AITalk 独自の中間言語については AI 中間言語 をご参照ください。