書くのは1回だけにしたい2

これ:書くのは1回だけにしたいの続きです。

日本語で書かれた文章を計算機で解析する研究はかなり進んでいるようです。特にkakassi(namazu)には知らない間にお世話になっていたりします。

その逆の日本語文生成については情報処理学会で多くの論文を見つけることができますが、解析ツール類はこれを見つけることができませんでした。いくつかは存在するのですが、CommonLispPrologなので、手が出ません;;

言語非依存で,マニュアルを書くには,かなりの熟練が必要で,たぶんそれはBASICでプログラムが書けるくらいのスキルになると思われます。しかしながら,いくらテクニカルライターでもそんなスキルのあるひとは少ないわけで,もしスキルのある人を見つけられたとしても,単価が上がってしまって,イヤン。

考えられる1つ目のアプローチは,マニュアル記述を実装側に押し込めることです。

XAMLや,XULのような技術では,ユーザインターフェースの記述が従来より,一段階だけ抽象化されています。そこではマニュアルの記述がより容易になるのではないかという期待を持っています。

ユーザインターフェースの実装が処理側寄りからユーザインターフェース側寄りになるのですから当然,マニュアル側にも相対的に近づくはずです。そうであれば,いっそのこと,クヌース先生がおっしゃられたように,実装にマニュアルのための記述も含めてしまえばよいではないですか。

2つ目は,自然言語で記述したものを言語非依存記述に変換することです。

既に入手可能な自然言語処理技術により,自然言語で書かれたマニュアルと言語非依存形式に変換すれば良さそうです。これは「たまごプロジェクト」で言うところの中間言語です。しかし用途をマニュアルに限定し,表現の広がりをあきらめれば,実現容易性が高まると期待しています。

具体的に考えてみます。日本語→中間言語の変換セットを使う場合,変換セットでサポートできない表現は撥ねられます。このセットを使うユーザにとって,セットが完全になることが目的ではなく,マニュアルを言語非依存形式に変換することが目的なのですから,撥ねられた表現は,書き直せば良いだけです。書いたものがほとんど全部撥ねられてしまうと,これは仕事になりませんのでツライでしょうが。

仕組みとしては,日本語表現を形態素解析し,変換セットのデータベースに合致する文章構造を見つけたら,1対1対応で,言語非依存表現に変換します。名詞などはドメインによって柔軟性を持たせなければならないでしょう。

多言語の場合,言語ごとに,この変換セットを用意しなければなりません。これはかなり大変です。しかしながら,いわゆる対訳表は,国際化企業なら持っていて当然です。この対訳表を定型文にまで拡張しようというだけのことですから,なんとかしたいところです。(そもそも定型文の対訳表くらい,すでにあるんとちゃうか?)いったんその変換セットを用意し,マニュアルを言語非依存で記述できれば,全ての言語へ変換できるのですからやってみる価値がないでしょうか。

普通の日本語を関西弁に変換したりできるんですから,マニュアルくらい中間言語で書けるんちゃうの?というのがこれを考えた発端です。

思い込み:
中間言語→自然言語の方が,自然言語→中間言語よりも簡単だろう。
中間言語でマニュアルが書けるはず

メモ:
形態素解析システム茶筌

MeCab (和布蕪)

KAKASI – 漢字→かな(ローマ字)変換プログラム

『日本語話し言葉コーパス』

なんとなく続いて:たまごプロジェクトの復活かます。