5ちゃんねる ★スマホ版★ ■掲示板に戻る■ 全部 1- 最新50  

■ このスレッドは過去ログ倉庫に格納されています

自然言語処理スレッド

1 : ◆kNLPS0eo :02/01/26 04:51
このスレッドでは、日本語の構文解析、談話理解、情報検索、
文章生成などの技術に関する理論と(おもに)実装を扱います。
あくまでアプリケーションプログラミングの技術的な面に重点を
おきたいので、学術的な話はアリですが、いわゆる人工無能や哲学的AI話、
言語学の話題などは他のスレッドでお願いします。

形態素解析
- Juman: http://www-nagao.kuee.kyoto-u.ac.jp/nl-resource/juman.html
- ChaSen: http://chasen.aist-nara.ac.jp/

依存構造解析
- KNP: http://www-nagao.kuee.kyoto-u.ac.jp/nl-resource/knp.html

Namazu
- namazu: http://www.namazu.org/


2 :2get:02/01/26 04:55
2get

3 :デフォルトの名無しさん:02/01/26 05:27
いいスレになるといいね

4 :デフォルトの名無しさん:02/01/26 05:41
深夜は叩きがいないね。

5 :デフォルトの名無しさん:02/01/26 06:14
深夜は叩きがい・ないね。
深夜は叩きが・いないね。
どっち?

6 : ◆kNLPS0eo :02/01/26 06:27
自然言語処理技術を使ったアプリケーションは、
大きく分けて 3つあると思います。

 1. 自然言語データそのものを扱うもの
  (情報検索や機械翻訳、文書整理など)
 2. ナビゲーションとして自然言語を使うもの
  (対話的データベース検索、チケット予約など)
 3. 1.と2. の混合
  (検索エンジンで日本語で質問を入力できる等)


7 : ◆kNLPS0eo :02/01/26 06:30
たとえば 1. の例としては「2ちゃんねるについて批判的な」webページを
捜す、などの非常に柔軟な条件が指定できる検索エンジンなどが
あります。現在の情報検索では、このような検索には Query Expansion という
技術を用いるのが主流です (まだ実用段階ではありませんし、これでは
不十分だと考える人も多いですが)。

たとえば「2ちゃんねるについて批判的」という条件をもつ文書は
「2ちゃんねる + 引きこもり + 非常識 + クズ」などのキーワードが
使われているであろうと推測できるので、自動的にこれらのキーワードを
追加して検索すればよい、というような技術です。

また、ある文書の集合を与えると、似たような帰結を述べている
文章を全部まとめてくれる、というソフトウエアもあれば便利でしょう。

あと盛んに研究されているのは、要約ですかね。
たとえばメーリングリストの議論を追って、ダイジェストを
まとめてくれるソフトウエアなども研究されています。

いずれも実用までにはまだ長い道のりがありますが、特定の分野だけに
限れば「それなりに使えるかもしれない」レベルのものはできそうです。


8 : ◆kNLPS0eo :02/01/26 06:44
2. の例は「本来は人工言語のコマンドラインでもいいが、
初心者が使いやすくするために自然言語を受けつける」というものですね。
簡単な例としては IBM ViaVoice についてくるボイスコマンドがありますが、
これは単語をただ受けつけているだけで、文章を理解することはできません。
現在の「声で制御できる」大部分の電子機器は、まだこの段階です。

たとえば SQL はもともと自然言語に近い形で検索ができるように
設計されたものですが、まだ完全ではありません。日本語では使えないし
文脈をくみとることもできません。もし自然言語での要求を受けつける
データベースができたとしたら (実験段階ではすでにいくつか作られていますが)、
理想的にはたとえば次のような対話が望まれます:

ユーザ「エコノミーを取りたいんだけど、来月頭にロスへ、安いやつ」
システム「ユナイテッド航空で 6万8千円の席があります」
ユーザ「もっと安いのない?」
システム「4万2千円というのがありますが、2月初頭では 3日と6日しか空いていません」
ユーザ「もしかして関空発とかじゃないよね?」
システム「羽田発です」


また、ロボットなどに自然言語によって指令する、という
応用も考えられます。ただしロボットは制御の問題があるため、
多彩な動きができて、なおかついいかげんな指令でも壊れないような
高性能かつ堅牢なロボットをつくるのはまだ難しいでしょう。


9 : ◆kNLPS0eo :02/01/26 06:52
いずれにせよ、現在の技術では「いかにして構造をもった
文章を理解するか」という最初の段階から、まだまだ苦労が多いです。
たとえば >>1 にあげた Juman や ChaSen などは、
新聞記事に対してはチューニングされているので
ある程度まともな結果を出しますが、2ちゃんねるの文章を解析させても
間違いだらけでしょう。形態素解析ひとつとってみても、
これですから、その先の構文解析となるとさらに大変なのが想像できます。

また、原理的には可能だが、実際に実用的なソフトウエアを
つくるとなると複雑すぎ、あるいは必要なデータが多すぎて
金がかかりすぎるというものもあります。
(たとえば莫大な予算を投入して何百人もの人を雇い、
完全な日本語の連想辞書のようなものを作れば、さきほどの
Query Expansion のような技術はかなりうまくいくかもしれませんが、
そんな資金はふつうありません)。


10 : ◆kNLPS0eo :02/01/26 07:03
また、文章の意味をどのようにとらえるかに対しては、
現在のところアプリケーションごとにその場しのぎのやり方で
解決している状況です。たとえばデータベース検索の
ソフトウエアなら、人間の言語をまずいったん SQL に
変換するような仕組みをつくり、それを実行するわけですね。
これだと当然 SQL で表現できないような日本語 (たとえば
「もっと安いやつ」という文。これは前の状態を参照する
変数のようなものがないとたぶん表現できないでしょう) は
受けつけないことになります。けれどもこれを一般的にしようと
しすぎると、ぜんぜんデータ構造が定まんなくてワケわかんない
ことになります (自然言語の意味を一般的に表現できるような
形式的な枠組みはまだないし、あってもそんなものを
プログラミングするのは大変でしょう)。

もうひとつ。人間の多様な語彙を理解するためには、ソフトウエア側が
なんらかの「辞書」のようなものを持っている必要があります。
この形式に関しても議論百出ですから、現在はアプリケーションごとに
こしらえているのでしょう。こういったものはとにかく作るのに手間がかかり、
人件費もかかるので、いまでは人様がデータ入力をしなくても
コンピュータが web なんかから勝手に「学習」するようにしよう、
というアプローチがさかんに研究されています。けれども、
どれもノイズが多くてあまり使えません。また最近は
学習データの著作権問題をクリアーするのが非常に難しくなっています。


11 : ◆kNLPS0eo :02/01/26 07:06
そういえばこれを忘れていた。

音声認識
- Julius: http://winnie.kuis.kyoto-u.ac.jp/pub/julius/

これも含む >>1 で挙げたソフトはすべてフリーでダウンロードできます。
(ちなみにぼくは関係者じゃありません)


12 :デフォルトの名無しさん:02/01/26 07:12
>>1
なんで自然言語処理に興味を持つようになった?

13 : ◆kNLPS0eo :02/01/26 07:18
さて、まず形態素解析・構文解析の段階で問題になるのは、
日本語をふくむ自然言語のパーザは決定的ではないことです。
だから yacc などの、いわゆる人工言語用のパーザをそのまま
使って日本語を解析することは、不可能とはいいませんがその表現は
非常に限られたものになります。

一般的な文脈自由言語の解析は、たしか文の長さ n の 3乗だかに
比例していたと思いますが、正解がたくさん出力されすぎて、
これをいかに減らすかがとても重要です。たとえば >>4-5
いい例を出してくれましたが、このように単純な規則を使っただけでは
ふるいきれないたくさんの正解候補が出てしまうわけですね
(通常、新聞記事レベルだと何億通りもある)。

そしてこのような場合、>>4 の文章をどのように解釈すべきかというと、
それはもう言語の知識ではなくて、一般常識や 2ちゃんねるでこれまで
厨房を観察してきた個人的データを使って推論するしかないわけです。

結局、自然言語処理でいちばん厄介なのが、このように
いろんな知識をあらかじめソフトウエアに入れておかないと
文章の解析すらできない、という問題です。いろいろ確率的な
手法を用いてこれを解決しよう、という試みもありますが、
まだ決め手となるものはありません。そういう意味でも、
アプリケーションが扱える分野をあらかじめ厳密に狭めておくことは
重要ですね。


14 : ◆kNLPS0eo :02/01/26 07:19
とりあえずイントロ的なことを書いてみました。

寝ます。


15 :デフォルトの名無しさん:02/01/26 07:25
>>14
お疲れ&オヤスミ

16 :デフォルトの名無しさん:02/01/26 16:32


17 :デフォルトの名無しさん:02/01/26 16:33
sage

18 :デフォルトの名無しさん:02/01/26 16:37
自然言語処理のプログラムをすると、
すっごく日本語の勉強になるよ(^−^)

19 :デフォルトの名無しさん:02/01/27 01:02
口語を解析できるような文法ってどっかにないの?

20 :デフォルトの名無しさん:02/01/27 11:46
う言語があれば、ほかは何も要りません。

21 :デフォルトの名無しさん:02/01/27 16:25
自分も自然言語処理やってるので期待上げ
(日曜は頭が働かない…)


22 :Seisei_Yamaguchi:02/01/27 22:04
英語 : 1パス系
日本語 : 複数 ( 累乗? ) パス系


23 :デフォルトの名無しさん:02/01/30 19:39
誰かKNP
http://www-nagao.kuee.kyoto-u.ac.jp/nl-resource/knp.html
のソースを解説してくれ。わけわからん。

文法解析は普通何でやるもの?一般化NR法がよさそうな気がするが。

24 : ◆kNLPS0eo :02/01/31 09:36
> 誰かKNP
> http://www-nagao.kuee.kyoto-u.ac.jp/nl-resource/knp.html
> のソースを解説してくれ。わけわからん。

ぼくもわかりません。あれって結構まだバグがあるような気がする。
ときどき Segmentation Fault で落ちるし。
ああいうものを全部 C で書かれるときついですね。
STL を使えばかなりましになると思うんですが。

> 一般化NR法がよさそうな気がするが。

一般化 LR 法のことですか?
どうでしょうね。個人的には、日本語なら KNP の
ようなやり方のほうがいいんじゃないかと思います。
文脈自由文法でやるなら、ぼくはチャート法がいちばん
(実装が)楽で好きですが、LR のほうがロバストネスな解析に
対応しやすいかもしれないとは思います。LR パーザは数がすくないし。


25 :デフォルトの名無しさん:02/02/07 02:13
やはりこのスレは落ちやすいな。残念
興味があるから盛り上がってほしい。

自分はほとんど門外漢だから適当なことを書くけど…
自然言語処理で構文解析ができたとしても、それだけでは「単語の意味」と
いうものに対して無力だと思うのですよ。
例えば、「写真をとった」「ビデオをとった」というときの「とる」と、
「しょうゆをとった」「本をとった」の「とる」は判然と違うけれど、この区別ができない。


26 :25:02/02/07 02:20
そこで考えたのだけど、
自然言語には、

名詞(主格、目的格、…)->動詞、
副詞->動詞、
程度副詞->副詞|形容詞、
形容詞->名詞、
名詞->名詞

のような修飾関係があるけれど、文法解析を行って、意味上の紛れのないもの
については、この修飾関係を記録していく。つまり、「カメラマンが写真を撮影した」と
いう文を解析した後、「写真」(目的格)->「撮影する」、「カメラマンが」->「撮影する」
という修飾関係が成り立ったというデータを記録しておく。

27 :25:02/02/07 02:31
そうすると、それぞれの関係においてどの単語とどの単語が組み合わされたかの
表が得られるので、このデータを統計的に処理して、数次元程度の
位置情報として持っておく。
距離が近ければ、その関係に不自然さがないということ。

それで、意味が複数ある単語(同音異義語含む)の場合は、それぞれの
単語に、「組み合わされ方が近いと思われる」単語(複数可)を登録しておく。
例えば「写真をとった」の「とる」には「撮影する」「撮る」など、
「しょうゆをとった」の「とる」には「つかむ」「取る」などを登録して、
それらの単語の位置によって、それぞれの単語の位置を暫定的に
定めておく、というような。

あー、なんか考えまとまらない。めちゃくちゃなこと言ってるかも。


28 :デフォルトの名無しさん:02/02/07 04:28
主人「ええか? ええのんか?」
めいどろぼっと「はい。ご主人様のご随意に...あっ...」
なんてことが漏れの生きているうちに実現するといいな。

...ってクソレスだけじゃなんなので...
"写真|映画"⇔"撮る" とか "(生き物)"⇔"飼う" のような使い分けの共起辞書をつくる手もあるけど、
「ボクが『うちでも動物を飼おうよ』と言ったので、パパはハムスターを‘かい’ました」
なんていう文の‘かい’が‘買い’だろうと判定するのは骨が折れるよね。

29 :デフォルトの名無しさん:02/02/07 05:53
このまま沈下かと思ったら上がってた。

> 例えば、「写真をとった」「ビデオをとった」というときの「とる」と、
> 「しょうゆをとった」「本をとった」の「とる」は判然と違うけれど、この区別ができない。

語義の曖昧性解消というやつですね。
すこし前まではよく研究されていましたが、最近あまり聞かないような。

よくあるやり方としては、>>28 がいうように共起辞書を用いて
ウインドウの前後数単語をみて構文解析せずに判断するというのがあります。
格まで解析するなら、よくしらないんだけど IPAL 動詞辞書が有名かな。
http://www.ipa.go.jp/STC/NIHONGO/IPAL/ipal.html


30 :デフォルトの名無しさん:02/02/07 06:03
>>29
そういうものなら文脈(前後の語彙の関係)から推測できそうだけど、
>>4-5のような例は意味を一意に決めることができないような
気がするけどどう?素人考えだけどさ。

やっぱちゃんとした本読まないとだめだなw。

31 :デフォルトの名無しさん:02/02/07 06:12
> やっぱちゃんとした本読まないとだめだなw。

そもそも >>4-5 のような状況をまじめに理解しようとすると、
「相手の考えを読む」という作業が必要になり、これはもはや
自然言語処理の範囲を超えている。

たぶん「ちゃんとした本」を読んでもそのへんのことは
ほとんど書いてなくて、ただ単に「こういう問題はむずかしい」と
書かれてあるだけだと思います。

ひじょうに限られたドメインであればそこそこ手はあるかもしれないけど、
一般的にはアプローチすら見当もつかない段階でしょう。


32 :  :02/02/07 15:17
物を移す。
紙に写す。
鏡に映す。
そもそも同じ音なのはよくにた動作だからなのでしょう。

33 :     :02/02/07 16:09
>>4 のような例はもともと人間でも完全な理解は無理。

「深夜は2chへの書き込みが少ない」とか「深夜は煽りを入れる奴が寝ている」
といった高度な知識ベースがあって初めて解析できる。
それは自然言語処理とは直接関係ないね。

34 : :02/02/07 16:24
>>33
関係ないとは言い切れないのでは?
「自然言語処理」とは字面だけを見て形態素解析することではないでしょう。

35 :     :02/02/07 19:46
>>34
「直接」関係ないってことね。
俺のまわりだと自然言語処理とそうした知識処理とは違うもんだから。

>>33 で書いた「深夜は〜」っていう情報(知識)は自然言語処理の結果じゃ
ないでしょ?
そこまで含めて自然言語処理と括るのには違和感あるんだけど?

36 :デフォルトの名無しさん:02/02/07 20:28
commonsenseも必要。心理学も。
数学的では自然言語は解析できない。
談話処理は音声認識(イントネーション)も絡んでくる。
「きれいな私の姉さん」
きれいな 私の姉さん(姉さんがきれい)
きれいな私の 姉さん(私がきれい)


37 :デフォルトの名無しさん:02/02/08 04:20
>>35
意味論も含めるとそういうコンテキスト情報も処理することになる。
とはいっても構文論にも語用論や意味論が関係せざるを得ないが…

38 :デフォルトの名無しさん:02/02/08 07:11
>>32
そういうのってたぶん言語学で研究されてると思う。
「とる」の例でもそうだけど、無理矢理 disambiguation しようとするから
無理が生じるのであって、意味としては何か共通の認知的枠組みが
あると思うんですよ。

個人的にはそういった枠組みを形式的に扱うという試みに
すごく興味がある。認知言語学ってどうなんだろう?

NLP の分野では、Schank の Conceptual Dependency とか昔有名だったけど、
いまもってそういう研究をやっている人はどれくらいいるのかね。

39 :デフォルトの名無しさん:02/02/08 07:18
>>34
> 「自然言語処理」とは字面だけを見て形態素解析することではないでしょう。

理想的にはそうですが、実際には今はほとんど「字面だけ」しか
みていないような気がします。。
いや、それがいいといってるわけじゃありませんけど。

40 :デフォルトの名無しさん:02/02/08 13:32
誰かグーグルのコンテストに応募する?
考えある人はいいチャンスかもよ。
というかGoogleは速度が命みたいだから
どんなに高度なものでもある一定のレベルを
満たせないとダメか。。厳しいな。
http://pc.2ch.net/test/read.cgi/tech/1013088625/

41 :     :02/02/08 20:09
>>32
それは違う。そもそも大和言葉には漢字なんて存在しなかった。
全て「ウツス」という概念だった訳。
そこに漢語が入って来て、より概念が細分化されたの。
そういう意味で日本語はかつて曖昧だった。

42 :デフォルトの名無しさん:02/02/08 21:38
日本語用のフリーのシソーラスってないのかなあ。
英語にはWordNetがありますが。

43 :デフォルトの名無しさん:02/02/09 16:26
>>42
「分類語彙表」ってタダではないけど、3〜4千円で手に入る...はず。
検索してみたら品切ればっかりのようだ。
FDで頒布がフツーだった時代に作って、それきり増産してないのかもね。

44 :デフォルトの名無しさん:02/02/10 06:39
EDRもシソーラス作ってなかったっけ。
あれもタダじゃなかったけど。

45 :デフォルトの名無しさん:02/02/10 06:42
前に超整理法読んだときに、
日本語のまともなシソーラスがないとか
書いてあったけど、今はどうなの?
英語には確かに役にたつのが沢山あるけど。

46 :デフォルトの名無しさん:02/02/10 06:52
そうか!
英語のシソーラスを和訳して使えばいいんだ!

47 :デフォルトの名無しさん:02/02/10 07:39
やっぱ実際にネタというか、
叩き台的システムがないと盛り上がらんですね。


48 :デフォルトの名無しさん:02/02/18 07:47
日本語の文章解析するのに、一度英訳してから、解析させてる研究者も
いるしなぁ(あ、心理でだけど)age


49 :デフォルトの名無しさん:02/02/19 23:59
本気で開発してる人いる?
学生可。

50 :デフォルトの名無しさん:02/02/20 12:57
開発?
文字列置換プログラムならうちの会社で作ってるよ。

51 :デフォルトの名無しさん:02/03/02 16:36
なんでこの話題はいまいち盛り上がらないのだろうか。

ところで、語彙の意味マップ作成に、SOMと多変量解析があるけど、どっちが
いいと思う?

2次元で、人間にわかりやすいように視覚化するという目的ならSOMなんだろうけど、
自分の考えてる目的は、単語間の組み合わせのコストを決めること。

多変量解析で10次元ぐらいまで取っても、累積寄与率はせいぜい30何%ぐらいまで
しか行かないらしい。論文の受け売りだが。その論文では、累積寄与率が7-80%以上
でないと、データを正しく縮約できないとか書いてあったけど…

ただ、2次元以上のSOMってのはあまり聞かない。あくまで視覚化が目的で、
その位置情報に基づいてなにかを判断するのにはあまり向いていないのか?

詳しい人教えて。

52 :51:02/03/02 16:36
× 2次元以上
○ 2次元より上

53 :デフォルトの名無しさん:02/03/02 16:41
いまいち盛り上がらないのは、実質的で
目新しいトピックスがなにもない業界だからだと思われ


54 :デフォルトの名無しさん:02/03/02 16:47
>>53
どゆこと?


55 : :02/03/02 17:41
>>53
日本語の自然言語の処理は、ある意味来るところまで来てしまった。
でも実用化レベルには達していないし、達しそうでもない。

ってことが言いたいのではないかと思う。

ジャストシステムのコンセプトベース
http://www.justsystem.co.jp/km/cb/index.html

56 :デフォルトの名無しさん:02/03/03 18:24
日本語の不自由な上司の日本語の構文解析をしたいのですが
どうすればいいでしょうか。

57 :デフォルトの名無しさん:02/03/03 18:35
>>56
上司に直子の代筆でもインストールすれ!

58 :ろてぃれる:02/03/05 01:19
>>56
その上司から得られる出力由来のタグ付きコーパスを自動生成するロジックを
開発できればノーベル賞も夢ではありません。
何はともあれ、頻出単語の切り出しからはじめてみては?

そのためには、切り出し用ロジックのたたき台にするコーパスを作成して。
(↑無限ループ)

……そんな無茶なモンが完成したとして。
応用編で「スレに適切じゃない発言」を自動的に sage る bbs.cgi なんてのも
実現可能!?
「自分好みじゃない発言」を透明あぼーんする 2ch ブラウザとかもね。

結局、自然言語処理ってそーゆーもんだと思ってる私は間違ってますか?

59 :煽りの自然言語処理:02/03/05 10:41
>>58
まずはあなた自身の自然言語処理能力を、
厨房レベルから引き上げることをお勧めします。

60 :ろてぃれる:02/03/05 13:44
>>59
そーですね……肝に銘じておきます... m(__)m

ところで、ここにいる皆さんは、どういう経緯で「自然言語処理」に興味を
もたれたんですか?
私の場合、人工無能チャットの精度向上というのが主目的だったんですが(爆

61 :デフォルトの名無しさん:02/03/05 21:51
>>60
昔から語学とコンピュータが好きだった。
珍しい組み合わせなのだろうか。

いつか、人間と同等に近い性能を持った翻訳プログラムが作りたい。

62 :デフォルトの名無しさん:02/03/06 03:37
「ゲーデル・エッシャー・バッハ」を読んだせい。

63 :煽りの自然言語処理:02/03/06 07:27
>>62
自然言語処理と関係ありませんな。

64 :デフォルトの名無しさん:02/03/06 07:32
言語にとって美とは何か、を読んだせい

65 :ろてぃれる:02/03/06 12:21
人間ドラマだなぁ……。
飯の種にしてる人も多そうだ。

さて、そろそろ決算期ということで。
「予算取りのための『成果物』なんか作っといて(笑)」とか
抜かすウチの所長みたいなヒト、他でもいるのでしょうか?
ウチだけ特殊だと祈りたい今日この頃。
という訳で、いい加減なモノ作ってるんですが(爆

ソース忘れたんですが、圧縮技術の研究中に(たぶんハフマン木あたり)、
「そのファイルが何語で書かれているか」がテキトーなサンプルと
マッチングさせるだけで、比較的高精度に判別できるという話が
あったじゃないですか。

アレのバリエーションで、その人が言いたいことが文章のどの辺に書かれているか、
という情報から誰が書いたッぽいか判別するのを作りかけていますが、
こういうアプローチって既出でしょうか?
※ビジネス文書だと「結論が先」というパターンが多すぎてうまくいきません。
 改良の必要あり。

昔何かで読んだ気もするし……。

66 :デフォルトの名無しさん:02/03/06 23:15
>>65
TDT (Topic Detection and Tracking) あたりが近いのではないかと。
もっともこれは作者ではなく、話題の判別ですが。

音声認識では、話者認識は非常に重要な問題ですね。

67 :ろてぃれる:02/03/07 00:35
>>66
ありがとうございます。

・…●

話者認識といえば、FFT 通して、ある話者の声によく出てくる周波数帯から
ちょっとシフトしたところで声の特徴をつかむ、みたい研究やってるヤツも
いた気がする。同じ建家の中に(謎
現行の電話程度の音質でも使えるモノを目指しているんだそーな。

>>61
シリーズモノの邦訳版で、全8巻が8巻とも訳者がバラバラで、ある巻では
一人称が「わし」だったのが突然「俺」に変わってて萎えた過去アリ。
そういうのがなくなるだけでも、ちょっとハッピーかも?

ヒトと同レベルの翻訳が民生用まで降りてきたら……。
一昔前だったら、「ペリー・ローダンシリーズを毎週読みたい」とか
言ってたんだろうけど、最近慢性的にアレなので……。
歳、喰ったみたいです。(←なぜかショック)

68 :デフォルトの名無しさん:02/03/07 01:02
脱線御免

「エコの翻訳論」って本に、
ウンベルト・エーコのバラの名前を各国語に訳した訳者の言葉が載ってる。
その中でもハンガリー語への訳者の言葉が揮ってる(笑

「イタリア語から、英語、ドイツ語、フランス語といったような "普通の言語"へ
翻訳することは、その論理がまさしくハンガリー語のそれのように絶望的な
までにひどく異なる言語へ翻訳する人の仕事に比べれば、実につまらぬことなのだ。」

69 :デフォルトの名無しさん:02/03/07 05:14
Time flies like an arrow.

70 :デフォルトの名無しさん:02/03/10 23:17
>>69
自然言語処理の難しいところだね。
文法だけでは処理できない。
蓋然性のようなものを導入しないとね。

71 :ろてぃれる:02/03/11 23:46
>>69
複数求められる解の中で、どこまでが正解で、どこからが間違いなのか。
数値的に厳密な境界が設定できないところがこの手の分野の面白いところ
ですねぇ。
苦しいところでもあるんですが。(←言うまでもない)

やりたいことはいろいろあるけれども、マシンパワーとの兼ね合いで、職人
芸的な「さじ加減(謎)」がシステムの完成度を左右してしまう辺り、
楽しいやら情けないやら、……。

例の慣用句にしても、「この部分は慣用表現である」と認識させるだけでも
まだまだ満足にはいかないし。
ある程度は出来ますが、辞書にない言葉をどっかからアドリブで学習してきて
サクッと解決するなんて、「インスピレーション」を実装できたら、なんて。

自然言語処理を「I/F に利用するための道具」と規定すると、相手がどういう
意味でその言葉を使っているのか、という解析が必要になって、言葉の意味を
追いかけるのに精一杯な現状では遠い夢……はふぅ……。

※どこからどこまでって、得られる解(らしきもの)に順位を付けるのも
 おぼつかないのが現状ですが。

72 :デフォルトの名無しさん:02/03/12 01:26
>>71
解が特定できないことが、真の解。

73 :デフォルトの名無しさん:02/03/12 06:36
そもそも人間の言語処理がなぜ速いかというと、
「適当に聞き流している」か、あるいは
「相手の言わんとしていることが最初から想像ついてる」からであって、
言葉だけをいじって何かしようとしてもできることは限られてると思うよ。

74 :デフォルトの名無しさん:02/03/12 09:05
>>73
うちの両親の場合を思いだした。
父「おい!」
母「はい」
たったこれだけで母はそのときそのときの父のリクエストに正確に応える。
あるときは新聞、あるときは手拭き、そしてまたあるときは醤油…。

あなた、と呼べ〜ばぁ〜♪


75 :デフォルトの名無しさん:02/03/16 15:03
>>74
母は強いね。赤ん坊が何で泣いてるかも分かるしね。

76 :デフォルトの名無しさん:02/03/18 04:37
>>74
発話行為 (speech act) の認識というやつですね。

相手の発話行為を認識するということは、その行動プランを
推測しているということでもあり、これは
古典的人工知能の研究テーマにもなっている。

77 :デフォルトの名無しさん:02/03/18 04:49
♪あなぁ〜た
♪なぁ〜んだいっ
♪あ〜と〜はいえ〜ない〜 ふたりは若〜い〜

78 :デフォルトの名無しさん:02/03/20 13:57
http://www.ai-gakkai.or.jp/jsai/journal/mybookmark/15-3.html

79 :いつでもどこでも名無しさん:02/03/20 15:36
>>74 のようなのって「自然言語処理」なのかな?

俺の認識だと、自然言語処理というのは日本語とか英語とかの「自然言語」を
「処理」に適した中間言語に翻訳する作業。
例えば >>74 のような例は日本語だけを完全に読み書きすることができても
処理(対応)することができない。

こうした例は、「自然言語処理」が完全にできてからの話だと思うんだけど。
適切な言葉を知らんのだが、例えば「知識情報処理」とか、そういう違う
分野の話だと考えてる。


80 :デフォルトの名無しさん:02/03/20 15:47
歌うな!
と言いたい。

81 :デフォルトの名無しさんk:02/03/20 16:08
言語学のイロハぐらいは知ってからじゃないと手も足も出ないな

82 :デフォルトの名無しさん:02/03/20 16:10
>>79
でも、人間は知識情報処理があることを前堤に自然言語処理をしてるんだろ?
だからこそ、それが原因で話が通じないなんてことも起こるわけで。

人間にもできるかどうかわからない「完全な自然言語処理」とやらが、
機械にできるかどうかは怪しい。
解析的な手法では、所詮プログラム通りにしか動かないわけだからな。



83 :デフォルトの名無しさん:02/03/20 16:31
ここの人は理論を組み立てたいのか、
処理系を作りたいのかはっきりしないな。

84 :ろてぃれる:02/03/20 17:09
>>83
夢を語りたいんですよ(謎

ではなく。
理論的な精度向上も目指しつつ、実用的な(速度で動作しそこそこの結果を
出す)処理系も作りたいというところでは?

85 :デフォルトの名無しさん:02/03/20 22:26
てゆうか理論らしい理論ってほとんどないからなあ。

86 :ろてぃれる:02/03/21 02:35
>>85
業界全体で手探り状態。それが楽しいともいえ……るぞ、ムリすれば(死

いわゆる「実験室レベルで動くモノ(理論を検証するためのやっつけの
処理系)」は目の前にありますが、社会学やら心理学、あと事実上手つかずの
悪夢の素「一般常識」などで補正してやらないと、結局単なる自己満足で
終わるぞ、とウチの主幹がうめいておりました。

訂正:手探り状態というか、どっち向いて歩けばいいのかも判ってないし。


ところで、ウチの主幹の最終目標は、「俳句のコンテキストを実用的な速度で
解析できる」モノを創ることらしいんですが、ねぇ。

87 :デフォルトの名無しさん :02/03/24 03:14
Eurolang
http://www.vision25.demon.co.uk/eurolang.htm
こういったもので解析作業は楽になるのかな?

88 :デフォルトの名無しさん:02/03/24 05:04
正規表現の本は必読ですか?

89 :デフォルトの名無しさん:02/03/24 05:31
>>88
イレギュラーエクスプレッションが必要です。

90 :ろてぃれる:02/04/10 02:13
>>88
正規表現が使える言語を1つ以上使えるようにしておくと、
なんか思いついたときにささっとコード書いて、そのままデータ突っ込んで
動きを見られるので、その点ではよいかも知れません。
出力されたデータを分析するときにも使えますし。

ともあれ、大量のデータを使ってなにかをするときには、
使えた方がラクですね。
その作業が手間かかってしょうがないタイプのもののときは特に(謎

91 :1年生:02/04/10 02:40
茶筅でも使ってみたらどうよ?

92 :1年生:02/04/10 02:45
字間違えた・・・茶釜ですな・・・

93 :デフォルトの名無しさん:02/04/11 19:41
レスごとの単語の共起関係を調べると、面白い図ができあがるかもしれない。
おにぎりとワッショイは相性が良い…とかw

ってのはどうでも良くて、たとえば製品のスレとかだと、その製品や企業に対する企業イメージを
図の形で抽出できたりとか。

問題は2ちゃん語は乱れすぎてて茶筅とかで分解できそーにないことだw

94 :デフォルトの名無しさん:02/04/11 21:26
茶筅はもう限界っぽい

95 :デフォルトの名無しさん:02/04/11 21:37
質問!LANG LABてもう古い?
東京工大の奴だけど もうないか?



96 :デフォルトの名無しさん:02/04/13 09:22
age

97 :デフォルトの名無しさん:02/04/26 23:20
knpのオプションなどを詳しく説明してほすぃい。
bnst?

98 :デフォルトの名無しさん:02/04/27 01:03
うちは knp -tab。

99 :デフォルトの名無しさん:02/05/02 23:49
>>18
ビーフジャーキー(・∀・)イイ!
たっぷり60g!

100 :デフォルトの名無しさん:02/05/15 11:19
KNPあげ
やっぱり見た目にいいのは-treeでしょ。

101 :デフォルトの名無しさん:02/05/15 17:05
自然言語の世界でちゃんと言葉の意味を忠実に
とりだすことのできる理論ってあるんですか?

ちなみに私のところは確率論でやっております。

102 :デフォルトの名無しさん:02/05/15 17:09
っていうか、日付めちゃくちゃとんでるじゃん。
こんな沸いてないスレあげるなよ。

103 :デフォルトの名無しさん:02/05/15 18:05
今から参加するか・・・

最近の自然言語解析をするプログラムは
入力の一部をデータとして蓄積していると思いますが、
どのようなデータを蓄積するのでしょうか?


104 :ヽ(´ー`) ◆Upk7HurI :02/05/15 18:40
自然言語処理って
形態素解析→構文解析→意味解析→文脈解析
を基本としてそこから
機械翻訳、対話モデルetcなどに応用する物だと思ってるが…

現在のところ形態素、構文解析はそこそこまでいってるけど意味解析〜はまだだめっぽく
俺もまだ勉強初めてあまりたってないから詳しくは知らんので間違ってたらスマソ

ところで、なんで自然言語処理関係のソフトってUNIX系の奴が多いんだろ
LISPとかでつくられてるから?

105 :デフォルトの名無しさん:02/05/15 18:41
>>104
prologもつかわれてるぞ。
述語論理の考え方をつかっているからな。


106 :ヽ(´ー`) ◆Upk7HurI :02/05/15 19:02
>105
なるほど、サンクス

卒論で意味解析を格フレーム使って表すプログラムを引継ぎでやったが(LISP)、茶筅で形態素解析した文を
ほとんどそのまま処理してたから複文とかに対応してない罠w
KNPで構文解析したのを使ったら少しはマシになったがKNP自体使いこなせてない罠(;´Д`)

ブラウザからの入力で処理できるようにするため現在移植を検討中
何を目的にするんだか自分でもわからん…

107 :デフォルトの名無しさん:02/05/15 20:12
日本語だと、あんまり構文解析っていうほど独立したフェーズは
ないんじゃないかい。ほとんどが格フレームとのマッチング処理に
なるかと。それでも、助詞の代替、態による助詞シフトあたりが面倒か。
難しいのは、むしろ、複文・重文の係りの解析。

108 :デフォルトの名無しさん:02/05/16 02:13
> 日本語だと、あんまり構文解析っていうほど独立したフェーズは
> ないんじゃないかい。ほとんどが格フレームとのマッチング処理に

そんなこたーない。

> なるかと。それでも、助詞の代替、態による助詞シフトあたりが面倒か。
> 難しいのは、むしろ、複文・重文の係りの解析。

依存解析も構文解析の範疇に入ると思うが。


109 :デフォルトの名無しさん:02/05/27 19:39
類似スレッド

WWW検索エンジンサイト
http://pc.2ch.net/test/read.cgi/esite/973436559/


110 :デフォルトの名無しさん:02/06/03 18:27
KNPって分類語彙表とEDR辞書がないと動かないの?

111 :デフォルトの名無しさん:02/06/03 19:25
>>104
研究室での開発は盛んだけど商品としては未熟だから。

112 :110:02/06/06 00:44
>>110
自己レスですが、無くても大丈夫みたい

113 :デフォルトの名無しさん:02/06/13 10:45
>>111
その「研究室での開発」が、なぜWindows + Visual C++などではなくて
Unixプラットホームなのか?という質問だと思うが
なんででしょうね。

ちなみに研究室=Unixは必ずしも真ではありません
画像関連の分野ではWindowsも沢山使われていますね。
X Window Systemがヘタレだからかな


114 :デフォルトの名無しさん:02/06/26 16:31
突然せすが、ChaSenは音声認識の補正に役立つと思う人??
無理じゃない?ひらがな入力だときちんと解析できないし・・・

115 :デフォルトの名無しさん:02/06/26 22:53
XML

116 :デフォルトの名無しさん:02/06/27 02:48
114の文章を解析できませんぬ

117 :ろてぃれる:02/06/28 20:43
>>116
話の流れを中断して申し訳ございませんが、形態素解析システム「茶筅」を
用いて音声認識の精度を上げることが出来ると思われる方は、こちらに
いらっしゃいますでしょうか?
単なる「音の解析」ではカバーしきれない肉声特有の発音の揺らぎを、
より意味のある文章として通用するよう補正することで、音声認識の実質的な
精度を上げることが出来ると思うのですが、「音声→母音・子音の組み合わせ
→かな(?)」の一連の処理の結果得られる「読み仮名」の羅列を茶筅に
与えて適切なフィードバックを得ることが出来るかどうか判らないのです。
茶筅に与えるデータは幾通りも存在し、またその中に正解が必ず存在するとは
限らないという条件の中で、このアプローチは果たして有効といえるので
しょうか。コストに見合う性能改善が見られるのでしょうか。
他に考えられる問題点なども合わせて、こちらにいらっしゃる皆様と意見
交換を……とか、解読している夢を見た……疲れているらしい……。

でも、個人的にはこういうネタ好き(謎
皆さん、どう思われますか?

http://www.justsystem.co.jp/voice/atok14/vtot.html
民生用ではこのあたりが限界だと思いますが、これが劇的に改善される
ようなら……夢ですねぇ。

http://ai2you.com/ocr/product/koko8s1.asp
ところで、OCRとかでも同様のアプローチを取っているようですが、こちらは
もともと「漢字かな交じり文」が対象になっているわけでして、事情が
異なる、と。

118 :デフォルトの名無しさん:02/06/29 01:21
> 話の流れを中断して申し訳ございませんが、形態素解析システム「茶筅」を
> 用いて音声認識の精度を上げることが出来ると思われる方は、こちらに
> いらっしゃいますでしょうか?

ここにいるかどうか知りませんが、
それに似た試みはもうずっと前からみんなやってますよ。
音声認識は専門外だからよく知らないが論文も山ほど出てるはず。
形態素レベルなんかじゃなく、もっと「グローバルな」制約を入れる
ということもやってる人がいるが、たいした成果は出ていない模様。
さんざ計算して、1パーセントやそこら精度が上がったって面白くもない。

> 「音声→母音・子音の組み合わせ→かな(?)」の一連の処理の結果得られる

こんなことやってる音声認識システムは今どき存在しないと思いますが。
latticeからいきなり単語を出すでしょ?

119 :ろてぃれる:02/06/29 02:25
……反論の余地もございません。
今回のケースでは、形態素解析に突っ込むデータを用意する部分と、
解析結果を料理する部分こそが肝といえるのですが……というか。
「形態素解析にかけられるデータをしっかり用意できてしまったら、
その後わざわざ形態素解析にかける意味が消失する」という矛盾があったり。

こんなまだるっこしいことをやるなら、まだ「音程のぶれ幅」やら
「抑揚の上下」の解析に気合いを入れる方が面白そうな気もしないでもなく。
※PCレベルの市販ソフトでも、エンロール機能が搭載されて久しい……。

カクテルパーティ現象の実装(?)とか、「今までの話題の流れ」を
考慮するなどできるお利口さんな処理系ができてはじめて「劇的な改善」を
実感するんだろうなぁ……普通のヒトは……。

――訂正。
それではじめてスタートラインだ。きっと。

120 :デフォルトの名無しさん:02/06/29 04:31
つうか、電波っぽくて意味がわからないです。

121 :デフォルトの名無しさん:02/06/29 06:46
なんか独白っぽいんだよな。
他人に何かを伝えようとする文章ではない。

122 :デフォルトの名無しさん:02/07/01 19:53
>>106
> 卒論で意味解析を格フレーム使って表すプログラムを引継ぎでやったが
「格フレーム」とは,1960年代のフィルモアの理論ですか?

自然言語処理では,それ以降の理論言語学の研究成果は取り入れては
いないのでしょうか?

123 :デフォルトの名無しさん:02/07/15 07:28
スレ伸びないね…
板違いなのか自然言語処理がマイナーなのかw

124 :デフォルトの名無しさん:02/07/16 03:23
age

125 :デフォルトの名無しさん:02/07/16 03:38
>>123
前提とする知識が多すぎて頓挫するのだろう。
形態素解析できたからって、そこから先へ繋げないといけないし。
文法木が複数出来あがったとしても、どれが真に正しいかは意味解析
しないといけないし、意味解析はまた別の分野。
ゴールをはっきりと定めないと、終わりが無い。

126 :デフォルトの名無しさん:02/07/24 19:45
agege

127 :デフォルトの名無しさん:02/07/26 04:11
うーん。対象をある特定の言語とするか。あるいは任意の言語にするか、
によっても 相当変わってくるですよね。

あとは 文法を意識せずに既存媒体から吸い上げる方向にするか、
トップダウンに ある言語学の成果を適用する形にするか。

もしくは 何でもやを目指さず、システムに解釈しやすい
簡易言語を想定して作る、ってのも ありですよね。
#音声認識はここかな。

要は、単語ひとつとっても、知識体系としてスカスカで、
つまりその概念が出てくる頻度が とっても少ないけど、
基本的な概念。っていうのがあるわけです。
つまりその単語の意味が分からんと文の意味がさっぱり、
っていう。
そういうのを ぜーんぶ網羅しなければいけない時点で
かなり萎えてしまうものです。



128 :デフォルトの名無しさん:02/08/14 06:52
文化系は使えねーからなぁ。

129 :デフォルトの名無しさん:02/08/18 04:02
ある程度までいかないと、
応用が効きにくい分野だな。

130 :逝って良しの1:02/08/18 04:13
「文系」は文化系の略じゃなく人文系の略じゃ

131 :デフォルトの名無しさん:02/08/18 13:04
>狭義には、社会科学に対し、文化科学の意。歴史、文芸、言語などに限定される。じんもんかがく。



132 :デフォルトの名無しさん:02/08/26 18:22
>>130
文科系の略です。

133 :名無しさん@お腹いっぱい。:02/09/15 23:56
>>118

音声認識だけで会話するスレ
http://pc3.2ch.net/test/read.cgi/software/1025941449/l50

134 :nobodyさん:02/09/17 14:11
<age>


135 :デフォルトの名無しさん:02/09/20 19:22
言語学板の意味論のスレッドは門外漢にとっては難しいね。

136 :136:02/09/23 14:46
自分は自動要約の研究を行っておりますが,非常に評価が難しいです.
唯一の正解要約なんてないっつーの.このような悩みを持っておられる
方はいますか?

137 :デフォルトの名無しさん:02/09/23 15:42
評価の方法は自然言語処理にとってもっとも深刻な悩みのひとつです。

評価するのにめちゃくちゃコストがかかったりして、
そのくせまともな評価方法なんてあるわけないし、
といいつつ、なんとかして定量評価しないと学問として進歩しないし。


138 :ろてぃれる:02/09/24 00:31
関連で(ある意味)最も普及しているインスタント要約技術。
ttp://www.searchdesk.com/view/vptc323.htm


形容詞が多く係る名詞・動詞を重み付けするとか。
話の流れが変わる場面で良く出る言葉の前後を考慮してみたり。
いろいろやってはみたモノの、冗談半分で作った「漢字とカタカナ以外の
文字を薄めの色にして流し読みする」ツールの方が使えてしまった過去あり。

これの応用で、重要っぽい単語だけゆっくり目に読み上げる音声ブラウザ、
というのも作りかけたけど、諸事情でなかったことになっています。

# どこの人間か、ばれるかも?

139 : ◆99fK0tjR.Y :02/10/04 21:58
定期あげ

140 :デフォルトの名無しさん:02/10/04 23:04
形態素解析って
辞書がダメだと
ダメなの?

141 :デフォルトの名無しさん:02/10/06 13:20
>>140
辞書がダメなら
ダメだろ。

142 :デフォルトの名無しさん:02/11/02 03:17
HSP 最高!

143 :デフォルトの名無しさん:02/11/02 03:21
日本語はへf何ができるの亜

144 :デフォルトの名無しさん:02/11/02 09:28
↑たった今、言語障害の方が紛れ込みました。
意味をとってレスしてあげましょう。


145 :デフォルトの名無しさん:02/11/02 13:16
話は変わるけど、WWLの翻訳ってうまくいきそうなんですか?

146 :デフォルトの名無しさん:02/11/02 18:55


147 :デフォルトの名無しさん:02/11/05 23:18
C 以外は糞

148 :デフォルトの名無しさん:02/11/05 23:20
>>147
それ書いたの何回目だ?w

149 :デフォルトの名無しさん:02/11/25 15:24
自然言語処理よりも自然言語のセオリーの方が楽しくなってしまう罠。
言語学って面白いのね。ってまだ入門書読んでる程度だけど。

150 :ろてぃれる:02/11/25 16:10
>>149
杓子定規の決まりなんて初めから無い、得体の知れないものに法則を見つけていく
という遊び、ですから。(←いいすぎ)
ちょっと昔にブームになった「複雑系」と(略

151 :デフォルトの名無しさん:02/11/26 13:50
形態素解析、構文解析、意味解析等を実装する上で、参考となるWEBページを教えて下さい。
まだ右も左もわからない状態なので、詳しい入門ページがあればいいのですが・・・
↓は見ました。けど、情報少なすぎ・・・
ttp://www.unixuser.org/~euske/doc/nlpintro/


152 :デフォルトの名無しさん:02/11/27 07:38
>>151
本買ったほうが絶対早い。

153 :ろてぃれる:02/11/27 15:35
>>151
>>1
あとは本。
それか、それっぽいのをやっている会社に無理矢理入り込むか。
……いえ、私がそうだとは言ってませんよ?

154 :デフォルトの名無しさん:02/11/27 20:30
どこの会社でやってんの?



155 :デフォルトの名無しさん:02/11/27 20:31
ジャストシステムのconcept baseとか?
ああいったもの作ってるところに入るのがいいだろうね。

156 :デフォルトの名無しさん :02/11/28 03:02
>>38
めちゃくちゃ遅レスですが、こんなのありますよ。
http://www.cs.brandeis.edu/~jamesp/books/mit-gl.html
現行の辞書みたいに、ちょっと違う意味を全部バカ正直に列挙するんじゃなくて、
アナロジー的なものをうまく構造化して辞書にするにはどうすればいいか…
という話(だと思う)。


157 :デフォルトの名無しさん:02/11/28 15:04
>>122
一応、LFGとか実装してる人はいるみたいだけど、
理論言語学の理論って実はあんまり役にたたないというのが
ここ10年くらいの自然言語処理の流れかな。
(そろそろ変わってくるかもしれんけど。)

言語屋が「人間が解析するに値する特殊な(おもしろい)言語現象」
を好むのに対して、計算機屋が「機械で解析できる&機械で
解析する必要のある『大量の平凡な言語現象』」を対象にしてるから、
あまりかみあわない。





158 :1222:02/11/28 15:08
>>157
うるせー馬鹿

159 :デフォルトの名無しさん:02/11/29 15:50
まえにNHKスペシャルでGoogleなんかといっしょに、
語用論データベースみたいなの作ってる企業紹介してたけど
どうなったんだろう?ITバブルといっしょにどっかに飛んじゃったかな?w

160 :デフォルトの名無しさん:02/12/08 02:46


161 :デフォルトの名無しさん:02/12/08 05:50
viaVoiceとか音声認識ソフトって使ってる人いる?
ちゃんと実用になってるのかな。
あれって形態素片への分解とか関係あるよね。

162 :デフォルトの名無しさん:03/01/09 01:15
保守

163 :デフォルトの名無しさん:03/01/09 01:23
携帯から記念カキコ(>.<)ナノ

164 :デフォルトの名無しさん:03/01/09 01:58
>>584
イオナズン

165 :デフォルトの名無しさん:03/01/09 02:55
>>124
ご苦労様です

166 :デフォルトの名無しさん:03/01/09 03:41
>>157
裁判上不利になるから、大きいところではもう無理だろうな。
だから2ちゃんでいい、という帰結もまたおかしいけれども。

これからは、IPが裁判で提出されるのが常識になりつつ、
それ以外の局面でどうIPが守られているか、とか
どれだけシステム上の信頼性があるか、とかが掲示板の人気に影響しそう。

167 :デフォルトの名無しさん:03/01/09 16:19
http://research.microsoft.com/users/takakoa/
この人、有名な人なの?

168 :デフォルトの名無しさん:03/01/09 17:18
======2==C==H======================================================

         2ちゃんねるのお勧めな話題と
     ネットでの面白い出来事を配送したいと思ってます。。。

===============================読者数: 138720人 発行日:2003/1/9

年末年始ボケがそろそろ収まり始めた今日このごろのひろゆきです。

そんなわけで、年末に予告したIP記録ですが実験を開始しています。

「2ちゃんねる20030107」
こんな感じで各掲示板の最下部に日付が入ってるんですが、
20030107以降になってるところはログ記録実験中ですー。

んじゃ!

────────────────────────Age2ch─
■この書き込みは、Age2chを使って配信されています。
────────────────────────────
Keep your thread alive !
http://pc3.2ch.net/test/read.cgi/software/1041952901/l50
────────────────────────────

169 :デフォルトの名無しさん:03/01/09 23:10
>>775
それもコピペ荒らし

170 :デフォルトの名無しさん:03/01/10 01:00
2003年1月9日より 計2731票

匿名性に絡む問題なので反対 27% 763 票
サイトのためになるから賛成 54% 1489 票
利用しないから関係ない 8% 242 票
2ちゃんねるってなに? 4% 122 票
アクセスログってなに? 4% 115 票

みんないい香具師がおおいのか?

171 :デフォルトの名無しさん:03/01/10 09:40
>内容証明が届いて、すぐに削除したら、賠償はしなくていい気が。

それはそのとおりでしょうねぇ。

・内容証明が届いて、名誉毀損の書き込みがあることを知りえた
・その日から起算してン日間書き込みを消さなかった
・その間のン日間は名誉が毀損されたことによって被害が発生した
ということを「裁判所が認めれば」負けちゃうんじゃないかなぁ、、

>んだったら、IP取ってない板で、自分で自分を中傷して、
>すぐに裁判すれば賠償金が取れるってことになっちゃう、、

そのとおりじゃないすかねぇ、、
掲示板の持ち主がけんすうさんだという前提でいうと、
その中傷発言が自作自演かどうか、けんすうさんにも判断できないん
だったら、けんすうさんが責任を負わないといけないという判決ですよね。
しかし個人の中傷発言だったら最初から消せばいいのでは。。

172 :デフォルトの名無しさん:03/01/10 10:00
>内容証明が届いて、すぐに削除したら、賠償はしなくていい気が。

それはそのとおりでしょうねぇ。

・内容証明が届いて、名誉毀損の書き込みがあることを知りえた
・その日から起算してン日間書き込みを消さなかった
・その間のン日間は名誉が毀損されたことによって被害が発生した
ということを「裁判所が認めれば」負けちゃうんじゃないかなぁ、、

>んだったら、IP取ってない板で、自分で自分を中傷して、
>すぐに裁判すれば賠償金が取れるってことになっちゃう、、

そのとおりじゃないすかねぇ、、
掲示板の持ち主がけんすうさんだという前提でいうと、
その中傷発言が自作自演かどうか、けんすうさんにも判断できないん
だったら、けんすうさんが責任を負わないといけないという判決ですよね。
しかし個人の中傷発言だったら最初から消せばいいのでは。。

173 :デフォルトの名無しさん:03/01/10 10:19
え、だからどの時点の話?>けんすう


ISP責任法施行後は削除依頼以後7日間の猶予で消せばOKだから
裁判までにならないと思うんだけど

174 :デフォルトの名無しさん:03/01/10 10:52
ますます管理が難しくなるな。でかくなればなる程。

175 :デフォルトの名無しさん:03/01/10 11:34
その具体的な理由として社長は、こう話す。
「2ちゃんねるはボランティアの削除人が書き込みをチェックして、
好ましくない書き込みを一所懸命削除している、
ということになっているが、あれはウソ。
削除人には給料が支払われ、その給料の原資となっているのが、
まずいことを書き込まれた企業が削除要求とともに渡す裏金。
これはまさに、総会屋の構図そのものだ。
これまで裁判になっているのは金額で折り合えなかったり、
裏金を出さない強い態度の企業とだけだ」

http://memo2ch.tripod.co.jp/article.html

176 :デフォルトの名無しさん:03/01/10 12:04
鯖に負担をかけてみるテスト。
 ̄ ̄∨ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
  ∩15∩
 (´ ・ー・ `)

177 :デフォルトの名無しさん:03/01/10 12:54
殺人予告でもせん限りIP取られてどうなるもんでもねぇだろ。


178 :デフォルトの名無しさん:03/01/10 15:18
あけおめなのです。フフフ

179 :デフォルトの名無しさん:03/01/10 16:45
>今は匿名掲示板の悪い面ばかり目立っているが

あなたの意見には大体賛成なのさ。大体ね。
俺は↑が今の問題なんだと思うけど。2ちゃんもシャレにならない位
巨大化してきてるわけだし、ただの掲示板ではなくなりつつあるわけだし
IP抜かれながら、法に触れない程度の書き込みをして遊ぶ、
それでいいんじゃねいの?


180 :デフォルトの名無しさん:03/01/10 23:12
>>650
ま、チャンスといえばチャンスだからな。大変なんでしょう。

181 :デフォルトの名無しさん:03/01/11 00:29
421 名前:三毛 ◆MowPntKTsQ 投稿日:03/01/10 00:18 ID:McoZGeeY
普通、ノートンが反応するような代物をむざむざ開く莫迦はいないだろ。
では、君のお薦めのソフト教えてよ。

あ、それと、そんなもの貼った意図も併せてね。

423 名前:g056137.ppp.asahi-net.or.jp 投稿日:03/01/10 00:20 ID:6BZCtvnU
これ
http://pc.2ch.net/test/read.cgi/sec/1036482812/

意図。
風に吹かれて、かな。

今ちょっと色々試してる。

182 :デフォルトの名無しさん:03/01/11 00:37
具体的に
今後はどんな
書き込みをしてるとまずいんでしょうか?

183 :デフォルトの名無しさん:03/01/11 10:00
さっき、名誉毀損についてググりました。

それによると、事実を指摘するだけでも、名誉毀損になるとありました。

解説によれば、誰でも少しくらいの嘘で名誉を維持してるから、
例え事実であっても、名誉を下げるような事はまずい、っと言うような
ニュアンス。

もちろん、本当に犯罪行為なら別でしょうけど、事実でも言っては
ならないことがある、ということなんですね、納得。
確かに、本当に馬鹿でも、馬鹿とは言われたくないですね。

184 :デフォルトの名無しさん:03/01/11 10:33
======2==C==H======================================================

         2ちゃんねるのお勧めな話題と
     ネットでの面白い出来事を配送したいと思ってます。。。

===============================読者数: 139038人 発行日:2003/1/10

なにやら、連日メルマガだしてるひろゆきです。

そんなわけで、ログ記録実験ですが、いちいちサーバ指定するのが面倒なので、
全部のサーバに入れてみました。

重くなって落ちたりしてもご愛嬌ってことで。。。

んじゃ!

────────────────────────Age2ch─
■この書き込みは、Age2chを使って配信されています。
────────────────────────────
Keep your thread alive !
http://pc3.2ch.net/test/read.cgi/software/1041952901/l50
────────────────────────────

185 :デフォルトの名無しさん:03/01/11 11:25
似非リーさん、縦読みですよ。
あんたやっぱりかわいいな。

しかし、正直「まだ取ってなかったのか」ってのが俺の感想。
いいんでねーの?どうせ運営にしか接続元なんてわからねえんだから。

その運営側がキモイわけだが。

186 :デフォルトの名無しさん:03/01/11 11:57
実名も顔写真も載せているのでNGです。
先日やっとウザいストーカーを抹殺したばかりなのでこれ以上近寄る人が
増えるのはイヤです。

187 :デフォルトの名無しさん:03/01/11 13:00
IP取られても表示されなきゃとりあえず漏れは気楽なんだよな。。。
掲示板で管理人がIP公開する危険性と、匿名掲示板で実は管理人がIP取ってる危険性は
同じようなもんだし。

そっか。スレ保持人にも匿名性をもたせるのかな。
で、スレ本体がキー並に流通して持続可能性を持ち始める、と。
そこまで逝けばカナーリアングラな代物の完成ですね。

っていうか、怖いな。

188 :デフォルトの名無しさん:03/01/11 16:16
407 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/10 20:32 ID:jWxHxvti
>各板のTOPに一定期間、お知らせみたいに貼ってたら?
テストの結果次第でこのまま運用が続いたら書くかもです。

415 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/10 20:33 ID:jWxHxvti
羽田タートルは、仮処分の裁判を3回やってます。
つきあいきれません。

414 名前:心得をよく読みましょう 投稿日:03/01/10 20:33 ID:zU0biOqb
荒らしの追い込みはやらないですか?
以前、マァブがひろゆきにOK貰ったら追い込みたいといっていたけど

420 名前:ひろゆき ◆3SHRUNYAXA 投稿日:03/01/10 20:34 ID:jWxHxvti
追いこみ、めんどくさいんだよねー。

189 :デフォルトの名無しさん:03/01/11 16:23
いまだにネットの匿名性を信じてる馬鹿が多すぎ、、、、。
ハッカーでも警察につかまんのに、普通にネットにつないで
IPをネット上にばらまいてる奴なんて、本気でそいつの
住所や名前を調べようと思えばすぐばれます。

190 :デフォルトの名無しさん:03/01/12 00:24
当然含まれるかと思われ。

191 :デフォルトの名無しさん:03/01/12 00:34
凄ぇ………OSはNT系ですよね………?

192 :デフォルトの名無しさん:03/01/12 03:12
あなたがわたしにくれたものー 便所に似ている掲示板


193 :デフォルトの名無しさん:03/01/12 03:14
 ペン字講座

194 :デフォルトの名無しさん:03/01/12 10:42
2002年2ちゃんねるアニメランキング1位のアニメに・・・・

モナーが出演決定!!!!!!!!!!!!!!!!!!!!!

<<放送時間>>
1/12
大阪 テレビ大阪 (日)9:30〜10:00
東京 テレビ東京 (日)9:30〜10:00
名古屋 テレビ愛知 (日)9:30〜10:00
福岡 TVQ九州放送 (日)9:30〜10:00
札幌 テレビ北海道 (日)9:30〜10:00
岡山・高松 テレビせとうち (日)9:30〜10:00 

195 :デフォルトの名無しさん:03/01/12 10:46
コピペ荒らし一覧わろた

196 :デフォルトの名無しさん:03/01/12 21:20
そう!ひろとしは偉い!!

197 :デフォルトの名無しさん:03/01/12 21:22
IP取得開始前の過去ログが晒されたら、またその時点で侵害行為発生じゃん。
で、書き込み者が特定できないから云々・・となると思うが・・・。

198 :デフォルトの名無しさん:03/01/12 21:34
嘘はついていないんだろうけど…。(;^ ^


199 :山崎渉:03/01/13 18:58
(^^)

200 :デフォルトの名無しさん:03/01/13 23:23
4nd・・(ププッ

201 :山崎渉:03/01/15 18:12
(^^)

202 :デフォルトの名無しさん:03/01/17 20:31
ここは自然言語処理のスレッド…


だよな?

203 :デフォルトの名無しさん:03/01/18 03:46
俺今大学4年で今年ずーっと人工知能の開発ってテーマで一人
頑張って研究してました。所属した研究室が自律分散システムの場所だったんで
最初なんかエージェント作ってとか言われたけど、無理言ってこのテーマに。

って当然完成しませんでしたけど。開発はWindows2000とVB6.0を使ってやりました。
データベース(これはAccess形式のファイル使いました)に単語をとにかくぶち込みます。
それで何か解析したい文章を与えるんです。
与えられた文章はデータベースにある単語全てを使って総当りに検索していきます。
この時点でダメプログラムと思うんですけど、良い方法が思いつかなかった。
なんでかって言うと未知の単語(or文)も抽出したかったから。
見つかった単語があると、単語の次にある語を次は修飾関係がどうなってるか
これまた検索(これは総当りでも大した量じゃないから速い)。
その結果を主語、動詞、等にわけて簡単な解析を終わり・・・って時点で終わってもた。

難しい文章でなければ構文解析はなんとかなりそうなんだが、コンピュータから
の返答文を作るのが全然アイデアが思いつかなかった。
人間で性格っぽいのを作るべきなのかなってのは分かってきたが、いざソースを
書くとするとどこから手をつければいいのか全く分からず・・・。

あと音声入出力はViaVoice使えば良さそうだったけど試せなかった。

204 :デフォルトの名無しさん:03/01/18 09:19
自律分散システムってもしかしてM研?
ま、それはいいんだけど、既存の形態素解析・構文解析の方法を
すこしは知っといて損はなかったと思う。未知語に関してはいっぱい研究されてる。
基本的なアイデアはどれも大したことないが。
カタカナ語とかは「読みとばし」でもたいていうまくいく。
でも実際には構文が解析できれば終わりってわけじゃないんだ。
意味表現としては、古典的な手法だと一階述語論理もどきのものを生成させる。

んで、コンピュータからの返答も述語論理を使うわけだ。
つまりエージェントとのインターフェイスはすべて述語論理でやって、
自然言語はそれの翻訳、という解釈にするわけよ。
そうすると返答文の生成なんかもわりとすんなり設計できる。
いくつかの層に分けて表層を生成し、それを自然に見えるよう
最適化すればよい。適度に省略させたり、代名詞を使わせたり。
しかし自然に見せるには結構難しいんだな、これが。
そのへんも研究はかなりされてるはずだが鳴かずとばすだね。

ちなみに人間の性格っぽいというのが何を示しているかは不明。
人間っぽさを出すためには文脈解析とかまた別の戦略が必要になる。
音声が入ると、構文解析はずっと大変になるだろう。
人間は流暢に喋らないからね。喋ってる途中で文を変えたりするし。

205 :デフォルトの名無しさん:03/01/22 00:54
自然言語処理についてのおすすめの本とかありますか?



206 :デフォルトの名無しさん:03/01/22 23:48
>>66
TDTについて詳しく知りたいんですが、どういった物なんでしょう?


207 :デフォルトの名無しさん:03/01/23 12:33
>>206
http://www.nist.gov/speech/tests/tdt/
http://www.ldc.upenn.edu/Projects/TDT/

あとは Charles Wayne の論文みれ。それでだいたいわかる。

208 :デフォルトの名無しさん:03/01/23 12:35
もうすこしレスしときますが、この手法は日本語でもかなり使えます。
安直な方法なら perl で 100行ぐらいで実装可能です。

209 :山崎渉:03/01/23 20:02
(^^)

210 :デフォルトの名無しさん:03/01/25 11:25
英語苦手だが がんばってみるか…

211 :デフォルトの名無しさん:03/01/27 16:59
ttp://www.aiful.co.jp/cgi-bin/requeste.cgi

なかなかやるねー。

212 :デフォルトの名無しさん:03/01/27 18:06
>>211
??

213 :デフォルトの名無しさん:03/01/28 00:34
211は簡単な形態素解析をやってるかもしれないね。
試しに色んな文章入力してみたけど、複数の単語を扱える人工無能っぽい。

214 :baka desu:03/01/29 23:56
俺には100行で実装なんて無理ぽ

215 :デフォルトの名無しさん:03/01/31 18:10
どこの会社でやってんの?

216 :デフォルトの名無しさん:03/02/06 22:35
>>211 確かに実用的レベルだな。
>>212 211のリンクで見えんとほざく前に
http://www.aiful.co.jp/
でねえちゃんに聞いてみるといいぞ。

217 :デフォルトの名無しさん:03/02/06 22:38
>>211 ひまつぶしにいいな。冴子センセよりもセンスいいぞ。
入力:チワフルに会いたい
答え:ごめんなさい。デートはできませんが、
「さやかのさわやか相談室」へメールを送って頂ければ、
さやかが親身にお答えします。

218 :デフォルトの名無しさん:03/02/08 02:52
>>205
わすも、入門書教えて欲しい。
っていうか、「最低これくらい読んでねぇと話かみあわないじゃん」の本。
Windowsで言うと「ファーストステップガイド」だな。

219 :デフォルトの名無しさん:03/02/08 03:07
連続カキコ&遅レスすまぬ。
>>141
>辞書がダメなら
>ダメだろ。
形態素解析に限らず、辞書作成にかかる人手を軽減するための研究はどこかでやってる?
今時ならWeb上の掲示板の巡回とか、ViaVoiceにNHKのニュースを聞かせるとかするだけで
結構なネタは集められると思うが、人手をかけるにはカネと時間がかかりすぎるよな?
googleだって、ヒットしなかった検索ワードをじゃんじゃん溜め込んでるんJARO?
ガイシュツだったらスマヌ。

220 :デフォルトの名無しさん:03/02/08 05:39
>>218
James Allen の "Natural Language Understanding" をおすすめします。
自然言語のほとんどの研究はこれと Manning, Schuetze の
"Foundation of Statistical NLP" でカヴァーできる。たいていの研究者・学生は
これで学習。日本語のは探すだけ無駄。FSNLP はいま読んでますが、いいですよ。
あとは最近はやりの SVM 関連をおさえておけば完璧ってとこじゃないかな。

>>219
> 形態素解析に限らず、辞書作成にかかる人手を軽減するための研究はどこかでやってる?

そんなのどこでもやってるよ。辞書の自動構築にしろ、シソーラスの自動構築にしろ
すでに何百と論文が出てるし、おまけに毎年増加中。LRECなんかほとんどそればっかりなんじゃないの。
もう単一の言語での研究はほぼ飽和状態になってて、いまは多言語に対応した
辞書やシソーラスにテーマが移りつつある。あと、スラブ諸国のマイナー言語をどうするかとか。

> 今時ならWeb上の掲示板の巡回とか、ViaVoiceにNHKのニュースを聞かせるとかするだけで
> 結構なネタは集められると思うが、人手をかけるにはカネと時間がかかりすぎるよな?

これはね、みんなやりたくて仕方ないの。
だけど権利関係がとにかくうるさいんだよ。そうやって作った辞書があっても
公開できない。学術研究目的でもダメ。
NHK はニュース関係の音声をがっちりガードしてて他に使わせないことで有名。
新聞関係もかなり固い (朝日とかね)。かといって、2ちゃんねるみたいなところを
巡回しても大量のゴミが集まるばかり。

いまの自然言語処理でネックなのは、技術よりそういうしがらみ関係で
十分なリソースが使えないこと。だから、権利フリーのテキストとかあると
みんなすぐ飛びつく。でも、数が圧倒的に少ないうえに品質ばらばら。
Google は…あれはたぶんいつか訴えられるんじゃないの? とオレは思っているが
あのぐらい大企業になればいい弁護士がいるんだろう。結局はカネだよ。

221 :デフォルトの名無しさん:03/02/08 06:46
>>220
ベリーthnx。英語は読めるから、読んでみまつ
でもNatural Language Understandingはamazo.co.jpで蛙が、
http://www.amazon.co.jp/exec/obidos/ASIN/0805303340/qid=1044653066/sr=1-5/ref=sr_1_0_5/250-4326909-7909800
FSNLPは見つからんな。ISBN教えてくれたら、ウィッシュリスト出しとくけど?
SVMは他でもつぶしが効きそうだからチェック済み
>そんなのどこでもやってるよ。
WO〜。そうかい。安心した。その割に漏れみたいな素人が辞書を手に入れられないのは、
>だけど権利関係がとにかくうるさいんだよ。
ちゅうことだな。NHKの件はコイズミのジュンちゃんにメール出しとくよ。
赤いブスだかなんだかに金使ってる場合カヨってな。
NHKよ、まずお前らがJASRACにカネ払え。話はそれからだ。・・・払ってたらスマヌ

222 :デフォルトの名無しさん:03/02/08 10:18
>>221
題名を省略して書いてました。スマソ。Amazon での検索結果は以下のとおり。
これで $70 はお買得だと思う(used なら $50 ぐらいで買える)。

Foundations of Statistical Natural Language Processing
by Christopher D. Manning, Hinrich Schutze

List Price: $70.00

Product Details

* Hardcover: 620 pages ; Dimensions (in inches): 1.80 x 9.31 x 8.15
* Publisher: MIT Press; ; 1st edition (June 18, 1999)
* ISBN: 0262133601
* Average Customer Review: 4.7 out of 5 stars Based on 9 reviews. Write a review.
* Amazon.com Sales Rank: 32,938

> その割に漏れみたいな素人が辞書を手に入れられないのは、

カネがあれば素人でも買えますぜ。
もっともアカデミック利用でウン十万円という代物ですぜ (商利用だとさらに1ケタ増)。
http://www.ldc.upenn.edu/http://www.iijnet.or.jp/edr/ みれ。
権利がからんでて表に出せないのもあれば、単にケチなだけのところもある。
ところでフリーの IPAL や ICOT 辞書 や WordNet はとーぜん知ってるんだよね?
たしか Juman は ICOT、Chasen は IPAL を使ってるんだっけか。

あと、まともな辞書ができないのはメーカーや大学が自分達のをカコって表に出さない、
という理由もあります。それほど辞書は重要だということです。

223 :デフォルトの名無しさん:03/02/08 12:41
>>222 (・・・Manning, Schutze て姓名でなくて共著かよ・・・)
たすかったなりよ。usedは.comだな。

>ところでフリーの IPAL や ICOT 辞書 や WordNet はとーぜん知ってるんだよね?
不治痛のbreakfastに付属くらいしかしらぬ。どっかで毎日新聞を元にしたやつの値段みてあきらめた。
ので、素直にthnx。
しかしIPALの
http://www.ipa.go.jp/STC/NIHONGO/IPAL/nyuushuhou.html
は配布してるフリだけで確か死んでたぞナ。前に調べたときがっくりきた。
ツテがあったら、言っといてちょんまげ。
まぁ処理系実装にまで手が出せんねぇ。メカブが熟成されるまで待つとしよう。ガンガレ、めかぶ!

224 :デフォルトの名無しさん:03/02/08 21:58
去年のCOLINGでチュートリアルを担当していた、D. Jurafsky
も自然言語処理の本を出しています。

Speech and Language Processing: An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition (Prentice Hall Series in Artificial Intelligence)
Dan Jurafsky (著), James H. Martin (著), Andrew Kehler (著), Keith Vander Linden (著), Nigel Ward (著)

U.K. 定価: £35.99
価格:¥7,066

------------------------------------------------------------------------
この本を買った人はこんな本も買っています

*Foundations of Statistical Natural Language Processing Christopher D. Manning (著), Hinrich Schutze (著)
*Natural Language Understanding James Allen (著)
*Spoken Language Processing: A Guide to Theory, Algorithm, and System Development Xuedong Huang (著), その他
*Statistical Language Learning (Language, Speech and Communication Series) Eugene Charniak (著)
*Statistical Methods for Speech Recognition (Language, Speech, and Communication) Frederick Jelinek (著)


225 :デフォルトの名無しさん:03/02/08 22:42
>>224 書籍紹介まいどおおきに
せっかくやけど、そんなにたくさん買えまへん。えらすんまへん。

226 :デフォルトの名無しさん:03/02/11 17:47
>>220
とりあえずJames Allen の "Natural Language Understanding"
だけ注文しといた。英語は読めても専門用語の訳語がわからんと困った君なので、
http://www-tsujii.is.s.u-tokyo.ac.jp/~mitsuisi/nlp_links.html
↑ここの用語集で済ますことにする。

227 :デフォルトの名無しさん:03/02/12 09:23
>>220
> NHK はニュース関係の音声をがっちりガードしてて他に使わせないことで有名。
> 新聞関係もかなり固い (朝日とかね)。かといって、2ちゃんねるみたいなところを
>>221
> ちゅうことだな。NHKの件はコイズミのジュンちゃんにメール出しとくよ。

官邸からは型にはまった返事が来たゾ。たぶん自動返信ダナ。
NHKからの回答はまだだ。もうちょっとマテクレ。
新聞関係は
http://www.pressnet.or.jp/info/kenk19971100b.htm
↑にもあるように、著作権法にすがってるな。ミッキーマウスと同類だな。プッ。
報道機関が官権にすがるとはな!

228 :デフォルトの名無しさん:03/02/12 13:10
ただ著作権といってもどのへんまでが侵害になるのかは
実はあいまいで、よくわからない。

辞書を作るとかだと、もとの記事の内容がわからなければ
著作権侵害ではないという見方もある。よくわからん。


229 :デフォルトの名無しさん:03/02/12 14:00
あえて日本語の本を挙げときます.そんなに悪くないと思いますけど.
長尾 真(編)「自然言語処理」岩波ソフトウェア科学

私は >>220 さんが挙げていた本は読んだことありませんけれども.
また SVM (Support Vector Machine?) は自然言語処理でそれほどまで中心的な
話題なんでしょうか.

230 :デフォルトの名無しさん:03/02/12 16:14
> また SVM (Support Vector Machine?) は自然言語処理でそれほどまで中心的な

いいえ。ただ一部で流行ってるというだけです。
いま学会に論文だすとウケるという程度。

231 :デフォルトの名無しさん:03/02/12 22:32
>>228
著作権云々はスレ違いだから、この辺しとくよ。
googleなお検索エンジンはrobots.txtが規定されて以降は、
「勝手に登録」「勝手にキャッシュ」されたくない権利を保証できているという
コンセンサスに達して、あまり問題にされていないようだ。
逆言えば、robots.txtを無視して巡回することが「紳士的でない」と見なされる。
http://www.math.tohoku.ac.jp/~kuroki/keijiban/Robots.html
http://www.robotstxt.org/wc/norobots.html
「勝手にリンク」についてはまだくすぶっていてグレーだが、
リンクされるのがいやならネットに公開しない自由が既にあるので、
そのうち収束するだろう。
http://www.sal.tohoku.ac.jp/~gothit/gothitj.html
↓こういうわけの分からん団体の行動は却って追い風になるだろう。
http://www.zdnet.co.jp/news/0203/23/b_0322_09.html

あとは漏れの勝手な妄想&デムパ。
Webの情報はrobots.txtさえ見て紳士的に巡回すれば、著作権法の言う「引用」までは
自由に可能。「引用」の範囲はウルサイJASRACに無関係な分野なら、全くのグレー。
っていうか、テレビで新聞記事解説するやつはクロじゃねぇのかよ。あれのどこが「引用」だ?
辞書を作るという「主」があれば「従」としてのWeb情報蓄積は充分シロだ。

報道機関・放送団体も食っていかねばならんので権利を主張するのは理解できるが、
それならば、自ら進んで学術目的の研究にカネを出して呉。
っていうか、連中は「自動要約」とかに興味ないんだろうか。
膨大なテキストを煮るなり焼くなりすればカネにできるのに、
「あなたの生まれた年の新聞プレゼント」とかやってる場合じゃないっしょ。
カネにできる知恵が無いならみやげでも持って借りに逝けと。

で、sage進行?

232 :デフォルトの名無しさん:03/02/12 23:22
>>229
素直に、すぐそこthnx。でも、注文する前に逝ってクレー。
ちなみに、
岩波講座ソフトウェア科学 (15)長尾 真 (編さん)
ISBN: 4000103555
これのこと?

233 :229:03/02/13 18:31
>> 232
> でも、注文する前に逝ってクレー。
スレを見つけたばかりだったので,許してクレー.
本はそれです.「講座」が抜けてた.

>> 230
なるほど.ありがとです.
パターン認識の基礎的な研究がされると,それを利用した研究があちこちでされるのですね.

234 :デフォルトの名無しさん:03/02/16 11:52
YPSを語るスレはここですか?

235 :デフォルトの名無しさん :03/02/18 03:59
ipal動詞辞書のDIVって意味素性は、なんの略なんでしょか?

236 :デフォルトの名無しさん:03/02/19 10:00
>>235
diverseかな?

237 :|巛☆| ギコネコ海士長 ◆Pm8zCE1Lvs :03/02/19 22:03


238 :デフォルトの名無しさん:03/02/20 11:37
>>226
やっと届いたにょ。これから詠む。
ぱらぱら眺めた感じだと、プログラミング言語のコンパイラ関係の本に似た感じの印象を受けた。
当然と言えば当然か。

239 :デフォルトの名無しさん:03/02/25 21:59
オントロジーとかセマンティックネットワークとかやってる人いる?

240 :デフォルトの名無しさん:03/03/05 22:47
DAML+OILって何がいいの?

241 :デフォルトの名無しさん:03/03/13 16:22
オントロジーって誰が結局作るの?
あれを自動生成するような方法なんてあるの?

242 :デフォルトの名無しさん:03/03/16 17:41
こさかな先生がいつの間にか復活していた、age

243 :デフォルトの名無しさん:03/03/16 17:46
http://www.pink-angel.jp/betu/linkvp2/linkvp.html
★その目で確認すべし!!★超おすすめ★

244 :デフォルトの名無しさん:03/03/30 18:14
>>241
分野ごとにクラスタリングされたコーパスから自動生成できないかな?
要は、概念間の関係を抽出できればいい、のかな?

245 :デフォルトの名無しさん:03/04/03 20:05
隠れマルコフモデルってどうなの?

246 :デフォルトの名無しさん:03/04/12 18:33
南瓜の話って出てきませんね。

247 :山崎渉:03/04/17 15:45
(^^)

248 :デフォルトの名無しさん:03/04/18 16:40
形態素に切り分けるのにすら
意味論が入ってきちゃってる自然言語ってどうやって
切り分けるの?

249 :デフォルトの名無しさん:03/04/19 00:26
統計を使う。

250 :デフォルトの名無しさん:03/04/19 01:55
>>248
人間の知恵と知識も使う。

251 :山崎渉:03/04/20 03:06
   ∧_∧
  (  ^^ )< ぬるぽ(^^)

252 :山崎渉:03/04/20 03:42
   ∧_∧
  (  ^^ )< ぬるぽ(^^)

253 :デフォルトの名無しさん:03/04/20 09:38
ある程度の自然言語処理をサーバができれば山崎渉も阻止できるんだろうけどねぇ。

254 :デフォルトの名無しさん:03/04/21 00:03
いや、自然AA処理もできるようにならんと、AAが全部蹴られかねない。



255 :デフォルトの名無しさん:03/04/21 19:07
ム板ではAA蹴りもアリでいいんじゃ?ってのはいいとして。
その辺は画像処理とパターン認識の方向だよね。
あ、台詞なんかついてるのはあれか。


256 :デフォルトの名無しさん:03/04/22 03:11
別分野の研究者なのですが、
自然言語処理の世界でのおおまかな動向を把握したいと思っています。
見ておくべき雑誌等あれば教えていただけないでしょうか?
国内の研究会報告は NL, NLC, SLP くらいをざざっと見ています。


257 :デフォルトの名無しさん:03/04/22 13:47
国内はどこもたいしたことないです。

258 :デフォルトの名無しさん:03/04/22 18:29
せいぜい、日本語のように単語区切りのない言語の処理が、やや得意かな、というレベル。
ま、それでも十分なんだろうけれどね。

259 :256:03/04/22 22:54
もちろん洋雑誌で構いませんので教えていただけないでしょうか。


260 :デフォルトの名無しさん:03/04/23 00:02
雑誌ならComputational Linguistics.
といっても、雑誌よりはProceedingsのほうがいいのでは?
ACLとかCOLINGとか。

261 :256:03/04/23 00:30
どうもありがとうございます。
幸い Computational Linguistics も ACl, COLING の proceedings も
近くにあるようなので良かったです。


262 :デフォルトの名無しさん:03/04/27 12:38
> ACLとかCOLINGとか。
ACLは、7月に札幌で大会があるね。

263 :デフォルトの名無しさん:03/05/08 12:20
自然言語処理するロボットってあるの?


264 :デフォルトの名無しさん:03/05/15 22:17
[PDF]ソフトウエアロボットの行動を制御する ...
ファイルタイプ: PDF/Adobe Acrobat - HTMLバージョン
... 行きすぎ」 * 本研究であつかう言語現象 ? 省略 (elipsis)「 (馬は ... 進行中の
ゴールに関する情報を保持する ? ユーザの発話をうけて作成・修正する *
本システムで使用する意味表現 ? 格フレーム構造 [Fillmore, 75] [Ringland, 88 ...
tanaka-www.cs.titech.ac.jp/~euske/ study/thesis00/shuron000208.pdf - 関連ページ

265 :デフォルトの名無しさん:03/05/21 23:07
>>264
ありがとう.でもソフトウェアエージェントの制御か...
実ロボットで言語を理解する(ふりをする)ものは無いものかな.

tanaka-www.cs.titech.ac.jp/pub/kairai/index-j.html
>「傀儡 (かいらい)」とは、自然言語によって仮想空間上のソフトウエア
> ロボットを制御するシステムです。


266 :山崎渉:03/05/28 13:01
     ∧_∧
ピュ.ー (  ^^ ) <これからも僕を応援して下さいね(^^)。
  =〔~∪ ̄ ̄〕
  = ◎――◎                      山崎渉

267 :デフォルトの名無しさん:03/06/14 02:35
保守

268 :デフォルトの名無しさん:03/06/18 11:43
モキュ

269 :デフォルトの名無しさん:03/06/30 23:04
ドイツ語だと
ich habe
du hast
er hat
wir haben
ihr habt
sie haben
こういう格変化を語根辞書と変化表だけから
認識して形態素解析するのはどうします?

270 :デフォルトの名無しさん:03/07/01 01:20
>>265
大阪大の白井良明先生のところで実ロボット使ってやってるみたいだよ。
後は早稲田の小林研とか。

271 :デフォルトの名無しさん:03/07/10 01:26
このスレを読んでる人にとって勉強になるような2chの板とかスレッドはありますか?

272 :デフォルトの名無しさん:03/07/10 01:35
学問・文系の言語学板

273 :デフォルトの名無しさん:03/07/11 23:32
札幌で開催されているACL2003に行った。
この分野の学会では、相変わらずMacユーザー
が多い。Nancy IdeのPowerBook G4 17 inch
を使っていた。参加者に渡されるバッグも
PowerBook G4 17 inchがちょうど入るサイズ。



274 :デフォルトの名無しさん:03/07/11 23:48
>>232
長尾学長とお呼び下さい。

275 :山崎 渉:03/07/15 09:55

 __∧_∧_
 |(  ^^ )| <寝るぽ(^^)
 |\⌒⌒⌒\
 \ |⌒⌒⌒~|         山崎渉
   ~ ̄ ̄ ̄ ̄

276 :  :03/07/17 09:07
保守

277 :_:03/07/17 09:16
http://homepage.mac.com/hiroyuki44/

278 :デフォルトの名無しさん:03/07/17 09:23
どうして自然言語処理に関する研究に携わってる人は
自然言語処理に対して悲観的なのですか?
理由は大体分かるけどさ

279 :デフォルトの名無しさん:03/07/17 15:07
悲観的?んなこたぁない。



280 :デフォルトの名無しさん:03/07/19 23:03
>>278
おれは悲観的じゃないよ。
ただ、言語って知識であり、人格なのよね。
これを取り除くとプログラミング言語と変わらないのだと僕は思う。
日常というプロトコルを実装するだけの言語でしかなくなる。

そういうわけで俺は旅に出た。 

281 :デムパ:03/07/20 17:09
はじめに言葉があった
言葉は神とともにあった
言葉は神であった

神のコンテクストを分析してください

282 :山崎 渉:03/08/02 02:36
(^^)

283 :山崎 渉:03/08/15 17:12
    (⌒V⌒)
   │ ^ ^ │<これからも僕を応援して下さいね(^^)。
  ⊂|    |つ
   (_)(_)                      山崎パン

284 :デフォルトの名無しさん:03/09/17 23:45
age

285 :デフォルトの名無しさん:03/09/30 22:19
age

286 :デフォルトの名無しさん:03/10/28 02:48
JUMANの由来ってなんだろう
ちゃせんならわかるんだけど。

287 :デフォルトの名無しさん:03/12/02 17:57
「フィラー」はどういう綴りですか?

288 :デフォルトの名無しさん:03/12/02 18:17
あー,んー?
えーっと,多分"filler"じゃないかなー.
あーどうだろう・・んー.

289 :デフォルトの名無しさん:03/12/02 18:58
>>288
filler のようですね。
サンクスコ

290 :デフォルトの名無しさん:03/12/16 01:41
これ読んだひといますか?モンタギューに関する本ってなにがいいのか分からないです。
The Mathematics of Language
http://www.svt-ebs.co.jp/subjects/SV-leaf/3-11-017620-3.HTM

291 :デフォルトの名無しさん:04/01/10 19:38
>>290
¥19,010かぁ・・・

292 :デフォルトの名無しさん:04/01/11 00:32
もうすぐ研究室に所属して、研究を始める予定の者です。
指導教官とは話をしていないのですが
自分は
2ちゃんねるから流行語を発見するアルゴリズム
の研究をしたいと考えています。
ウマーとか、乙カレー
みたいな一般にはないような言葉で、
なおかつ、流行っている言葉を
抽出できたらいいかと考えています。

なにかアドバイス等ありましたらお願いします。

293 :デフォルトの名無しさん:04/01/11 10:46
それだけならすぐ出来ちゃうのであまり面白くないような。
何をするか決めるのが研究の半分のようなものなので、せいぜい悩んでください。


294 :デフォルトの名無しさん:04/01/11 13:02
>>293
簡単に出来ないだろ。
まず、2chのデータを形態素解析する事が難しい。


295 :デフォルトの名無しさん:04/01/11 15:18
抽出だけじゃなくて、意味が推定できた方が面白いような

296 :デフォルトの名無しさん:04/01/11 16:35
>>292
むしろ流行語の発生から拡散の経緯を発見するアルゴリズムを作ったら。

297 :デフォルトの名無しさん:04/01/11 17:44
まずは抽出ができないと
意味も拡散もわからない。

298 :デフォルトの名無しさん:04/01/12 04:28
日本語は形態素片にするだけで一苦労する。
LISPで言うとS式をreadで読みこむ段階。

299 :デフォルトの名無しさん:04/01/12 04:37
>>4-5の様に、文脈で切り出し方も変わる。
ここでいつ始められるとも限らない意味解析まで
決定を保留する必要が出てくる。
保留が無意味なら統計で適当にぶった切るしかない。
苦労の割に報われない仕事だ。

300 :デフォルトの名無しさん:04/01/12 04:51
全角カタカナ・平仮名、漢字、アルファベット、数字、半角カタカナ、句点・読点、
記号、URL で分けるだけでも >>292 みたいな事出来ないかな。
あとは 2ch 自体の分析で。

-- レスの解析
記号が連続する場合は AA
文字数が多い場合は長文コピペか縦読み
>>1 が入るレスは罵倒系か、乙か

-- スレの解析
スレ内リンクが多い場合は議論系のスレ
一行レスが多い場合はネタ系のスレ

-- 対象の拡大
同じ単語がスレ内の複数のレスで反復されていたり、半角かな文字の部分は何らか
のキーワードである確率が高い。それを板内、カテゴリ内、2ch 全体、2ch 以外
(Google とか、Yahoo! 掲示板とか)でも頻度統計を出して、、、みたいな。

まぁ自然言語処理の範疇なのかは分からないけど。Google 等の検索エンジンの
検索結果を使うってのは面白いかも。真面目な Google Whack みたいな。

301 :デフォルトの名無しさん:04/01/12 15:37
質問です。
英語文書をmecabなどで特定単語の出現頻度などを
しらべ、文書の特徴を計測する事を行いたいのですが、
英語特有のtoとかtheなどの文書の特徴を表現するのに
あまり関係ない単語をフィルタすることを行うツール
ってないでしょうか?
mecabやchasenにデフォルトでついてます?

302 :デフォルトの名無しさん:04/01/12 16:28
単語切り出しを形態素解析に頼るしか知らない294のいるスレはここですか?
頭古すぎ。


303 :デフォルトの名無しさん:04/01/12 16:42
>>301
??自分でフィルタすればいいんじゃないの?

304 :デフォルトの名無しさん:04/01/12 17:05
>>302
単語切り出し(word segmentの抽出)の事を形態素解析と呼ぶんだよ。

まあ、言いたい事はわかるけど
具体的に説明できるようになってから偉そうな事は言おうねw

305 :デフォルトの名無しさん:04/01/12 17:06
クソレスフィルター欲しいな

306 :デフォルトの名無しさん:04/01/12 17:54
>>305
ttp://navi2ch.sourceforge.net/navi2ch-spamfilter.el


307 :デフォルトの名無しさん:04/01/12 18:44
日本語の場合、ベイジアンフィルタ作るにしても形態素解析にかけてから
じゃないと、あんまり効果は見込めないんじゃないか?

>>304
>>302の言いたいことは、
「単語切り出しを、
(単語辞書を使って解析する、一般的な意味での)形態素解析に
頼ることしか知らない…」ってことでOKかな?

で、具体的に2chの新語を取り出す方法としてはどんなのが
考えられる?

308 :デフォルトの名無しさん:04/01/12 18:46
シソーラスにないものを拾えば。

309 :デフォルトの名無しさん:04/01/12 18:52
辞書に載ってないものは解析しづらいよ・・・
構文解析まで踏み込まないと。

310 :デフォルトの名無しさん:04/01/12 20:32
ちなみに単語辞書を使わない形態素解析はない

結局は2chをリソースにして、辞書を生成して
一般的な辞書との差分が2ch語であると断定し
その中でもっとも使用頻度の高い物を探してくるという
方法が普通でありかつ、もっとも有功なんだと思うけど。

という事で、2chをリソースにした辞書生成法を研究しなさい。


311 :デフォルトの名無しさん:04/01/14 00:58
http://nlp.nagaokaut.ac.jp/NLP/book.html
おまえらこのリストの本読め。
レベル低すぎ。

312 :デフォルトの名無しさん:04/01/24 08:10
>>309
でも辞書に載っているものは新語ではないような・・・

313 :デフォルトの名無しさん:04/05/05 00:12
今大学B4で研究テーマを自然言語処理、知識情報処理にしようかとおもってるんだが、
言語資源(辞書やらコーパスやら)の著作権や値段が敷居高い気がして萎える。

Webから大量の文書舐めてエージェントに概念形成とか言語獲得みたいなことをさせたい。
著作権ってこの場合どうなの?別に辞書やらコーパスを構築しようってわけじゃないので。

Webから収集できないようならテーマ変えようかな・・・。

314 :デフォルトの名無しさん:04/05/05 00:30
>>313
未踏のblogマイニングをやってる奥村研の人たちに
メールで聞いてみるとか。
http://naoya.dyndns.org/~naoya/mt/archives/001038.html

個人的には対外発表しない卒研レベルの研究なら
勝手にやっても特に問題ないと思うんだがなぁ。

315 :デフォルトの名無しさん:04/05/05 01:43
構文解析とかの話ばかりみたいだけど、事例ベースの話とかはスレ違いなの?
よく知らんのだけど、翻訳とか人工無能とかはルールベースよりも事例ベースが
使われているって聞くんだけど

316 :デフォルトの名無しさん:04/05/06 00:06
漏れもそのへん知りたい。

317 :デフォルトの名無しさん:04/05/08 05:07
age

318 :デフォルトの名無しさん:04/05/15 21:49
質問があります。
JUMANをサーバーモードで起動して
クライアントを自分で作成したいのですが
プロトコルはどうなっていますか?
ご存じの方教えてください。

319 :デフォルトの名無しさん:04/05/26 12:01
このスレの人は生成 vs 認知言語学ってのどう見てるの?
工学的な視点で見ればどっちも絵に書いた餅なのは一緒っぽそうだけど。

320 :デフォルトの名無しさん:04/05/27 13:53
hage

321 :デフォルトの名無しさん:04/06/02 13:32
茶せんで解析をしようとしたら
「エラーが発生しました75」
とか言う変なエラーが出ます

どうすればいいですか?

322 :デフォルトの名無しさん:04/06/17 15:09
新刊ですが

自然言語処理ことはじめ―言葉を覚え会話のできるコンピュータ
http://www.amazon.co.jp/exec/obidos/ASIN/4627828519/

これ読んだ人います?

323 :デフォルトの名無しさん:04/06/17 15:33
SDR-4Xが人間と会話してるの見てビビった


324 :デフォルトの名無しさん:04/06/17 20:16
>>322
この本を買った人はこんな本も買っていますにワラタ

325 :デフォルトの名無しさん:04/06/19 01:39
┌┐
│↓
│入力
│↓
│解析
│↓
│新規保存 or 既知補完
││
└┘
こんなアプリ作って、ネットで適当に採取したテキストを大量にドロップしてやったら、
ある程度かしこい辞書ができないかな。

326 :デフォルトの名無しさん:04/06/19 01:40
>>325
ゴミが多すぎ。

327 :デフォルトの名無しさん:04/06/19 01:53
>>325
そのアイディアは新しいアイディアなの?
超ありきたりな仕組みに見えるぞ
良くあるのは『ネットで適当に』ではなくて、『新聞データ』から
入力する方法だね。


328 :デフォルトの名無しさん:04/06/19 02:14
コーパス収集は、目的によって対象を変えるほうがいいけど、大量に電子化されてるのは新聞だね。
だから口語には弱い辞書が多い。
2chでコーパス拾ったら、アホな辞書ができていいね。
問題はAAの排除か。
こんなのは、325ががんがって解析プログラム作るとして。
ttp://aa4.2ch.net/test/read.cgi/kao/1084637688/

329 :デフォルトの名無しさん:04/06/19 02:14
人口無脳でそういうの無かったっけ?

330 :325:04/06/19 03:31
┌┐
│↓
│テキスト入力
│↓
│パターン解析
│↓
│対応パターンで返答
│↓
│記憶
││
└┘
これで会話は成り立たないかな

入力パターン例 : 『名詞』+ 'の' +『動詞』+'ですか'
   ↓
出力テキスト例 : 『動詞』+'です'

どういうパターンのときどういうパターンで、どういう品詞のときどういう品詞が当てはまるか統計をとって、
もっとも適した品詞を当てはめれば会話っぽくなりそう

331 :デフォルトの名無しさん:04/06/19 04:00
無い知恵絞ってもしょうがない。

332 :test:04/07/07 14:24
クリアクリア名詞-サ変接続
をを助詞-格助詞-一般
押し押す動詞-自立五段・サ行連用形
てて助詞-接続助詞
からから助詞-格助詞-一般
文文名詞-一般
をを助詞-格助詞-一般
入力入力名詞-サ変接続
しする動詞-自立サ変・スル連用形
てて助詞-接続助詞
くださいくださる動詞-非自立五段・ラ行特殊命令i
。。記号-句点

333 :KILROY:04/07/20 10:01
 いま実装ネタを中心にこっち↓でやってるんだが、

自然言語処理 掲示板
http://free1.principle.jp/cbbs/nlp/cbbs.cgi

誰か顔出してくれんか?

334 :KILROY:04/07/20 10:14
>>9
> また、原理的には可能だが、実際に実用的なソフトウエアを
> つくるとなると複雑すぎ、あるいは必要なデータが多すぎて
> 金がかかりすぎるというものもあります。
> (たとえば莫大な予算を投入して何百人もの人を雇い、
> 完全な日本語の連想辞書のようなものを作れば、さきほどの
> Query Expansion のような技術はかなりうまくいくかもしれませんが、
> そんな資金はふつうありません)。
 長尾先生の調査によれば、日本語の構文パターンは
少数のパターンの組合せでほとんど解決できてしまうので、
形態素解析さえちゃんとできていて、対象とするジャンルが絞れていれば、
個人レベルでもけっこう実用的なシステムが組めそうに思う。
 問題はむしろ形態素解析の精度が低すぎて、
統語レベルの処理(構文解析)までたどりつかないことではなかろうか。

335 :KILROY:04/07/20 10:26
>>10
> 自然言語の意味を一般的に表現できるような
> 形式的な枠組みはまだないし、あってもそんなものを
> プログラミングするのは大変でしょう

 「自然言語の意味」を認知の構造と考えれば確かにそうなんだが、
言語表現という形式的な構造にまで抽象化されているのだから、
単に「言語的な意味」を取り上げて形式的な操作の対象とするだけで、
データベース理論だとか様相論理だとか
プロダクション・システムだとかいったありものの道具の組合せで、
そこそこ実用的なシステムが組める程度の意味表現は
できそうに思う。
 もちろん人間の認知の枠組みとは乖離があるから
「コンピュータと話すとイライラする」というユーザは出てくるだろうけれど、
人間にもそれほど違和感なく共有できる程度の
「単純化された認知の枠組み」ではあるだろうし、
そういうものだと思えば腹も立つまいと思う。

336 :KILROY:04/07/20 10:37
>>10
> いまでは人様がデータ入力をしなくても
> コンピュータが web なんかから勝手に「学習」するようにしよう、
> というアプローチがさかんに研究されています。けれども、
> どれもノイズが多くてあまり使えません。

 ノイズが多い原因は、不規則かつ出現頻度が高い表現を網羅した、
核になる辞書の品質が低いせい。
 基本辞書のチューニングを十分に行なえば、ノイズは減る。

337 :デフォルトの名無しさん:04/07/21 05:20
と、希望をもってみるわけだな。
ノイズの原因が辞書のユラギじゃないから、辞書のチューニングでは無理なんだけどね。

338 :KILROY:04/07/21 09:19
>> 337
重箱読みとか湯桶読みとかはおおむね歴史的なものなので、
少なくともコーパスで拾いきれなかった新語に関しちゃ「造語」が多い。
数が多い漢語系の造語に関していえば、
ほぼ機械的に品詞と読みは取れるので、
今のところ満足しているが。

339 :山田の中の一本足の名無し:04/07/21 12:58
どんな語が欲しいか限定しないと議論する意味がないと思うが。

340 :KILROY:04/07/21 17:29
用言はそんなに数が多くないし、
和語(やまとことば)系の名詞は基礎語彙寄りの語が多いので
それほどの数があるわけでなし、
やっぱり厄介なのはカタカナ語ですか。
原綴りを推定するロジックは欲しいですな。

341 :デフォルトの名無しさん:04/07/27 14:55
だいたい辞書って何語ぐらい必要なんだ?

342 :デフォルトの名無しさん:04/07/27 15:05
>>333
字が小さくて読みにくい。

343 :KILROY:04/07/27 21:06
 分かった。とりあえず山本さんには伝えとく(そういう問題じゃないかも知れんが。文字サイズを固定で指定してあるのが問題なんだよな)。
 自然言語処理の分野に関わる人間というと、やっぱり視覚障害者とかに配慮せんと立場上もいかんし。

344 :KILROY:04/08/05 12:45
形態素解析用・用言辞書(英語による訳語つき)公開中。

http://homepage.mac.com/jane_doe/data/edictx.txt

語数は1685語しかないが、カバー率はかなり高いはず。
ルビ振り用の読みデータつき。
なお、訳語はEDICTから借用してきたものに、一部手を加えてある。
詳細は掲示板 >>333 にて。

345 :デフォルトの名無しさん:04/08/27 20:01
だれか単純で完全に文法規則が把握できる人造言語つくってくれ

346 :デフォルトの名無しさん:04/08/28 00:50
エスペラントは違うの? 全然知らないんだけどさ。


347 :デフォルトの名無しさん:04/08/30 09:28
>>346
エスペラントは駄目だろなぁ。 コンピュータで処理するには記号つきのアルファベットを使わねば成らんし、
いろいろとへんてこりんな手あかも付きまくってる。
外国語板でエスペラント検索して適当に眺めるとこりゃだめだってわかるぞ(w

348 :私の名前は名無しです:04/09/03 09:55
ありものの自然言語、
それも死語化・共通語・学術語・宗教語したやつの文法を制限して、
サブセット版を作るってのはどうだ?
佛典語のパーリ語に佛教後のサンスクリット語、
中世ヨーロッパの学問上の共通語だったラテン語、
教会語の古典ギリシャ語、
ユダヤ教徒の共通語であるイディッシュ語、
ほとんど人工言語に近いインドネシア語、
アラブの共通語フスハ、
日本の漢文と、これくらいあれば一つくらいモノになりそうな気はするが。

349 :デフォルトの名無しさん:04/09/03 19:32
>>348
系統とか似てる言語であれば意外とアリな気はするね。
印欧語メタランゲージとかってどっか真面目に研究してたんじゃなかったっけかな?
というか幻の印欧語のオリジンを構成してみたいなんて妄想がかった挑戦だったと思った。

世界言語学なんたらって本が恐らく図書館の語学書のコーナーにあると思うのだが(辞書の三省堂あたりが出してるやつ)
そこにあらかたの言語の系統のようなものが書いてある。
英語とフランス語の距離は何年とかそういうのを突き詰めて行く雰囲気だね。

大雑把に見るとパーリ、サンスクリットとラテン語、ギリシア語を引っ付けるのはいいかもしれん、
でもそこに系統が違うアラビア語だの日本語をくっつけようとすると最後は分け判らん所に落ちる気はするなぁ(w

同じ印欧語でも進化の過程で特徴が恐ろしく違ってたりするしなぁ。

350 :私の名前は名無しです:04/09/06 10:08
> 印欧語メタランゲージとかってどっか真面目に研究してたんじゃなかったっけかな?
筋からいうと関係ない話だが、NATOが全軍共通の英語モドキ言語を作ってはず。

江戸時代に参勤交代で江戸に出てきた薩摩武士と津軽藩士が出遭ったときに揉め事が起きて、
どっちも訛がきつくて会話が成立せず一触即発というときに、
能楽の心得のある侍が謡曲を擬して相手に呼びかけたら、
相手方にも心得のある人間がいてコミュニケーションが成立して丸く収まった、とかいう話をどっか(能楽関係の本)で読んだことがある。
つーことはいわゆる擬古文調(江戸時代の文芸で使われた、平安時代の文体を擬した文語文)や候文(手紙の文体)なんつーのは
メタランゲージとして機能しとったということか。

思うに、軍隊とか政府とかいった機能集団をコントロールするとかいった明確な目標がないと、
メタランゲージは成立しにくい(つーか言語としての形態を維持しにくい)気がする。

351 :デフォルトの名無しさん:04/09/06 11:51
NATO軍内の新英語だとどちらかというとピジン・クレオールになるのかな?とか思って見たり。

能楽方面の話って例えば18〜19世紀位にイタリア軍とフランス軍が言葉が通じねぇで一触即発の所にラテン語を習った香具師
同士でとかってのに置き換えが出来そうだね。


でも何にせよ共通言語とかは難しそうだよな。そもそも自然言語の構造自体が揺らいでるわけだし。

352 :デフォルトの名無しさん:04/09/06 12:07
>>351
> でも何にせよ共通言語とかは難しそうだよな。そもそも自然言語の構造自体が揺らいでるわけだし。

そこでエスペラントですよ!

353 :デフォルトの名無しさん:04/09/06 12:26
すべての言語の元になった韓国語で全て解決。

354 :デフォルトの名無しさん:04/09/06 14:21
それにしても、世界の自然言語処理研究のために共通の人造言語があると便利だよね

355 :デフォルトの名無しさん:04/09/06 14:35
>>354
英語でいいんじゃないかと。

356 :デフォルトの名無しさん:04/09/06 14:44
>>354
> 共通の人造言語

>>352

357 :351:04/09/06 18:22
>>352
 で、エスペラントは>>347も書いてる通りコンピュータで扱うには厳しい仕様の上に、これも既に揺らぎが生じている。
 ので使えない。
もちろん>>353のようなのはネタ以上の何者にも成らない。

 とすると結局の所>>355の言う英語でいいんじゃないか?という気はする。とはいえ、今流通している英語や、米語という
物ではなくて英語を元に非英語圏で話されるピジン・クレオールと言った文法の簡略化されたやつね。あくまでも人工の共通
語という事では。
 でも自然言語処理のためのメタ言語なり翻訳用中間言語を想定すると英単語に品詞とか格とか時勢のメタタグを付けたような物が一番現実的だろな。
 個人的にはラテン語(古典黄金期の一応固まった文法の物)あたりでやらかしてしまうというのも面白いとは思うけど(w
 実際時勢とか格による語の変化があるわけだからそれなりに翻訳の中間言語として使えるんじゃないか?という気はする。
 


358 :デフォルトの名無しさん:04/09/06 19:46
単語間の意味的な距離を視覚化すると何次元になりますか?
初心者でスイマセン。

359 :デフォルトの名無しさん:04/09/06 20:12
latino sine flexione

360 :デフォルトの名無しさん:04/09/07 00:54
>>357
記号つきのアルファベット?
単にcoding systemの問題じゃねーの?

361 :デフォルトの名無しさん:04/09/07 05:17
>>358
何次元でもお好きなように。

362 :デフォルトの名無しさん:04/09/07 05:17
っていうか、距離なんていうスカラー値に次元なんて・・・

363 :デフォルトの名無しさん:04/09/07 05:23
>>358
SVM on NLP的な論文でも読んでみたら?
あとLSA/LSIなんかも参考になると思われ。

364 :デフォルトの名無しさん:04/09/07 05:41
(´-`).。oO(LSI・・・)

Σ( ゚д゚).。oO(大規模集積回路っ!)

365 :363:04/09/07 06:00
>>364
LSI = Latent Semantic Indexing

366 :デフォルトの名無しさん:04/09/07 06:58
>>362
そういわれると思ったんですけど、うまい表現が出来ませんでした。
これでも意味通じるかなーって。

367 :デフォルトの名無しさん:04/09/07 06:59
>>363
英語ですか!!

368 :デフォルトの名無しさん:04/09/07 08:37
>>366
それじゃやりたいことがわかんねーよ。
ある単語を基準に近いもの順に並べるだけなら1次元だ。
位置関係なら、いくらでも軸がとれる。
多次元尺度構成法でもどうぞ。

369 :デフォルトの名無しさん:04/09/07 09:15
>>368
わかってください・・・
わかってくれないと困るんです・・・

370 :私の名前は名無しです:04/09/07 09:32
>>357
> 個人的にはラテン語(古典黄金期の一応固まった文法の物)あたりで
> やらかしてしまうというのも面白いとは思うけど(w
ラテン語のいいところ。
1)名詞の性がない。
2)発音が簡単。
3)省略がやり放題。語順も自在。

英語のツラいところは(2)と(3)。
日本人には発音も面倒なら、
ghotiと書いてフィッシュと読む
(enoughのgh、womenのo、nationのti)
つーくらい綴りと音の対応が厄介。
(3)の代償として格変化を覚えるのが面倒、
つーのは確かにあるが。

371 :私の名前は名無しです:04/09/07 09:40
失礼。
×1)名詞の性がない。
○1)名詞の性は幹母音でほぼ一意に決まる。
この点では英語とエスペラントに一票。


372 :デフォルトの名無しさん:04/09/07 11:03
>>369
勝手に困ってろ。

373 :私の名前は名無しです:04/09/07 11:55
>>358
> 単語間の意味的な距離を視覚化すると何次元になりますか?
「数値化」じゃなくて「視覚化」っつーことだから、
なんか「見てパッと分かる」ことを期待するんだろうと思う。
この場合、四次元以上のものを「視覚化」した状態は想像つかんし、
ちょっと理解もできないように思う。
三次元だとホログラムかステレオグラムか、
でなきゃ動画にでもするんだろうが、
あんまり分かりやすくはないだろう。
定跡としちゃあ >>368 の多次元尺度構成法で二次元表示じゃないか?

374 :デフォルトの名無しさん:04/09/07 12:45
別に空間そのものは何次元だろうが張れる。
デバイスの都合上視覚化するには必然的に二次元に射影するだけで。


375 :私の名前は名無しです:04/09/07 13:36
> 別に空間そのものは何次元だろうが張れる。
> デバイスの都合上視覚化するには必然的に二次元に射影するだけで。
確かにデータっつーレベルだと、「サンプル数−1」次元だけの自由度はあるわけだし、
一般的な表示デバイスってえとほぼ必然的に二次元になっちゃうわけだが、
実験心理学のデータを多次元尺度構成法にかけたりなんかする場合でいうと、
三次元以上の空間にマッピングされたものを眺めても、
そこに「意味」っつーか、解釈というものが見出しにくいわけですよ。
これはたぶん把握する側の能力っつーのも影響してて、
データが三次元以上の空間に分布していたりすると、
そこに意味があっても、概念として直感的に把握できないんだト。
仮に仮想空間に三次元の模型かなんか作って、
その中を実際に歩き回れるとかいった仕掛を作ったとしても、
おそらくは全体像を把握することが難しいんじゃないかト。
だから、平面的な「地図」という形にブレークダウンして提示してくれト。
それが親切っちゅーもんだト。そういうこと。

376 :デフォルトの名無しさん:04/09/07 13:45
そこでクラスター分析ですよ。

377 :デフォルトの名無しさん:04/09/07 18:02
>>370
>>359

378 :デフォルトの名無しさん:04/09/08 06:14
談話において、発話の種類をいくつかに分類し、例えば過去何発話かが
A,B,B,A,D,Eであり(A〜は発話の種類、例えば同意とか質問とか)、
次の発話がZであった時、各発話の種類が発話Zの生起にどの程度影響したか、
AはZの生起に大きく影響した。Bの影響は小さいのでBがいっぱいあってもZは生起しにくい。
とか、そういうのを調べたいのですが、どうすればいいのでしょうか?

単にA,B→ZとかA,A→Zとかならn-gramを使って生起確立を調べるのだと思うのですが、
A→ZやA,A,A→Zが混在(左辺の要素数の上限はあらかじめ決める)、
A,B→ZとB,A→Zは区別しない
という条件があるので、n-gramは使えないと思うのです。
どなたかアドバイス頂けるとありがたいです。よろしくお願いします。

379 :私の名前は名無しです:04/09/08 09:53
>>378
それってむしろ交流分析とかの問題じゃないか?
エリック・バーン著/南博訳
『人生ゲーム入門―人間関係の心理学』(河出書房新社)
とかでも読んでから、もう一回検討してみたら。

380 :デフォルトの名無しさん:04/09/08 10:16
>>378
すでにn-gramが得られているのなら、あとはそれを足し合わせたりするだけでできないか?


381 :デフォルトの名無しさん:04/09/08 12:53
もう疲れました・・・・
もしかすると、自然言語処理とはミジンコに言葉を理解させるようなものかもしれない・・・

382 :デフォルトの名無しさん:04/09/08 12:56
>>381
> もしかすると、自然言語処理とはミジンコに言葉を理解させるようなものかもしれない・・・

実際そんなもんだろ。


383 :デフォルトの名無しさん:04/09/08 14:18
いや、自然言語処理とはミジンコに言葉を理解した「ふりをさせる」ことだ
と思う。

384 :デフォルトの名無しさん:04/09/08 18:44
>>379
交流分析という単語は聞いたことが無いです…。
読んでみます。

>>380
例えば左辺の要素数の上限が3で、左辺にAを含む場合が
A→Z、A,A→Z、A,A,A→Zのみで、それぞれの場合のZの生起確率がp1、p2、p3
の時なら、AのZの生起に対する影響力は pa = p1 + p2/2 + p3/3 となると思うのですが、
これにA,B→Z p4という場合を加えると、p4てのはBの影響も含んだ確率なわけですから
そこからAの影響力のみを抽出するにはどうやったら良いかがわからないのです。
Aの影響力とBの影響力が等しいとは限らないので、2で割るわけにもいきませんし…。

あれ?でも生起確率を要素で割って、p2/2とかp3/3とかやっていいのかしら?
pa = p1 + p2 + p3 が正しい?

385 :デフォルトの名無しさん:04/09/09 05:14
>>384
P(A, x - > Z) = P(A, A -> Z) + P(A, B -> Z) + P(A, C -> Z) + ....
P(x, A -> Z) = P(A, A -> Z) + P(B, A -> Z) + P(C, A -> Z) + ...
P = P(A, x -> Z) + P(x, A -> Z) - P(A, A)

じゃダメなん?

386 :835:04/09/09 11:52
>>384
すまん、Zの生起確率ということなら、

P(A, *, Z) = P(A, A, Z) + P(A, B, Z) + P(A, C, Z) + ....
P(*, A, Z) = P(A, A, Z) + P(B, A, Z) + P(C, A, Z) + ...
Pa = ( P(A, *, Z) + P(*, A, Z) - P(A, A, Z) ) / 適当な母数

じゃだめなのか?


387 :無名子(=379):04/09/09 13:47
待て待て、そもそもこれって談話の一部だろ?
そうすると話者をi・jとして、
AiZjとかAjBiZjとかBjAiZjとかいった発話があるわけだ。
するってぇと、AZとABZって、
前者は相手の発話がAなんであり、
後者は自分の発話Aによって相手がBと応答したわけだから、
そもそも意味合いが異なってこないか?
相手が自分と全く同じ応答特性を持ってたとしても、
AZとABZの生起確率を同列に論じるのは変だろう。
もちろんAZとBAZなら、
相手のA以前の自分の発話が影響してるわけだから、
不自然じゃないんだが。


388 :デフォルトの名無しさん:04/09/10 00:51
>>386
ええと、それでいい
のか…な…?(;´д`)

>>387
談話なのでn人が順不同、i,j,i,jとは限らずi,i,j,k,k,j,iとか発話して良いという条件に
なるというかそういう条件を最終的には取り扱いたいので…。
話を簡単にするために二者が交互に発話する対話をまず取り上げるというのなら良いのですが。
ので、そういう観点から二者が交互に発話する対話という風に制限したとして、
左辺のA,B〜をiさんの発話、それによってjさんのZという発話が生起すると考えて、
つまりAi→Xj→Bi→ZjやAi→Xj→Ai→Zjから
A,B→Z、A,A→Z、A→Z、B→Zという場合が考えられる(上限2とした場合)
と持って行けば不自然では無いでしょうか?
また、そこから左辺の各要素、例えばAのZの生起に対する影響度を表すには、
>>386のようにすればオッケーなのでしょうか?

389 :無名子:04/09/10 06:48
>>388
するってぇとマルコフ過程とかいった話になるのかな。
信頼性工学でFTA(故障木の解析)っつー手法があって、
それが使えるかも知れん。
つまり、「Zが発話された」っつー事象が一つ前の事象から生起されたと考え、
次にその一つ前の事象が生起された原因を、さらに前の事象に求めるという。
だから、
P*(Z)=P(Z)+P*(A→Z)+P*(B→Z)+P*(C→Z)+…
みたいな仮定を置いて、
P*(A)、P*(B)、P*(C)…
を求めるという。
「生起行列」とでもいうのかな?
計量経済学(厳密にいうと、マトリクス経済学)とかで使うやつ。
排他的な事象A〜Zに空事象をプラスして、それを埋めりゃいい。

390 :デフォルトの名無しさん:04/09/28 11:20:39
保守

391 :デフォルトの名無しさん:04/10/08 00:14:45
ほしゅ

392 :デフォルトの名無しさん:04/10/20 09:01:18
ほし

393 :デフォルトの名無しさん:04/10/28 02:56:09
単語をカテゴリーごとに分けてある辞書を探してるんですが
例えば、警官でサーチすれば人物、どらやきでサーチすれば食べ物、車でサーチすれば乗り物。
といった感じの、極簡単なカテゴリーでわけられてるものでいいのですが。


394 :デフォルトの名無しさん:04/10/28 03:24:54
EDR?


395 :デフォルトの名無しさん:04/10/30 23:39:12
>>393
分類語彙表というのもあるけど、利用条件が厳しくてのう。

396 :デフォルトの名無しさん:04/10/31 00:52:20
wordnetの日本語版をどこかが作ってなかったかな?

397 :393:04/11/01 15:40:15
EDRの概念体系辞書で
人間、飲食物などの上位概念から下位概念を洗いざらいピックアップして
別ファイルにまとめて、入力単語と照らし合わせるようにしてみました。
ピックアップ作業は人間などの大きな概念だと7時間くらいかかってしまって、
現在もプログラムを走らせています…。
EDRや分類語彙表などは大学の研究室単位でつかっているので知ってはいました。
もうすこし簡単にカテゴリーがわけられてるものはないかなぁと思ったのですが。
分類語彙表もみましたが、単語数が明らかに少ないような感じでした。
バージョンが古いせいもありますが。

398 :395:04/11/01 21:33:33
>>397
分類語彙表は新しいバージョンが出てるよ。

399 :デフォルトの名無しさん:04/11/07 08:19:48
それ構文解析して自動的に収集できないの?

400 :デフォルトの名無しさん:04/11/07 08:27:01
>>399
普通は逆だアフォ


401 :デフォルトの名無しさん:04/11/07 08:49:19
構文解析するためにそういう情報がいるんだ
構文解析の原理よく知らないけど
構文解析が主目的じゃないんでしょ?
結局手入力したデータ使うんだったら、最初から構文解析いらないね
つまり構文解析って統計でなんとかなるものかと思ってた
でないと新語、造語、文法崩しには一生対応できない
自然言語処理ってのは力技のことですか?


402 :デフォルトの名無しさん:04/11/07 10:16:55
>>401
計算機よりまずお前が日本語を理解しろ。
計算機の話はその後だ。

403 :395:04/11/07 16:39:45
>>399
共起関係などを使えば、大まかな分類語彙は作れると思う。CSLかどっかが研究してたかな? 勘違いかも。

404 :M.B.:04/11/19 22:27:24
支援age

405 :デフォルトの名無しさん:04/11/22 13:58:12
404 :M.B. :04/11/19 22:27:24
支援age

406 :デフォルトの名無しさん:04/11/23 17:13:05
がんばれ

407 :デフォルトの名無しさん:04/12/10 00:51:05
たたき台無いの?

408 :デフォルトの名無しさん:04/12/22 11:32:31
ICOT辞書のsrc/dictdataにある辞書ファイルの品詞分類ってどこかでわかりませんか?
doc以下に在るtexファイルでは3桁の数字になっていたんですけど、
辞書ファイルでは4桁になっていて良くわかりませんでした。

409 :デフォルトの名無しさん:05/01/10 04:17:00
相変わらず人いねー.
悲しい.


410 :デフォルトの名無しさん:05/01/10 14:45:26
賑わうスレは厨房だらけという罠。

411 :デフォルトの名無しさん:05/01/10 15:24:10
厨房もスレの賑わい

412 :デフォルトの名無しさん:05/01/11 22:59:17
TinySVMのPerlモジュールをインストールしようと思ってmakeしたら
↓のようなエラーがでてしまいますた。

#make
c++ -c -I/usr/local/include -D_REENTRANT -D_GNU_SOURCE
-DTHREADS_HAVE_PIDS -DDEBIAN -fno-strict-aliasing -I/usr/local/include
-D_LARGEFILE_SOURCE -D_FILE_OFFSET_BITS=64 -O2 -DVERSION=\"\"
-DXS_VERSION=\"\" -fPIC "-I/usr/lib/perl/5.8/CORE" TinySVM_wrap.c
TinySVM_wrap.c: In function `void _swig_create_magic(SV*, const char*, int (*)(SV*, MAGIC*), int (*)(SV*, MAGIC*))':
TinySVM_wrap.c:335: error: invalid conversion from `int (*)(SV*, MAGIC*)' to `int (*)(PerlInterpreter*, SV*, MAGIC*)'
TinySVM_wrap.c:336: error: invalid conversion from `int (*)(SV*, MAGIC*)' to `int (*)(PerlInterpreter*, SV*, MAGIC*)'
TinySVM_wrap.c: In function `void boot_TinySVM(PerlInterpreter*, CV*)':
TinySVM_wrap.c:1504: error: declaration of C function `void boot_TinySVM(PerlInterpreter*, CV*)' conflicts with
TinySVM_wrap.c:369: error: previous declaration `void boot_TinySVM(CV*)' here

perlのバージョンは5.8でつ。
別のマシンでperl5.0だとすんなりできたのに、なぜだ・・・_| ̄|○
原因わかる人解説キボーン。

413 :デフォルトの名無しさん:05/01/15 12:37:45
>>412
なんかのヘッダファイルがないような気がする。


414 :デフォルトの名無しさん:05/01/18 17:36:31
"-I/usr/lib/perl/5.8/CORE"なので、
/usr/lib/perl/5.8/COREにあるヘッダと
成功したやつの同等の場所(/usr/lib/perl/5.0/COREかなあ)
を比べてみればよいかも。


415 :412:05/01/21 15:52:38
レスthx。
もうちょっとがんばってみまつ。

416 :デフォルトの名無しさん:05/01/25 23:00:23
日本語意味解析は、これか?!

ttp://www.google.co.jp/search?q=cache:m1CgzLPtpxcJ:clsl.hi.h.kyoto-u.ac.jp/~kkuroda/papers/jfn-nlp10-rev4.pdf+%E9%BB%92%E7%94%B0%E3%80%80framenet&hl=ja

417 :デフォルトの名無しさん:05/01/26 06:45:13
五年後に
・チャットに入ると人工無能と対話
・日記を書いてるのはプログラム

っていうサイト作りたいなぁ
漏れがやるのはメンテのみ、みたいな
どうせ自鯖だから辞書GB単位にしてうずらなんか目じゃないってくらいのを…

418 :デフォルトの名無しさん:05/01/27 21:54:36
yomiusaなんかはblogも書いているね

419 :デフォルトの名無しさん:05/01/28 12:34:50
>>417
なんかフツーのイライザ

420 :デフォルトの名無しさん:05/01/29 20:05:07
juman4.0をFreeBSD5系でコンパイルできてるやつ居る

421 :デフォルトの名無しさん:05/01/31 22:56:26
GENIAコーパスってクソだな。

422 :デフォルトの名無しさん:05/02/01 21:47:16
>>421
>GENIAコーパス
批判は小学生でもできる。それよりも優れたコーパスをどう
作るかが大切。

423 :デフォルトの名無しさん:05/02/01 22:21:26
わざわざageて書き込むほどのことじゃあるまい。関係者?

424 :デフォルトの名無しさん :05/03/03 22:31:06
保守age

425 :デフォルトの名無しさん:05/03/05 23:42:05
http://www.fl.reitaku-u.ac.jp/LINC/projects/langTech/workshop2004_chasen.html
誰か行った?

119 KB
■ このスレッドは過去ログ倉庫に格納されています

★スマホ版★ 掲示板に戻る 全部 前100 次100 最新50

read.cgi ver 05.04.02 2018/11/22 Walang Kapalit ★
FOX ★ DSO(Dynamic Shared Object)