二次元裏@ふたば

画像ファイル名:1758964553230.jpg-(6912 B)
6912 B25/09/27(土)18:15:53No.1357343300そうだねx8 19:39頃消えます
作り話するんぬ

かつてエンロンというエネルギー会社があったんぬ
アメリカのガス・電力業界の規制緩和のなか色々あくどいビジネスで儲けた会社なんぬが2001年頃粉飾決算がバレて大問題になったんぬ
エンロンの裏事情がどんどん明らかになる中エンロンが電気代釣り上げのために発電所を止めたりしていたことが明らかになったんぬ アメリカ政府のエネルギー規制委員会はエンロンの捜査に踏み入ったんぬ

ときにアメリカというのは捜査資料・裁判資料を原則公開する国なんぬ 2003年にはエンロンの捜査を通じて社会に残っていた大量の資料が政府のサイトからフリーでダウンロードできるようになったんぬ
ここにはエンロン社員が送受信した延べ160万件のメールが含まれていたんぬ
データが膨大すぎて誰も中身をチェックしてなかったのか社員のクレカ情報とか社会保障番号(マイナンバーみたいなもの)とかも同時公開されたんぬ
このスレは古いので、もうすぐ消えます。
125/09/27(土)18:16:30No.1357343484+
これに歓喜したのは自然言語処理の研究者なんぬ たとえばスパム検知システムを作る際には検証用に生のメールデータがほしいところなんぬが普通そんなデータセットって公開されないんぬ
それからある程度階層構造がはっきりした会話資料というのも当時はすごく貴重だったんぬ
「エンロンコーパス」と呼ばれるようになった流出資料はこういうニーズに応えた一級フリー素材として世界中の研究者に重宝されることになったんぬ

エンロンコーパスはいろいろなものを作るときに使われたんぬ
現在エンロンコーパスを利用して執筆された論文は少なくとも1100件ほどあるんぬ 有名なエンロンコーパスの副産物としてはiPhoneのSiriなんかがあるんぬ
インターネットのプライバシー問題が色々おおらかな時代の出来事だったのでエンロンコーパスの代替はなかなかでてこずいまもなおエンロン社員のメールは一般的なデータソースとして使われているんぬ
225/09/27(土)18:17:50No.1357343945+
メールに平文でクレカ情報書いてあったんぬ…?
325/09/27(土)18:17:53No.1357343970そうだねx5
削除依頼によって隔離されました
長いつまらん
425/09/27(土)18:18:31No.1357344128そうだねx51
興味深いんぬ
作り話で良かったんぬ
525/09/27(土)18:19:02No.1357344261そうだねx6
おもしれ…
625/09/27(土)18:19:44No.1357344483+
おおらかな温かみのある時代なんぬなー
725/09/27(土)18:20:15No.1357344650そうだねx30
これ作り話じゃなくてケツドライヤーのほうじゃないんぬ?
825/09/27(土)18:20:17No.1357344654+
かつてエンロンのところで力尽きた
925/09/27(土)18:20:31No.1357344722そうだねx7
発電所止めるのカス過ぎるんぬ?
1025/09/27(土)18:21:31No.1357345019そうだねx16
> これ作り話じゃなくてケツドライヤーのほうじゃないんぬ?
データセット作り話なんぬ
1125/09/27(土)18:21:44No.1357345101+
ところでそのクレカ情報はどうしたんぬ……?
1225/09/27(土)18:22:25No.1357345313そうだねx2
後世でこの時代の一次資料としても役に立つレベルの膨大さだな…
1325/09/27(土)18:22:38No.1357345373+
クレカ情報はそのままなの…?
1425/09/27(土)18:22:40No.1357345387+
カカチャンネルで見たんぬ
1525/09/27(土)18:23:09No.1357345543そうだねx1
>かつてエンロンのところで力尽きた
俺も… エンロン社員のメールが今でも一般的なデータソースとして使われているところまで見たけどギブアップ
個人情報の塊がフリー素材化こわいってなったんぬ
1625/09/27(土)18:23:31No.1357345673+
今の時代じゃやれないんぬなぁ
1725/09/27(土)18:25:42No.1357346480+
公権力超強いお隣の高級研究ぬはプライベートな情報にアクセスする特権が与えられて自由にLLMに食わせるとかやってたりするんかぬー
それとも今となってはそういうプライベート情報には特段の価値がないんかぬ
1825/09/27(土)18:26:25No.1357346777そうだねx1
思いもよらぬ副産物があってよかったね過ぎる…
1925/09/27(土)18:27:01No.1357346987+
>ところでそのクレカ情報はどうしたんぬ……?
エンロン社による7回にわたる申立を受けて削除されたんぬ
個人情報すぎるメールとかスパムとか重複とか諸々消していった結果として今のエンロンコーパスは20万〜50万通のメールから構成されるんぬ
2025/09/27(土)18:31:09No.1357348389そうだねx16
>>ところでそのクレカ情報はどうしたんぬ……?
>エンロン社による7回にわたる申立を受けて削除されたんぬ
>個人情報すぎるメールとかスパムとか重複とか諸々消していった結果として今のエンロンコーパスは20万〜50万通のメールから構成されるんぬ
それでも十二分なデータ量なんぬ…
おもしれ…
2125/09/27(土)18:33:36No.1357349173+
PRISMとかで個人情報引っこ抜いてた国で何を今さらっちゅー話
2225/09/27(土)18:35:12 ID:mLYj53MMNo.1357349709+
スレッドを立てた人によって削除されました
ヒジキ=糞虫=上野原=神楽坂=くれお=青粘=sageG=糞口=杏=悪霊=デュネイ=小宮=毬王=ハゲ雑巾=シャニガ=糖尿病=冷え爺=FA爺=ソフ爺=初芝=鯖アキ=ネギパン=堂本
https://x.com/FutabaKanri2/status/1970068677824573499
2325/09/27(土)18:36:00No.1357349941そうだねx49
>長いつまらん
この程度の長文も読めず興味持てないのかわうそ…
2425/09/27(土)18:37:39No.1357350542+
>PRISMとかで個人情報引っこ抜いてた国で何を今さらっちゅー話
政府のみがアクセスできる㊙資料とかは政府機関にとっては価値があっても業界全体にとってはあんま価値がないんぬなー
2525/09/27(土)18:39:50No.1357351221+
>>長いつまらん
>この程度の長文も読めず興味持てないのかわうそ…
長時間集中できない知恵遅れがいるからな
2625/09/27(土)18:41:29No.1357351767+
つい最近だってSWのファンサイトがバックドアで個人情報抜かれてたとか話があったばっかジャンよ
2725/09/27(土)18:41:29No.1357351773そうだねx2
AIの勉強すると必ず出てくるくらいメジャーなデータセットなんぬ
2825/09/27(土)18:46:51No.1357353638そうだねx11
>つい最近だってSWのファンサイトがバックドアで個人情報抜かれてたとか話があったばっかジャンよ
それと同列の話ではないだろ
さっきから頭おかしいのか?
2925/09/27(土)18:47:52No.1357353994+
どうしたメールでも公開されたんぬ?
3025/09/27(土)18:48:10No.1357354105+
エンロンコーパスはいかんせん20年以上前のメールなのでもうちょい今の事情に合わせて更新したいという意見があるんぬ
ウィキリークスの流出資料を使うとかアメリカのオピオイド関連訴訟絡みで公開されたメール資料200万件を使うとか色んな代替案はあるんぬがクレンジングがめどいのとエンロンコーパスが20年くらいいじられ続けてるこなれた資料なのとでそんな浸透してないんぬ
3125/09/27(土)18:48:38No.1357354281+
個人のクレカ情報を会社のメールでやり取りするってのも今の感覚だと凄い話なんぬ
3225/09/27(土)18:49:25No.1357354586+
作り話でよかったんぬなー
3325/09/27(土)18:50:02No.1357354817+
フリー素材の個人情報って他にもないんぬ?
3425/09/27(土)18:50:10No.1357354871+
>ウィキリークスの流出資料を使うとかアメリカのオピオイド関連訴訟絡みで公開されたメール資料200万件を使うとか色んな代替案はあるんぬが
米司法制度の思わぬ副産物なんぬなー
AI研究者は企業の大規模不祥事とかあるとやったぜ!とか思うんかぬ〜
3525/09/27(土)18:50:48No.1357355091+
AIの学習ってどうしても時代に追いついていかなくなるタイミングあるよなぁとは思ってたけど
思った以上に前の段階で時代が止まってた
3625/09/27(土)18:52:50No.1357355790+
>エンロンコーパスはいかんせん20年以上前のメールなのでもうちょい今の事情に合わせて更新したいという意見があるんぬ
>ウィキリークスの流出資料を使うとかアメリカのオピオイド関連訴訟絡みで公開されたメール資料200万件を使うとか色んな代替案はあるんぬがクレンジングがめどいのとエンロンコーパスが20年くらいいじられ続けてるこなれた資料なのとでそんな浸透してないんぬ
合法のデータないのか
ないよな…
3725/09/27(土)18:55:52No.1357356792+
aiなんてネットの落ち物勝手に学習してるんだから今更そんな細かいこと気にすんじゃねえんぬ
3825/09/27(土)18:56:19No.1357356964+
>合法のデータないのか
>ないよな…
厳密にはエンロン社員のメールはエンロン社員の著作物であるはずなので合法ではないんぬが情報科学の世界ではフリー素材として扱われてるんぬ
エンロンコーパスはパブリックドメインって書かれてることも多いぬが本当に著作権が無いというよりは今更誰も訴えないよねという感じだと思われるんぬ
3925/09/27(土)18:56:47No.1357357118+
学生のときにエンロンの経営関係はやったけどAIでも使われてたんだ
4025/09/27(土)18:57:36No.1357357425そうだねx2
割と面白い話だったんぬ
4125/09/27(土)18:58:49No.1357357892そうだねx2
>aiなんてネットの落ち物勝手に学習してるんだから今更そんな細かいこと気にすんじゃねえんぬ
質の低いデータが沢山あっても排除するの大変なんぬ
4225/09/27(土)19:00:19No.1357358487+
統計とか巨大なデータセットを扱うと一番面倒なのはデータセットを研究出来るところまで持っていくところなんぬ
そこを省けるならみんな食いつくんぬな
4325/09/27(土)19:03:29No.1357359683+
>統計とか巨大なデータセットを扱うと一番面倒なのはデータセットを研究出来るところまで持っていくところなんぬ
>そこを省けるならみんな食いつくんぬな
餅から米を作るとかよく言うんぬなー
こういうデータ公開してくれる人ってあるデータをそのままお出ししてくれるだけなので綺麗にするのがいちばん大変なんぬ
4425/09/27(土)19:04:29No.1357360087+
こんなお役立ちデータを提供してくれるなんていい会社なんぬな〜
4525/09/27(土)19:05:13No.1357360356そうだねx1
>こんなお役立ちデータを提供してくれるなんていい会社なんぬな〜
空き家に入った泥棒が金持ちに言ってるみたいなセリフだ
4625/09/27(土)19:05:41No.1357360535そうだねx6
>こんなお役立ちデータを提供してくれるなんていい会社なんぬな〜
隙を晒した暗黒メガコーポの末路なんぬ
4725/09/27(土)19:05:48No.1357360587+
他にも学術論文とか書籍とかが質の高いデータとしてよく使われるんぬがそれらからは人がやり取りしてるって形式はなかなか学習できないから貴重なんぬ
4825/09/27(土)19:11:19No.1357362592+
ちなみにエンロンコーパスはエンジニアとか研究者じゃない普通のジャーナリストにも愛用されたんぬ
政府の捜査中に社員が政府の捜査官の顔とかファッションを馬鹿にしてるメールとかも発掘されてタブロイド紙をちょっとだけにぎわせたんぬ
4925/09/27(土)19:13:05No.1357363293+
>この程度の長文も読めず興味持てないのかわうそ…
社会問題はすべてまさはると見なして脳がシャットアウトする「」も多いからな…
単なる処世術の一つでしかないのにそれが正しいとか誤解するのも困りものだ
5025/09/27(土)19:14:53No.1357363949そうだねx1
エンロン社員が何人かいるようだな…
5125/09/27(土)19:16:11No.1357364449+
作り話なんだから身の回りの話しろんぬ
5225/09/27(土)19:17:51No.1357365053そうだねx4
>作り話なんだから身の回りの話しろんぬ
>データセット作り話なんぬ
5325/09/27(土)19:18:37No.1357365342そうだねx1
とんでもねぇ不祥事や事件が起きて副産物として発生する貴重かつ膨大なデータって結構ある気がするけどどうなんぬ?
日本だと東海村臨界事故が思い浮かんだんぬ
5425/09/27(土)19:19:54No.1357365829+
素朴な疑問なんぬがエンロンコーパスって全部英語なんぬ?
なのに何故日本語とか色んな言語のアプリ開発にも使えるんぬ?
5525/09/27(土)19:20:15No.1357365942+
>政府の捜査中に社員が政府の捜査官の顔とかファッションを馬鹿にしてるメール
ムカついてるから見た目馬鹿にしてやろうみたいなしょうもなさを感じるんぬ…
5625/09/27(土)19:22:15No.1357366663そうだねx2
>日本だと東海村臨界事故が思い浮かんだんぬ
その類でいうと原爆チェルノブイリに勝る例は無いけど作り話では済まされないからやめとくぬ
5725/09/27(土)19:26:39No.1357368412+
>素朴な疑問なんぬがエンロンコーパスって全部英語なんぬ?
>なのに何故日本語とか色んな言語のアプリ開発にも使えるんぬ?
まず英語データベースにアルゴリズムを作ってそれを日本語データで補正するといったことはできるんぬ
あとパラレルコーパスとか噛ませることで日本語に擬似的に対応させることも可能なんぬ
後者については昨今の技術の進歩によりゼロショット学習というかならずしも言語に依存しないモデル形成も可能となっているんぬ
5825/09/27(土)19:27:31No.1357368723そうだねx5
>とんでもねぇ不祥事や事件が起きて副産物として発生する貴重かつ膨大なデータって結構ある気がするけどどうなんぬ?
ゴムのアヒルの入ったコンテナが運搬中に貨物船から太平洋に落下して流出したアヒルたちが世界中の海岸に流れ着いた事故があったんぬ
このおかげで地球規模の潮の流れについて貴重なデータが取れたんぬ
5925/09/27(土)19:29:33No.1357369469そうだねx1
>ゴムのアヒルの入ったコンテナが運搬中に貨物船から太平洋に落下して流出したアヒルたちが世界中の海岸に流れ着いた事故があったんぬ
かわいい事故だなあ
6025/09/27(土)19:30:49No.1357369963+
>ゴムのアヒルの入ったコンテナが運搬中に貨物船から太平洋に落下して流出したアヒルたちが世界中の海岸に流れ着いた事故があったんぬ
>このおかげで地球規模の潮の流れについて貴重なデータが取れたんぬ
びっくりするくらい平和なケースなんぬ…
6125/09/27(土)19:31:55No.1357370363+
>ゴムのアヒルの入ったコンテナが運搬中に貨物船から太平洋に落下して流出したアヒルたちが世界中の海岸に流れ着いた事故があったんぬ
>このおかげで地球規模の潮の流れについて貴重なデータが取れたんぬ
面白いんぬな…
6225/09/27(土)19:32:02No.1357370398+
悪人も結果的に技術の発展に寄与するのは遺伝子の多様性の尊さを実感するんぬ
6325/09/27(土)19:34:44No.1357371422+
面白かったぬ
作り話でよかったぬ〜


1758964553230.jpg