あ、そうか
今気づいたがhaveibeentrained?に著作物が入っているから米国コピーライト法の定義で言う複製の要件は満たしているとするなら
データセットの開示ですべての著作権者がいったんは複製されたことが認められるようになるわけか
それがフェアユースとして使用が認められるかどうかはこれから吟味するんだろうけどね
でもたとえ著作権のステージで罪を問えなかったとしても不正競争や搾取性、フリーライド性についてもある程度は認められてるからこその嫌われっぷりだろうから
法的に争えなくても「権利者が嫌がるならオプトアウトすべきだ」という圧力は高めていけるのだな
あたかも著作権←→表現の自由の二項対立かのように誘導したがってるようだけどこの問題は本来データを右から左に、そして無名の権利者から少数のビッグテックに吸い上げる縦横の複雑な構造をしているので
「構造上の暴力」に対しての言及が一切ないのは不誠実だし
そこはどんなに誤魔化してもいずれ批判の声が抑えられなくなるだろう

で、一定期間(例えば半年とか一年)でいちいちモデルを作り直す費用を中小が払えるわけもないので
もう最初からオプトインを前提にしていくか
基盤モデル+オプトインみたいになっていくことも考えられそう