webデータがメインのコモンロールとかでなく、きちんと倫理問題と著作権クリアされた、小型で比較的性能のいい外国の基盤モデルをなんとか安く手に入れつつ、企業秘密の日本語LLMマージして載っけるとかが現実的だと思うけどね
もちろん著作権問題クリアしないと鬼のように怒られると思うけど
政府主導のwebクロールデータでオプトインオプトアウトできませんとかふざけたこと言って支持率下げないといいね