データ量
AI技術から最も恩恵を受ける可能性があるのは、大量のデータを伴うプロセスである。ラボやバッチ記録の品質レビュプロセスのような反復性の高いプロセスであろうと、大量のデータを生成するプロセスであろうと、AIは医薬品開発や医療提供のさまざまな分野で役立つ可能性がある。
私たちは、被験者が副作用を起こしやすい条件を正確に理解し始めている。AIは、患者レベルだけでなく、開発レベルの上流でも有用な、パーソナライズされた反応プロファイルを、より迅速かつ正確に集計、照会、ランク付け、重み付け、作成することができるようになる。これは最終的に、副作用の減少や、より効果的な治療法を被験者に提供できることを意味し、場合によれば、より迅速な開発が可能になる。AIはこのようなケースにおいて、加速装置であり、実現装置なのである。
データを確実に保護する効果的な方法とは?
適切にライセンスされた公共データの使用
この特定の目的のために一般に公開されているデータを使用することで、私的、重要、かつ知的保護されたデータの安全が保証される。 しかし、公的データでは不十分な場合もある。このようなシナリオでは、データの生成が一つの調査手段として考えられる。AIに使用するために特別に実データを作成することや、問題領域の重要なパターンを捉えた「偽データ」を作成することが含まれる。 同様に、組織は匿名化を含む然るべき処理によって、実データを「偽」データに変換する可能性もある。
プライベートデータの使用
これらの手段がすべて不十分な場合、プライベート・データが必要になるかもしれない。 しかし、プライベートデータの管理には多くの疑問がつきまとう。導入される適切なポリシーは何か?データはどこに保管できるのか?誰がデータにアクセスできるのか?バックアップを含め、いつデータを削除しなければならないのか? さらに、データを所有する組織とデータを使用する組織との間に法的な契約が存在しない場合は、契約を結ぶ必要がある。 場合によっては、オプトイン・プロセスを通じてこの合意を得ることが現実的かもしれない。
モデル学習の管理
データ管理はAIの観点からもアプローチできる。 この場合、AIがデータを記憶する能力を理解することが重要である。 例えば、正規分布をモデル化するには平均と分散が必要だが、ほとんどの場合、個々のデータ点を抽象化することで元のデータを保護することができる。 一方、ChatGPTのような大規模言語モデル(LLM)には、データを記憶し、逐語的に再現する膨大な能力がある。 このようなモデルは、個人情報を簡単に漏洩してしまう可能性があります(閉鎖的な企業環境内であっても、LLMが会計記録や人事データなどの機密情報で学習された場合)。 データを記憶できないモデルを選択することは、データ管理と保護の重要な一部となり得る。
AI関連契約で特に考慮すべき上位3要素とは?
データと知的財産(IP)の所有権
契約では、データを何に対して使用できるのか、データ処理後の結果は誰が所有するのかを明確にする必要がある。データはモデルのトレーニングに使用できるか?トレーニング後のモデルは他の関係者が利用できるのか?コンサルティング契約から特別に構築されたAIは、知的財産を支払う顧客に残すことになる。しかし、AIが製品として提供されるのであれば、コードとモデルはサプライヤーの所有物となる。後者の場合、AIモデルのトレーニングに自社のデータを使用するかどうかを選択できる権利が与えられるべきである。
技術サポートと更新プロセス
AI技術はバリデートされなければならないため、バージョン管理も必要である。更新プロセスは明確にされるべきである。アップデートの頻度は?追加データによる再トレーニング時にモデルの退行(リグレッション)を防ぐためのプロセスは?AIがどのような速度で進化していくのかがわかるように契約を明確にしておくことは、重要なテストとバリデーションの準備に役立つ。
データ・セキュリティ対策
ほとんどのAIシステムは、結果と価値を生み出すためのデータ処理に大きく依存しているため、データの取り扱い方法を明確にしておく必要がある。データはクラウド上でホストされるのか?データは処理するために局所化されるのか?クラウドは大きなコストで効率性と拡張性を保証する。しかし、患者データは処理前に匿名化され、処理が完了したら消去されるべきである。契約では、データが処理のためにあなたの地域外に転送されるべきではないことを明確に定めるべきである。