본문 바로가기
대외활동/LG Aimers

[LG Aimers] 설명가능한 AI - 3. Explainable AI(XAI) - 3

by rahites 2022. 7. 24.

LG Aimers 학습 내용 정리

출처 : https://www.lgaimers.ai/ 

 

 

XAI 평가 방법 ( Metrics )

 

1. Human-based visual assessment  (사람들이 직접 XAI방법들이 만들어낸 설명을 보고 평가 )

- AMT(Amazon Mechanical Turk) Test

단점 : 쉽게 알 수 있지만 시간이 오래 걸림

 

2. Human annotation ( 사람들이 이미 만들어놓은 데이터를 이용 )

- Pointing game : Bounding box를 이용해서 평가하는 방법

- Weakly supervised semantic segmentation : 어떤 이미지에 대해 Classification label만 주어져 있을 때 이를 활용하여 픽셀별로 객체의 label을 예측하는 semantic segmention을 수행하는 방법 ( IoU를 활용 )  

* Weakly supervised = 픽셀별로 정답 label이 다 주어져 있지 않기 때문

단점 : Annotation 데이터를 얻기 어렵다, bounding box가 진짜 좋은 설명을 해주는 정답인지에 대한 여부

 

3. Pixel perturbation ( 픽셀을 교란하면서 출력값이 어떤게 변화하는지 테스트 )

- 정답 클래스에 해당하는 픽셀을 지우고 score를 찍어보는 것!

 

AOPC ( Area Over the MoRF Perturbation Curve ) : 주어진 이미지에 대해 각각의 XAI 기법이 설명을 제공하면 제공한 설명의 중요도 순서대로 각 픽셀들을 정렬할 수 있고, 그 순서대로 픽셀을 교란하였을 때 원래 분류 스코어 값이 얼마나 빨리 바뀌느지를 측정하는 것

Insertion : 중요한 픽셀 순서로 추가하며 그래프의 아래 영역을 구함 ( 클수록 좋음 )

Deletion : 픽셀을 지워가며 분류 확률값을 평가, Curve의 아래 영역을 구함 ( 낮을 수록 좋음 )

 

- AOPC, Insertion, Deletion은 사람의 직접적인 평가나 Annotation을 활용하지 않으면서도 객관적이고 정량적인 평가 지표를 얻을 수 있다는 장점이 있다. 단점 : 주어진 데이터를 지우거나 추가하는 과정으로 모델의 출력값의 변화를 볼 때 머신러닝의 주요 과정을 위반할 수 있다. 지운 모양때문에 성능에 방해가 될 수 있다.

 

4. ROAR ( RemOve And Retrain ) 

- 위 Pixel perturbation 기법이 주요 데이터를 지우거나 추가할 때 머신러닝의 주요 과정을 위반할 수 있다는 단점을 극복하여, 데이터를 지운 뒤 해당 데이터로 재학습한 뒤 정확도가 얼마나 떨어지는지 평가하는 방법장점 : AOPC, Insertion, Deletion에 비해 조금 더 객관적이고 정확한 평가를 할 수 있다.단점 : 매번 재학습을 진행해야 하기 때문에 계산복잡도가 매우 높아진다.

 

 

XAI 방법의 신뢰성에 관한 연구들 

Sanity Checks ( 온전성 테스트 )

 

1. Model randomization

- 지금까지 이미지에 대한 예측 결과를 얻고 결과에 대한 설명을 pixel 별로 하이라이트하였는데 이는 Edge Detector과 같은 방식을 따른다. 그런데 이 때 객체를 잘 찾아낸다는 것이 좋은 설명방법이라는 뜻일까? - 이를 판단하기 위해 모델의 계수들을 random하게 바꿔가며 테스트를 진행하는 방법으로 값을 바꿨는데도 결과(Interpretation)가 뭉개지지 않고 성능이 비슷하게 나온다면 Edge Detector의 역할을 수행하는 것으로 신뢰할 수 없다고 판단!

 

2. Adversarial attack ( 적대적 공격 )

- 입력 이미지의 픽셀을 아주 약간만 바꿨을 때 분류기의 설명을 어그러지게 만들 수 있다. ( 분류기의 예측은 유지하면서 )- 기본적인 딥러닝 기법의 약점 : 적대적 공격시 분류기의 예측이 바뀔 수 있음- 딥러닝 모델의 Decision Boundary가 삐죽삐죽(불연속적)되어 있어 조금만 입력이 바뀌어도 Gradient가 아주 많이 바뀔 수 있다.- 따라서 설명방법에 대한 공격에 강건하기 위해 ReLU Activation대신 Softplus function을 사용하면 된다!! ( 논문의 내용 )

 

3. Adversarial model manipulation ( 적대적 공격이 입력을 바꾸는 것 뿐만 아니라 모델이 manipulate되어 이뤄질 수 있다 )

- 모델의 정확도는 변함 없이 설명가능한 연구인 것으로 바꿀 수 있다!

 

댓글