머신러닝(Machine Learning)10 [파이썬 머신러닝 완벽 가이드] 8장. 텍스트 분석 - 3 # 22.02.15 머신러닝 스터디 8장. 텍스트 분석 - 3 ¶ 텍스트 분석 - 2 ( p528 ~ p561 )¶ 08. 문서 유사도¶ 문서 유사도 측정 방법 - 코사인 유사도¶문서와 문서 간의 유사도 비교는 일반적으로 코사인 유사도(Cosine Similarity)를 사용한다. 코사인 유사도는 벡터와 벡터 간의 유사도를 비교할 때 벡터의 크기보다는 벡터의 상호 방향성이 얼마나 유사한지에 기반한다. 즉, 코사인 유사도는 두 벡터 사이의 사잇각을 구해서 얼마나 유사한지수치로 적용한 것이다. 두 벡터 사잇각¶두 벡터의 사잇각에 따라서 상호 관계는 유사하거나, 관련이 없거나, 아예 반대 관계가 될 수 있다. $$두 벡터 A와 B의 내적 값 : A * B = \left\| A \right\|\left\| B\.. 2022. 2. 15. [파이썬 머신러닝 완벽 가이드] 8장. 텍스트 분석 - 2 # 22.02.12 머신러닝 스터디 8장. 텍스트 분석 - 2 ¶ 텍스트 분석 - 2 ( p497 ~ p527 )¶ 05. 감성 분석¶ 감성 분석(Sentiment Analysis)은 문서의 주관적인 감성/의견/감정/기분 등을 파악하기 위한 방법으로 소셜 미디어, 여론조사, 온라인 리뷰, 피드백 등 다양한 분야에서 활용되고 있다. 감성 분석은 문서 내 텍스트가 나타내는 여러 가지 주관적인 단어와 문맥을 기반으로 감성 수치를 계산하는 방법을 이용한다. 이러한 감성 지수는 긍정 감성 지수와 부정 감성 지수로 구성되며 이들 지수를 합산해 긍정 감성 또는 부정 감성을 결정한다. 감성 분석은 머신러닝 관점에서 지도학습과 비지도학습 방식으로 나눌 수 있는데 우선 지도학습은 학습 데이터와 타깃 레이블 값을 기반으로 .. 2022. 2. 12. [파이썬 머신러닝 완벽 가이드] 8장. 텍스트 분석 - 1 # 22.02.07 머신러닝 스터디 8장. 텍스트 분석 - 1 ¶ 텍스트 분석 - 1 ( p466 ~ p496 )¶ NLP ( National Language Processing ) : 머신이 인간의 언어를 이해하는 데 중점 텍스트 분석 ( Text Analytics ) : ( 텍스트 마이닝 ) 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 중점 텍스트 분류 ( Text Classification ) : 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법을 통칭한다. 감성 분석 ( Sentiment Analysis ) : 텍스트에서 나타나는 감정/판단/믿음/의견/기분 등의 주관적인 요소를 분석하는 기법을 총칭한다. 텍스트 요약 ( Summaraization ) : 텍스트 내에서 중요한 주제나.. 2022. 2. 7. [파이썬 머신러닝 완벽 가이드] 7장. 군집화 # 22.02.03 머신러닝 스터디 7장. 군집화 ¶ 군집화 ( p409 ~ p465 )¶ 01. K - 평균 알고리즘¶ K-평균이란? : 군집화에서 가장 일반적으로 사용되는 알고리즘으로 군집 중심 점(centroid)이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법이다. 군집 중심점은 선택된 포인트의 평균 지점으로 이동하고 이동된 중심점에서 다시 가까운 포인트를 선택, 다시 중심점을 평균 지점으로 이동하는 프로세스를 반복적으로 수행한다. 모든 데이터 포인트에서 더이상 중심점의 이동이 없을 경우에 반복을 멈추고 해당 중심점에 속하는 데이터 포인트들을 군집화하는 기법이다. https://velog.io/@jhlee508/%EB%A8%B8%EC%8B%A0%EB%9F.. 2022. 2. 3. [파이썬 머신러닝 완벽 가이드] 6장. 차원 축소 # 22.01.30 머신러닝 스터디 6장. 차원 축소 ¶ 차원축소 ( p377 ~ p408 )¶ 01. 차원 축소 ( Dimension Reduction ) 개요¶ 차원 축소란? : 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것 일반적으로 차원이 증가할수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 되고 희소한 구조를 가지게 된다. 또한 피처가 많아지면 상대적으로 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어지고 피처가 많을 경우 개별 피처간 상관관계가 높을 가능성이 있어 다중 공선성 문제가 발생할 수 있습니다. 따라서 차원 축소를 통해 피처 수를 줄이면 더 직관적으로 데이터를 해석할 수 있고 3차원 이하의 차원 축소를 통해 시각적으로 데.. 2022. 1. 30. [파이썬 머신러닝 완벽 가이드] 5장. 회귀 - 2 # 22.01.27 머신러닝 스터디 5장. 회귀 - 2 ¶ 회귀 2 ( p319 ~ p376)¶ 6. 규제 선형 모델 - 릿지, 라쏘, 엘라스틱넷¶규제 선형 모델¶회귀 모델은 적절히 데이터에 적합하면서도 회귀 계수가 기하급수적으로 커지는 것을 제어할 수 있어야 한다. 비용 함수 RSS를 최소화하는 것만 고려하게 되면 학습 데이터에 지나치게 맞추게 되고, 회귀 계수가 쉽게 커지게 된다. 이럴 경우 변동성이 오히려 심해져서 테스트 세트에서는 예측 성능이 저하되기 쉽기 때문에 비용 함수는 RSS를 최소화 하는 방법과 과적합을 방지하기 위해 회귀 계수 값이 커지지 않도록 하는 방법이 균형을 이뤄야 한다. $$ 비용 함수 목표 = Min(RSS(W) + alpha * \left\| W\right\|^{2}_2)$.. 2022. 1. 26. 이전 1 2 다음