전체 글330 [D&A Deep Session] 1차시 - 1. 딥러닝의 이해 # 지금까지 공부했던 머신러닝에서는 사람이 직접 데이터를 보고 특징(피처)을 추출했었다면 앞으로 공부할 딥러닝은 사람의 개입없이 기계가 스스로 특징(피처)을 추출한다. 정형 데이터 뿐만 아니라 비정형 데이터까지 사람이 분류하는 것보다 정확하게 예측하는 것을 목표로 한다. - 딥러닝 ( Deep Learning ) : 2개 이상의 Hidden Layer를 지닌 다층 신경망 * 기본 구조 MLP( Multi-Layer Perception ) : 여러개의 레이어를 가지고 있는 신경망 CNN( Convolutional Neural Network ) : Convolution(합성곱) 전처리 작업이 들어가는 Neural Network 모델 - 주로 이미지 관련 분야에서 많이 사용된다. RNN( Recurrent N.. 2022. 3. 13. [22.03.08] 빅오 표기법 # 백준 문제를 풀다 구글링을 할 때 등장하던 시간 복잡도 표기 방법!! 알고리즘의 연산들이 몇 번이나 수행되는지를 숫자로 표시한 '시간 복잡도' T(n) - 대입연산, 덧셈연산, 곱셈연산 등 연산이 몇번 이루어진지를 합해 표현한다 빅오 표기법 : 연산의 횟수를 대략적으로 표기한 것 자료의 개수가 많은 경우에는 차수가 가장 큰 항이 가장 영향을 크게 미치고 다른 항들은 상대적으로 무시된다. 두개의 함수 f(n)과 g(n)이 주어졌을 때 모든 n >= n_0에 대하여 |f(n)| = 1에 대하여 5 = 2 에 대하여 2n+1 2022. 3. 8. [백준 1012번] 유기농 배추 # 개강전 마지막 백준.. # 다음학기 알고리즘을 좀 더 배우게 되면 공부와 백준을 같이해보자! -- 정답코드 import sys sys.setrecursionlimit(10**6) T = int(sys.stdin.readline()) # 테스트 케이스의 개수 # 상하좌우가 붙어있는 그룹 count! # 재귀함수를 이용 def check_group(x, y): if x = M or y = N: return if [x,y] in cabbage: cabbage.remove([x,y]) else: return check_group(x + 1, y) check_group(x, y+1) check_group(x-1, y) check_group(x, y-1) for _ in ra.. 2022. 2. 27. [파이썬 머신러닝 완벽 가이드] 8장. 텍스트 분석 - 3 # 22.02.15 머신러닝 스터디 8장. 텍스트 분석 - 3 ¶ 텍스트 분석 - 2 ( p528 ~ p561 )¶ 08. 문서 유사도¶ 문서 유사도 측정 방법 - 코사인 유사도¶문서와 문서 간의 유사도 비교는 일반적으로 코사인 유사도(Cosine Similarity)를 사용한다. 코사인 유사도는 벡터와 벡터 간의 유사도를 비교할 때 벡터의 크기보다는 벡터의 상호 방향성이 얼마나 유사한지에 기반한다. 즉, 코사인 유사도는 두 벡터 사이의 사잇각을 구해서 얼마나 유사한지수치로 적용한 것이다. 두 벡터 사잇각¶두 벡터의 사잇각에 따라서 상호 관계는 유사하거나, 관련이 없거나, 아예 반대 관계가 될 수 있다. $$두 벡터 A와 B의 내적 값 : A * B = \left\| A \right\|\left\| B\.. 2022. 2. 15. [파이썬 머신러닝 완벽 가이드] 8장. 텍스트 분석 - 2 # 22.02.12 머신러닝 스터디 8장. 텍스트 분석 - 2 ¶ 텍스트 분석 - 2 ( p497 ~ p527 )¶ 05. 감성 분석¶ 감성 분석(Sentiment Analysis)은 문서의 주관적인 감성/의견/감정/기분 등을 파악하기 위한 방법으로 소셜 미디어, 여론조사, 온라인 리뷰, 피드백 등 다양한 분야에서 활용되고 있다. 감성 분석은 문서 내 텍스트가 나타내는 여러 가지 주관적인 단어와 문맥을 기반으로 감성 수치를 계산하는 방법을 이용한다. 이러한 감성 지수는 긍정 감성 지수와 부정 감성 지수로 구성되며 이들 지수를 합산해 긍정 감성 또는 부정 감성을 결정한다. 감성 분석은 머신러닝 관점에서 지도학습과 비지도학습 방식으로 나눌 수 있는데 우선 지도학습은 학습 데이터와 타깃 레이블 값을 기반으로 .. 2022. 2. 12. [백준 11724번] 연결 요소의 개수 # 요즘 알바도 새로 시작하고 머신러닝 스터디도 진행하느라 너무 바빠 정말 오랜만에 백준 문제를 풀어보았다. # DFS, BFS를 사용한 알고리즘 문제 -- 정답 코드 # 연결 요소의 개수 import sys from collections import deque # 정점의 개수 N # 간선의 개수 M N, M = map(int, sys.stdin.readline().split()) gansun = {} for i in range(1, N+1): gansun[i] = set() for _ in range(M): a, b = map(int,sys.stdin.readline().split()) if a in gansun: gansun[a].add(b) else: gansun[a] = set([b]) if b .. 2022. 2. 7. [파이썬 머신러닝 완벽 가이드] 8장. 텍스트 분석 - 1 # 22.02.07 머신러닝 스터디 8장. 텍스트 분석 - 1 ¶ 텍스트 분석 - 1 ( p466 ~ p496 )¶ NLP ( National Language Processing ) : 머신이 인간의 언어를 이해하는 데 중점 텍스트 분석 ( Text Analytics ) : ( 텍스트 마이닝 ) 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 중점 텍스트 분류 ( Text Classification ) : 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법을 통칭한다. 감성 분석 ( Sentiment Analysis ) : 텍스트에서 나타나는 감정/판단/믿음/의견/기분 등의 주관적인 요소를 분석하는 기법을 총칭한다. 텍스트 요약 ( Summaraization ) : 텍스트 내에서 중요한 주제나.. 2022. 2. 7. [파이썬 머신러닝 완벽 가이드] 7장. 군집화 # 22.02.03 머신러닝 스터디 7장. 군집화 ¶ 군집화 ( p409 ~ p465 )¶ 01. K - 평균 알고리즘¶ K-평균이란? : 군집화에서 가장 일반적으로 사용되는 알고리즘으로 군집 중심 점(centroid)이라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법이다. 군집 중심점은 선택된 포인트의 평균 지점으로 이동하고 이동된 중심점에서 다시 가까운 포인트를 선택, 다시 중심점을 평균 지점으로 이동하는 프로세스를 반복적으로 수행한다. 모든 데이터 포인트에서 더이상 중심점의 이동이 없을 경우에 반복을 멈추고 해당 중심점에 속하는 데이터 포인트들을 군집화하는 기법이다. https://velog.io/@jhlee508/%EB%A8%B8%EC%8B%A0%EB%9F.. 2022. 2. 3. [파이썬 머신러닝 완벽 가이드] 6장. 차원 축소 # 22.01.30 머신러닝 스터디 6장. 차원 축소 ¶ 차원축소 ( p377 ~ p408 )¶ 01. 차원 축소 ( Dimension Reduction ) 개요¶ 차원 축소란? : 매우 많은 피처로 구성된 다차원 데이터 세트의 차원을 축소해 새로운 차원의 데이터 세트를 생성하는 것 일반적으로 차원이 증가할수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 되고 희소한 구조를 가지게 된다. 또한 피처가 많아지면 상대적으로 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어지고 피처가 많을 경우 개별 피처간 상관관계가 높을 가능성이 있어 다중 공선성 문제가 발생할 수 있습니다. 따라서 차원 축소를 통해 피처 수를 줄이면 더 직관적으로 데이터를 해석할 수 있고 3차원 이하의 차원 축소를 통해 시각적으로 데.. 2022. 1. 30. [파이썬 머신러닝 완벽 가이드] 5장. 회귀 - 2 # 22.01.27 머신러닝 스터디 5장. 회귀 - 2 ¶ 회귀 2 ( p319 ~ p376)¶ 6. 규제 선형 모델 - 릿지, 라쏘, 엘라스틱넷¶규제 선형 모델¶회귀 모델은 적절히 데이터에 적합하면서도 회귀 계수가 기하급수적으로 커지는 것을 제어할 수 있어야 한다. 비용 함수 RSS를 최소화하는 것만 고려하게 되면 학습 데이터에 지나치게 맞추게 되고, 회귀 계수가 쉽게 커지게 된다. 이럴 경우 변동성이 오히려 심해져서 테스트 세트에서는 예측 성능이 저하되기 쉽기 때문에 비용 함수는 RSS를 최소화 하는 방법과 과적합을 방지하기 위해 회귀 계수 값이 커지지 않도록 하는 방법이 균형을 이뤄야 한다. $$ 비용 함수 목표 = Min(RSS(W) + alpha * \left\| W\right\|^{2}_2)$.. 2022. 1. 26. [파이썬 머신러닝 완벽 가이드] 5장. 회귀 - 1 # 22.01.23 머신러닝 스터디 5장. 회귀 - 1 HTML 삽입 미리보기할 수 없는 소스 2022. 1. 23. [백준 1260번] DFS와 BFS # 화가난다... 정답 제출 형식을 제대로 파악하지 못해 2시간을 날렸다... # 계속 리스트 형식으로 제출했는데 구글링을 하고 보니 정답 제출 형식이 str ㅋㅋ.... # 2시간동안 dictionary를 잘못만든건지 DFS와 BFS 알고리즘을 잘못 짠건지만 고민했다 ㅠ -- 정답 코드 import sys from collections import deque # 정점의 개수 N # 간선의 개수 M # 탐색을 시작할 정점의 번호 V N, M, V = map(int, input().split()) gansun = {} for _ in range(M): a, b = map(int,sys.stdin.readline().split()) if a in gansun: gansun[a].add(b) else: gan.. 2022. 1. 23. 이전 1 ··· 22 23 24 25 26 27 28 다음