3과목 데이터 분석

존재하지 않는 데이이터를 대치

age 수치형변수  -회귀분석 / survived - 범주형범주 - 분류형분석

 

평균이 중앙 값보다 크면 왜도 > 0

다중회귀                                                                                                                          다항회귀
수정된 R스퀘어 값은 다중회귀는 일반 R스퀘어에서는 모델이 일그러지기 쉬워서 사용한다.

 

자유도

E는 자유가 없으므로 5-1 = 4가 되는 것이다.
모형이 유의미한지 볼 때는 F검정 사용

만약 x값이 둘 다 0이라면 귀무가설은 기각되어야 한다.

 

회귀계수가 0이 아니면 각각에 대해서 t검정을 수행한다. 이 떄는 회귀계수가 0이냐는 t검정을 수행하고

이제 회귀계수를 수행한다.

 

 

f검정의 p - value - 신뢰도는 보통 95%

 

다변량분석

총 50문제 모두 객관식이다

1과목 데이터 이해

메타데이터는 설명서와 비슷하다.
암묵지 - 노하우, 형식지 - 형상화된 지식 (공표연내)
데이터로부터 지혜까지 획득하는 것이다.
데이터를 DB에 활용할 떄 사용하는 게 ETL이다.
플랫폼은 써드파티 비지니스에 활용할 수 있다.
유전자 알고리즘 : 최적에 관련된 알고리즘

2과목 데이터분석 기획

시급성, 난이도 관점으로 나눔

 

1장 데이터 이해

존재론적 특징은 객관적 사실로써의 개별 데이터이다. 데이터가 축적되면 추정과 추정을 하는 다항적 특성을 가진다.
정성적데이터는 질적 자료 / 정량적 데이터 양적 자료이다.

 

 

학습했던 것들이 어떻게 출제되는지 확인하면서 풀 것!

암묵지 : 학습과 체험을 통한 노하우 / 형식지 : 형상화된 지식
4가지가 가중치 문항이 더 크다.

 

DBMS의 발전과정 DBMS의 등장이유

파일 시스템이 그 전에 존재했는데, 중복성과 종속성이 있었다

다른 부서에서 파일을 관리할 때 a에서 사용하면 b,c부서에서 사용할 수 없고, 

데이터의 구조가 응용프로그램에 종속되어 있다는 문제가 있었다.

 

3세대 : 연관된 변수 함수를 묶어서 DB를 만든 것, 키워드 객체와 클래스와 상속
정규화는 기사시험에서 나온다.
통합 - 중복되지 않음, 저장 - 특정매체, 공용 - 공동으로 이용, 변화 - 항상 현재의 정확성 유지
OLTP- 실시간으로 데이터가 조회 및 갱신 / OLAP - 데이터 기반으로 분석하는 솔루션

 

DW  / DM - DW보다 더  특정화되고 작은 범위 / 제공자의 범위가 다르다.

1. 주제지향성 - 다향한 주제로 부류된 형태

2. 통합성 - 일관성을 의미한다.

3. 시계열성 - 연속된 시계열 데이터를 관리

4. 데이터 비휘발성 -ㅊ 읽기 전용의 데이터

 

CRM - 우수 고객 쿠폰 제공 / SCM - 공공망 관리를 최적화 하는 솔루션
EAI는 ADP에서 차트목록으로 구성되어 있는 것 / EDW - DW의 확장된 개념

 


2장 데이터의 가치와 미래

 

1. 변수관의 상관관계

2. 유형분석

3. 최적화 메커니즘 찾아가는 방법

기계학습 - 데이터를 학습시켜 예측 모형을 만듬

3장 가치창조를 위한 데이터 사이언스와 전략 인사이트

 

데이터 레이크 - 구조화 되지 않은 데이터 저장소, 사용 준비 될 때 까지 원시상태로 보관

서비타이제이션 - 정수기회사

마이데이터 - 개인의 신용정보를 활용하게 하고 유용한 맞춤형 서비스를 받는 것

 

'코딩 > Database' 카테고리의 다른 글

ADsP 1~2과목 요약  (0) 2024.05.11
데이터베이스 모델링  (0) 2023.01.05
데이터베이스 시스템  (1) 2023.01.05
아파치 메이븐 과 JDBC  (0) 2023.01.03
대용량 데이터베이스 솔루션 - 강사님 추천 책  (0) 2022.12.30

 

물리학에서 공부하는 대상은 무엇인가?

 

자연의 현상에서 규칙을 찾아내는 방법

 

뉴턴의 프린키피아에서 뉴턴 물리학이 시작되었다.

기계론적 세계관


특수 상대성이론

 

1. exploit -   ex 밖으로 + plicare 접다, 포개다 = 펼치다.

 

v.(부당하게) 이용하다

syn) utilize, use, make use of, take advantage of 

 

n.위업, 공적

 

2. account for - ad 향해서 + conter 헤아리다 세다(com + putare)

 

v. (이유 등을) 설명하다

syn) explain, justify, give a reason for

 

v. (부분, 비율을) 차지하다

syn) make up, comprise, constitute

 

v. 원인이 되다.

syn) cause

 

3.particular

 

adj. 특정한; 특별한

syn) specific; special

 

4.prominent - pro 앞으로 + minere 돌출하다.

 

adj.눈에 띄는

syn) noticeable, conspicuous, outstanding, remarkable

 

adj. 중요한

syn) important, leading, notable

 

5.replenish re 다시 + plenir 채우다

deplete 고갈시키다, 채우다 = use up

supplemental 보충의 = additional

 

v. 보충하다

syn) refill, restore, renew

 

6. indigenous - in ~로 + di 강조 + gignere = 출산/ 출생하다.

 

adj. 토착의

syn) native, aboriginal

 

7. pinpoint - pin 핀으로 + point 찍다

 

v. (위치 등을) 정확히 찾아내다.

syn) locate exactly, clearly identify

 

adj. 정확한

syn) precise, exact, accurate

 

8. annihilate ad 향해서 + nihil 아무것도 없음

 

v. 전멸시키다.

syn)destroy, completely remove, exterminate

 

9. conversely con 완전 + vertere 돌리다

inadvertently 부주의하게

= unintentionally, accidentally

adverse 불리한 = unfavorable

versatile 다재다능한, 변화무쌍한 = adaptable

convert 변형시키다 = change

 

adv. 반대로

syn) on the other hand, contrarily

 

10. investigate in 안으로 + vestigare 추적하다

 

v. 조사하다.

syn) examin, inquire into, look into

 

11. assure ad 향해서 + se 없음 + curare 걱정

= ~에 대해서는 걱정이 없을만큼 안전하게 

 

v. 확신시키다; 보장하다.

syn) convince, persuade, satisfy; gurantee

 

12. entire in + 부정(아니다) + tangere(만지다) = 손도 안 댄

intact = undamaged, complete

손상입지 않아서 완전한

 

adj. 전체의 전부의

syn) whole, total, complete

13. compensate for / com 함께 + pendere 매달다. =  suspend

 

phr. ~을 보상하다.

syn) make up for, atone for, make amends for

 

phr. 상쇄하다.

syn) balance, offset

 

14. postulate / postulare 요청하다

 

v. (자명한 일로) 가정하다; 주장하다.

syn) hypothesize, suppose; claim, propose

 

15. magnify magus 크다 + ify 만들다

 

v. 확대하다

syn) enlarge, increase, amplify, intensify

 

16. afford - ge(독일어 접두어) + ㄹforthia 증진시키다 = 증진

1. 일을(감당하다), 2.(돈으로) 감당하다, 3.주다, 제공하다

afford = give 

prohibitive = unaffordable 

 

v. 주다, 제공하다

syn) give, offer, provide, grant

 

17.conclusive - con 완전 + claudere 닫다 끝내다.=모든것을 완전히 결정한다는 의미

 = conclusive, decisive, crucial, critical, definitive

 

adj. 결정적인 확실한

syn) definitive, final, enough to settle the issue(decisive), clear

 

18. unsophisticated un 부정 + sophisticus 복잡

 

adj. 단순한, 복잡하지 않은

syn) simple, uncomplicated, not complex

 

파이토치는 딥러닝 머신러닝을 위한 프레임워크로

텐서와 자동미분을 제공한다.

 

우리가 하고자 하는 것은 신경망 모델을 학습시켜 딥러닝을 하는 것이다.

 

텐서플로우에서 파이토치의 점유율이 올라가는 중이다.
허깅페이스 - 트레이닝이 끝난 딥러닝 모델을 공유하는 플랫폼이고 이 플랫폼을 이용해 자연어, 이미지 모델들을 활용할 수 있다.

최신 연구의 모델들을 가져다 사용할 수 있다.

 

텐서플로우로 짠 모델들은 8% 전체 모델의 14%만 텐서로 사용 가능하고, 파이토치 전용 모델들이 점점 증가하는 추세이다. 

연구 논문을 만드는 학계의 동향도 중요한 포인트인데 상위 연구에서도 파이토치를 채택하는 중이다.

이 학계에서 나오는 결과물들이 사용하는 현실 세계에 오기까지 얼마 걸리지 않아서 

곧 파이토치 모델들을 사용하게 될 것이다. 

 

paper with code에서도 마찬가지이다.
구글 colab 활용!
지도학습과 비지도학습은 label이 있냐 없냐이다.

chatGPT가 인류 역사상 가장 빠른 속도로 사용자를 모았다.

2달만에 1억 명을 모았다. 그 전까지는 인스타가 가장 사용자를 모았는데, chatGPT는 수직적으로 상승했다.

 

2월 16일 타임즈가 표지기사를 다루는데 AI를 군비경쟁이라고 말했다.

 

아서 클라크의 3법칙인 '충분히 발달한 과학 기술은 마법과 구분할 수 없다'는 말을 기억하자.

앞 법칙은

 

'어떤 과학자가 가능하리라고 한다면 그것은 거의 확실히 맞다.

그러나 그가 무엇이 불가능하다고 말한다면 그것을 틀릴 가능성이 높다'도 있다.

 

엔비디아는 GPU의 90%를 점유한다. GPU의 대비가 CPU인데 GPU가 병렬 연산을 잘 한다.

1초에 6억을 계산해야 동영상을 매끄럽게 보여줄 수 있다.

 

인공지능을 맞아 대박을 나 버렸다. 

 

chatGPT는 A100을 만 개를 사용했다.

인공지능은 점이 십만개이던 백만개이던 점을 아주 랜덤하게 발생시켜서 정사각형에 쏴서 

십만개의 점 중에서 어떤 것은 원 안에 박히고 어떤 것은 원 박에 박힐 것이다.

그러면 원 안의 점의 숫자를 세서 십만개로 나눈다. 정사각형의 넓이를 비율로 나누면 넓이가 나올 것이다.

 

일정 수준을 지나니까 특징을 넣는 방법으로는 성과가 떨어지게 되었다.

 

학습 연산량이 10^22 혹은 매개변수가 천억개를 넘으면 성능이 8개 지표이상에서 튀게 된다. 하지만 왜 그런지는 알지 못 한다.

 

규모의 법칙 매개변수를 많이 넣으면 넣을수록 성능이 높아진다.

 

 

해야할 일 

 

1. 이미지를 이해해야 한다.

2. 기술을 이해하고 기술

3. 인간의 유머 감각을 이해해야 한다.

 

인공지능은 독과점적인 성능이 강한데, api와 플러그인을 내놓으면서 무서워지고 있다.

   

한 번에 인식하면 난이도가 어렵고 하나씩 떼어내어 인지시키면 난이도가 줄어든다.

 

개발되는 툴

파이썬 프로그램을 통한 인공지능 개발

 

1. 데이터 모으기

2. 데이터 전처리

3. 모델 만들기

4. 모델을 학습시키고

5. 결과를 분석

 

그리고 결과물이 좋다면 배포하게 된다.

 

 

파이썬 사용

26.

重爲輕根(중위경근) : 무거움은 가벼움의 뿌리이고

靜爲躁君(정위조군) : 고요함은 조급함의 군주이다.

是以聖人終日行(시이성인종일행) : 그러므로 성인은 하루 종일 다닐지라도

不離輜重(불리치중) : 짐수레를 떠나지 않는다.

雖有榮觀(수유영관) : 화려한 경관이 있을지라도

燕處超然(연처초연) : 초연함을 잃지 않는다.

柰何萬乘之主(내하만승지주) : 만승지국의 군주가

而以身輕天下(이이신경천하) : 어찌 자기 몸을 가볍게 놀릴 수 있겠는가

輕則失本(경즉실본) : 가벼우면 근본을 잃게 되고

躁則失君(조즉실군) : 조급하면 군주의 자리를 잃는다.

무거움은 가벼움의 기반이고, 고요함은 조급함을 포괄한다.
그러므로 성인은 하루종일 다니더라도
짐수레를 떠나지 않고, 화려한 경관이 있어도 초연함을 잃지 않는다.
만승지국의 군주가 어떻게 자기 몸을 가볍게 놀리겠는가?
가벼우면 근본을 잃고 조급하면 지배할 수 없게 된다.

 

27.

善行無轍迹(선행무철적) : 잘 걷는 사람은 흔적을 남기지 않고

善言無瑕謫(선언무하적) : 훌륭한 말에는 흠이 없으며

善數不用籌策(선수불용주책) : 셈을 잘하는 사람은 계산기를 쓰지 않는다.

善閉無關楗而不可開(선폐무관건이불가개) : 잘 닫힌 문은 빗장을 걸어놓지 않아도 열 수 없고

善結無繩約而不可解(선결무승약이불가해) : 잘 된 매듭은 꽉 졸라매지 않아도 풀 수 없다.

是以聖人常善求人(시이성인상선구인) : 그러므로 성인은 언제나 사람을 잘 구하고

故無棄人(고무기인) : 아무도 버리지 않는다.

常善救物(상선구물) : 물건을 잘 구하고

故無棄物(고무기물) : 아무것도 버리지 않는다.

是謂襲明(시위습명) : 이를 일러 습명이라 한다.

故善人者(고선인자) : 그러므로 선한 사람은

不善人之師(불선인지사) : 선하지 못한 사람의 스승이요

不善人者(불선인자) : 선하지 못한 사람은

善人之資(선인지자) : 선한 사람의 바탕이다

不貴其師(불귀기사) : 스승을 귀히 여기지 못하는 사람이나

不愛其資(불애기자) : 바탕을 사랑하지 못하는 사람은

雖智大迷(수지대미) : 비록 지혜롭다 해도 크게 미혹된 것이며

是謂要妙(시위요묘) : 이것이 바로 도의 요체이면서 오묘함이다.

잘 걷는 사람은 흔적을 남기지 않고, 훌륭한 말에는 흠이 없고
셈을 잘하는 사람은 계산기를 쓰지 않는다.

잘 닫힌 문은 빗장을 걸어놓지 않아도 열리지 않고
잘 된 매듭을 꽉 졸라매지 않아도 풀리지 않는다.
 
그러므로 성인은 언제나 사람을 잘 구하고 아무도 버리지 않고,
물건을 잘 구하고 버리지 않으니 이를 습명이라고 한다.

그러므로 선한 사람은 악한 사람의 스승이고
선하지 못한 사람은 선한 사람의 바탕이다.

스승을 귀하게 여기지 못하는 사람이나 바탕을 사랑하지 못하는 사람은
지혜롭다 해도 미혹된 것이고 이것이 도의 요체이면서 오묘한 점이다.

 

28.

知其雄(지기웅) : 남성다움을 알면서

守其雌(수기자) : 여성다움을 유지하면

爲天下谿(위천하계) : 천하의 계곡이 된다.

爲天下谿(위천하계) : 천하의 계곡이 되면

常德不離(상덕불리) : 영원한 덕에서 떠나지 않고

復歸於嬰兒(복귀어영아) : 갓난아기로 돌아간다.

知其白(지기백) : 흰 것을 알면서

守其黑(수기흑) : 검은 것을 유지하면

爲天下式(위천하식) : 천하의 본보기가 된다.

爲天下式(위천하식) : 천하의 본보기가 되면

常德不忒(상덕불특) : 영원한 덕에서 어긋나지 않고

復歸於無極(복귀어무극) : 무극의 상태로 돌아가게 된다.

知其榮(지기영) : 영광을 알면서

守其辱(수기욕) : 오욕을 유지하면

爲天下谷(위천하곡) : 천하의 골짜기가 된다.

爲天下谷(위천하곡) : 천하의 골짜기가 되면

常德乃足(상덕내족) : 영원한 덕이 풍족하게 되고

復歸於樸(복귀어박) : 순박한 통나무로 돌아가게 된다.

樸散則爲器(박산즉위기) : 통나무를 쪼개면 그릇이 된다.

聖人用之(성인용지) : 성인은 이를 사용하여

則爲官長(즉위관장) : 지도자가 된다.

故大制不割(고대제불할) : 그러므로 훌륭한 지도자는 분할하지 않는다.

남성다움을 알면서 여성다움을 가지면 천하의 계곡이 된다.
천하의 계곡이 되면 영원한 덕에서 떠나지 않고 갓난아이로 돌아간다.

흰 것을 알면서 검은 것을 알면 천하의 본보기가 된다.
천하의 본보기가 되면 영원한 덕에서 어긋나지 않고 무극의 상태로 돌아가게 된다.

영광을 알면서 오욕을 유지하면 천하의 골짜기가 된다.
천하의 골짜기가 되면 영원히 덕이 풍적하게 되고 순박한 통나무로 돌아가게 된다.

통나무를 쪼개면 그릇이 되고 성인은 이를 사용하여 지도자가 도니다.
그러므로 훌륭한 지도자는 분할하지 않는다.

 

 

29.

將欲取天下而爲之(장욕취천하이위지) : 천하를 취하고자 하지만

吾見其不得已(오견기불득이) : 내가 보건대 필경 성공하지 못한다.

天下神器(천하신기) : 천하는 신령한 그릇이니

不可爲也(불가위야) : 함부로 취할 수가 없다

爲者敗之(위자패지) : 하고자 하면 실패하고

執者失之(집자실지) : 잡고자 하면 잃는다.

故物或行或隨(고물혹행혹수) : 사물은 혹 앞서기도 하고 혹 뒤에서 따르기도 하고

或歔或吹(혹허혹취) : 숨을 천천히 쉬기도 하고 빨리 쉬기도 한다.

或强或羸(혹강혹리) : 강한 것이 있는가 하면 약한 것도 있고

或挫或隳(혹좌혹휴) : 꺾이는 것이 있는가 하면 떨어지는 것도 있다

是以聖人(시이성인) : 따라서 성인은

去甚去奢去泰(거심거사거태) : 지나친 극단을 피한다.

천하를 취하고자 하지만 내가 보건대 분명히 성공하지 못한다.
천하는 신령한 그릇이니 함부로 취할 수 없고, 하고자 하면 실패하고 잡고자 하면 잃는다.

사물은 혹 앞서기도 뒤 따르기도 하고, 숨은 천천히 쉬기도, 빨리 쉬기도 한다.
강한 것이 있으면, 약한 것도 있고, 꺾이는 것이 있으면 떨어지는 것도 있다. 

따라서 성인은 지나친 극단을 피한다.

 

30.

以道佐人主者(이도좌인주자) : 도로써 군주를 보좌하는 사람은

不以兵强天下(불이병강천하) : 군사력으로 천하를 평정하지 않는다.

其事好還(기사호환) : 무력을 쓰면 반드시 그 대가를 치른다.

師之所處(사지소처) : 군사가 주둔하던 곳엔

荊棘生焉(형극생언) : 가시엉겅퀴가 자라나고

大軍之後(대군지후) : 큰 전쟁 뒤에는

必有凶年(필유흉년) : 반드시 흉년이 뒤따르게 된다.

善有果而已(선유과이이) : 훌륭한 사람은 목적만 이룬 다음 그만둘 줄 알고

不敢以取强(불감이취강) : 감히 군림하려 하지 않는다.

果而勿矜(과이물긍) : 목적을 이뤘으되 자랑하지 않고

果而勿伐(과이물벌) : 목적을 이뤘으되 뽐내지 않고

果而勿驕(과이물교) : 목적을 이뤘으되 교만하지 않는다.

果而不得已(과이불득이) : 목적을 이루지만 부득이하게 하고

果而勿强(과이물강) : 목적을 이룬 후 군림하려 하지 않는다.

物壯則老(물장즉로) : 사물은 그 기운이 지나치면 쇠하게 되니

是謂不道(시위불도) : 도가 아닌 까닭이다.

不道早已(불도조이) : 도가 아닌 것은 오래 가지 못한다.

도로써 군주를 보좌하는 사람은 군사력으로 천하를 평정하지 않는다.
무력을 쓰면 반드시 그 대가를 치른다.

군사가 주둔하던 곳엔 가시엉겅퀴가 자라고, 큰 전쟁 뒤에는 반드시 흉년이 뒤따르게 된다.
훌륭한 사람은 목적만 이룬 다음 그만둘 줄 알고, 감히 군림하려 하지 않는다.

목적을 이뤘으되 자랑하지 않고, 뽑내지 않고, 교만하지 않는다.

사물은 그 기운 지나치면 쇠하게 되니 도가 아닌 까닭이다.
도가 아닌 것은 오래 가지 못한다.

 

 

목차

인공지능 - 우리가 하는 지적인 활동을 자동화 하는 것을 목표로 하는 연구활동

심볼릭 AI - 인간의 레벨 수준에서 가진 지식을 프로그래머가 룰 기반으로 지식을 가지고 행동하게 하는 인공지능

                   Ex) 챗GPT이전의 챗봇들이 심볼릭 AI라고 볼 수 있다. 

 

머신러닝과 딥러닝의 차이

 

머신러닝 : 기계가 주어진 데이터를 가지고 스스로 학습 및 프로세스 하는 것

딥러닝 : 신경망을 가지고 주어진 데이터를 학습하는 것

 

 

 

AI는 지적인 활동을 대신하는 알고리즘 - 심볼릭 AI, ML, DL등이 들어감

ML안에 DL이 들어간다.

 

인공지능을 연구하는 전체필드를 AI라고 하고, 인공지능을 만드는 방법론 중 하나이다. 

컴퓨터가 자동으로 학습하게 된다. 무엇을 학습하느냐? 통계적인 룰을 학습하게 된다.

머신러닝은 따로 명칭을 두게 올라왔냐면, 전통적인 프로그램의 페러다임을 바꾸게 되었기 때문이다.

 

전통적으로는 룰과 데이터를 프로그래머가 입력하고 답변을 대답한다. Ex)윈도우 마법사, 챗봇

머신러닝은 데이터와 정답을 알려주면 데이터를 보고 통계적인 룰을 학습해서 알아낸 모델을 기반으로 작동한다.

 

문제와 정답을 보고 룰을 알아내어서 모델이 나오게 된다.

새로운 데이터를 넣으면 자동으로 답이 나오게 하는 것이 머신러닝이다. 

 

특히 정형화된 데이터에서 잘 작동한다. 

 

딥러닝 : 머신러닝의 한 갈래로 신경망을 사용하고, 자체로 학습한다는 것이다.

 

왜 딥러닝이 강세가 되었는가? 

머신러닝은 정형화된 데이터에 잘 작동한다.

머신러닝


분류 - 데이터들을 분류한다.
회귀 - 대표적으로 두가지 특징에 대해 분포에서 피팅해서 이후에 어떻게 y축이 바뀔것인지 찾는 것
클러스터링 - 그룹화 시키는 것 

 

딥러닝

정형화된 데이터가 아닌 비정형데이터에서 좋은 퍼포먼스를 나타내기 시작했다.
이미지인식(자율주행), 시리

그러면 영상이 왜 비정형데이터일까?
영상, 얼굴인식은 사람이 훨씬 잘 하는 것이다. 
그리고 음성도 마찬가지일 것이다. 

하지만 딥러닝이 이 분야를 따라오기 시작했다.

 

 

하드웨어

gpu 는 동영상, 게임을 위해서 만들었는데
cpu는 계산 능력이 좋은 칩을 몇개만 넣는다면, gpu는 칩을 굉장히 많이 붙이게 된다. 
gpu는 딥러닝에 영향을 주었는데 그 이유는 깊은 신경망 때문이다.
Data

인터넷의 발전으로 정제된 데이터가 많아졌다.

 

분류
segmentation은 영역의 형태를 찾는다.

 

Detection은 위치 좌표를 찾는다.
영상의 특징을 새로운 특징을 아웃풋 하는 것이다.

+ Recent posts