데이터베이스 설계
- 사용자의 요구를 분석하여 그것들을 컴퓨터에 저장할 수 있는 데이터베이스의 구조에 맞게 변형한 후 특정 DBMS로 데이터베이스를 구현하여 일반 사용자들이 사용하게 하는 것
데이터베이스 설계 시 고려사항
- 무결성
- 일관성
- 회복
- 보안
- 효율성
- 데이터베이스 확장
데이터베이스 설계 순서
1. 요구 조건 분석
- 사용자에 따른 수행 업무와 필요한 데이터의 종류, 용도, 처리 형태, 흐름, 제약 조건 등을 수집
- 수집된 정보를 바탕으로 요구 조건 명세를 작성
2. 개념적 설계(정보 모델링, 개념화)
- 개념 스키마 모델링과 트랜잭션 모델링을 병행 수행
- 요구 분석 단계에서 나온 결과인 요구 조건 명세를 DBMS에 독립적인 E-R 다이어그램으로 작성
- 독립적인 개념 스키마를 설계
3. 논리적 설계(데이터 모델링)
- 개념 세계의 데이터를 필드로 기술된 데이터 타입과 이 데이터 타입들 간의 관계로 표현되는 논리적 구조의 데이터로 모델화
- 개념 스키마를 평가 및 정제하고 DBMS에 따라 서로 다른 논리적 스키마를 설계하는 단계
- 트랜잭션의 데이터베이스를 설계
4. 물리적 설계(데이터 구조화)
- 다양한 데이터베이스 응용에 대해 처리 성능을 얻기 위해 데이터베이스 파일의 저장 구조 및 액세스 경로를 결정
5. 데이터베이스 구현
- 논리적 설계 단계와 물리적 설계 단계에서 도출된 데이터베이스 스키마를 파일로 생성하는 과정
- 사용하려는 특정 DBMS DDL(데이터 정의어)을 이용하여 데이터베이스 스키마를 기술한 후 컴파일하여 빈 데이터베이스 파일을 생성
- 빈 데이터베이스 파일에 데이터를 입력, 응용 프로그램을 위한 트랜잭션을 작성, 데이터베이스 접근을 위한 응용 프로그램을 작성
데이터저장소
- 소프트웨어 개발 과정에서 다루어야 할 데이터들은 논리적인 구조로 조직화하거나, 물리적인 공간에 구축하는 것을 의미
- 논리 데이터저장소와 물리 데이터저장소로 구분
- 논리 데이터저장소는 데이터 및 데이터 간의 연관성, 제약조건을 식별하여 논리적인 구조로 조직화한 것을 의미
- 물리 데이터저장소는 논리 데이터저장소에 저장된 데이터와 구조들을 소프트웨어가 운용될 환경의 물리적 특성을 고려하여 하드웨어적인 저장장치에 저장한 것을 의미
데이터베이스
- 통합된 데이터(Integrated Data) : 자료의 중복을 배제한 데이터의 모임
- 저장된 데이터(Stored Data) : 컴퓨터가 접근할 수 있는 저장 매체에 저장된 자료
- 운영 데이터(Operational Data) : 업무를 수행하는 데 존재 가치가 확실하고 없어서는 안 될 반드시 필요한 자료
- 공용 데이터(Shared Datd) : 여러 응용 시스템들이 공동으로 소유하고 유지하는 자료
DBMS(DataBase Management System)
- 사용자와 데이터베이스 사이에서 사용자의 요구에 따라 정보를 생성해주고, 데이터베이스를 관리해 주는 소프트웨어
- 종속성과 중복성의 문제를 해결하기 위해 제안된 시스템
- 모든 응용 프로그램들이 데이터베이스를 공용으로 사용할 수 있도록 관리
- DBMS의 필수 기능에는 정의, 조작, 제어 기능이 있음
- 논리적 독립성 : 응용 프로그램과 데이터베이스를 독립시킴으로써, 데이터의 논리적 구조를 변경시키더라도 응용 프로그램은 변경되지 않음
- 물리적 독립성 : 응용 프로그램과 보조기억장치 같은 물리적 장치를 독립시킴으로써, 데이터베이스 시스템의 성능 향상을 위해 새로운 디스크를 도입하더라도 응용 프로그램에는 영향을 주지 않고 데이터의 물리적 구조만을 변경
SQL(Structured Query Language)
- 관계대수(절차적), 관계해석(비절차적)을 기초로 한 혼합 데이터 언어
- 데이터 정의어(DDL) , 데이터 조작어(DML), 데이터 제어어(DCL)로 구분
- 데이터 정의어(DDL) : SCHEMA, DOMAIN, TABLE, VIEW, INDEX를 정의하거나 변경 또는 삭제할 때 사용하는 언어
- 데이터 조작어(DML) : 사용자가 응용 프로그램이나 질의어를 통하여 저장된 데이터를 실질적으로 처리하는 데 사용되는 언어
- 데이터 제어어(DCL) : 데이터의 보안, 무결성, 회복, 병행 수행 제어 등을 정의하는 데 사용되는 언어
트랜잭션
- 데이터베이스의 상태를 변환시키는 하나의 논리적 기능을 수행하기 위한 작업의 단위 또는 한꺼번에 모두 수행되어야 할 일련의 연산들을 의미
- 트랜잭션을 제어하기 위해 사용하는 명령어를 TCL이라 하며 COMMIT, ROLLBACK, SAVEPOINT가 있음
- COMMIT : 트랜잭션 처리가 정상적으로 종료되어 트랜잭션이 수행한 변경 내용을 데이터베이스에 반영하는 명령어
- ROLLBACK : 하나의 트랜잭션 처리가 비정상으로 종료되어 데이터베이스의 일관성이 깨졌을 때 트랜잭션이 행한 모든 변경 작업을 취소하고 이전 상태로 되돌리는 연산
- SAVEPOINT(=CHECKPOINT) : 트랜잭션 내에 ROLLBACK 할 위치인 저장점을 지정하는 명령어
절차형 SQL
- C, JAVA 등의 프로그래밍 언어와 같이 연속적인 실행이나 분기, 반복 등의 제어가 가능한 SQL을 의미
- 연속적인 작업들을 처리하는데 적합
- 절차형 SQL의 종류에는 프로시저, 트리거, 사용자 정의 함수가 있음
- 프로시저(Procedure) : 특정 기능을 수행하는 일종의 트랜잭션 언어로, 호출을 통해 실행되어 미리 저장해 놓은 SQL 작업을 수행
- 트리거(Trigger) : 데이터의 입력, 갱신, 삭제 등의 이벤트가 발생할 때마다 관련 작업이 자동으로 수행
- 사용자 정의 함수 : 프로시저와 유사하게 SQL을 사용하여 일련의 작업을 연속적으로 처리하며, 종료 시 예약어 Return을 사용하여 처리 결과를 단일값으로 반환
데이터 모델
- 현실 세계의 정보들을 컴퓨터에 표현하기 위해서 단순화, 추상화하여 체계적으로 표현한 개념적 모형
- 데이터 모델 구성 요소 : 개체, 속성, 관계
- 데이터 모델 종류 : 개념적 데이터 모델, 논리적 데이터 모델, 물리적 데이터 모델
- 데이터 모델에 표시할 요소 : 구조, 연산, 제약 조건
데이터 모델의 구성 요소
- 개체(Entity) : 데이터베이스에 표현하려는 것으로, 사람이 생각하는 개념이나 정보 단위 같은 현실 세계의 대상체
- 속성(Attribute) : 데이터의 가장 작은 논리적 단위로 파일 구조상의 데이터 항목 또는 데이터 필드에 해당
- 관계(Relationship) : 개체 간의 관계 또는 속성 간의 논리적인 연결을 의미
개념적 데이터 모델
- 속성들로 기술된 개체 타입과 이 개체 타입들 간의 관계르 이용하여 현실 세계를 표현
- 현실 세계에 존재하는 개체를 인간이 이해할 수 있는 정보 구조로 표현하기 때문에 정보 모델이라고도 함
- 대표적인 개념적 데이터 모델로는 E-R 모델이 있음
논리적 데이터 모델
- 필드로 기술된 데이터 타입과 이 데이터 타입들 간의 관계를 이용하여 현실 세계를 표현
- 단순히 데이터 모델이라고 하면 논리적 데이터 모델을 의미
- 특정 DBMS는 특정 논리적 데이터 모델 하나만 선정하여 사용
- 데이터 간의 관계를 어떻게 표현하느냐에 따라 관계 모델, 계층 모델, 네트워크 모델로 구분
데이터 모델에 표시할 요소
- 구조(Structure) : 논리적으로 표현된 개체 타입들 간의 관계로서 데이터 구조 및 정적 성질을 표현
- 연산(Operation) : 데이터베이스에 저장된 실제 데이터를 처리하는 작업에 대한 명세로서 데이터베이스를 조작하는 기본 도구
- 제약 조건(Constraint) : 데이터베이스에 저장될 수 있는 실제 데이터의 논리적인 제약 조건
개체의 정의 및 특징
- 데이터베이스에 표현하려는 것으로, 사람이 생각하는 개념이나 정보 단위 같은 현실 세계의 대상체
- 실세계에 독립적으로 존재하는 유형, 무형의 정보로서 서로 연관된 몇 개의 속성으로 구성
- 파일 시스템의 레코드에 대응하는 것으로 어떤 정보를 제공하는 역할을 수행
- 영속적으로 존재하는 개체의 집합
- 독립적으로 존재하거나 그 자체로서도 구별이 가능
- 유일한 식별자에 의해 식별이 가능
- 다른 개체와 하나 이상의 관계가 있음
- 속성 : 개체가 가지고 있는 특성, 학번, 성명, 전공, 소속
- 개체 타입 : 속성으로만 기술된 개체의 정의
- 개체 인스턴스 : 개체를 구성하고 있는 각 속성들이 값을 가져 하나의 개체를 나타내는 것으로 개체 어커런스라 함
- 개체 세트 : 개체 인스턴스의 집합
속성의 정의 및 특징
- 속성(Attribute)은 데이터베이스를 구성하는 가장 작은 논리적 단위
- 파일 구조상의 데이터 항목 또는 데이터 필드에 해당
- 속성은 개체를 구성하는 항목
- 속성은 개체의 특성을 기술
- 속성의 수를 차수 또는 디그리(Degree)라고 함
개체 구성 방식에 따른 분류
- 기본키 속성(Primary Key Attribute) : 개체를 식별할 수 있는 속성
- 외래키 속성(Foreign Key Attribute) : 다른 개체와의 관계에서 포함된 속성
- 일반 속성 : 개체에 포함되어 있고 기본키, 외래키에 포함되지 않은 속성
데이터 모델의 구성 요소
- 관계 : 개체와 개체 사이의 논리적인 연결을 의미
- 관계의 형태 : 1:1 / 1:N / N:M
- 관계의 종류
- 종속 관계(Dependent Relationship) : 두 개체 사이의 주·종 관계를 표현, 식별 관계와 비식별 관계가 있음
- 중복 관계(Redundant Relationship) : 두 개체 사이에 2번 이상의 종속 관계가 발생하는 관계
- 재귀 관계(Recursive Relationship) : 개체가 자기 자신과 관계를 갖는 것으로, 순환 관계라고도 함
- 배타 관계(Exclusive Relationship) : 개체의 속성이나 구분자를 기준으로 개체의 특성을 분할하는 관계, 배타 AND 관계와 배타 OR 관계로 구분
E-R(Entity-Relationship) 모델
- 개체와 개체 간의 관계를 기본 요소로 이용하여 현실 세계의 무질서한 데이터를 개념적인 논리 데이터로 표현하기 위한 방법으로 많이 사용
- 개체 타입과 이들 간의 관계 타입을 이용해 현실 세계를 개념적으로 표현
- 데이터를 개체(Entity), 관계(Relationship), 속성(Attribute)로 묘사
- E-R 모델은 특정 DBMS를 고려한 것은 아님
E-R(Entity-Relationship) 다이어그램
- E-R 모델의 기본 아이디어를 이해하기 쉽게 기호를 사용하여 시각적으로 표현한 그림
- E-R 다이어그램 표기법에는 피터 첸 표기법, 정보 공학 표기법, 바커 표기법 등이 있음
피터 첸 표기법
정보 공학 표기법(Information Engineering Notation)
기호 | 의미 |
| | 필수(Mandatory) |
O | 선택적(Optional) |
< | 다중(Multiple) |
바커 표기법(Barker Notation)
관계형 데이터베이스
- 관계형 데이터베이스를 구성하는 개체나 관계를 모두 릴레이션이라는 표로 표현
- 릴레이션은 개체를 표현하는 개체 릴레이션, 관계를 나타내는 관계 릴레이션으로 구분
- 장점 : 간결하고 보기 편리하며, 다른 데이터베이스로의 변환이 용이
- 단점 : 성능이 다소 떨어짐
관계형 데이터베이스의 Relation 구조
- 튜플(Tuple)
- 릴레이션을 구성하는 각각의 행
- 튜플은 속성의 모임으로 구성
- 파일 구조에서 레코드와 같은 의미
- 튜플의 수를 카디널리티(Cardinality) 또는 기수, 대응수라고 함
- 속성(Attribute)
- 속성은 데이터베이스를 구성하는 가장 작은 논리적 단위
- 파일 구조상의 데이터 항목 또는 데이터 필드에 해당
- 속성은 개체의 특성을 기술
- 속성의 수를 디그리(Degree) 또는 차수라고 함
- 도메인(Domain)
- 하나의 애트리뷰트가 취할 수 있는 같은 타입의 원자값들의 집합
- 릴레이션의 특징
- 한 릴레이션에는 똑같은 튜플이 포함될 수 없으므로 릴레이션에 포함된 튜플들은 모두 상이
- 한 릴레이션에 포함된 튜플 사이에는 순서가 없음
- 튜플들의 삽입, 삭제 등의 작업으로 인해 릴레이션은 시간에 따라 변함
- 릴레이션 스키마를 구성하는 속성들 간의 순서는 중요하지 않음
- 속성의 유일한 식별을 위해 속성의 명칭은 유일해야 하지만, 속성을 구성하는 값은 동일한 값이 있을 수 있음
- 속성의 값은 논리적으로 더 이상 쪼갤 수 없는 원자값만을 저장
- 릴레이션을 구성하는 튜플을 유일하게 식별하기 위해 속성들의 부분집합을 키로 설정
키(Key)의 개념
- 데이터베이스에서 조건에 만족하는 튜플을 찾거나 순서대로 정렬할 때 튜플들을 서로 구분할 수 있는 기준이 되는 애트리뷰트를 말함
후보키(Candidate Key)
- 릴레이션을 구성하는 속성들 중에서 튜플을 유일하게 식별하기 위해 사용하는 속성들의 부분집합, 즉 기본키로 사용할 수 있는 속성들을 말함
- 하나의 릴레이션내에서는 중복된 튜플들이 있을 수 없으므로 모든 릴레이션에는 반드시 하나 이상의 후보키가 존재해야 함
- 후보키는 릴레이션에 있는 모든 튜플에 대해서 유일성과 최소성을 만족시켜야 함
- 유일성(Unique) : 하나의 키 값으로 하나의 튜플만을 유일하게 식별할 수 있어야 함
- 최소성(Minimality) : 모든 레코드들은 유일하게 식별하는데 꼭 필요한 속성으로만 구성되어야 함
기본키(Primary Key)
- 기본키는 후보키 중에서 특별히 선정된 주키로 중복된 값을 가질 수 없음
- 한 릴레이션에서 특정 튜플을 유일하게 구별할 수 있는 속성
- 기본키는 후보키의 성질을 갖고, 유일성과 최소성을 가지며 튜플을 식별하기 위해 반드시 필요한 키
- 기본키는 NULL 값을 가질 수 없으므로 튜플에서 기본키로 설정된 속성에는 NULL 값이 있어서는 안됨
대체키(Alternate Key)
- 후보키가 둘 이상일 때 기본키를 제외한 나머지 후보키를 의미
슈퍼키(Super Key)
- 한 릴레이션 내에 있는 속성들의 집합으로 구성된 키
- 릴레이션을 구성하는 모든 튜플에 대해 유일성은 만족시키지만, 최소성은 만족시키지 못함
외래키(Foreign Key)
- 다른 릴레이션의 기본키를 참조하는 속성 또는 속성들의 집합
무결성의 개념 및 종류
- 데이터베이스에 저장된 데이터 값과 그것이 표현하는 현실 세계의 실제 값이 일치하는 정확성을 의미
- 무결성의 종류에는 개체 무결성, 도메인 무결성, 참조 무결성, 사용자 정의 무결성 등이 있음
개체 무결성(Entity Integrity)
- 기본 테이블의 기본키를 구성하는 어떤 속성도 Null 값이나 중복값을 가질 수 없는 규정
도메인 무결성(Domain Integrity)
- 주어진 속성 값이 정의된 도메인에 속한 값이어야 한다는 규정
참조 무결성(Referential Integrity)
- 외래키 값은 Null이거나 참조 릴레이션의 기본키 값과 동일해야 함
- 릴레이션은 참조할 수 없는 외래키 값을 가질 수 없다는 규정
사용자 정의 무결성(User-Defined Integrity)
- 속성 값들이 사용자가 정의한 제약조건에 만족해야 한다는 규정
관계 대수 및 관계 해석
- 관계 대수 : 관계형 데이터베이스에서 원하는 정보와 그 정보를 검색하기 위해서 어떻게 유도하는가를 기술하는 절차적 언어(절차적 언어)
- 관계 해석 : 관계 데이터 모델의 제안관계 데이터의 연산을 표현하는 방법으로, 원하는 정보를 정의할 때는 계산 수식을 사용(비절차적 언어)
Join(⋈)
- 공통 속성을 중심으로 두 개의 릴레이션을 하나로 합쳐서 새로운 릴레이션을 만드는 연산
Division(÷)
- X⊃Y인두개의릴레이션R(X)와 S(Y)가 있을때, R의 속성이 S의 속성값을 모두 가진 튜플에서 S가 가진 속성을 제외한 속성만을 구연하는 연산
Project(π)
- 주어진 릴레이션에서 속성 리스트에 제시된 속성 값만을 주출하여 새로운 릴레이션을 만드는 연산
Select(σ)
-릴레이션에 존재하는 튜플 중에서 선택 조건을 만족하는 튜플의 부분집합을 구하여 새로운 릴레이션을 만드는 연산
정규화
- 함수적 종속성 등의 종속성 이론을 이용하여 잘못 설계된 관계형 스키마를 더 작은 속성의 세트로 쪼개어 바람직한 스키마로 만들어 가는 과정
- 데이터베이스의 논리적 설계 단계에서 수행
- 정규화는 논리적 처리 및 품질에 큰 영향을 미침
- 정규화된 데이터 모델은 일관성, 정확성 ,단순성, 비중복성, 안정성 등을 보장
- 정규화 수준이 높을수록 유연한 데이터 구축이 가능하고 데이터의 정확성이 높아지는 반면 물리적 접근이 복잡하고 너무 많은 조인으로 인해 조회 성능이 저하
정규화의 목적
- 데이터 구조의 안정성 및 무결성을 유지
- 효과적인 검색 알고리즘을 생성할 수 있음
- 데이터의 중복을 배제하여 이상(Anomaly)의 발생 방지 및 자료 저장 공간의 최소화가 가능
- 데이터 모형의 단순화
- 자료 검색과 추출의 효율성을 추구
정규화 과정
1. 1NF 조건 : 원자값으로 구성
2. 2NF 조건 : 부분 함수 종속 제거 (완전 함수적 종속 관계)
3. 3NF 조건 : 이행 함수 종속 제거
4. BCNF 조건 : 결정자 함수 종속
5. 4NF 조건 : 다중값(다치) 종속성 제거
6. 5NF 조건 : 조인 종속성 제거
(이행적 종속(Transitive Dependency)관계 : A->B이고 B->C이고 A->C를 만족하는 관계를 의미)
이상(Anomaly)의 개념 및 종류
- 정규화를 거치지 않으면 데이터베이스 내에 데이터들이 불필요하게 중복되어 릴레이션 조작 시 예기치 못한 곤란한 현상이 발생하는데, 이를 이상(Anomaly)이라 하며 삽입 이상, 삭제 이상, 갱신 이상이 있음
삽입 이상(Insertion Anomaly)
- 릴레이션에 데이터를 삽입할 때 의도와는 상관없이 원하지 않는 값들도 함께 삽입되는 현상
삭제 이상(Deletion Anomaly)
- 릴레이션에서 한 튜플을 삭제할 때 의도와는 상관없는 값들도 함께 삭제되는 연쇄가 일어나는 현상
갱신 이상(Update Anomaly)
- 릴레이션에서 튜플에 있는 속성값을 갱신할 때 일부 튜플의 정보만 갱신되어 정보에 모순이 생기는 현상
'1. 자격증 > 정보처리기사' 카테고리의 다른 글
[정보처리기사 필기] 3과목 데이터베이스 구축 - 3 (0) | 2020.08.07 |
---|---|
[정보처리기사 필기] 3과목 데이터베이스 구축 - 2 (0) | 2020.08.06 |
[정보처리기사 필기] 2과목 소프트웨어 개발 - 5 (0) | 2020.08.04 |
[정보처리기사 필기] 2과목 소프트웨어 개발 - 4 (0) | 2020.08.04 |
[정보처리기사 필기] 2과목 소프트웨어 개발 - 3 (0) | 2020.08.03 |