λ³Έλ¬Έ λ°”λ‘œκ°€κΈ°
🌏 Self-Development/기타

μ›μ‹œλ°μ΄ν„°, μ›μ²œλ°μ΄ν„°, 라벨데이터 λž€?

by Jay Din 2024. 1. 19.
728x90
λ°˜μ‘ν˜•

μ›μ‹œλ°μ΄ν„°, μ›μ²œλ°μ΄ν„°, λΌλ²¨λ°μ΄ν„°λŠ” 데이터 κ³Όν•™ 및 기계 ν•™μŠ΅ λΆ„μ•Όμ—μ„œ μ€‘μš”ν•œ κ°œλ…μž…λ‹ˆλ‹€.

μ΄λŸ¬ν•œ λ°μ΄ν„°μ˜ μ’…λ₯˜λ“€μ€ 데이터 κ³Όν•™ 및 기계 ν•™μŠ΅μ—μ„œ μ€‘μš”ν•œ λ‹¨κ³„μ—μ„œ 닀루어지며, 효과적인 λͺ¨λΈμ„ κ°œλ°œν•˜κ³  κ²°κ³Όλ₯Ό μ΄ν•΄ν•˜λŠ” 데 ν•„μˆ˜μ μž…λ‹ˆλ‹€.

원데이터 (Raw Data) λž€?

  • μ •μ˜: μ›μ‹œλ°μ΄ν„°λŠ” μˆ˜μ§‘λœ κ·ΈλŒ€λ‘œμ˜ ν˜•νƒœλ‘œ κ°€κ³΅λ˜μ§€ μ•Šμ€ 데이터λ₯Ό μ˜λ―Έν•©λ‹ˆλ‹€.
  • νŠΉμ§•:
    • κ΅¬μ‘°ν™”λ˜μ§€ μ•Šμ€ ν˜•νƒœλ‘œ μ‘΄μž¬ν•˜λ©°, μ²˜λ¦¬λ˜μ§€ μ•Šμ€ 초기 μƒνƒœμ˜ λ°μ΄ν„°μž…λ‹ˆλ‹€.
    • 예λ₯Ό λ“€μ–΄, μ„Όμ„œμ—μ„œ μΈ‘μ •ν•œ μ‹€μ‹œκ°„ 데이터, 둜그 파일, ν…μŠ€νŠΈ λ¬Έμ„œ 등이 μ›μ‹œλ°μ΄ν„°μ˜ μ˜ˆμ‹œμž…λ‹ˆλ‹€.
  • ν™œμš©:
    • 데이터 처리 νŒŒμ΄ν”„λΌμΈμ—μ„œ 초기 λ‹¨κ³„λ‘œ μ‚¬μš©λ˜λ©°, 가곡과 정체가 ν•„μš”ν•œ κ²½μš°κ°€ λ§ŽμŠ΅λ‹ˆλ‹€.

 

μ›μ²œλ°μ΄ν„° (Source Data)

  • μ •μ˜: μ›μ²œλ°μ΄ν„°λŠ” μ •λ³΄μ˜ μΆœμ²˜κ°€ λ˜λŠ” 초기 데이터λ₯Ό κ°€λ¦¬ν‚΅λ‹ˆλ‹€.
  • νŠΉμ§•:
    • 보톡 데이터 νŒŒμ΄ν”„λΌμΈμ—μ„œ μ²˜μŒμ— μˆ˜μ§‘λ˜κ±°λ‚˜ μƒμ„±λœ 데이터λ₯Ό μ˜λ―Έν•©λ‹ˆλ‹€.
    • λ°μ΄ν„°μ˜ μΆœμ²˜μ™€ 원본 ν˜•νƒœλ₯Ό μœ μ§€ν•˜λ©΄μ„œ ν•„μš”ν•œ 가곡 및 μ „μ²˜λ¦¬λ₯Ό 진행할 수 μžˆμŠ΅λ‹ˆλ‹€.
  • ν™œμš©:
    • 초기 데이터λ₯Ό κ°€κ³΅ν•˜μ—¬ νŠΉμ • λΆ„μ„μ΄λ‚˜ λͺ¨λΈλ§ μž‘μ—…μ— ν™œμš©ν•˜κΈ° 전에 μ‚¬μš©λ©λ‹ˆλ‹€.
    • μ›μ²œλ°μ΄ν„°λ₯Ό 효과적으둜 κ΄€λ¦¬ν•˜λ©΄ 좔후에 λ°μ΄ν„°μ˜ μ‹ λ’°μ„±κ³Ό 일관성을 μœ μ§€ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

 

라벨데이터 (Label Data λ˜λŠ” 타깃 데이터)

  • μ •μ˜: λΌλ²¨λ°μ΄ν„°λŠ” 기계 ν•™μŠ΅μ—μ„œ λͺ¨λΈμ„ ν•™μŠ΅μ‹œν‚€κΈ° μœ„ν•΄ μ‚¬μš©λ˜λŠ” μ •λ‹΅ 데이터λ₯Ό μ˜λ―Έν•©λ‹ˆλ‹€.
  • νŠΉμ§•:
    • 각각의 μž…λ ₯ 데이터에 λŒ€μ‘ν•˜λŠ” μ •λ‹΅(λ ˆμ΄λΈ” λ˜λŠ” νƒœκ·Έ)이 ν¬ν•¨λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€.
    • λͺ¨λΈμ΄ ν•™μŠ΅ν•  λ•Œ μ˜¬λ°”λ₯Έ μ˜ˆμΈ‘μ„ ν•™μŠ΅ν•˜λ„λ‘ 도움을 μ€λ‹ˆλ‹€.
  • ν™œμš©:
    • ν•™μŠ΅ 데이터 μ„ΈνŠΈμ—μ„œ μž…λ ₯ 데이터와 ν•¨κ»˜ μ‚¬μš©λ˜μ–΄ λͺ¨λΈμ΄ ν•™μŠ΅ν•˜λŠ”λ° ν™œμš©λ©λ‹ˆλ‹€.
    • λΆ„λ₯˜ λ¬Έμ œμ—μ„œλŠ” 각 ν΄λž˜μŠ€μ— λŒ€ν•œ 라벨이, νšŒκ·€ λ¬Έμ œμ—μ„œλŠ” μ‹€μ œ 값을 λ‚˜νƒ€λ‚΄λŠ” 라벨이 될 수 μžˆμŠ΅λ‹ˆλ‹€.

 

μ›μ‹œ 데이터와 μ›μ²œ 데이터 차이점

"μ›μ‹œ 데이터"와 "μ›μ²œ 데이터"λŠ” μœ μ‚¬ν•œ 의미λ₯Ό κ°€μ§€μ§€λ§Œ, μΌλ°˜μ μœΌλ‘œλŠ” μ•½κ°„μ˜ 차이가 μžˆμ„ 수 μžˆμŠ΅λ‹ˆλ‹€.

κ·ΈλŸ¬λ‚˜ μ‚¬μš©λ˜λŠ” λ§₯락에 따라 두 μš©μ–΄κ°€ 거의 κ΅μ°¨ν•˜μ—¬ μ‚¬μš©λ˜κΈ°λ„ ν•©λ‹ˆλ‹€.

 

λ”°λΌμ„œ, "μ›μ‹œ 데이터"λŠ” λ‹¨μˆœνžˆ κ°€κ³΅λ˜μ§€ μ•Šμ€ 초기 ν˜•νƒœμ˜ 데이터λ₯Ό λ‚˜νƒ€λ‚΄λŠ” λ°˜λ©΄μ—, "μ›μ²œ 데이터"λŠ” λ°μ΄ν„°μ˜ μΆœμ²˜μ™€ 원본 ν˜•νƒœλ₯Ό κ°•μ‘°ν•˜μ—¬ 초기 λ°μ΄ν„°μ˜ νŠΉμ„±μ„ κ°•μ‘°ν•©λ‹ˆλ‹€.

κ·ΈλŸ¬λ‚˜ μ—„κ²©ν•œ μ •μ˜λŠ” μ•„λ‹ˆλ©°, λ§₯락에 따라 두 μš©μ–΄κ°€ μƒν˜Έ κ΅ν™˜λ˜μ–΄ μ‚¬μš©λ  수 μžˆμŠ΅λ‹ˆλ‹€.

 
 
 
728x90
λ°˜μ‘ν˜•