낭만고양이

  • 홈
  • 태그
  • 미디어로그
  • 위치로그
  • 방명록

프로그래밍/CUDA 1

CUDA Tutorial

대표적인 병렬처리 프로그래밍 기법 - CPU - 복잡한 연산, 단일 성능이 높음 (Clock Speed)- GPU - 단순한 연산, 단일 성능이 낮음, ALU 동시에 구동 가능, 프로그래밍에 제한이 있음 A는 한 번에 1개의 공을 옮길 수 있고 1초에 한번 작업을 할 수 있다. (Latency : 1, Throughput : 1) B는 한 번에 4개의 공을 옮길 수 있고 2초에 한번 작업을 할 수 있다. (Latency : 2, Throughput : 2)(버스와 스포츠가 라고 생각할 수도 있다.) 전력 효율을 높이기 위해서 CPU 는 점점 latency 를 줄여가고 GPU 는 throughput 을 늘려간다. 배열 정보, index는 grid size 와 block size로 정의된다.grid size..

프로그래밍/CUDA 2018.06.12
이전
1
다음
더보기
프로필사진

멀어져 가는 저 뒷 모습을 바라보면서...

  • 분류 전체보기 (25)
    • Deep Learning (1)
    • IT (0)
    • 영상처리 (1)
    • 일상 (2)
      • 일지 (0)
      • 일기 (0)
    • 게임 (1)
    • 운동 (1)
    • 프로그래밍 (13)
      • OpenCL (1)
      • OpenMP (1)
      • Tensorflow (6)
      • Python (2)
      • CUDA (1)
      • Pycharm (1)
      • SIMD (1)
    • 좋은생각 (1)

Tag

tensorflow, argmin, local response normalization, flat field correction, pyi 생성, lrn, get_default_graph, ttrainable_variables, Argmax, tensor buf, unraveld_index, Python, pyd, pyi, pyd 모듈, pybind11, get_tensor_by_name, Inteligence, batch normalization, python 링킹,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2025/06   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30

방문자수Total

  • Today :
  • Yesterday :

Copyright © Kakao Corp. All rights reserved.

  • Open Research
  • 모두의 연구소
  • Python API
  • OpenCV Wiki
  • Python Code Example
  • 메가클라우드

티스토리툴바