풍모 이 옹호자들은 우리의 데이터가 사라지지 않기를 원합니다.

이 옹호자들은 우리의 데이터가 사라지지 않기를 원합니다.

차례:

비디오: 불황 속 다들 가상화~가상화 도대체 ëê¸¸ëž˜ (십월 2024)

비디오: 불황 속 다들 가상화~가상화 도대체 ëê¸¸ëž˜ (십월 2024)
Anonim

올해 5 월 말, 미국 45 대 대통령 취임 5 개월 만에 과학과 기후 변화에 대한 새로운 정부의 입장에 관심을 가진 사람들이 특별한 기념일을 맞이했습니다.

달라스 북부 평원에있는 노스 텍사스 대학교 캠퍼스에서 멀지 않은 곳에, 수십 명의 개인이 연방 기후 및 환경 데이터 세트의 사본을 식별하고 다운로드하기 위해 Data Rescue Denton에서 만났습니다. 이 해커 톤 스타일의 모임은 취임 직전 날 많은 관심을 받았습니다. Denton은 1 월 이후 50 번째 이벤트였습니다.

새로운 행정부가 기후 및 기타 환경 데이터를 소거하거나 모호하게 할 수 있다는 우려로 초기에 조직 한 경우, 트럼프 백악관의 첫 번째 조치 중 하나가 웹 사이트에서 기후 변화 페이지를 삭제하는 것이었을 때 데이터 구조 자의 최악의 두려움이 현실화되는 것 같았습니다. 그런 다음 미국 농무부는 웹 사이트에서 동물 복지 검사 보고서를 제거한 후 1, 771 페이지의 완전히 개정 된 자료를 통해 National Geographic Freedom of Information Act 요청에 응답했습니다.

누구나 data.gov의 중앙 정부 공개 데이터 포털을 통해 153, 000 개 이상의 연방 데이터 세트에 액세스 할 수 있습니다. 그러나 그것은 정부 관료주의 성운에 존재하는 데이터의 일부일 뿐이며 서버에있는 더 작은 부분은 신경 쓰지 않습니다.

스탠포드 대학 도서관의 연방 정부 정보 사서 인 Jim Jacobs는 "정부 정보의 약 20 %가 웹에 액세스 할 수있다"고 말했다. "이것은 이용할 수없는 상당히 많은 부분입니다. 대행사는 자체 위키와 컨텐츠 관리 시스템을 가지고 있지만, 누군가가 FOIA를 사용하는 경우에만 그 중 일부를 알 수 있습니다."

확실히, 많은 양의 정보가 실제로 캡처되었으며 이제는 비정부 서버에 상주합니다. 2016 년 말 기말 크롤링과 같은 데이터 난민 사건과 프로젝트 사이에 200TB가 넘는 정부 웹 사이트와 데이터가 보관되었습니다. 그러나 구조 조직자들은 테라 바이트 단위의 정부 기관 과학 데이터의 완전한 사본을 만들기위한 단편적인 노력이 장기적으로 현실적으로 유지 될 수 없다는 것을 깨달았습니다. 이는 타이타닉을 골무와 함께 풀어내는 것과 같습니다.

따라서 Data Rescue Denton은 최종적으로 조직 된 최종 이벤트 중 하나가되었지만, 집단적 노력으로 더 많은 정부 데이터를 발견하고 이해 가능하며 사용 가능한 정부 데이터를 만들기 위해 함께 일할 수있게되었다고 Jacobs는 블로그 게시물에 썼습니다.

라이브러리를 찾고

펜실베이니아 대학교에서 Bethany Wiggin은 환경 인문학 펜 프로그램의 이사로, 데이터 구조 사건의 창시자 인 데이터 피난민 운동의 중심이었습니다. 그녀는 이제 지역 기반의 주기적 에피소드 대신 장기적인 노력을 위해 국가적 틀을 활용하는 데 초점이 옮겨 졌다고 말했다.

Wiggin은 특히 연구 라이브러리에서 "구조 데이터 이벤트를 수행하는 다양한 장소에서 부상하고있는 기술을 실현할 수 있었다"고 말했다. "그러나 이러한 노력은 우리가 시작하기 전에 모두 이루어졌습니다. Data Refuge의 힘은 이러한 연결을 두껍게하고 장기적이고 느리게 움직이는 프로젝트를 촉진하며 이들이 얼마나 중요한지를 밝히는 데있었습니다."

Wiggin은 최근 연구 도서관, 도서관 조직 및 공개 데이터 그룹의 파트너십 인 Libraries + Network에서 정보에 대한 액세스를 보존하는 데있어 도서관의 전통적인 역할을 확대하기 위해 노력하고 있습니다. 참가자는 스탠포드 대학 연구 도서관, 캘리포니아 디지털 도서관 및 모질라 재단을 포함하며 국립 기록 보관소 및 여러 연방 국의 최고 데이터 책임자 (Chief Data Officer)와 같은 광범위한 기관의 의견을 수렴하고 협력합니다.

예를 들어, 한 프로젝트는 Jacobs가 수년간 조정해온 LOCKSS ("많은 사본이 물건을 안전하게 보관합니다")입니다. 이 도서관은 연방 기탁 도서관 프로그램 (Federal Depository Library Program)으로 알려진 200 년 된 도서관 네트워크와 동일한 원칙을 기반으로합니다. 이 라이브러리는 미국 정부 인쇄 국 (GPO)의 공식 출판물 저장소입니다.

이와 대조적으로 LOCKSS는이 시스템의 개인용 디지털 버전으로, 현재까지 GPO에서 공동으로 출판물을 수집하는 36 개의 라이브러리로 구성되어 있습니다. 광범위한 물리적 분산을 통해 디지털 정보가 삭제 또는 변조되지 않도록 보호하는 방법에 대한 모델입니다.

Jacobs는 "내용을 통제 할 수 없다면 보존을 보장 할 수 없다"고 말했다. "지난 200 년 동안 보관소 라이브러리를 중요하고 유용하게 만든 것 중 일부는 정부의 어느 누구도 실제로 1, 500 개의 라이브러리로 가서 '예, 여기에서 한 페이지를 변경하십시오'라고 말하지 않고 문서를 편집 할 수 없다는 것입니다."

소프트웨어 LOCKSS는 비트 레벨에서 컨텐츠 캐시를 검사하고이를 다른 라이브러리가 보유한 컨텐츠와 비교합니다. Jacobs는 성능 저하 된 파일의 복구를 통해 장기 보존을 보장한다고 말했습니다.

Libraries + Network의 또 다른 공동 작업자 인 John Chodacki는 캘리포니아 대학 시스템의 10 개 캠퍼스 모두에 서비스를 제공하는 가상 정보 시설 인 California Digital Library 큐레이터입니다. Chodacki는 data.gov의 수석 아키텍트 인 Code and Science and Society 개발자 인 Max Ogden 및 Philip Ashlock과 협력하여 data.gov를 양방향 도로로 사용하는 데 중점을두고 있다고 말합니다.

그들은 먼저 데이터 구조 자체가 data.gov 자체의 사본을 만들어 외부 사이트 datamirror.org에 배치하여 업데이트를 확인하는 모니터링 스크립트를 통해 데이터 구조 자체가 훨씬 더 효율적일 수 있음을 보여주었습니다. 또한 Chodacki와 공동 작업자는 미러에 기여한 데이터 세트 및 메타 데이터가 미러의 스텁 페이지를 통해 에이전시의 기존 data.gov 워크 플로에 공급 될 수 있는지 여부를 조사하기 시작했습니다.

data.gov에 기계 판독 가능 데이터의 게시를 의무화하는 2013 Obama 행정 명령에 따라 기관은 여전히 ​​해당 포털에 나열된 레코드 생성을 담당합니다. Chodacki와 Ogden의 아이디어는 크라우드 소싱 제안 데이터 세트가 단순히 워크로드를 분산시키는 데 도움이된다는 것입니다.

"우리는 전체 생태계를 복제 할 필요가 없다"고 Chodacki는 말했다. "연방 정부와 이들 기관은 다른 어느 것보다 훨씬 더 강력한 방식으로 빅 데이터에 대해 이야기하는 것보다 오래 전부터 데이터를 처리해 왔습니다."

민관 파트너십

비용 문제는 대행사가 대중에게 가장 유용한 데이터 세트를 식별 한 다음 정부 포털을 통해 메타 데이터 또는 실제 데이터 세트에 대한 링크를 게시하는 방법에있어 분명한 문제입니다. 오바마 행정부 명령을 법률로 체계화하는 상원에 현재 열려있는 OPEN 정부 데이터 법안에 대한 의회 예산 사무소 (CBO) 보고서는 2018 년에서 2021 년 사이에 전체 구현에 2 백만 달러가 소요될 것으로 추정합니다.

CBO는 정부 자금 측면에서 실질적인 지출 증가를 나타내지 않는다고 결론 지었다.

그러나 효율성은 또 다른 문제입니다.National Oceanic and Atmospheric Administration의 Ed Kearns는 Amazon Web Services 및 Google을 포함한 개인 파트너와 함께 실험하고 있습니다. NOAA의 최고 데이터 책임자 인 Kearns는 NOAA 데이터의 공개 가용성 및 사용이 빅 데이터 프로젝트의 주요 목표라고 밝혔다.

회사는 원하는 데이터 세트를 식별하고 NOAA는 추가 비용없이 대중에게 데이터 세트를 전달합니다. Kearns는 NOAA가 가지고있는 것은 모두 표에 있지만 5 년 간의 파트너십의 목표는 모든 NOAA 데이터를 클라우드에서 전략적으로 청산하는 것이 아니라고 말했다.

민간 회사의 클라우드 서비스에서 이러한 데이터 세트를 호스팅하면 연방 기관에서 대규모 데이터 세트를 전송하는 데 여전히 표준 인 80 년대 스타일 FTP 액세스에 몇 가지 이점이 있습니다. 우선 NOAA의 데이터 세트는 방대한 경향이 있습니다. 대행사는 지구의 바다, 대기, 태양 및 우주 날씨를 모니터링하며 때로는 대중에게 배달하는 데 몇 주 또는 몇 달이 소요됩니다.

한 예로 기관의 고해상도 NEXRAD Level-II Doppler 레이더 아카이브가 있습니다. 미국 기상 협회 (American Meteorological Society)가 5 월에 발표 한 연구에 따르면 2015 년 10 월에 전체 270TB NEXRAD 아카이브를 단일 고객에게 양도하는 데 540 일이 걸리는 비용은 203, 310 달러였습니다. NOAA가 Amazon 및 Google과 협력하여 클라우드에 파일을 저장하기 전에 외부 분석을 위해 전체 아카이브 사본을 사용할 수 없었습니다.

이 실험은 사용량이 증가함에 따라 흥미로운 초기 결과도 얻었습니다. NOAA의 날씨 및 예측 웹 페이지는 이미 정부 사이트간에 가장 높은 수준의 트래픽을 수신하고 있지만 Google이 최근 한 개의 기후 및 날씨 데이터 세트 (약 10 만 개)를 BigQuery 데이터베이스에 통합 한 후이 데이터 세트의 1.2 페타 바이트를 제공한다고보고했습니다. 1 월 1 일부터 4 월 30 일까지 – NOAA 서버와 비슷한 기간에 훨씬 더 많이 액세스했습니다.

Kearns는 "Google은 완전히 새로운 잠재 고객에게 공개 할 수있었습니다."라고 말했습니다.

비와 계절 온도 만이 아닙니다. 현재 빅 데이터 파트너를 통해 사용 가능한 데이터 세트에는 수산 정보, 해양 날씨 및 NOAA 센터의 현재, 예측, 역사 및 지리 공간 데이터 세트를 나열하는 IBM이 호스팅하는 카탈로그가 포함됩니다. 미래의 데이터 셋에는 생태계와 어업 유전체학에 대한 정보도 포함될 수 있습니다.

그러나 의도적으로 파트너쉽을 통해 공동 작업자는 가장 원하는 것을 선택하여 모호하지만 잠재적으로 가치가 높은 데이터 세트가 일광을 많이 보지 못할 위험이 있습니다. Kearns는 결국 가치있는 것으로 무엇이 식별 될 수 있는지 말하기가 너무 이르다고 말합니다.

"이 데이터로 수행 할 수있는 작업의 규모와 범위는 우리에게 압도적입니다"라고 덧붙였습니다. "우리는 가능한 모든 용도를 상상할 수 없습니다."

더 작은 규모로, 필라델피아시는 민간 기관과 협력하여 대중이 가장 유용하다고 생각하는 데이터 세트를 게시하기 위해 노력했습니다. 도시의 규모는 연방 기관보다 일상적인 운영 기동성을 제공하지만 Philly의 모델은 아직 미공개 데이터 세트의 릴리스를 전략화하는 한 가지 방법을 나타냅니다.

데이터 시각화를 전문으로하는 Philly 기반 소프트웨어 회사 인 Azavea는 도시의 최고 정보 책임자 인 Tim Wisniewski와 협력하여 도시의 비영리 단체가 사용에 관심이있을 수있는 미공개 데이터 세트 목록을 개발했습니다. Wisniewski와 Azavea는 도시의 온라인 메타 데이터 카탈로그와 도시 부서의 정보를 모두 사용하여 목록을 개발했습니다. 그런 다음 Azavea와 다른 파트너는 Philadelphia 비영리 단체에 목록을 구매하고 OpenDataVote를 시작했습니다. OpenDataVote는 해당 비영리 단체가 선호하는 데이터 세트를 사용하는 방법에 대해 제시 한 프로젝트에 대해 대중이 투표하는 경쟁입니다.

최근 수상자는 교육 비영리 단체 MicroSociety가 필라델피아 학군 기부자에 대한 도시 데이터를 사용하여 학교에서 비영리 단체 프로그램의 영향을 측정하도록 제안했습니다.

Wisniewski는“우리는이 도시의 비영리 단체가 특정 데이터 셋에 관심을 가지고 있으며이를 수행 할 수 있기 때문에 많은 사람들이이를 지원하기로 투표했다고 말할 수있다”고 말했다. "이것은 우리가 단지이 데이터를 발표했기 때문에 확실한 사용 사례를 가지고 부서에 갈 수있게 해줍니다."

오래된 데이터와 새로운

그러나 새로운 정책과 자금 지원 지침이 데이터 자체가 더 이상 생성되지 않는다는 것을 의미 할 때 이미 존재하는 데이터에 대한 충분한 액세스 권한이있는 경우에도 어떻게됩니까? 오바마 대통령의 환경 보호국 (Environmental Protection Agency)에서 최고 정보 책임자 (CIO)로 일했으며 현재 캘리포니아 산타 클라라 카운티의 IT 책임자로 일하고있는 앤 던킨 (Ann Dunkin) 부사장은 이것이 실제로 우려되는 일이라고 말했다.

던킨은“사람들은 기존 데이터에 대해 걱정하지만 가장 걱정되는 것은 새로운 데이터가 이전과 같은 속도로 제공되지 않거나 전혀 생성되지 않는다는 점”이라고 말했다.

Science 지에 의해 제안 된 2018 연방 예산에 대한 한 분석에서 , 많은 정부 기관은 예산이 제안대로 통과되면 연구 예산이 크게 줄어 듭니다. 국립 보건원 (National Institutes of Health)에서 약 22 %의 삭감은 연구 대학에 지불 할 것입니다. NASA의 예산 요청은 온실 가스 배출 및 기타 지구 과학 프로그램을 감시하려는 이니셔티브를 제거합니다. NOAA의 기후 프로그램도 비슷한 수준의 삭감으로 폐쇄 될 수있다.

재임 기간 동안 EPA는 데이터 수집을 누구나 주변 환경의 건강을 이해하고 이에 대처하는 방법을 이해하는 데 사용할 수있는 도구로 만들려고 노력했습니다. 나쁜 날? 밖에 가지마 오염 된 방식으로 흘러 내리나요? 아이들을 멀리하십시오.

던킨은 덧붙였다. "나는 틀릴 수도 있지만, 만약 우리가 데이터를 이용할 수 없다고 말한다면, 논리적 결론은 대중의 구성원도 이용할 수 없거나 처음에는 생성되지 않을 수 있도록 돕는 데이터 세트입니다."

Data Refuge의 Wiggin은이 문제와 관련된 스토리 텔링 프로젝트를 진행 중이며 더 많은 사람들이 지속적인 데이터 릴리스를 요구하고 연방 정부 전체에서 기존 데이터 수집 프로그램을 지속적으로 지원할 수있는 토대를 마련하기를 희망하고 있습니다. "우리 도시의 세 가지 이야기"이야기는 연방 데이터가 필라델피아에서 시작한 다음 전국 다른 곳에서 예상치 못한 장소에 미치는 영향을 종종 숨길 수 있습니다.

Wiggin은 "우리가 다음 단계로 넘어갈 때 데이터 난민 운동의 중요한 부분은 사람들이 연방에서 생산 된 데이터가 얼마나 널리 사용되는지 이해하도록 돕는 것"이라고 Wiggin은 말했다. "기후를 기후 또는 건강 또는 공공 안전이라고하더라도 여전히 연방 데이터입니다. 지역 사회, 시청, 치안 활동, 군대에 있습니다. 데이터가 얼마나 중요한지 계속 기억해야합니다."

자원:

  • EPA 환경 데이터 세트 게이트웨이: Environmental Protection Agency의 메타 데이터 포털.
  • Open Data @ DOE: Department of Energy의 개방형 데이터 포털.
  • USDA 경제 연구 서비스 데이터 포털
  • NOAA Big Data Resources: NOAA가 생성 한 데이터를 호스팅하는 Big Data 파트너의 플랫폼 페이지에 연결합니다.
  • University of North Texas: Cyber ​​Cemetery: 기능이 없거나 오래되었거나 폐쇄 된 정부 웹 사이트의 아카이브입니다.
  • 환경 데이터 및 거버넌스 이니셔티브 아카이빙 프로젝트 페이지: 정부 데이터 검색 및 아카이빙과 관련된 도구, 코드 및 앱.
  • 인터넷 아카이브 웨이 백 머신
  • 인터넷 보관: Wayback Machine에서 페이지를 저장하는 방법: 보관할 페이지를 지정하는 6 가지 방법.
  • 캘리포니아 디지털 도서관: 학기말 웹 아카이브: 2008 년부터 현재까지 학기말 크롤링에서 저장 한 미국 정부 웹 사이트 모음.
  • FreeGovInfo.info: 주 및 연방 차원의 데이터 포털에 대한 정보와 공개 데이터 문제에 대한 뉴스 기사 아카이브가 포함 된 광범위한 컨텐츠.
  • Climate Mirror: 자원 봉사자가 수집 한 기후 데이터 세트의 모음입니다.

이 이야기는 PC Magazine Digital Edition에 처음 등장했습니다. 더 독창적 인 기능 스토리, 뉴스, 리뷰 및 방법을 보려면 지금 구독하십시오!

이 옹호자들은 우리의 데이터가 사라지지 않기를 원합니다.